Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol Tema 1.- MODELOS DE DISTRIBUCIÓN DE VARIABLES ALEATORIAS 1.1. Modelos de variables aleatorias discretas y continuas. 1.1.1. Discretas 1.1.2. Continuas 1.2. Distribuciones derivadas de la normal. 1.3. Teorema Central del Límite. Estadística I. 1 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol 1.1.- MODELOS DE VARIABLES ALEATORIAS DISCRETAS Y CONTINUAS. 1.1.1.- MODELOS DE VARIABLES ALEATORIAS DISCRETAS - Binomial (proceso Bernoulli) - Poisson PROCESO BERNOULLI (Modelo de variable dicotómica) Si analizamos de un individuo una determinada característica, medimos su ÉXITO o FRACASO. Ej. En un examen si un individuo supera la prueba (éxito) o no la supera (fracaso). Xi Pi ÉXITO 1 p FRACASO 0 (1-p) = q p = probabilidad de éxito (1-p) = q = probabilidad de fracaso ∑=1 E(x) = ∑ xi · pi = p Var (x) = p · q Pero si en vez de analizar un solo individuo, miro varios individuos y miro si es éxito o fracaso y luego concluimos con que hay “tantos éxitos” y “tantos fracasos” generalización MODELO BINOMIAL! 1. MODELO BINOMIAL (VA discreta finita numerable) X B (n,p) X es una variable que sigue un modelo binomial si lo que está contando es el número de éxitos que hemos obtenido en “n” repeticiones independientes de un proceso Bernoulli. Valor mínimo que puede tomar = 0 Valor máximo que puede tomar = n Parámetros de la distribución X B (n,p) n = nº total de individuos, artículos…que se analizan p = probabilidad de lo que se analiza Estadística I. 2 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol Función de probabilidad n P( X Xi ) · p xi ·(1 p) n xi Xi n! n Xi xi!(n xi )! No es un cociente, es un número combinatorio E(X) = n · p Var (x) = n · p · q Propiedad reproductiva Si tengo 2 variables aleatorias independientes y cada una de ellas sigue un modelo binomial X1 B (n1, p) X2 B (n2, p) Deben tener la misma probabilidad de éxito del suceso! Y = X1 + X2 Y B (n1+n2, p) 2. MODELO POISSON (VA discreta infinita numerable) X P (λ) X es una variable que sigue un modelo de Poisson y está contando el nº de sucesos que ocurren en un intervalo de observación (normalmente de tipo temporal). Ej: llamadas al 091 en media hora. Valor mínimo que puede tomar = 0 Valor máximo que puede tomar = + Por lo que probabilidades como P(x 3) no habrá más opción que hacerlo por el complementario 1 – P(X<3) Parámetros de la distribución X P (λ), siendo λ el número medio de sucesos que ocurren en el intervalo fijado. Función de probabilidad P( x r ) r r! ·e E(x) = λ Var (x) = λ Estadística I. 3 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol Propiedad reproductiva Si tengo 2 variables aleatorias independientes y cada una de ellas sigue el modelo de Poisson: X1 P (λ1) X2 P (λ2) Y = X1+X2 Y P (λ1+ λ2) RELACIÓN MODELO BINOMIAL Y POISSON Partiendo de una binomial bajo determinadas condiciones su cálculo y probabilidad se puede hacer por Poisson. Estas condiciones son: - muchas repeticiones n (Se considera n grande a partir de 30) - probabilidad muy pequeña p 0 (Se considera p pequeña por debajo de 0,10) E(x) = λ = n · p 1.1.2.- MODELOS DE VARIABLES ALEATORIAS CONTINUAS - Uniforme - Exponencial - Normal 1. MODELO UNIFORME X es uniforme si toma valores EQUIPROBABLES dentro de un intervalo definido y finito. Función de densidad 1 ba f(x) = a < x < b Sólo en este intervalo tenemos definida la variable 0 resto f(x) 1 ba área de un rectángulo a Estadística I. b 4 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol Antes de “a” NO hay probabilidad y después de “b” tampoco. Será lo mismo P (3 ≤ x ≤ 6) que P (6 ≤ x ≤ 9) porque hay la misma distancia. E ( x) ba 2 Var ( x) (b a) 2 12 2. MODELO EXPONENCIAL X E(λ) Hace referencia al tiempo que transcurre entre 2 sucesos consecutivos, por lo que siempre tomará valores positivos, porque se trata de tiempo. Valor mínimo que puede tomar = 0 Valor máximo que puede tomar = + Función de distribución P( X X 0 ) 1 e X 0 F ( X 0 ) P( X X 0 ) e X 0 E ( x) 1 Var ( x) 1 2 Función de densidad ·e x x>0 0 resto f(x) = 3. MODELO NORMAL Es la distribución más frecuente de todas. A medida que aumentamos el tamaño de la muestra, casi todas las distribuciones tienden a comportarse como una distribución normal. Valor mínimo que puede tomar = - Valor máximo que puede tomar = + Estadística I. 5 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol Parámetros de la distribución X ~ N (μ, 2 ) Función de densidad f ( x) 1 2 ( x )2 ·e 2 2 2 Gráfico de la función de densidad - + › μ - μ Valor máximo en μ. μ - › Función creciente en μ- y decreciente en μ+ . › Simétrica respecto a μ › La función ni crece ni decrece siempre al mismo ritmo, es decir, existen puntos de inflexión que vienen marcados por la desviación estándar ( ). › Área total de la función = 1. › La función nunca corta los ejes, es asintótica. Tabla normal estándar Z ~ N (0,1) μ=0 2 =1 -1 0 +1 Función de densidad de la N(0,1) z 1 f ( z) ·e 2 2 Estadística I. 2 6 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol Estandarización Para pasar de un Normal que no es (0,1) a una Normal (0,1) ESTANDARIZACIÓN Z x ~ N (0,1) Ej. Para pasar de X ~ N (20,5) a una X ~ N (0,1): x 20 5 Propiedad reproductiva X ~ N ( 1, 12 ) Y = X1 + X2 X ~ N ( 1 2, 12 22 ) X ~ N ( 2, 22 ) Y = X1 - X2 X ~ N ( 1 2, 12 22 ) 1.2.- DISTRIBUCIONES DERIVADAS DE LA NORMAL. 1. DISTRIBUCIÓN CHI – CUADRADO Consideramos una sucesión de “n” variables aleatorias normales estandarizadas e independientes entre sí: Z 1 , Z 2 , Z 3 , … , Z n . Si se elevan al cuadrado y las sumamos, nos origina una nueva variable ( n2 ) siendo n el grado de libertad. n n n2 ( Z12 Z 22 ... Z n2 ) Z i2 ( i 1 i 1 X i i i )2 Siempre van a ser valores positivos ya que está al cuadrado. Pero es una distribución ASIMÉTRICA! - VALOR ESPERADO E ( n2 ) = n - VARIANZA Var ( n2 ) = 2n La tabla muestra la probabilidad que hay por encima de ese valor “a”: a Estadística I. 7 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol 2. DISTRIBUCIÓN T – STUDENT Surge a partir del cociente entre una variable normal estándar y una chi – cuadrado independientes entre sí y siguen la siguiente relación: tn Z n2 n - VALOR ESPERADO E ( tn ) = 0 - VARIANZA Var ( t n ) = n n2 si n > 2 Es una distribución SIMÉTRICA! Y también su tabla recoge la probabilidad acumulada a partir de un valor “a”. a Si n es grande (n ≥ 100) los resultados son parecidos a la distribución normal. 3. DISTRIBUCIÓN F – SNEDECOR Tenemos 2 chi – cuadrados (n igual o diferente) y se dividen sus grados de libertad: n2 Fn ,m n2 m m Es una distribución ASIMÉTRICA! Y también recoge la probabilidad acumulada a partir de un valor “a”. Estadística I. 8 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol a Ejercicio 1. Si la variable A se distribuye como una χ2 con 10 grados de libertad, calcula que valor de A deja por debajo un 99% de probabilidad. Mirando las tablas de una χ2 con 10 grados de libertad encontramos que el resultado es igual a 23.2092. Ejercicio 2. Si la variable B se distribuye como una t-Student con 20 grados de libertad, calcula la probabilidad siguiente: P(A<2,84). Mirando las tablas de una t con 20 grados de libertad encontramos que el resultado es igual a 0.995 Ejercicio 3. Si la variable C se distribuye como una F-Snedecor con 10 grados de libertad en el numerador y 5 en el denominador, calcular que valor deja por debajo un 99% de probabilidad. Mirando las tablas de la F (tabla de 99%), encontramos que este valor es 10,05. 1.3.- TEOREMA CENTRAL DEL LÍMITE Nos permite aproximarnos a distribuciones normales cuando de partida no lo son. Tenemos una sucesión de variables aleatorias con las siguientes características: - Independientes. - Idénticamente distribuidas (todas Poisson, todas uniformes, etc…). - Su E(x) y Var(x) son iguales. La variable que obtengo de sumar X1, X2, … , Xn es una nueva variable que converge hacia una Normal. E(∑Xi) = n· Var(∑Xi) = n· 2 ∑Xi N( n· ; n· 2 ) Nota: La aproximaremos a la normal cuando n ≥ 30 Estadística I. 9 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol Corrección de continuidad Cuando pasamos de una distribución Binomial, Poisson… (variables discretas) con n≥30, a una Normal (variable continua) se tiene que hacer una “corrección de continuidad”, considerando mayor probabilidad y sumando o restando 0,5 al valor que me presenten. Ejercicio 1. La probabilidad de que una persona que entra en una administración de lotería, juegue a la primitiva es de un 60%. Si en un día entran 110 personas, la probabilidad de que más de 75 jueguen a la primitiva es de aproximadamente… Ejercicio 2. Observando las cifras de ventas de coches de un concesionario y sabiendo que las ventas son independientes se sabe que las ventas diarias siguen una distribución Uniforme entre 20 y 30 coches diarios. Determina la probabilidad que tiene el concesionario de vender más de 4.920 coches transcurridos 200 días. Ejercicio 3. En una bodega especializada en vinos, el número de botellas que se rompen diariamente es una variable aleatoria que sigue una distribución de Poisson de parámetro λ = 3. Calcular la probabilidad de que en un año (365 días) el número de botellas rotas esté entre 1000 y 1100. Estadística I. 10 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol Tema 2.- ELEMENTOS DE LA TEORÍA DEL MUESTREO 2.1. Conceptos básicos: muestra aleatoria y estadístico. 2.2. Distribuciones de algunos estadísticos en el muestreo. 2.3. Momentos poblacionales y muestrales. Estadística I. 11 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol 2.1.- CONCEPTOS BÁSICOS: MUESTRA ALEATORIA Y ESTADÍSTICO. Población: conjunto de todos los individuos que son objeto del estudio. El censo recoge información de toda la población. Muestra: subconjunto representativo de la población que se utiliza cuando no es viable analizar la población. El tamaño de la muestra dependerá del grado de exactitud que queramos dar a nuestro estudio. Generalmente, a mayor tamaño de la muestra, obtendremos resultados más fiables, pero también nos supondrá mayores costes. La encuesta recoge información de la muestra. Ejemplo: Imaginemos que queremos realizar un estudio sobre la estatura de los alumnos de la facultad de Económicas. En este caso, la población serían todos los alumnos de la facultad. Una muestra sería escoger al azar una parte de estos alumnos, por ejemplo, una clase de segundo. Una muestra aleatoria de tamaño “n” es una sucesión de n variables aleatorias (X1, X2, … , Xn) independientes entre sí e idénticamente distribuidas según el comportamiento poblacional: - Idénticamente distribuidas E (X1) = E (X2) = E (Xn) y Var (X1) = Var (X2) = Var (Xn) - Independientes ▪ Discretas: P (X1, X2, … , Xn) = P (X1) · P (X2) ·…· P (Xn) ▪ Continuas: f (X1, X2, … , Xn) = f (X1) · f (X2) ·…· f (Xn) Estadístico: valor numérico calculado a partir de los elementos de la muestra que describe las características muestrales. Parámetro: valor numérico calculado a partir de todos los elementos de la población que describe las características poblacionales. Muestreo: proceso seguido para la extracción de una muestra, la cual ha de ser aleatoria. Los estadísticos que se obtienen de una muestra (estimadores estadísticos) nos permitirán arriesgarnos a predecir una serie de resultados para toda la población. De estas predicciones y del riesgo que conllevan se ocupa la Inferencia Estadística. Estadística I. 12 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol TIPOS DE MUESTREO 1. Muestreo aleatorio simple (MAS) 2. Muestreo sistemático 3. Muestreo aleatorio estratificado 4. Muestreo por conglomerados 1. MUESTREO ALEATORIO SIMPLE (MAS) Puede ser de 2 tipos: - MAS sin reposición de los elementos: cada elemento extraído de la población se descarta para la siguiente extracción. - MAS con reposición de los elementos: las observaciones se realizan con reemplazamiento, por lo que la población es idéntica en todas las extracciones y por tanto podría ocurrir que el mismo elemento fuese otra vez analizado. 2. MUESTREO SISTEMÁTICO Es una variante del MAS para la cual necesitamos definir el “coeficiente de elevación”: CE N , siendo “N” el tamaño de la población y “n” el tamaño de la muestra (nº de n observaciones). Ejemplo. Un barrio tiene 1000 viviendas. Tenemos una muestra de 40 observaciones. ¿Cuánto será el CE? N = 1000 n = 40 CE = 1000/40 = 25 El primer valor que cogeremos de la muestra será aleatorio, pero el resto ya están predeterminados: 1er valor = 18 (elegido al azar) 2ndo valor = 18 + 25 = 43 3r valor = 43 + 25 = 68 Etc. - Este muestreo se puede aplicar fácilmente si se dispone de un listado de toda la población. - Presenta el inconveniente de tener que ordenar previamente la población de menor a mayor. Estadística I. 13 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol 3. MUESTREO ALEATORIO ESTRATIFICADO - Consiste en dividir la población en subpoblaciones de forma que se agrupen los elementos que más se asemejan entre sí. Cada subpoblación recibe el nombre de “estrato” y dentro de cada estrato se lleva a cabo un MAS. La muestra final se obtiene como la combinación de todas las submuestras de todos los estratos. - La medida de la muestra de cada estrato se denomina “afijación”, la cual puede ser: ▪ Uniforme o simple: en todos los subgrupos se obtiene una muestra de igual tamaño. Si hay L subgrupos tendremos n1 = n2 = n3 = … = n / L ▪ Proporcional: muestra proporcional al número de elementos en cada estrato. Tendremos: n1 / N1 = n2 / N2 = n3 / N3 = … = n / N ▪ Óptima: la diferencia con la anterior es que en este caso conocemos la desviación estándar, la cual la multiplicamos en el denominador. Tendremos: n1 / S1· N1 = n2 / S2 · N2 = n3 / S3 · N3 = … = n / S · N Ejemplo. Sabemos que el tamaño de la población es de N = 10.000 individuos y que el tamaño de la muestra debe ser de n = 400 individuos. - Viviendas tipo A = 2.000 individuos - Viviendas tipo B = 7.000 individuos - Viviendas tipo C = 1.000 individuos - TOTAL = 10.000 individuos = N Además sabemos que la desviación estándar es S 1 = 100, S2 = 50 y S3 = 10. ¿Cómo haremos el reparto de la muestra entre los diferentes subgrupos/estratos? Afijación uniforme o simple n1 = n2 = n3 = n / L = 400 / 3 = 133,3 individuos cada subgrupo Afijación proporcional n1 / 2.000 = n2 / 7.000 = n3 / 1.000 = n / N n1 / 2.000 = n2 / 7.000 = n3 / 1.000 = 400 / 10.000 Estadística I. ▪ n1 = 2.000 · 400 / 10.000 = 80 ▪ n2 = 7.000 · 400 / 10.000 = 280 ▪ n3 = 1.000 · 400 / 10.000 = 40 ▪ TOTAL = 80 + 280 + 40 = 400 = n 14 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol Afijación óptima n1 / 2.000 · 100 = n2 / 7.000 · 50 = n3 / 1.000 · 10 = n / N n1 / 2.000 · 100 = n2 / 7.000 · 50 = n3 / 1.000 · 10 = 400 / (2.000 · 100 + 7.000 · 50 + 1.000 · 10) ▪ n1 (2.000 100) 400 143 560.000 ▪ n2 (7.000 50) 400 250 560.000 ▪ n3 (1.000 10) 400 7 560.000 ▪ TOTAL = 143 + 250 + 7 = 400 = n 4. MUESTREO POR CONGLOMERADOS Cogemos como muestra un conjunto de elementos de la población que se pueden considerar como bastante representativos de la misma. La idea es conseguir que cada conglomerado sea una miniatura de la población. Ejemplo: Si en lugar de seleccionar de forma aleatoria personas para medir su capacidad adquisitiva o de consumo se seleccionan, por ejemplo, familias, se dice que el muestreo es por conglomerados. 2.4. DISTRIBUCIONES DE ALGUNOS ESTADÍSTICOS EN EL MUESTREO DISTRIBUCIÓN DE LA MEDIA MUESTRAL (x) Sea X1, X2,…,Xn una muestra de una variable aleatoria X con media E(X) = μ y varianza Var(X) = σ2. El estimador más razonable de la media poblacional μ es la media muestral que verifica las siguientes propiedades: 1. E (x) = x = El valor esperado de la media muestral es la media de la población. Demostración: E ( x) 1 1 E ( X 1 X 2 X 3 ... X n ) ( E ( X 1 ) E ( X 2 ) ... E ( X n )) n n Al estar idénticamente distribuidas E ( x) 2. Var ( x) Estadística I. 1 n ( ... ) n n 2 n 15 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol Demostración: Var ( x) Var ( X 1 X 2 ... X n 1 ) 2 Var ( X 1 X 2 ... X n ) n n Al ser independientes Var ( x) 1 (Var ( X 1 ) Var ( X 2 ) ... Var ( X n )) n2 n 2 2 Al estar idénticamente distribuidas Var ( x) n n2 n 3. Desviación estándar (x) = 4. La distribución de x depende de la distribución de la población X. Por ejemplo, si X es Normal, la distribución de x también lo será. Para muestras grandes, por el Teorema Central del Límite, la distribución de X puede aproximarse por una Normal (si n ≥ 30) sea cual sea la distribución inicial. Por tanto: Si X Normal ( , ); entonces x Normal ( , ) n Ejemplo 1. Considere una población representada por una variable aleatoria X que viene representada por la siguiente función de densidad: f ( x) 1 si 0 ≤ x ≤ 2 y 0 para el resto. Si seleccionamos una x 2 muestra de tamaño 35, determina la probabilidad de que la media muestral sea mayor que 1,32. Ejemplo 2. Sea X una población con distribución N (90, σ = 20). a) Si se obtiene una muestra de tamaño 16, ¿cuál es la probabilidad de que la media muestral x sea mayor o igual que 92? b) Determinar el tamaño muestral para que la probabilidad de que la media muestral sea menor o igual que 98 sea P ( x ≤ 98) = 0, 99. Ejemplo 3. Dada una distribución uniforme X U (10, 20) calcula E (2 x - 5) y Var (5 x - 4), sabiendo que el tamaño muestral es 100. Ejemplo 4. Tenemos una población definida por la siguiente ley de probabilidad: x 1 2 3 P(x) 0,2 0,3 0,5 Sabiendo que el tamaño de la muestra aleatoria es 2, calcula E ( x), Var ( x), Var (8x 1), E ( x), Var ( x) Estadística I. 16 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol 10 x ). 7 Ejemplo 5. Dada la siguiente función de probabilidad, calcula E(x), Var (x), CV(x) y E ( X 0 1 2 P(x) 0,2 0,6 0,2 Ejemplo 6. De una población binomial de parámetros 3 y 0,5 extraemos una muestra aleatoria simple de tamaño 2. Nos piden determinar x E ( x), E ( x), E ( ),Var ( x),Var ( x). 10 DISTRIBUCIÓN DE LA VARIANZA MUESTRAL Sea X1, X2,…,Xn una muestra de una variable aleatoria X con media E(X) = μ y varianza Var(X) = σ2. El estimador más razonable de la varianza poblacional σ2 es la varianza muestral (S2) que verifica las siguientes propiedades: 1. E (S 2 ) 2 El valor esperado de la varianza muestral es la varianza de la población. 2. S 3. Y 2 ( Xi x) 2 n 1 si hacemos: ( Xi x) y por tanto: ( Xi x) 2 2 S 2 (n 1) 2 2 S 2 (n 1) ésta se distribuye como una chicuadrado n 1 2 4. Si X Normal ( , ); entonces S 2 (n 1) 2 n 1 2 Ejemplo 7. Cuando un proceso de producción está funcionando correctamente, la resistencia de los componentes sigue una distribución Normal con desviación estándar de 3,6. Se toma una muestra aleatoria de 4 componentes. ¿Cuál es la probabilidad de que la varianza muestral sea superior a 30? DISTRIBUCIÓN DE LA MEDIA MUESTRAL CUANDO σ DESCONOCIDA - Si conocida (lo hemos visto anteriormente) X Normal ( , ) Estadística I. 17 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol Cogemos una muestra de tamaño n x Normal ( , n Zx ) x Normal (0,1) n - Si desconocida Vamos a necesitar dos expresiones que ya conocemos: Zx x y S 2 (n 1) 2 n 1 (chicuadrado con n-1 grados de libertad) 2 n Además la fórmula de la t-Student: tn Z n2 n Substituimos y obtenemos: tn x x x n S 2 (n 1) 2 n 1 n S2 2 x n S S n Y por último tenemos que: x t n 1 S n Ahora no se aproxima a una chicuadrado, sino a una t-Student!!!! Ejemplo 8. En cierta ciudad la cantidad mensual de gasolina utilizada por cada vehículo sigue una Normal con media de 160 litros. Si se toma una muestra de tamaño 9 y se obtiene una varianza 2 muestral de 81 litros . ¿Cuál es la probabilidad de que la media muestral esté comprendida entre 155,224 y 164,776 litros? Ejemplo 9. Los salarios diarios pagados al personal se distribuyen Normalmente con media de 8350 u.m y desviación típica de 750 u.m. Cual debe ser el tamaño de la muestra para que la probabilidad de que la media muestral difiera en valor absoluto de la media poblacional en menos de 250 u.m sea de 0,9. Estadística I. 18 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol DISTRIBUCIÓN DE LA DIFERENCIA DE MEDIAS MUESTRALES - Si varianzas poblacionales conocidas ( x2 y y2 ) Tenemos: X Normal ( x , x ) Y Normal ( y , y ) Hemos seleccionado dos muestras: n x x y n y y ; y sabemos que: x Normal ( x , y Normal ( y , ) nx ) ny ¿Cuál será la diferencia de medias muestrales? x - y Normal, ¿de qué parámetros? Procedemos a buscarlos… E( x - y ) = E( x ) – E( y ) = x - y Var( x - y ) = Var( x ) + Var( y ) (porque son independientes) Siendo Var ( x) x2 nx y Var ( y ) x - y Normal x y ; x2 nx y2 ny queda: y2 ny Si ahora quisiéramos estandarizar: Z x y ( x y) ( x y ) x2 nx Estadística I. y2 Normal (0,1) ny 19 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol Arreglando el denominador queda: x2 nx y2 ny 2 ( 1 1 1 1 ) nx n y nx n y (En este caso es conocida!!) Finalmente queda: Z x y ( x y) ( x y ) 1 1 nx n y Normal (0,1) Ejemplo 10. El precio en euros de los paquetes de tabaco de cierta marca se distribuyen según una Normal con media 2,65 euros y desviación típica 0,6 euros; mientras que el precio de otra marca distinta sigue una distribución Normal con media 2,15 euros y desviación típica de 0,8 euros. Si una persona compra 25 paquetes de la primera marca y 24 de la segunda marca, determine la probabilidad de que el precio medio de la primera muestra sea superior al precio medio de la segunda como mínimo en 0,6 euros. - Si varianza poblacional desconocida Suponemos que x2 = y2 Tenemos: X Normal ( x , x ) Y Normal ( y , y ) Hemos seleccionado dos muestras, n x y n y , y habrá que calcular no sólo x y y , sino también x2 y y2 . A partir de ponderar las varianzas muestrales: p2 p Estadística I. (n x 1) S x2 (n y 1) S y2 (n x 1) (n y 1) (n x 1) S x2 (n y 1) S y2 nx n y 2 (n x 1) S x2 (n y 1) S y2 nx n y 2 20 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol Si ahora quisiéramos estandarizar, debemos substituir p en el denominador de la expresión para el caso en el que sí conocemos , y quedaría: Z x y ( x y) ( x y ) p 1 1 nx n y t nx n y 2 IMPORTANTE!!! En el caso en que sí conocemos , la Z x y se distribuye como una Normal (0,1), pero en el caso en que no conocemos , la Z x y se distribuye como una t nx n y 2 . Ejemplo 11. El gasto diario en euros en llamadas de teléfono de dos sucursales de una empresa sigue una distribución Normal de esperanza matemática de 8 para la primera y una distribución Normal de esperanza matemática de 7 para la segunda sucursal. Se seleccionan 6 días en la primera sucursal 2 obteniendo una varianza de 4 euros y de 4 días en la segunda sucursal obteniendo una varianza 2 también de 4 euros . ¿Cuál es la probabilidad de que de la primera sucursal, el gasto medio supere al gasto medio de la segunda en más de 3,40125 euros. (Consideramos que las varianzas poblacionales son iguales). DISTRIBUCIÓN DEL COCIENTE DE VARIANZAS MUESTRALES ( S x2 ) S y2 Varianza muestral = S2 Varianza poblacional = 2 Consideramos 2 variables que se distribuyen por una Normal: X Normal ( x , x ) Y Normal ( y , y ) Estadística I. nx ny S 2 x ( Xi x) S y2 2 nx 1 (Yi y) ny 1 S x2 (n x 1) 2 2 x S y2 (n y 1) 2 y nx 1 2 n2 1 y 21 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol Teniendo en cuenta la expresión de F-Snedecor a partir de dos chicuadrados, obtenemos: n2 n2 1 m n 1 m ny 1 x n 1 Fn ,m n2 x 2 y Si substituimos: S x2 (n x 1) x2 2 nx 1 S x2 y 2 2 S y2 (n y 1) Sy x Fn x 1, n y 1 y2 ny 1 Ejemplo 12. El precio en euros de los paquetes de tabaco de cierta marca se distribuyen según una Normal con media 2,65 euros y desviación típica 0,6 euros; mientras que el precio de otra marca distinta sigue una distribución Normal con media 2,15 euros y desviación típica de 0,8 euros. Si una persona compra 25 paquetes de la primera marca y 24 de la segunda marca, determine la probabilidad de que la varianza muestral de la primera marca sea menor que el doble de la varianza muestral de la segunda marca. ˆ) DISTRIBUCIÓN DE LA PROPORCIÓN MUESTRAL ( p Se desea estimar la proporción p̂ de individuos de una población que tiene una determinada característica. Para ello se toma una muestra de elementos de la población, anotando un 1 si dicho elemento tiene la característica, y 0 en otro caso, es decir, se tiene una muestra X 1,…, Xn de una Binomial (1, p). Sabemos que en una binomial: E (x) = n · p Var (x) = n · p · q Estadística I. 22 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol Un estimador razonable de p̂ es la proporción de elementos de la muestra que tiene dicha característica, es decir: pˆ X n Siendo X el número de individuos de la muestra que poseen la característica que nos interesa analizar. Se verifican las siguientes propiedades: E ( pˆ ) = E ( X 1 n p ) = E (x) = =p n n n Var ( pˆ ) = Var ( siendo p = proporción poblacional. pq X 1 n pq ) = ( ) 2 Var (x) = 2 n n n n La distribución de p̂ depende de la distribución de la población X, pero cuando n es grande (n≥30) entonces: p̂ Normal ( p, p (1 p) ) n Si queremos estandarizar: Z pˆ pˆ p p (1 p) n Normal (0,1) Ejemplo 13. Una fábrica de bicicletas produce únicamente bicicletas de color azul y rojo, vendiendo la misma cantidad de cada color. ¿Cuál es la probabilidad de que entre las 200 últimas bicicletas vendidas, más del 40% sean rojas? Ejemplo 14. En el proceso de producción de una empresa, el 1% de los productos sale defectuoso. Para corroborarlo se obtiene una muestra de tamaño n = 25 y se estima la proporción de productos defectuosos. Estimar la probabilidad de que la proporción estimada sea mayor que el 2%. Estadística I. 23 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol DISTRIBUCIÓN DE LA DIFERENCIA DE PROPORCIONES ˆ x pˆ y ) MUESTRALES ( p De la población X se extrae una muestra n x y de la población Y se extrae una muestra n y , siendo n x y n y independientes entre sí. Se obtienen las proporciones muestrales asociadas: pˆ x X X y pˆ y ny nx Se necesitaran tamaños muestrales grandes para aproximarlo a una Normal. p̂ x Normal ( p x , p̂ y Normal ( p y , p x (1 p x ) ) nx p y (1 p y ) ny ) Además tenemos que: E ( pˆ x pˆ y ) = E ( p̂ x ) – E ( p̂ y ) = p x - p y Var ( pˆ x pˆ y ) = Var ( p̂ x ) + Var ( p̂ y ) = p x (1 p x ) p y (1 p y ) + ny nx Por tanto, tenemos: pˆ x pˆ y Normal p x - p y ; p x (1 p x ) p y (1 p y ) nx ny Si estandarizamos: Z pˆ x pˆ y ( pˆ x pˆ y ) ( p x p y ) p x (1 p x ) p y (1 p y ) nx ny Ejemplo 15. Una empresa conoce que los clientes morosos que compran el producto A son el 15% y los clientes morosos que compran el producto B son el 10%. Del producto A se obtiene una muestra aleatoria de 100 clientes y para el B de 64 clientes, con la finalidad de establecer las respectivas proporciones muestrales de clientes morosos. ¿Cuál es la probabilidad de que la diferencia de proporciones muestrales de clientes morosos entre ambos productos no supere el 5%? Estadística I. 24 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol Ejercicios resumen Ejemplo 16. El volumen de gastos en innovación tecnológica de las empresas del sector alimentario tiene asociada una Normal con volumen medio de 77.000 millones de euros. Si se dispone una muestra aleatoria relativa de 27 empresas del sector que poseen un volumen medio de gastos en innovación de 74.000 millones de euros con deviación estándar muestral de 5.100 millones de euros, determina la probabilidad de que el gasto medio muestral esté comprendido entre 75 y 78 (miles de millones de euros). Ejemplo 17. De un estudio sobre la edad de los trabajadores de una empresa se ha observado que los varones tienen desviación de 9 años y las mujeres de 7 años. Si se analizan 2 muestras: una de 38 trabajadores, con media de 38 años y la otra de 34 trabajadoras, con una media de 34 años, calcula la probabilidad de que las diferencias de edad media a nivel muestral según el sexo del trabajador no supere los 3 años. Ejemplo 18. De la muestra de 38 trabajadores se obtiene una desviación estándar de 8 años, mientras que de la muestra de 34 trabajadores la desviación estándar es de 5 años. Valora si la probabilidad de que la diferencia muestral de edades medias sea inferior a 3 años se mantiene como antes en casi el 30%. Tienen la misma varianza pero con valor desconocido. Ejemplo 19. Dada 2 poblaciones Normales con varianza 4,5 y 7 respectivamente, calcula la probabilidad de que si se dispone de una muestra de cada población con n x = 10 y ny = 12, el cociente de sus varianzas muestrales sea inferior a la unidad. 2.5. MOMENTOS POBLACIONALES Y MUESTRALES Los momentos son los valores que caracterizan una distribución, y por tanto, son muy útiles para comparar distribuciones, ya que cuantos más momentos potenciales iguales presenten dos distribuciones, más parecidas serán. La expresión general de cálculo respecto a un origen arbitrario Ot del momento de orden r es: Mr = ∑ ( Xi Ot ) r ni Ni Los hay de dos tipos: - Respecto al origen - Respecto a la media Estadística I. 25 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol Momentos respecto al origen ( Ot =0) El momento respecto al origen de orden r es: xi a = r r ni N ▪ a0 = 1 ▪ a1 = x Momentos respecto a la media El momento respecto a la media de orden r es: Mr = ( xi x) ni N ▪ M0 = 1 ▪ M1 = 0 ▪ r 2 2 M 2 = A2 – A1 = S xi = 2 ni N - (x) 2 Cuando nos referimos a la población los llamamos MOMENTOS POBLACIONALES y cuando nos referimos a la muestra hablamos de MOMENTOS MUESTRALES. Estadística I. 26 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol Tema 3.- ESTIMACIÓN PUNTUAL 3.1 Introducción al proceso de estimación. 3.2 Propiedades de los estimadores puntuales. 3.3 Métodos de estimación puntual. Estadística I. 27 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol 3.1 INTRODUCCIÓN AL PROCESO DE ESTIMACIÓN El proceso de estimación se ocupa de obtener valores aproximados de parámetros poblacionales. - Estimación puntual: se asigna al parámetro un valor en concreto. - Estimación por intervalo: se encuentra un intervalo en el que está incluido el parámetro con una determinada confianza. ESTIMACIÓN PUNTUAL Su objetivo consiste en encontrar un valor que sea el mejor pronóstico acerca del valor real del parámetro que nos interesa, utilizando la información a priori si está disponible y la proporcionada por la muestra. Tenemos un parámetro desconocido ( ) que hace referencia a la población y que tendremos que estimar. Lo que haremos es establecer un estimador (ˆ) a partir de la muestra que será una función de los estimadores muestrales. 3.2 PROPIEDADES DE LOS ESTIMADORES PUNTUALES 1.- INSESGADEZ E (ˆ) Estimador insesgado E (ˆ) Estimador sesgado Sesgo(ˆ) E (ˆ) o Estimador insesgado Sesgo(ˆ) 0 o Estimador sesgado: Sesgo + E (ˆ) Se SOBREVALORA el verdadero valor del parámetro poblacional. Sesgo – E (ˆ) Se INFRAVALORA el verdadero valor del parámetro poblacional. Estadística I. 28 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol Si cuatro estimadores tuviesen la misma esperanza matemática pero distinta varianza y tuviésemos que escoger uno, escogeríamos el que tenga MENOR VARIANZA, porque supone tener MENOR DISPERSIÓN. Ejemplo 1. En la distribución de una variable aleatoria X se sabe que se distribuye como una Binomial de parámetros m y p. En muestras de tamaño n se estima p mediante 2 estimadores distintos: pˆ 1 x m pˆ 2 x m 1 ¿Cuál de los 2 estimadores es insesgado? En el que sea sesgado indique el signo. x 1 m p E ( pˆ 1 ) E E ( x) p Insesgado m m m m x 1 m p E ( pˆ 2 ) E E ( x) Sesgado m 1 m 1 m 1 m 1 Sesgo( pˆ 2 ) E ( pˆ 2 ) p ( m p ) p m 1 Recordemos que: E (ˆ) Sesgo negativo. Y en nuestro caso (probemos, por ejemplo, con m=2 y p=0,5). E ( pˆ 2 ) p Conclusión: Sesgo negativo. 2.- ERROR CUADRÁTICO MEDIO (ECM) 2 ECM (ˆ) E (e 2 ) E ˆ Var (ˆ) sesgo 2 (ˆ) e2= error de la estimación Estimador insesgado ECM = varianza Estadística I. 29 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol Ejemplo 2. n = 3 (X1, X2, X3) X ¿? ( , 2 25) Posibles estimadores de : 1 (X1 2X 2 X 3 ) 4 1 ˆ 2 ( X 1 2 X 2 X 3 ) 5 ˆ 1 Obtener los ECM de los dos estimadores. 1. ECM Var (ˆ1 ) Sesgo 2 (ˆ1 ) 1 4 Var ( ˆ1 ) Var ( ( X 1 2 X 2 X 3 )) 1 (Var ( X 1 ) 4Var ( X 2 ) Var ( X 3 )) 16 1 6 2 3 2 3 25 75 2 2 2 4 16 16 8 8 8 E ( ˆ 1 ) 1 1 4 ( E ( X 1 ) 2 E ( X 2 ) E ( X 3 )) ( 2 ) INSESGADO 4 4 4 Sesgo(ˆ1 ) ( E (ˆ1 ) 0 ECM ( ˆ 1 ) 75 75 02 8 8 2. ECM Var (ˆ 2 ) Sesgo 2 (ˆ 2 ) 1 5 Var ( ˆ 2 ) Var ( ( X 1 2 X 2 X 3 )) 1 (Var ( X 1 ) 4Var ( X 2 ) Var ( X 3 )) 25 1 1 6 2 6 25 (Var ( X 1 ) 4Var ( X 2 ) Var ( X 3 )) 2 4 2 2 6 25 25 25 25 E ( ˆ 2 ) 1 1 4 SESGADO ( E ( X 1 ) 2 E ( X 2 ) E ( X 3 )) ( 2 ) 5 5 5 Sesgo( ˆ 2 ) ( E ( ˆ 2 ) ECM ( ˆ 2 ) 6 ( Estadística I. 4 4 5 1 5 5 5 5 1 2 1 2 ) 6 5 25 30 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol 3.- EFICIENCIA RELATIVA (λ) ~ Se comparan los ECM de 2 estimadores ( ˆ y ) del mismo parámetro poblacional ( ). ECM (ˆ) ~ ECM ( ) < 1 Se escoge el NUMERADOR, por tener ECM MENOR > 1 Se escoge el DENOMINADOR, por tener ECM MENOR 4.- EFICIENCIA ABSOLUTA ˆ será un estimador eficiente en términos absolutos del parámetro si cumple que: 1. ˆ es un estimador insesgado de E (ˆ) 2. Cualquier otro estimador insesgado de ( ˆ *) nunca tendrá una varianza inferior al anterior ( ˆ ) Var( ˆ *) ≥ Var( ˆ ) Nota: “Estimador lineal insesgado óptimo” = este estimador es una función lineal de las observaciones muestrales. El hecho de que sea insesgado nos dice que el sesgo es 0, y que sea óptimo nos dice que es un estimador con varianza mínima. 3.2.1 PROPIEDADES ASINTÓTICAS PARA n GRANDE 1.- INSESGADEZ ASINTÓTICA lim n E (ˆ) Un estimador es insesgado asintóticamente si a medida que n , el valor esperado del estimador se acerca cada vez más al verdadero valor del parámetro poblacional, llegando a ser igual en el límite. 2.- CONSISTENCIA Un estimador es CONSISTENTE en MEDIA CUADRÁTICA si el error de su ECM disminuye a medida que aumenta el tamaño de la muestra, llegando en el límite a ser 0: lim n ECM (ˆ) 0 . Un estimador es CONSISTENTE si a medida que n su distribución se concentra alrededor del parámetro poblacional. Estadística I. 31 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol Un estimador es CONSISTENTE en PROBABILIDAD si a medida que aumenta n, la probabilidad de que el estimador se aproxime al parámetro poblacional es cada vez mayor, llegando en el límite a ser 1. Ejemplo 3. Disponemos de la siguiente función de densidad de una distribución Uniforme: para 0 ≤ X ≤ f ( x) 1 y 0 para el resto. Se toma una muestra de tamaño 5 y se definen los siguientes estimadores de fita ( ): ▪ ˆ 2 x ~ ▪ X1 X 5 Busca el sesgo, ECM y la eficiencia relativa de ambos. Ejemplo 4. Considere la siguiente población: Xi 1 4 P(x) p 1- p Tenemos que: pˆ Sabiendo que p̂ es un estimador insesgado diga si p̂ es consistente y obtenga la estimación del parámetro p para n=3 y 3.3 4 x 3 x =3. MÉTODOS DE ESTIMACIÓN PUNTUAL 3.3.1 MÉTODO DE LOS MOMENTOS Consiste en igualar los momentos de la población con los momentos de la muestra, para estimar un parámetro desconocido. Considere una población representada por una variable aleatoria X cuya distribución de probabilidad está definida sobre k parámetros desconocidos. Denotamos por r al momento ordinario de la distribución poblacional que vendrá definido r por r E ( x ) . Establecemos que r depende de k parámetros (1 , 2 ,..., k ) . Estadística I. 32 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol Sea una muestra aleatoria de tamaño n (X1, X2, … , Xn) que se obtiene sobre la población. El momento ordinario muestral es: a r 1 X r . n Para construir los estimadores de los k parámetros se propone exigir la igualdad entre los momentos ordinarios poblacionales y muestrales. Por tanto se extiende la igualdad a los k primeros momentos de la siguiente forma: a1 1 (1 , 2 ,..., k ) a2 2 (1 , 2 ,..., k ) … Sistema de r equaciones ar r (1 , 2 ,..., k ) RESUMEN 1 parámetro desconocido ▪ 1 E ( x) ▪ 1 a1 x 2 parámetros desconocidos ▪ 1 E ( x) ▪ 1 a1 x ▪ 2 E( x 2 ) ▪ 2 a2 Xi 2 n ¡¡¡IMPORTANTE!!! Los estimadores que obtengamos por este proceso son CONSISTENTES pero NO puedo afirmar que sean insesgados, tendré que comprobarlo. PROCESO PARA ESTIMAR UN PARÁMETRO POR EL MÉTODO DE LOS MOMENTOS Sabiendo que: ▪ 1 E ( x) ▪ 1 a1 x Estadística I. 33 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol 1º.- Calculamos E (x) 2º.- Igualamos E ( x) x y ponemos el “sombrerito” en el parámetro desconocido. 3º.- Aislamos el parámetro con el “sombrerito”. 4º.- Hacemos la estimación. Ejemplo 5. Sea la siguiente función de densidad: siendo C > 0. Estima el parámetro f ( x) C X c1 si 0 < X < 1, y 0 para el resto, (Cˆ ) por el método de los momentos. Haz la estimación para una muestra de tamaño 4 de los siguientes valores: 0, 2, 3 y 5. Ejemplo 6. Sea la siguiente función de densidad: f ( x) 2( x) 2 si 0 ≤ X ≤ , y 0 para el resto. Calcula el estimador por el método de los momentos y di si cumple la propiedad de insesgadez y la de consistencia. Ejemplo 7. Sea la siguiente función de densidad: f ( x) 3x 2 3 si 0 ≤ X ≤ , y 0 para el resto. Calcula el estimador por el método de los momentos. 3.3.2 MÉTODO DE LA MÁXIMA – VEROSIMILITUD Se basa en la idea de que poblaciones diferentes generan muestras diferentes y es más probable que una muestra proceda de algunas poblaciones en vez de otras, o dicho de otra manera, ES MÁS VEROSÍMIL. Los estimadores que obtengamos por este proceso son CONSISTENTES y ASIMPTÓTICAMENTE EFICIENTES (a medida que aumenta el tamaño muestral, la varianza del estimador tiende al valor mínimo). Los estimadores M.V son los valores que maximizan la función de verosimilitud y son los valores de los parámetros desconocidos que generarían con MAYOR FRECUENCIA la muestra observada. PROCESO PARA ESTIMAR UN PARÁMETRO POR EL MÉTODO DE LA M.V 1º.- Buscar la función de verosimilitud (l) l ( ; X1, … , Xn) Estadística I. 34 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol 2º.- Determinar la función logarítmica (L) 3º.- Hacer L 0 4º.- Buscar los estimadores Ejemplo. Tenemos: f ( x) c x c 1 si 0 < x < 1 y c > 0. Calcula ĉ . ▪ Establecemos una única observación n=1 X1 En la función de verosimilitud (l) consideramos la “c” NO como un parámetro (como en la función de densidad), sino como una variable no aleatoria y “X1” será un valor fijo y no una variable aleatoria (como lo era en la función de densidad). La función de verosimilitud será: En este caso: l (X1; c) = c x1 l (X1; c) c 1 Ahora hay que buscar cual es la “c” que maximiza la función ▪ Establecemos dos observaciones n=2 X1, X2 La función de verosimilitud será: l (X1, X2; c) c 1 En este caso: l (X1, X2; c) = f (c, X1) · f (c, X2) = c X 1 c X c c 1 2 2 ( X 1 X 2 )c1 ▪ Establecemos “n” observaciones n=n (X1, X2,…,Xn) La función de verosimilitud será: l (X1, X2,…,Xn; c) En este caso: l (X1, X2,…,Xn; c) c X c X ... c X c c 1 1 c 1 2 c 1 n = f (c, X1) · f (c, X2) · … · f(c, Xn) = n ( X 1 X 2 ... X n ) c1 c n ( X i ) c1 productorio Estadística I. 35 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol Ahora hay que buscar para que valor de “c” se maximiza la función de verosimilitud, para ello utilizaremos la función logarítmica de verosimilitud (L). l = c n ( X i ) c 1 aplicamos ln a ambos lados. ln l = ln [ c n ( X i ) c 1 ] = L Sabiendo que el logaritmo de un producto es suma de logaritmos: ln (a · b) = ln a + ln b Hacemos: ln [ c n ( X i ) c 1 ] = ln c n + ln ( X i ) c 1 Sabiendo que: ln ak = k · ln a ln c n + ln ( X i ) c 1 = n · ln c + (c – 1) · ln ( X i ) Ahora derivamos: Aplicando L 0 , obtenemos: c L 1 n n 1 ln ( X i ) ln( X i ) c c c Es una constante Ahora igualamos a 0: n ln( X i ) 0 ahora le ponemos el “sombrerito” del estimador cˆ n ln( X i ) cˆ n cˆ ln( X i ) cˆ n Estimador de máxima verosimilitud ln( X i ) Estadística I. 36 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol TEORÍA PREGUNTAS TIPO TEST ▪ La propiedad de insesgadez de un estimador puntual se interpreta como: los posibles valores del estimador estarán próximos al valor del parámetro poblacional, ya que en promedio, coinciden con éste. ▪ Si es un estimador insesgado, NO puede ser inconsistente. ▪ Un estimador consistente, NO siempre es insesgado. ▪ La estimación puntual de un parámetro toma distinto valor numérico dependiendo de la muestra. ▪ Un estimador puntual es un estadístico muestral que aproxima el valor de un parámetro, y es siempre una variable aleatoria. ▪ Estimador insesgado se verifica: E ˆ E (ˆ) 2 E ˆ 2 ▪ Estimador ˆ es asintóticamente insesgado? o lim n E (ˆ) Sí es asintóticamente insesgado ▪ Estimador ˆ es consistente? ▪ E o ECM (ˆ) Var (ˆ) Sesgo 2 (ˆ) o Sesgo E (ˆ) o lim n ECM (ˆ) 0 Sí es consistente Xi n ▪ No es verdad que: o Un estimador sesgado nunca pueda proporcionar una estimación perfecta (error de estimación igual a 0). o Los estimadores consistentes son siempre insesgados en muestras pequeñas. ▪ ¿Qué significa que un estimador sesgado infravalore el valor desconocido de una parámetro poblacional? o Que ECM > Var ▪ Ningún estimador insesgado de la media poblacional tiene varianza menor que la media muestral. ▪ Poblaciones normales con x2 y y2 ny y nx, y se calculan los estimadores insesgados de S x2 y S y2 . Es correcto que: Estadística I. 2 S x2 y S y2 x2 Fn x 1, n y 1 37 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol ( x x) 2 (n 1) S 2 n 1 n 1 2 ▪ E E S2 E n n n n ▪ En una población Normal ( , 2 ) si un estimador insesgado de tiene como varianza 2 2 se puede afirmar que: “La media muestral (x) es el doble de eficiente”. n ▪ Método de los momentos (1º calcular E(x)) o Si te dan: f(x) = x 2 Se hará E ( x) x f ( x)dx (Porque x 2 contiene una x). o Si te dan: f(x) = ab 56 1 para 5 < x < 6 Se hará E ( x) (Porque 2 2 b5 1 no contiene x). b5 ▪ El estimador MV del parámetro de una Poisson, es la media muestral porque ̂ MV x y . ▪ Función de verosimilitud si te dan una variable discreta: x 0 1 2 p p 1–p p+2 Frec. abs. 2 4 3 l = p2 · (1 – p)4 · (p + 2)3 ln l = 2 · ln p + 4 · ln (1 – p) + 3 · ln (p + 2) Pero si te dicen que es una Binomial (1,p) con muestra (0, 1, 0, 0) x p 0 1–p 1 p l = (p,0) · (p,1) · (p,0) · (p,0) l = (1 – p) · p · (1 – p) · (1 – p) = p · (1 – p)3 ln l = ln p + 3 · ln (1 – p) ▪ ln Xi = ln Xi ▪ Si la variable es una Normal ( , 2 ), la función de verosimilitud tranformada (L) es: Estadística I. 38 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol o L n ln( 1 2 ) n 1 ln 2 ( Xi ) 2 2 2 2 ▪ Si la variable es una Poisson ( ) la L será: o L= Xi ln ln Xi n ▪ Función de verosimilitud: o c X c 1 c n ( Xi ) c1 o Xi e x n e o ( 1) X ( 1) n ( Xi ) ▪ En la función de verosimilitud de una muestra se desconoce el valor de los parámetros, pero son conocidos los valores muestrales. ▪ Para calcular un parámetro desconocido, NO siempre coinciden las fórmulas de cálculo del estimador por el método de los momentos y el de la MV. Estadística I. 39 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol Tema 4.- ESTIMACIÓN POR INTERVALO 4.1. Definición de intervalo de confianza 4.2. Intervalo de confianza para la media 4.3. Intervalo de confianza para la diferencia de medias 4.4. Intervalo de confianza para la proporción 4.5. Intervalo de confianza para la diferencia de proporciones 4.6. Intervalo de confianza para la varianza 4.7. Elección tamaño de la muestra Estadística I. 40 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol 4.1 DEFINICIÓN DE INTERVALO DE CONFIANZA Inconveniente estimación puntual NO proporcionan información sobre la magnitud del error cometido en la estimación. Intervalo de confianza = conjunto de valores que con una determinada probabilidad (grado de confianza) contiene el verdadero valor del parámetro a estimar. Grado o nivel de confianza = 1 = probabilidad que tiene el intervalo de contener el verdadero valor del parámetro. Una vez establecido el grado o nivel de confianza, determinaremos el límite inferior y superior del intervalo para establecer: P (límite inferior < < límite superior) = 1 4.2 INTERVALO DE CONFIANZA PARA LA MEDIA 4.2.1 Varianza poblacional conocida ( 2 ) 1 /2 /2 -Z / 2 Z / 2 P( x Z / 2 x Z / 2 Estadística I. n x Z / 2 n ) 1 n ▪ Z / 2 ▪ Z / 2 Se busca a partir del grado de confianza ( 1 ): n Error de la estimación 41 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol Si ↑ ( 1 ) los valores de Z se vuelven + grandes y ↓ la o longitud del intervalo. Si ↓ ( 1 ) al revés. o La longitud del intervalo será: Longitud = 2 · ( Z / 2 ▪ ↑ longitud si ↑ ▪ ↓ longitud si ↑ n n ) Por ejemplo, si 1 = 0,95 = 0,05 1 = 0,95 / 2 = 0,025 / 2 = 0,025 -Z0,05/2 Z0,05/2 ▪ P (Z > Z0,025) = 0,025 ▪ P (Z > 1,96) = 0,95 + 0,025 = 0,975 (Hemos sacado el 1,96 de las tablas) ▪ P( x 1,96 ▪ x 1,96 n x 1,96 n ) 0,95 n Ejemplo 1. Una población se puede modelizar por la variable aleatoria X que recoge el peso de los paquetes procedentes de cierta máquina. Se sabe que esta población es Normal con valor esperado desconocido y n = 25 = 200. x = 1.050 X Normal ( , 200) a) ¿Cuál es la estimación por intervalo de si fijamos el nivel de confianza al 90%? b) ¿Cómo quedaría si ↑ ( 1 ) al 99%? Estadística I. 42 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol 4.2.2 Varianza poblacional desconocida P( x t n1, / 2 x t n 1, / 2 S n x t n 1, / 2 S n ) 1 S n Ejemplo 2. La duración de un producto se distribuye según una Normal con media de 200 horas. Si un consumidor compra 10 unidades del producto y exige que con una probabilidad del 95% la vida media de los 10 productos sea al menos de 190 horas. ¿Cuál ha de ser el valor que pueda tener la desviación estándar de la duración de los productos? Ejemplo 3. X Normal (µ,3). n = 25 x = 10. a) Calcular un intervalo de confianza para µ si cogemos un grado de confianza del 95%. b) Si quisiéramos cometer un error máximo de una unidad, ¿cuál debería ser el tamaño muestral apropiado? 4.3 INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE MEDIAS MUESTRALES x2 y y ) 2 4.3.1 Varianzas poblacionales conocidas ( 2 2 x2 y x2 y 1 x y ( x y) Z / 2 P ( x y ) Z / 2 nx n y nx n y ( x y) Z / 2 4.3.2 x2 nx y2 ny Varianzas poblacionales desconocidas P ( x y ) t nx ny2, / 2 Estadística I. 1 1 1 1 x y ( x y ) t nx ny2, / 2 1 nx n y n x n y 43 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol ( x y ) t nx ny2, / 2 1 1 nx n y (n x 1) S x2 (n y 1) S y2 nx n y 2 Ejemplo 4. En un laboratorio de medios audiovisuales de un colegio ha llegado una dotación gratuita de retroproyectores procedentes de dos casas distribuidoras. Antes de realizar una compra posterior se comprobó las horas de vida de las muestras respectivas siendo n A = 6 419. Además se sabe que A es de 18,42 y B x A = 626; nB = 5 x B = es de 27,02. Se pide construir el intervalo de confianza del 95% para la diferencia de medias bajo el supuesto de que el número de horas de vida de ambas marcas sigue la ley normal. Ejemplo 5. En una encuesta realizada a 25 familias de la ciudad A se ha obtenido una media de 35.650 u.m de gasto mensual en alimentación y una desviación estándar de 15.000 u.m (información de la muestra). En otra ciudad B la media de gasto mensual obtenido a una encuesta realizada a 12 personas es de 32.800 u.m con una desviación estándar de 17.000 u.m. Si se supone que los gastos mensuales en alimentación en las dos ciudades son Normales con igual varianza, determinar el intervalo de confianza al 95% para la diferencia de valores esperados. 4.4 INTERVALO DE CONFIANZA PARA LA VARIANZA POBLACIONAL P( (n 1) S 2 n21 2 Extremo inferior P( (n 1) S 2 n21 2 Extremo superior (n 1) S 2 n21 ) 1 Extremo superior (n 1) S 2 n21 ) 1 Extremo inferior Ejemplo 6. En una muestra de 10 botellas de aceite se observa que la varianza del peso de estos 2 envases es de 34 gr . Con un grado de confianza del 90% obtener un intervalo de confianza para la varianza poblacional del peso de los envases de oliva bajo el supuesto de que siga una ley normal. Ejemplo 7. De una población normal se extrae la siguiente muestra aleatoria: Estadística I. 44 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol Xi 3 4 6 7 9 13 ni 2 4 6 5 2 1 a) Halla un intervalo de confianza al 95% para la media de esa población. b) Calcula un intervalo de confianza al 90% para la varianza poblacional. Ejemplo 8. Para la estimación del parámetro media poblacional ( ) con varianza conocida ( 2 conocida) se elabora un intervalo de confianza del 90%. Determinar el número de observaciones necesarias para aumentar el nivel de confianza de dicho intervalo al 95%. 4.5 INTERVALO DE CONFIANZA PARA LA PROPORCIÓN POBLACIONAL Proporción = proporción de individuos que tengan un determinada característica. P pˆ Z / 2 pˆ Z / 2 pˆ qˆ p pˆ Z / 2 n pˆ qˆ 1 n pˆ qˆ n Al ↑ amplitud intervalo ↓ su precisión!!! Ejemplo 9. Se desea construir un intervalo de confianza para la proporción de familias que poseen cierto electrodoméstico. Para ello se escoge una muestra de 200 individuos de los cuales 157 resultaron poseer tal electrodoméstico. Proceda a construir el intervalo de confianza para la proporción poblacional con los grados de confianza del 90%, 95% y 99%. ¿Qué observa a partir de pasar de un % a otro %? 4.6 INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE PROPORCIONES POBLACIONALES ( pˆ x pˆ y ) ( p x p y ) P Z / 2 Z / 2 1 pˆ x qˆ pˆ y qˆ n n x y Estadística I. 45 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol pˆ x pˆ y Z / 2 pˆ x qˆ pˆ y qˆ nx ny Ejemplo 10. Se quiere analizar en 2 colectivos el gasto de consumo alimenticio. Del primer colectivo se extrae una muestra de 200 personas de las cuales 70 declararon realizar un gasto superior a 3.000 u.m. En el segundo colectivo se escoge una muestra de 120 personas de las cuales 80 afirmaron gastar por encima de esas 3.000 u.m. Se pide el intervalo de confianza al 90% para la diferencia de proporciones de individuos que tienen un gasto por encima de las 3.000 u.m en los respectivos colectivos. 4.7. ELECCIÓN TAMAÑO DE LA MUESTRA 4.7.1. Intervalo de confianza para la media Si me fijan la AMPLITUD n 4 Z 2 / 2 2 A2 Si me fijan el ERROR DE ESTIMACIÓN Z 2 / 2 2 n e2 4.7.2. Intervalo de confianza para la proporción poblacional Si me fijan la AMPLITUD y me dan p̂ y q̂ 4 Z 2 / 2 pˆ qˆ n A2 Si me fijan la AMPLITUD y NO me dan p̂ y q̂ Método máxima olgura: p̂ = q̂ = 0,5 (si no nos dan las proporciones) n 4 Z 2 / 2 0,5 0,5 A2 Si me fijan el ERROR DE LA ESTIMACIÓN y me dan p̂ y q̂ n Z 2 / 2 pˆ qˆ e2 Si me fijan el ERROR DE LA ESTIMACIÓN y NO me dan p̂ y q̂ p̂ = q̂ = 0,5 (si no nos dan las proporciones) n Estadística I. Z 2 / 2 0,5 0,5 e2 46 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol Tema 5.- CONTRASTE DE HIPÓTESIS ESTADÍSTICAS 5.1 Conceptos básicos. 5.2 Tipos de errores. 5.3 Contraste para la media. 5.4 Contraste para la diferencia de medias. 5.5 Contraste para la varianza. 5.6 Contraste para la igualdad de varianzas. 5.7 Contraste para la proporción. 5.8 Contraste para la diferencia de proporciones. 5.9 Análisis de la varianza (ANOVA) Estadística I. 47 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol 5.1 CONCEPTOS BÁSICOS En el caso de la ESTIMACIÓN objetivo: obtener aproximaciones al valor o valores desconocidos de la población. En el caso de la CONTRASTACIÓN objetivo: definir si ciertas hipótesis formuladas sobre la población son aceptables o no, utilizando la información muestral. Hipótesis estadística: afirmación acerca del valor de un parámetro o parámetros, la cual se desea analizar utilizando la información muestral para finalmente tomar una decisión sobre su validez. En cualquier contraste nos vamos a encontrar 2 hipótesis: › Hipótesis nula = Ho › Hipótesis alternativa = HA Mientras la evidencia empírica NO diga lo contrario, me quedaré con Ho, porque la Ho contiene la información que a priori es cierta, y necesita una evidencia empírica para rechazarla a favor de HA. Buscaremos un estadístico de prueba donde incorpore la hipótesis nula (Ho) que lo que haga sea valorar la discrepancia entre Ho y la información muestral. 5.2 TIPOS DE ERRORES ACEPTAR Ho Ho cierta HA cierta Decisión correcta Error tipo II con probabilidad RECHAZAR Ho Error tipo I con probabilidad (nivel de significación) Decisión correcta = Probabilidad (Error tipo I) = Probabilidad (rechazar Ho / Ho cierta) = Probabilidad (Error tipo II) = Probabilidad (aceptar Ho / HA cierta) Estadística I. 48 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol - Si mantenemos fijo el tamaño muestral: o Si ↑ ↓ o - Si ↓ ↑ ↓ potencia Si ↑ el tamaño muestral: o ↓y ↓ - Potencia de contraste = 1 o A menor Probabilidad (Error tipo II) mayor potencia del contraste 1 . o Nos interesa una potencia de contraste alta (0,9 por ejemplo) ya que la probabilidad de aceptar Ho cuando HA es cierta es menor (0,1 por ejemplo). - Región aceptación: conjunto de valores donde si cae dentro el valor estadístico de prueba, la conclusión es aceptar la Ho. - Región de rechazo o crítica: conjunto de valores donde si cae dentro el valor del estadístico de prueba, la conclusión es rechazar la Ho. - Potencia: nos indica la probabilidad de rechazar la Ho cuando es falsa. - Valor crítico: es aquel valor que nos separa la región crítica (RC) de la región de aceptación (RA). FASES DE CUALQUIER CONTRASTE 1. Definir el contenido de Ho y HA. 2. Establecer “ ” y “n” con los que vamos a trabajar. 3. Formular el estadístico de prueba que nos permita valorar si existe discrepancia entre la información empírica y la información relativa a los parámetros poblacionales (Ho). 4. Establecer a partir del recorrido del estadístico de prueba la RC y la RA. 5. Calcular el estadístico de prueba a partir de la información muestral. 6. Dar el resultado del contraste, después de comparar el estadístico de prueba con los valores asociados a la RC y a la RA. Estadística I. 49 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol 5.3 CONTRASTE PARA LA MEDIA Ho µ = µo 5.3.1 conocida [X Normal ( , 2 )] conocida - Estadístico de prueba: Z* x 0 N (0,1) si Ho es cierta n - Valores críticos: 1- /2 1- /2 1- A dos colas A una cola A una cola HA : 0 HA : 0 Ho : 0 0 Si Z * < Z / 2 se ACEPTA Ho. Si Z * > Z / 2 se RECHAZA Ho. 0 Si Z * > Z se RECHAZA Ho. Si Z * < Z se ACEPTA Ho. 0 Si Z * >- Z se ACEPTA Ho. Si Z * <- Z se RECHAZA Ho. Estadística I. 50 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol Ejemplo 1. Se sabe que la varianza de cierta población normal es 4. Extraemos una muestra de 5 con el objetivo de contrastar: Ho: µ = 2 HA: µ = 3 Si = 5%, determine la región crítica para la x. Ejemplo 2. Se sabe que la desviación estándar de cierta población normal es 20. Extraemos una muestra de tamaño 100 con el objetivo de contrastar, a un nivel de significación del 5%: Ho: µ = 100 HA: µ = 120 Determinar región crítica y potencia de contraste para la x. Ejemplo 3. Se sabe que la desviación estándar de cierta población normal es 20. Extraemos una muestra de tamaño 64 con el objetivo de contrastar, a un nivel de significación del 10%: Ho: µ = 115 HA: µ = 110 Determinar región crítica y potencia de contraste para la 5.3.2 x. desconocida [X Normal ( , 2 )] Desconocidos - Estadístico de prueba: Z* x 0 tn-1 si Ho es cierta S n - Valores críticos: (mismos que en conocida) Similitudes entre el intervalo de confianza para la media de una población y las regiones de aceptación para la contrastación respecto a la media poblacional Parto de una población Normal: X N ( , ) y quiero realizar este contraste. Ho : 0 HA : 0 Estadística I. 51 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol Suponemos que = 5%. Calculamos la región de aceptación: x 0 1,96 1,96 n x 1,96 n 0 x 1,96 n El intervalo de confianza del 95% es simplemente el intervalo que contiene todas las hipótesis acerca de la media de la población ( 0 ) que serían aceptadas en una contrastación a 2 colas (inferior y superior) con un nivel de significación del 5%. 5.4 CONTRASTE PARA LA DIFERENCIA DE MEDIAS Ho µx = µy µx - µy = 0 conocida 5.4.1 =0 Z* ( x y) ( x y ) 2 x nx N (0,1) y2 ny desconocida 5.4.2 =0 t* ( x y) ( x y ) 1 1 nx n y t nxny2 (n x 1) S 2 (n y 1) S 2 Estadística I. nx n y 2 52 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol Ejemplo 4. Con la finalidad de determinar si la velocidad que se consigue es independiente de la hora en que se realiza el trayecto se ha efectuado un seguimiento de una muestra de coches en 2 franjas horarias diferentes y se han obtenido los siguientes resultados relativos a los km que se habían recorrido durante 1 hora: X 12 X - Franja 1: n1 15 - Franja 2: n2 1 2 570 240 X X 2 1 2 2 2189 5018 Contrastar hipótesis de que la velocidad que se puede conseguir es independiente de la hora de circulación. Se asume distribución Normal en ambas poblaciones e igual varianza. = 5% 5.5 CONTRASTE PARA LA VARIANZA Ho 2 02 y HA 2 02 *2 (n 1) S 2 02 n21 5.6 CONTRASTE PARA IGUALDAD DE VARIANZAS Ho x2 y2 y HA x2 y2 S x2 F * 2 Fnx-1, ny-1 Sy S 2 mayor Fn,m o m,n S 2 menor 5.7 CONTRASTE PARA LA PROPORCIÓN Ho p = p0 y HA p p0 Z* pˆ p 0 p0 q n N (0,1) 5.8 CONTRASTE PARA LA DIFERENCIA DE PROPORCIONES Ho pX = pY pX - pY = 0 y HA pX - pY 0 =0 Z* p ( pˆ x pˆ y ) ( p x p y ) 1 1 pq( ) nx n y N (0,1) n x pˆ x n y pˆ y nx n y Estadística I. 53 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol 5.9 ANÁLISIS DE LA VARIANZA (ANOVA) Nos permite comparar medias, pero no sólo 2 (Ho: µx = µy) sino 3, frente a la alternativa (HA) de que al menos una de esas medias sea diferente de las otras dos. Necesitaremos “k” muestras y los siguientes supuestos: 1. NORMALIDAD a nivel poblacional. 2. MUESTRAS INDEPENDIENTES entre sí. 3. La VARIANZA POBLACIONAL ( 2 ) es la MISMA en todas las muestras. La variabilidad de los datos de las muestras tiene 2 orígenes. - La variación explicada por las diferencias entre las muestras (variación explicada). - Variaciones de tipo aleatorio que existen dentro de cada muestra (variación NO explicada). Por tanto tenemos que: V. total = V. entre muestras + V. dentro de las muestras V. total = V. explicada + V. no explicada VT = VE + VNE Ahora tendremos que buscar el estadístico de prueba. - Si hacemos VNE obtenemos un estimador insesgado de la varianza poblacional nk ( 2 ) que hemos dicho que era única. - Si hacemos VE k 1 sólo cuando la H0 es cierta resultará que también es un estimador insesgado de la varianza poblacional ( 2 ) . Estadística I. 54 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol El estadístico de prueba surge de comparar estos dos estimadores, y hay que saber la TABLA ANOVA: Fuentes de variación Suma de cuadrados n V. explicada (VE) V. no explicada (VNE) ij S12 k–1 2 VE Si H0 es cierta será un k 1 estimador insesgado de 2 . x j )2 S12 n–k VNE Estimador insesgado de nk 2. - (x - x 2 n xT Variación total Suma media de cuadrados ( x j xT ) 2 j - n x 2 n xT (x Grados de libertad ij x T )2 n–1 2 k = muestras n = nº observaciones Estadístico de prueba: F* S12 Fk 1,n k S 22 Dado un determinado nivel de significación ( ) Si F * Fk 1,n k Se rechaza H0 de igualdad de varianza, y por tanto al menos 1 es diferente. Ejemplo 5. Los estudiantes de cuatro facultades diferentes realizan el mismo examen de sociología. Se utilizaron métodos de enseñanza distintos en cada uno. Cogemos una muestra aleatoria de 5 alumnos de cada una, cuyas informaciones se anotan en esta tabla: Facultad 1 Facultad 2 Facultad 3 Facultad 4 84 88 114 140 124 76 124 116 112 116 120 120 96 116 136 124 124 104 116 130 Las notas siguen una distribución Normal. ¿Afecta el método de enseñanza al resultado obtenido en el examen? Estadística I. 55 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol Ejemplo 6. Se pretende saber si la nueva forma de envase de un producto de limpieza ayuda a incrementar las ventas del mismo. Para ello, el director comercial de la empresa fabricante decide introducir el producto bajo un nuevo envase en solo uno ( Z ) de tres establecimientos ( X, Y, Z ), considerados del todo homogéneos, excepto en esa circunstancia. Al cabo de 5, 4 y 6 días respectivamente, se observan las ventas diarias del producto en cada uno de los establecimientos, obteniendo los siguientes resultados: Establecimiento X Establecimiento Y Establecimiento Z 35 40 50 50 30 60 40 45 30 20 35 30 30 55 65 Si suponemos que las ventas de cada establecimiento siguen una distribución Normal, con estos datos, ¿qué puede aconsejar usted al director comercial? Estadística I. = 5% 56 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol Tema 6.- CONTRASTES DE HIPÓTESIS NO PARAMÉTRICOS 6.1. Hipótesis sobre la distribución - Contraste de bondad de ajuste - Contraste de independencia Estadística I. 57 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol 6.1. HIPÓTESIS SOBRE LA DISTRIBUCIÓN Hay veces que no se dispone de la suficiente información de la distribución poblacional o bien no se puede asumir con garantías suficientes una expresión algebraica para dicha distribución. En estos casos, el aprendizaje a partir de los datos muestrales NO puede reducirse a investigar algún parámetro desconocido, para ello utilizamos contrastes de hipótesis no paramétricos. CLASIFICACIÓN DE LOS CONTRASTES DE HIPÓTESIS NO PARAMÉTRICOS 1. Contraste de bondad de ajuste: se emplea para verificar si un conjunto de datos muestrales procede de una población con una cierta distribución de probabilidad. 1.1. Contraste 2 de Pearson 1.1.1. Parámetros de la población conocidos 1.1.2. Parámetros de la población desconocidos (hay que estimarlos) 1.2. Contraste de Kolmogorov – Smirnov 2. Contraste de independencia: se emplea para evaluar si 2 características que se analizan conjuntamente en una población son independientes o no. 1. CONTRASTE DE BONDAD DE AJUSTE Se emplea para verificar si un conjunto de datos muestrales procede de una población con una cierta distribución de probabilidad. 1.1. Contraste 2 de Pearson 1.1.1. Parámetros de la población conocidos H0: F (x) = F0 (x) la muestra procede de una población con distribución F0 (x). HA: F (x) ≠ F0 (x) la muestra NO procede de una población con distribución F0 (x). n nº observaciones para cada subgrupo total ( Oi ) Oi frecuencias observadas Estadística I. 58 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol Ei frecuencias esperadas Ei = n · Pi Su valor tendrá que ser de al menos 5. Si por ejemplo E2 = 4 habrá que agrupar, y a la k21 habría que restarle el número de agrupaciones que has tenido que hacer. Estadístico de prueba cuando H0 es cierta: 2 * (Oi Ei ) 2 Ei k21 Ejemplo 1. El gerente de una planta industrial pretende determinar si el nº de empleados que acuden al consultorio médico de la planta se encuentra distribuido en forma equitativa, durante los 5 días laborales de la semana. Con base a 1 muestra de 4 semanas completas de trabajo se observó el siguiente número de consultas: Oi (nº personas que van = frecuencias observadas) Pi (probabilidad) Ei (frecuencias esperadas) L M M J V TOTAL 49 35 32 39 45 200 0,2 40 0,2 40 0,2 40 0,2 40 0,2 40 1 = 5% nivel de significación ¿Existe alguna razón para creer que el número de empleados que asiste al consultorio médico NO se encuentra distribuido en forma equitativa durante los días laborales de la semana? Ejemplo 2. Para estudiar la productividad de los operarios en una gran factoría se ha escogido una muestra de 200 operarios correspondiendo: O1 = 12 a la sección 1ª 8% O2 = 67 a la sección 2ª 30% O3 = 45 a la sección 3ª 25% O4 = 52 a la sección 4ª 27% O5 = 24 a la sección 5ª 10% Si se afirma que la muestra pretendía ser proporcional al total de operarios de cada una de las secciones y éstas los distribuyen en los % expresados, realizar contraste al 5% de nivel de significación. Estadística I. 59 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol 1.1.2. Parámetros de la población desconocidos (hay que estimarlos) H0: F (x) = F0 (x; 1 , 2 ,..., n ) HA: F (x) ≠ F0 (x; 1 , 2 ,..., n ) Estadístico de prueba cuando H0 es cierta: 2 * (Oi Ei ) Ei 2 k21h a h = nº parámetros estimados a = en caso de Ei < 5, a es el nº de veces que necesito agrupar, sino es 0 Ejemplo 3. En una facultad se selecciona una muestra de 100 alumnos y se mide: Altura Nº alumnos 1,50 – 1,60 6 1,60 – 1,70 28 1,70 – 1,80 40 1,80 – 1,90 22 1,90 – 2,00 4 Contrastar la hipótesis de que esta muestra procede de una población normal. De su conclusión con un nivel de significación de 5%. Ejemplo 4. En una empresa constructora se ha observado el nº de accidentes que ocurren en 130 días laborables, obteniendo la siguiente distribución de frecuencia: Nº accidentes por día Nº de días = Oi 0 69 1 42 2 15 3 4 4 0 Contrastar hipótesis que el nº de accidentes por día sigue una Poisson con media 0,9. Estadística I. 60 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol 1.2. Contraste de Kolmogorov – Smirnov ▪ NO se puede utilizar NUNCA para variables nominales, porque hay que ORDENAR los datos. ▪ H0: F (x) = F0 (x) HA: F (x) ≠ F0 (x) ▪ Este contraste se basa en comparar las frecuencias relativas de la muestra (frecuencia empírica) y las correspondientes a la función de distribución de la población planteada por la H0 (frecuencia teorica): ▪ o Si la diferencia es bastante grande Se rechaza H0 o Si la diferencia es pequeña Se acepta H0 la muestra proviene de la población especificada por la H0. Necesitaremos establecer el nivel de significación y buscar el estadístico de prueba (Dn): Dn max Fn ( Xi ) F0 ( Xi ) - Siendo Fn(Xi) la frecuencia relativa acumulada de Xi a la muestra: Fn ▪ ni frecuencia empírica N El criterio de decisión, fijado , será: o Si Dn > D Se rechaza H0 (siendo Dn, el estadístico de prueba y D el valor en tablas) o Si Dn < D Se acepta H0 COMPARACIÓN CONTRASTE 2 DE PEARSON – CONTRASTE KOLMOGOROV 1. 2 agrupaciones sí cuando Ei < 5, Kolmogorov NO. 2. 2 aplicable a cualquier escala (nominal, ordinal…), Kolmogorov solo ordinal. 3. 2 necesario muestras grandes, Kolmogorov se puede utilizar en muestras pequeñas. 4. 2 se pueden estimar parámetros desconocidos, Kolmogorov debe estar todo especificado. Estadística I. 61 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol 2. CONTRASTE DE INDEPENDENCIA Se emplea para evaluar si 2 características que se analizan conjuntamente en una población son independientes o no. H0: variables cualitativas independientes No hay relación entre las dos características. HA: variables cualitativas NO independientes Sí hay relación entre las dos características. Se hace a partir de una tabla de contingencia o tabla de doble entrada, y debe de ocurrir: - Para que sean características independientes Eij = (ni · nj) / n - Eij > 5 porque sino hay que agrupar El estadístico de prueba será, si H0 es cierta: *2 Estadística I. (Oij Eij ) Eij 2 (2r 1)( s 1) 62 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol Tema 7.- EL MODELO DE REGRESIÓN LINEAL SIMPLE (MRLS) 7.1. Especificación e hipótesis básicas del modelo 7.2. Estimación por MCO 7.3. Propiedades de los estimadores 7.4. Estimadores máximo verosímiles 7.5. Bondad de ajuste 7.6. Estimación por intervalos de confianza 7.7. Contrastes de hipótesis 7.8. Test de la bondad de ajuste Estadística I. 63 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol 7.1 ESPECIFICACIÓN E HIPÓTESIS BÁSICAS DEL MODELO MODELO DE REGRESIÓN LINEAL SIMPLE (MRLS) Con frecuencia, nos encontramos en economía con modelos en los que el comportamiento de una variable, Y, se puede explicar a través de una variable X; lo que representamos mediante: Y = f (X) Si consideramos que la relación que liga Y con X es lineal, entonces se puede escribir así: Y = + ·Xi Pero la relación anterior rara vez es exacta, sino que más bien son aproximaciones en las que se han omitido muchas variables de importancia. Es por ello que debemos incluir un término de perturbación Ui , que es una variable aleatoria que recoge el conjunto de factores que inciden en la variable Y y que no están explicados por la variable X. Y = + · Xi + Ui X = variable independiente, explicativa, exógena, no aleatoria Y = variable dependiente, explicada, endógena, aleatoria y = parámetros de regresión i = hacer referencia a la observación HIPÓTESIS BÁSICAS DEL MODELO 1. Entre X e Y existe una relación lineal estocástica o Y = f (X) relación entre X e Y de tipo determinista, porque para un valor de X sólo hay un valor de Y. o Y = + · Xi + Ui relación entre X e Y de tipo estocástica, porque para un valor de X hay una distribución de probabilidad de valores de Y. 2. Cada uno de los valores de X tiene asociada una variable aleatoria Ui donde: E (Ui) 0 Estadística I. 64 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol Esto garantiza que todos los factores recogidos por Ui no afecten de forma sistemática al valor esperado de Y. 3. El término de perturbación Ui asociado a cada valor de X tiene varianza constante: Var (Ui) u2 Esta hipótesis recibe el nombre de homoscedasticidad, que supone que la dispersión de Y respecto a su valor esperado se mantiene constante para cualquier valor de X. 4. Ui N (0, u2 ) 5. Los términos de perturbación asociados a cada uno de los diferentes valores de X no están autocorrelacionados y por lo tanto, la variación que presenta una observación determinada NO se ve afectada por otras observaciones realizadas. Cov(Ui,Uj) 0 6. La variable X NO es aleatoria, ya que puede ser controlada por el investigador. 7. Los parámetros desconocidos del modelo son constante en el muestreo. PARA BUSCAR Yi Y = + · Xi + Ui Ui Normal, por lo tanto: Yi Normal E (Yi ) X Demostración: E(Yi ) E( Xi Ui) E( Xi ) E(Ui) X 0 X Var (Yi ) u2 Demostración: Var (Yi ) Var ( Xi Ui) Var ( Xi ) Var (Ui) 0 u2 u2 Yi Normal Xi ; u2 Estadística I. 65 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol ESTIMACIÓN DE y Generalmente, y son desconocidos y hay que estimarlos. Para ello hay 2 métodos: - MCO (Mínimos Cuadrados Ordinarios) - Máxima verosimilitud ESTIMACIÓN DE y POR MCO Al ajustar la recta a la nube de puntos observados (X1, Y1), (X2, Y2), (X3, Y3), … , (Xn,Yn) se desea minimizar las distancias verticales de cada valor ajustado (Yi*) con el valor observado (Yi) siendo la recta ajustada: Yi = + · Xi , siendo el valor de Y cuando X = 0 y siendo la pendiente de la recta ajustada que mide la variación del valor Y debido a la variación de 1 unidad de X. Yi RECTA AJUSTADA Ŷi ̂ + · ˆ Xi Yi ei Yi Xi La nube de puntos puede representarse mediante infinitas rectas. El objetivo de este método es seleccionar la que mejor las representa, estableciendo como criterio conseguir que los residuos o errores (ei), es decir, que la distancia entre las observaciones y la recta ajustada sea mínima! Y determinar así los coeficientes ̂ y ˆ que mejor se ajusten a la línea de puntos. = pendiente de la recta de regresión poblacional ˆ = pendiente estimada de la recta de regresión muestral Estadística I. 66 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol Yi = ̂ + · ˆ Xi ˆ y ˆ·x ̂ ˆ S xy S tomará su valor mínimo cuando x 0 S y o ̂ rxy S 2 x o ̂ x Y X Demostración: Sy ˆ r Sx S xy Sx Sy Sy Sx S xy S 2 x ( Xi x)·(Yj y) Xi·Yi Xi Yi n ( Xi x) 2 n Xi n n n n 2 x 2 Sabiendo que: rxy S xy Sx Sy r 2 R2 R = coeficiente de correlación (intensidad de asociación lineal entre X e Y) R 2 = coeficiente de determinación (mide la bondad de ajuste) 1. ˆ = pendiente estimada de la recta de regresión muestral = nos da la estimación del incremento del valor esperado de Y cuando X se incrementa en una unidad. 2. ̂ = ordenada en el origen en la recta de regresión muestral = nos da la estimación del valor esperado de Y cuando X vale 0. 3. e = errores o residuos Sabemos que (ei ) 0 , por lo tanto sabemos seguro que la media de los residuos también será nula: e 0 4. Los residuos y la variable X están interrelacionados (su covarianza vale 0): Cov(ei, x) 0 5. Además también Cov(ei, Yˆi) 0 , siendo Yˆi los valores estimados. 6. La media de los valores observados de Y es igual a la media de los valores estimados ( y yˆ ) Estadística I. 67 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol 7. La recta de regresión muestral de Y sobre X ( Ŷi ̂ + · ˆ Xi) siempre pasa por el punto ( x , y ). 8. La pendiente de la recta de regresión ( ˆ ) tiene el mismo signo que la covarianza (Sxy) y que el coeficiente de correlación lineal (rxy). 9. Los estimadores por MCO de y son INSESGADOS e intentan MINIMIZAR LOS ERRORES O RESIDUOS. Ejemplo 1. Calcula con los siguientes datos la recta de regresión muestral estimada de Y. 12 Yi 756 i 1 12 Xi 108 i 1 12 Xi 2 12 Xi Yi 6960 1020 i 1 i 1 ESTIMACIÓN DE LA VARIZANZA DEL TÉRMINO DE PERTURBACIÓN ( u2 ) Los residuos (ei) de la regresión pueden considerarse estimaciones de los valores del término de perturbación (ei Ui). Se puede estimar la varianza del término de perturbación: n ˆ u2 S u2 ei 2 i 1 n2 Error estándar de la regresión = es una medida absoluta de variabilidad de los datos observados a la recta estimada. También indica hasta qué punto se ajusta la recta de regresión muestral a las observaciones de la variable dependiente. Cuanto MENOR sea, MAYOR AJUSTE. n Su ei 2 i 1 n2 PROPIEDADES DE LOS ESTIMADORES 1. LINEALIDAD Ambas expresiones ̂ y ˆ se obtienen como una función lineal de la variable dependiente y son variables aleatorias. 2. INSESGADEZ E (ˆ ) Estadística I. y E ( ˆ ) 68 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol 3. VARIANZA MÍNIMA (EFICIENCIA) 2 1 x Var (ˆ ) S 2 n ( Xi x) 2 ˆ Var ( ˆ ) S 2ˆ 2 u u2 ( Xi x) 2 n Siendo ˆ u2 S u2 ei 2 i 1 n2 la varianza del término de perturbación. o Si ↑ u2 ↑ Ŝ2 y S ̂2 o Si ↑ dispersión de X ↓ Ŝ2 y S ̂2 4. DISTRIBUCIÓN NORMAL 2 1 x 2 ̂ Normal , u 2 n ( Xi x) La desviación estándar seria: ˆ 2 1 x u 2 n ( Xi x) u2 ˆ Normal , 2 ( Xi x) La desviación estándar seria: ˆ u ( Xi x) 2 Ejemplo 2. Los precios (Xi) y cantidades de manzanas vendidas en cierta tienda (Yi) se supone que tienen relación lineal: Yi = + · Xi + Ui; cantidad vendida). Además: n= 12, 2250 y (Yi y) Estadística I. 2 siendo x =70, y =100, negativa (ya que a mayor precio, menor ( Xi x)·(Yj y) = 3550, ( Xi x) 2 = = 6300. Calcula la recta de regresión y las varianzas de los estimadores. 69 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol ESTIMADORES MÁXIMO VEROSÍMILES DE , Y u2 Partimos de: Yi Normal Xi ; u2 Y sabemos que la f(x) asociada a un modelo Normal es f ( x) ( x )2 1 2 2 ·e 2 2 ˆ MCO ˆ MV ˆ MCO ˆ MV BONDAD DE AJUSTE Nos permite analizar la proximidad de la recta ajustada a la nube de puntos. Para su medida se utiliza el COEFICIENTE DE DETERMINACIÓN: 1) R 2 VE SCR VT STC (Yi * y) (Yi y) 2 2 VE = Variación explicada por la propia recta de ajuste VT = Variación total SCR = Suma de los cuadrados de la recta STC = Suma total de los cuadrados 2) El coeficiente de determinación es la parte de la variación total explicada por la recta de ajuste. VT VE VE , donde VE es la variación NO explicada (debida a otras causas). (Yi y) 2 (Yi * y)2 ei 2 VE también puede denominarse SCE (suma de los cuadrados de los errores = ei 2 ). 3) El coeficiente de determinación toma valores entre 0 y 1, ambos incluidos: R 2 = [0,1]. Estadística I. 70 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol 4) Expresión de cálculo del coeficiente de determinación: 2 2 SCR b * ( Xi x) R STC (Yi y) 2 2 o ei 2 SCE R 1 1 STC (Yi y) 2 2 5) Según el valor de R 2 : Si R 2 = 1 SCE = 0 El conjunto de residuos o errores son 0 y la recta pasaría exactamente por todos los puntos caso de AJUSTE PERFECTO. Si R 2 = 0 SCR = 0 Toda la variación de Y viene explicada por los residuos o errores. La recta ajustada de Y sobre X es paralela al eje de las x, trazada a la altura de a* y aunque varíe el valor de la variable X, no hay ninguna variación de la variable Y. Los puntos intermedios entre 0 y 1 son los + habituales en el mundo real. Cuanto + se aproxime a 1 el coeficiente de determinación, mayor será el grado de ajuste entre las variables X e Y. 6) El coeficiente de determinación y el de correlación entre 2 variables se relacionan con esta expresión: R2 = r 2 7) También se puede demostrar el pendiente de la recta: b* r Sy Sx 8) El coeficiente de correlación se obtiene a partir del de determinación y su signo lo determina la covarianza (Sxy): r R2 Estadística I. 71 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol 9) Es importante destacar que aunque hay relación numérica entre el coeficiente de determinación y el de correlación, cada uno tiene una finalidad diferente: Coeficiente de determinación analiza la proporción de la variación o varianza total explicada por la regresión. Coeficiente de correlación mide el grado de asociación lineal entre 2 variables. ESTIMACIÓN POR INTERVALOS DE CONFIANZA - Para ̂ o Si se conoce u INTERVALO DE CONFIANZA = ˆ Z ˆ 2 Siendo ˆ 2 1 x u 2 n ( Xi x) n ei o Si NO se conoce u buscamos S u INTERVALO DE CONFIANZA = 2 i 1 n2 ˆ tn2 Sˆ 2 1 x S S Siendo ̂ u 2 n ( Xi x) - ˆ Para o Si se conoce u INTERVALO DE CONFIANZA = ˆ Z ˆ 2 Siendo Estadística I. ˆ u ( Xi x) 2 72 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol n o Si NO se conoce u buscamos S u - Para S ̂ 2 i 1 n2 ˆ tn2 S ˆ INTERVALO DE CONFIANZA = Siendo ei Su ( Xi x) 2 u2 PROBABILIDAD INTERVALO DE CONFIANZA = P( (n 2) ˆ u2 22 u2 (n 2) ˆ u2 Valor n2 2 más grande 12 ) 1 Valor n2 2 más pequeño n22 1 /2 /2 12 22 Ejemplo 3. Establezca los intervalos de confianza para ̂ , ˆ y u2 disponiendo de los siguientes datos: n = 20 P (t18 < 2,101) = 0,975 1 = 0,95 Yi = 9,4 – 0,025Xi Ŝ 12 S ̂ 0,013 Estadística I. 73 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol CONTRASTES DE HIPÓTESIS Contraste respecto al parámetro Pasos a realizar 1. Establecer la Ho y la HA. Ho : 0 (NO hay pendiente) HA: 0 0 0 Si Aceptamos Ho NO es significativamente ≠ 0 y la variable X NO tiene influencia sobre las variaciones de Y. Si Rechazamos Ho es significativamente ≠ 0 y la variable X tiene influencia sobre las variaciones de Y. 2. Establecer el estadístico de prueba (dependerá de si conocemos o no) u conocida Z* u ˆ N (0,1) ˆ u desconocida buscamos S u t* ˆ S ˆ t n2 3. Establecer el nivel de significación ( ) para buscar la RA (región de aceptación) y la RC (región crítica o de rechazo) Si HA: 0 A dos colas 1 /2 /2 RC Estadística I. RA RC 74 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol Si HA: 0 A una cola (a la derecha) 1 /2 RA RC Si HA: 0 A una cola (a la izquierda) 1 /2 RC RA Si el estadístico de prueba cae en la RA SE ACEPTA LA Ho Si el estadístico de prueba cae en la RC SE RECHAZA LA Ho Contraste respecto al parámetro 1. Establecer la Ho y la HA. Ho : 0 HA : 0 0 0 2. Establecer el estadístico de prueba (dependerá de si conocemos ˆ N (0,1) ˆ u desconocida buscamos S u t* Estadística I. o no) u conocida Z* u ˆ Sˆ t n2 75 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol 3. Establecer el nivel de significación ( ) para buscar la RA (región de aceptación) y la RC (región crítica o de rechazo) (MISMAS INTERPRETACIONES QUE PARA ) Ejemplo 4. Tenemos la siguiente relación entre la demanda y el precio del café: Yi = 2,691 – 0,47953Xi Sˆ 0,121 y S ˆ 0,114 Errores estándar de cada estimador: R 2 0,663 S u = 0,1286 Efectúa el contraste de y para: Ho: 0 (NO hay pendiente) Ho: 0 HA: 0 HA: 0 Contraste con información a priori (test individual de los parámetros) 1. Establecer la Ho y la HA. Parámetro : Ho : 0 HA : 0 Siendo 0 0 0 0 Parámetro : Ho : 0 HA : 0 Siendo 0 0 0 0 Estadística I. 76 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol 2. Establecer el estadístico de prueba (dependerá de si conocemos u o no) Parámetro : u conocida Z* ˆ 0 N (0,1) ˆ u desconocida buscamos S u t* ˆ 0 S ˆ t n2 Parámetro : u conocida Z* ˆ 0 N (0,1) ˆ u desconocida buscamos S u t* ˆ 0 Sˆ t n2 Hacer ejercicio 6.20, 6.19 y 6.17 TEST DE LA BONDAD DE AJUSTE Ho y HA: - Ho : R 2 0 - HA : R 2 0 R 2 0 porque R 2 no puede ser negativo A una cola! Estadístico de prueba: F* - Además sabemos que t* Estadística I. (n 2) R 2 F 1,n 2 1 R2 ˆ S ˆ y F t2 t F 77 Sabino de Arana, 56-58 bxs. · BCN · Tel. 93 490 82 42 Trias i Giró, 15-17 · BCN · Tel. 93 203 34 59 Cartoixa de Vallparadís, 14 · TERRASSA · Tel. 93 784 53 23 www.academiasol.com · www.facebook.com/academiasol NOTAS: - En Y = + · Xi + Ui el ECM (Error Cuadrático Medio) del estimador ˆ es igual a su VARIANZA. - Si nos dan: Coeficientes Estadístico t Intercepción ̂ Variable X ˆ Se refiere a cuando Ho: 0 o bien Ho: 0 ˆ y es t* ˆ o bien t* Sˆ S ˆ - VARIACIÓN TOTAL (VT) – REGRESIÓN (VE) = ei 2 (VNE) - Error típico de la estimación = S u - Error típico coeficientes = S ̂ y S ̂ Estadística I. 78