Descripción breve del tema Distribuciones en el muestreo, EMV 1. 2. Introducción y conceptos básicos Propiedades de los estimadores 3. Tema 6 4. 5. 6. Depto. Estadística, Universidad Carlos III 1 Objetivos Ignacio Cascos Introducción a los intervalos de confianza y contrastes de hipótesis Depto. Estadística, Universidad Carlos III 2 Descripción breve del tema Entender estimación como pilar fundamental de la Estadística. Habituarse a manejar las distribuciones que aparecen asociadas a ciertos estimadores. Encontrar el EMV de un parámetro tanto de una distribución discreta como continua. Conocer la distribución asintótica de un EMV. Entender las ideas básicas de contrastes de hipótesis e intervalos de confianza a partir del método de Máxima Verosimilitud. Ignacio Cascos Distribución de la media en el muestreo Distribución de la varianza en el muestreo Distribuciones en el muestreo de poblaciones normales Método de Máxima Verosimilitud Propiedades de los EMVs Inferencia a partir de los EMVs Ignacio Cascos Sesgo, Varianza, Error Cuadrático Medio y Consistencia Distribución de un estimador en el muestreo Depto. Estadística, Universidad Carlos III 3 1. 2. Introducción y conceptos básicos Propiedades de los estimadores 3. Distribución de un estimador en el muestreo 4. 5. 6. Sesgo, Varianza, Error Cuadrático Medio y Consistencia Distribución de la media en el muestreo Distribución de la varianza en el muestreo Distribuciones en el muestreo de poblaciones normales Método de Máxima Verosimilitud Propiedades de los EMVs Inferencia a partir de los EMVs Ignacio Cascos Introducción a los intervalos de confianza y contrastes de hipótesis Depto. Estadística, Universidad Carlos III 4 Introducción Conceptos básicos La Inferencia Estadística es el proceso de predicción que nos permite obtener conclusiones sobre el comportamiento de una población a partir de los datos de una muestra. Una muestra aleatoria son n variables aleatorias independientes y con la misma distribución X1,X2,…,Xn Un estadístico es cualquier transformación (función) de las observaciones de una muestra aleatoria. Es, por tanto, una variable aleatoria f (X1,X2,…,Xn). Hemos visto distribuciones de probabilidad que dependen de uno o varios parámetros, ahora veremos cómo estimar dichos parámetros. Ignacio Cascos Depto. Estadística, Universidad Carlos III 5 Conceptos básicos 1. 2. 6 Introducción y conceptos básicos Propiedades de los estimadores θˆ = f ( X 1 , X 2 ,K, X n ) 3. 4. 5. 6. Se trata de un estadístico que sirve para estimar θ. Distribución de la media en el muestreo Distribución de la varianza en el muestreo Distribuciones en el muestreo de poblaciones normales Método de Máxima Verosimilitud Propiedades de los EMVs Inferencia a partir de los EMVs 7 Sesgo, Varianza, Error Cuadrático Medio y Consistencia Distribución de un estimador en el muestreo que conduce a la obtención de valores aproximados de θ. Depto. Estadística, Universidad Carlos III Depto. Estadística, Universidad Carlos III Descripción breve del tema Un estimador de un parámetro θ es cualquier función de la muestra Ignacio Cascos Ignacio Cascos Ignacio Cascos Introducción a los intervalos de confianza y contrastes de hipótesis Depto. Estadística, Universidad Carlos III 8 Propiedades de los estimadores Propiedades de los estimadores Sesgo. Un estimador de un parámetro θ es insegado o centrado si E[θˆ] = θ A la diferencia sesgo = E[θˆ] − θ se le llama sesgo del estimador. Ignacio Cascos Depto. Estadística, Universidad Carlos III Eficiencia[θˆ] = 9 Propiedades de los estimadores Ignacio Cascos 1 Var[θˆ] Depto. Estadística, Universidad Carlos III 10 Propiedades de los estimadores El error estándar de un estimador es su desviación típica σ θˆ = Var[θˆ] Varianza de un estimador. De los estimadores centrados, el mejor es aquel cuyos valores están más concentrados en torno al verdadero valor del parámetro, el que tenga menor varianza. Llamamos eficiencia o precisión de un estimador al inverso de su varianza Si la desviación típica depende del parámetro θ, la sustitución de θ por su estimación da lugar al error estándar estimado Dados dos estimadores de un mismo parámetro, su eficiencia relativa se define como Eficiencia[θˆ2 ] Var[θˆ1 ] ˆ ˆ ER[θ 2 ;θ1 ] = = Eficiencia[θˆ1 ] Var[θˆ2 ] σˆθˆ Ignacio Cascos Depto. Estadística, Universidad Carlos III 11 Ignacio Cascos Depto. Estadística, Universidad Carlos III 12 Propiedades de los estimadores Propiedades de un estimador Error Cuadrático Medio. El ECM nos permite comparar estimadores centrados con otros que tienen sesgo y estimadores sesgados entre ellos ECM[θˆ] = E[(θˆ − θ ) 2 ] Consistencia. Decimos que un estimador es consistente cuando se aproxima al auténtico valor del parámetro a medida que el tamaño de la muestra crece. Propiedad. Es lo mínimo que se le exige a un estimador. ECM[θˆ] = Var[θˆ] + (sesgo[θˆ]) 2 Ignacio Cascos Depto. Estadística, Universidad Carlos III 13 Ignacio Cascos Depto. Estadística, Universidad Carlos III 14 Descripción breve del tema Distribución de la media en el muestreo 1. 2. Introducción y conceptos básicos Propiedades de los estimadores 3. 4. 5. 6. X1 + X 2 + L + X n n es un estimador natural de la media poblacional µ. Sesgo, Varianza, Error Cuadrático Medio y Consistencia X= Distribución de un estimador en el muestreo Distribución de la media en el muestreo Distribución de la varianza en el muestreo Distribuciones en el muestreo de poblaciones normales Método de Máxima Verosimilitud Propiedades de los EMVs Inferencia a partir de los EMVs Ignacio Cascos Es centrado y su varianza es σ2/n, donde σ es la desviación típica de X. Introducción a los intervalos de confianza y contrastes de hipótesis Depto. Estadística, Universidad Carlos III La media muestral 15 Ignacio Cascos Depto. Estadística, Universidad Carlos III 16 Distribución de la media en el muestreo Distribución de una proporción en el muestreo. Llamamos p a la proporción poblacional de elementos que presentan cierta característica. La v.a. X que toma valor 1 si el elemento presenta la característica y 0 si no, sigue distribución de Bernoulli de parámetro p. Por el TCL, sabemos que para cualquier distribución de X, con tal que n sea suficientemente grande X −µ ≈ N(0,1) σ n Ignacio Cascos Depto. Estadística, Universidad Carlos III nº elementos con la característica en muestra ∑i =1 X i pˆ = = =X tamaño muestra n p (1 − p ) E[ pˆ ] = p ; Var[ pˆ ] = n Si n>30 y np(1−p)>5, podemos aplicar la aproximación del TCL n 17 Varianza en el muestreo ∑ (X = n S i =1 −X) (n − 1) Sˆ 2 n ∑ (X n Sˆ 2 = i =1 σ −X) n −1 Depto. Estadística, Universidad Carlos III 18 2 = nS 2 σ 2 ~ χ n2−1 Tenemos entonces Var[S2] = 2(n−1)σ4/n2 2 i Depto. Estadística, Universidad Carlos III Distribución de la varianza. Si la muestra procede de una población normal, 2 i Alternativamente tenemos la cuasivarianza muestral que es insesgado Ignacio Cascos Ignacio Cascos Poblaciones normales La varianza muestral es un estimador sesgado de la varianza poblacional 2 Distribución de la media en el muestreo 19 Ignacio Cascos Depto. Estadística, Universidad Carlos III 20 Poblaciones normales Poblaciones normales Distribución de la media con varianza desconocida. Si la muestra procede de una población normal y la varianza es desconocida, podemos reemplazarla por la (cuasi)varianza muestral y obtenemos X −µ X −µ = ~ t n −1 2 2 ˆ S S n −1 n Ignacio Cascos Depto. Estadística, Universidad Carlos III Cociente de varianzas. Si tenemos dos muestras independientes procedentes de distribuciones normales de tal modo que la muestra de X tiene tamaño n y la de Y tamaño m, entonces la distribución del cociente de sus varianzas nS 2 Sˆ 2 muestrales cumple X (n − 1)σ mS Y2 X 2 X (m − 1)σ Y2 21 Ignacio Cascos = σ X2 Sˆ Y2 ~ Fn −1,m −1 σ Y2 Depto. Estadística, Universidad Carlos III Descripción breve del tema Método de Máxima Verosimilitud 1. 2. Partimos de una muestra aleatoria simple X1,X2, ...,Xn que procede de una distribución conocida dependiente de un parámetro (o parámetros) y queremos estimar el valor de estos parámetros. Introducción y conceptos básicos Propiedades de los estimadores 3. Distribución de un estimador en el muestreo 4. 5. 6. Sesgo, Varianza, Error Cuadrático Medio y Consistencia Distribución de la media en el muestreo Distribución de la varianza en el muestreo Distribuciones en el muestreo de poblaciones normales Método de Máxima Verosimilitud Propiedades de los EMVs Inferencia a partir de los EMVs Ignacio Cascos La estimación de dichos parámetros será el valor que maximiza la función de verosimilitud (función de densidad o de probabilidad conjunta) Introducción a los intervalos de confianza y contrastes de hipótesis Depto. Estadística, Universidad Carlos III 22 23 Ignacio Cascos Depto. Estadística, Universidad Carlos III 24 Método de Máxima Verosimilitud Método de Máxima Verosimilitud Los datos procedentes de las n observaciones son (x1,x2,...,xn) = x. El parámetro que deseamos estimar es θ. Si partimos de una variable aleatoria X discreta, la función de verosimilitud será la probabilidad conjunta de la muestra, l (θ | x) = P( X 1 = x1 , X 2 = x2 , K , X n = xn | θ ) = P( X 1 = x1 | θ ) P ( X 2 = x2 | θ ) L P ( X n = xn | θ ) = ∏i =1 p X ( xi | θ ) l (θ | x) = f ( x1 , x2 , K , xn | θ ) = ∏i =1 f X ( xi | θ ) n n Ignacio Cascos Depto. Estadística, Universidad Carlos III 25 Si partimos de una variable aleatoria X continua, la función de verosimilitud será la función de densidad conjunta de la muestra, La función soporte es el logaritmo de la función de verosimilitud, L(θ |x) = ln l(θ |x) Ignacio Cascos Depto. Estadística, Universidad Carlos III Método de Máxima Verosimilitud Descripción breve del tema Nuestro objetivo es buscar el parámetro θ que maximiza la probabilidad de aparición de los valores observados x 1. 2. Resolvemos ∂L(θ | x) = 0 para hallar θˆ ∂θ Depto. Estadística, Universidad Carlos III 27 4. 5. 6. Sesgo, Varianza, Error Cuadrático Medio y Consistencia Distribución de un estimador en el muestreo ∂L2 (θ | x) y comprobamos < 0, entonces θˆMV = θˆ 2 ∂θ θ =θˆ Ignacio Cascos Introducción y conceptos básicos Propiedades de los estimadores 3. 26 Distribución de la media en el muestreo Distribución de la varianza en el muestreo Distribuciones en el muestreo de poblaciones normales Método de Máxima Verosimilitud Propiedades de los EMVs Inferencia a partir de los EMVs Ignacio Cascos Introducción a los intervalos de confianza y contrastes de hipótesis Depto. Estadística, Universidad Carlos III 28 Propiedades de los EMVs Propiedades de los EMVs Bajo ciertas condiciones generales (rango de la variable conocido y no depende de ningún parámetro) los EMVs son: 1. Asintóticamente centrados E[θˆMV ] ⎯n⎯ ⎯→θ →∞ 2. Asintóticamente normales 3. Asintóticamente de varianza mínima −1 2 ˆ )⎞ ⎛ L ( θ ∂ MV ⎟ Var[θˆMV ] = ⎜⎜ − 2 ⎟ ∂θ ⎠ ⎝ 4. Invariantes frente a transformaciones biunívocas. Si g es inyectiva y θˆMV es EMV de θ , θˆMV ≈ N(θ , σ θˆ ) entonces g (θˆMV ) es EMV de g (θ ). MV Ignacio Cascos Depto. Estadística, Universidad Carlos III 29 Ignacio Cascos Depto. Estadística, Universidad Carlos III Descripción breve del tema Inferencia a partir de los EMVs 1. 2. Introducción y conceptos básicos Propiedades de los estimadores 3. Distribución de un estimador en el muestreo 4. 5. 6. Sesgo, Varianza, Error Cuadrático Medio y Consistencia Distribución de la media en el muestreo Distribución de la varianza en el muestreo Distribuciones en el muestreo de poblaciones normales Método de Máxima Verosimilitud Propiedades de los EMVs Inferencia a partir de los EMVs Ignacio Cascos Introducción a los intervalos de confianza y contrastes de hipótesis Depto. Estadística, Universidad Carlos III 31 30 Intervalos de confianza. Conocemos la distribución aproximada de un EMV. Supuesta una muestra aleatoria simple X1,X2, ...,Xn podemos construir un intervalo que contenga el verdadero valor del parámetro con una probabilidad fija 1−α. Para los datos x1,x2,...,xn dicho intervalo se convierte en un IC con nivel de confianza 1−α Ignacio Cascos Depto. Estadística, Universidad Carlos III 32 Intervalos de Confianza Intervalos de Confianza Asintóticamente la distribución de un EMV es Normal −1 / 2 ⎞⎟ θˆMV ≈ N⎛⎜θ , − ∂ 2 L(θˆMV ) ∂θ 2 ⎠ ⎝ ( ) si P( Z ≤ zα / 2 ) = 1 − α / 2 para Z ~ N(0,1) , ⎛ θˆMV − θ entonces P⎜ − zα / 2 < ⎜ − ∂ 2 L(θˆMV ) ∂θ 2 ⎝ ( Ignacio Cascos ) −1 / 2 ⎞ < zα / 2 ⎟ = 1 − α ⎟ ⎠ Depto. Estadística, Universidad Carlos III 33 Inferencia a partir de los EMVs Contrastes de Hipótesis. El conocimiento de la distribución asintótica de los EMVs nos puede servir para contrastar la veracidad de ciertas hipótesis (conjeturas) sobre el parámetro θ ( θˆMV − θ − ∂ L(θˆMV ) ∂θ 2 Ignacio Cascos 2 ) −1 / 2 Depto. Estadística, Universidad Carlos III ~ N(0,1) 35 Finalmente obtenemos ( 2 ˆ P⎛⎜θˆMV − − ∂ L∂(θθ2MV ) ⎝ ) −1 / 2 ( 2 ˆ zα / 2 < θ < θˆMV + − ∂ L∂(θθ2MV ) ) −1 / 2 zα / 2 ⎞⎟ = 1 − α ⎠ Donde la amplitud del intervalo depende de la varianza del EMV, y en consecuencia del tamaño de la muestra. Ignacio Cascos Depto. Estadística, Universidad Carlos III 34