Estadı́stica y sus aplicaciones en Ciencias Sociales 5. Estimación Facultad de Ciencias Sociales, UdelaR Índice 1. Repaso: estimadores y estimaciones. Propiedades de los estimadores. 2. Estimación puntual. Propiedades. Estimación de la media poblacional. Estimación de una proporción. 3. Intervalo aleatorio y estimación por intervalos de confianza. Intervalos para medias y proporciones. 5.1. Estimadores y estimaciones El objetivo de la inferencia estadı́stica es extraer conclusiones sobre una población a partir de la información contenida en una muestra aleatoria de la misma. La distribución de una variable en la población se caracteriza a partir de algunos parámetros poblacionales (media, varianza, etc.) que denotamos θ. ⇒ usamos la inferencia estadı́stica para obtener información sobre los valores de los parámetros poblacionales, basándonos en la información contenida en la muestra. Para dar un valor numérico al parámetro θ usando la información de la muestra se construye una función h(·) : Rn → Θ (donde Θ es el conjunto de todos los valores posibles de θ o espacio paramétrico). Dicha función h(X1 , X2 , . . . , Xn ), que asocia a cada muestra un elemento del espacio paramétrico se llama estimador de θ. Un estimador es un estadı́stico, cuya elección dependerá del parámetro poblacional que nos interese. El valor h(x1 , x2 , . . . , xn ) que el estimador toma en una muestra concreta es una estimación del parámetro. Estimación puntual: se selecciona un estadı́stico muestral que se utiliza como estimador del parámetro poblacional. Se obtiene a partir de las observaciones muestrales un único valor numérico para el parámetro desconocido. Estimación por intervalos: se especifica un rango de valores posibles dentro de los cuales puede encontrarse el verdadero valor del parámetro y se le asocia una probabilidad que representa un determinado nivel de confianza. Contraste o prueba de hipótesis: se plantea una hipótesis sobre el valor del parámetro (θ) y se utiliza la información proporcionada por la muestra para decidir si la hipótesis se rechaza o no. Propiedades de los estimadores: Definición: sesgo de un estimador Si consideramos un parámetro θ y su estimador θb podemos definir el sesgo como la diferencia entre el valor esperado del estimador y el parámetro a estimar: B θb = E θb − θ Si la media de la distribución del estimador coincide con el parámetro que con él se busca estimar, su sesgo es igual a cero. Los estimadores que tienen esta propiedad se denominan insesgados. Su distribución está centrada en el valor del parámetro. Ejemplo: la media muestral X es un estimador insesgado de la media poblacional µ porque la media de la distribución de la media muestral es µ. Por tanto, E X = µ. El gráfico muestra las distribuciones de dos estimadores del parámetro θ, uno sesgado θb1 y otro insesgado θb2 . f(𝜃) f(𝜃! ) f(𝜃! ) θ 𝜃 Definición: Error Cuadrático Medio b que denotamos ECM θb , El Error Cuadrático Medio de un estimador θ, es el valor esperado del cuadrado de la diferencia entre θb y el parámetro θ, es decir: 2 ECM θb = E θb − θ El ECM es la suma de dos componentes no negativos: h i2 ECM θb = Var θb + B θb El error cuadrático medio de un estimador es igual a su varianza más su sesgo al cuadrado. Cuando se comparan estimadores, importa si son sesgados o insesgados, e importan también las varianzas. En esta situación un criterio para elegir entre varios estimadores podrı́a ser la minimización del ECM. No es fácil obtener siempre un estimador θb que haga mı́nimo su ECM para todos los valores posibles de θ. Un estimador θb puede dar lugar a un ECM mı́nimo para algunos valores del parámetro θ, mientras que otro estimador θe puede dar lugar a un ECM mı́nimo para valores diferentes de θ. Definición: Eficiencia Se considera los estimadores insesgados y entre éstos se busca el que tenga b el error cuadrático medio ECM θ mı́nimo. Si un estimador θb es insesgado B θb = 0. Entonces: ECM θb = Var θb Por tanto se busca obtener, de entre todos los estimadores insesgados, un estimador que tenga varianza mı́nima, si es que existe. Éste será el estimador insesgado de varianza mı́nima o estimador eficiente. Supongamos que θb1 y θb2 son estimadores insesgados de θ. θb1 es un estimador más eficiente que θb2 si, en muestreos repetidos con un tamaño muestral dado, su varianza es menor que la de θb2 . Para el estimador con varianza más pequeña los valores posibles para θ estarán menos dispersos. Gráficamente: f(𝜃) f(𝜃! ) f(𝜃! ) θ 𝜃 Definición: Consistencia Convergencia en probabilidad: Dados una variable aleatoria Xn (que depende de n), y una constante k, si para cualquier ε > 0 se cumple que P(|Xn − k| > ε) → 0 cuando n → ∞, entonces Xn converge en probabilidad a k. Definición: Si tenemos un estimador θb para un parámetro θ, si θb converge en probabilidad a θ, entonces se dice que θb es un estimador consistente para θ. Un estimador es consistente si, a medida que n aumenta, el valor del estadı́stico se aproxima al parámetro. Condición suficiente: un estimador cuyo ECM tiende a 0 cuando n → ∞ es consistente. Por tanto, un estimador insesgado cuya varianza se aproxima a cero a medida que n aumenta será consistente. Ejemplo: la varianza de la media muestral es: σX2 = σ 2 /n. A medida que n aumenta n, se aproximará a cero. Por tanto, X n es un estimador consistente de µ. Si un estadı́stico no es un estimador consistente, tomar una muestra más grande no mejorará la precisión de la estimación. Parámetros y estimadores Parámetro poblacional θ Media µ Estimador puntual insesgado θb Valor esperado Varianza b E (θ) b V (θ) µ σ2 n c2 = s 2 = Pn (Xi −X ) σ i=1 n−1 σ2 E (X −µ)4 n−3 − n(n−1) σ4 n Pn p p(1−p) n µ b=X = Pn Xi i=1 n 2 Varianza σ 2 proporción p pb= Xi i=1 n 5.2 Estimación puntual Consiste en obtener un único número, calculado a partir de las observaciones muestrales, utilizado como estimación del parámetro θ. El estimador θb tendrá su distribución en el muestreo. Para diferentes b realizaciones de una muestra de tamaño n se tendrá diferentes valores de θ. 5.3. Estimación por intervalos Los estimadores “puntuales” son funciones de las observaciones muestrales. Cuando se calcula el valor del estimador para una muestra concreta entonces se tiene una estimación puntual, valor que en general diferirá del verdadero valor del parámetro θ. Dado que el estimador es una variable aleatoria y tiene una distribución, es posible acompañar la estimación del parámetro con alguna medida del posible error asociado a la estimación (precisión), que se traduce en un intervalo o rango de valores para θ, acompañado de la probabilidad de que el parámetro se encuentre en este intervalo (confianza). Los intervalos serán del tipo: h b θ(X1 , X2 , . . . , Xn ) , b θ(X1 , X2 , . . . , Xn ) i Los extremos del intervalo son estadı́sticos. Variarán de manera aleatoria de una muestra a otra, pues dependen de las observaciones de la muestra. Tanto los extremos del intervalo como su amplitud serán aleatorios. No podremos saber con seguridad si el valor del parámetro θ se encuentra dentro del intervalo obtenido una vez seleccionada una sola muestra. Se busca obtener un intervalo de la amplitud deseada y con alta probabilidad de contener al parámetro θ. Se elige la probabilidad deseada, que se representa por (1 − α). Los valores usuales son 0, 90, 0, 95 y 0, 99. α es la probabilidad de error o la probabilidad de que un intervalo dado no contenga el valor del parámetro desconocido. Al valor 100·(1 − α) % se le llama nivel de confianza. Para obtener una estimación por intervalo del parámetro poblacional θ θ(X1 , X2 , . . . , Xn ) nos desconocido, los estadı́sticos b θ(X1 , X2 , . . . , Xn ) y b darán los valores extremos del intervalo, tales que: i h θ(X1 , X2 , . . . , Xn ) = 1 − α P b θ(X1 , X2 , . . . , Xn ) ≤ θ ≤ b Se trata de un intervalo aleatorio, pues los extremos dependen de la muestra seleccionada. b θyb θ son variables aleatorias. El parámetro θ es desconocido. En consecuencia, antes de seleccionar la muestra podemos decir quehla i θ θ, b probabilidad de que el parámetro θ tome algún valor en el intervalo b es igual a (1 − α). Esto no será correcto decirlo después de seleccionar la muestra. Para una muestra dada se tendrá dos valores concretos a y b para los lı́mites inferior e superior del intervalo. No podemos afirmar que P (a ≤ θ ≤ b) = (1 − α); no tiene sentido pues a, b y θ son tres constantes. No hay nada aleatorio en el intervalo una vez extraı́da la muestra. No nos referimos a la probabilidad del intervalo numérico sino al nivel de confianza del intervalo. La interpretación es que si consideramos un número grande de muestras del mismo tamaño y calculamos los lı́mites inferior y superior para cada muestra, se obtendrá que aproximadamente el 100·(1 − α) % de los intervalos resultantes contendrán al valor del parámetro θ. Como aproximadamente el 100·α % restante no contendrá al valor del parámetro θ, al intervalo particular obtenido (a, b) se le llama intervalo para θ al nivel de confianza del 100·(1 − α) %. Se refiere a la regla con la cual fue construido, y no a la probabilidad de que θ esté entre esos dos valores (a, b) en particular. Estimación por intervalos. Ejemplos 1. Media de una población normal- σ conocida Sea una población N(µ, σ 2 ), con σ conocido. Se quiere obtener un intervalo de confianza para µ al nivel de confianza 100·(1 − α) %. Se toma una muestra aleatoria (X1 , X2 , . . . , Xn ). 2 La media muestral X ∼ N µ, σn , por lo cual Z= X −µ √ ∼ N (0, 1 ) σ/ n La idéntica distribución se refiere a que todas las observaciones provienen de la misma población y son generadas por el mismo mecanismo estadı́stico. Sabemos que P −z1−α/2 ≤ X −µ √ σ/ n < z1−α/2 =1−α Donde z1−α/2 es el valor de la distribución normal (0, 1) que acumula una probabilidad igual a 1 − α/2 para valores menores o iguales. Esto nos da el intervalo aleatorio √ P X − z1−α/2 · σ/ n ≤ µ < √ X + z1−α/2 · σ/ n = 1 − α El gráfico siguiente muestra la obtención de sucesivos intervalos para la media µ de una población N(µ, σ 2 ), con σ conocida, de la forma: σ X n − z1−α/2 √ n , σ X n + z1−α/2 √ n θ(X1 , X2 , . . . , Xn ) = donde b θ(X1 , X2 , . . . , Xn ) = X n − z1−α/2 √σn y b X n + z1−α/2 √σn , considerando como coeficiente de confianza (1 − α) = 0, 95 𝑓! (x) µμ– z!!!/! 𝜎/ 𝑛 µμ + z!!!/! 𝜎/ 𝑛 α/2 1–α = 0,95 α/2 = 0,025 x µ θ = x! – z!!!/! 𝜎/ 𝑛 x! θ = x! + z!!!/! 𝜎/ 𝑛 Interpretación: “Si se toma un número grande de muestras aleatorias de tamaño n de la θ para cada muestra, se espera que misma población y se calcula b θyb aproximadamente el 95 % de los intervalos contenga el verdadero valor del parámetro µ y que el 5 % restante no lo contenga. En la práctica sólo se tiene una muestra aleatoria y, por tanto, sólo un intervalo de confianza. No se conoce si el intervalo obtenido es uno entre el 95 % que contiene a µ o uno entre el 5 % que no lo contiene. Por eso se habla de que se tiene un nivel de confianza de 95 %.” Ejemplo: De una población normal se toma una muestra aleatoria cuya media es 25. Obtener un intervalo de confianza para la media poblacional m en los siguientes casos: 1. n = 16; σ = 6; 1 − α = 0,90; 2. n = 64; σ = 6; 1 − α = 0,90; 3. n = 16; σ = 10; 1 − α = 0,90; (mayor varianza) 4. n = 16; σ = 10; 1 − α = 0,95; (mayor confianza deseada) (mayor tamaño muestral) √ Forma del intervalo: x − z1−α/2 · σ/ n , √ x + z1−α/2 · σ/ n 1. con x = 25, σ = 6, n = 16, 1 − α = 0, 90 tenemos α/2 = 0, 05 y z0,95 = 1, 645 (tabla). Intervalo: [25 − 1, 645 · 6/4 , 25 + 1, 645 · 6/4] = [22, 54, 27, 46] 2. con x = 25, σ = 6, n = 64, 1 − α = 0, 90. Por tanto α/2 = 0, 05 y z0,95 = 1, 645 (tabla). Intervalo: [25 − 1, 645 · 6/8 , 25 + 1, 645 · 6/8] = [23, 77, 26, 23] Mayor tamaño de la muestra disminuye la amplitud del intervalo y, por tanto, aumenta la precisión. 3. para x = 25, σ = 10, n = 16, 1 − α = 0, 90 (mayor desvı́o). Intervalo: [25 − 1, 645 · 10/4 , 25 + 1, 645 · 10/4] = [20, 88, 29, 11] Mayor desviación estándar de la variable: aumenta la amplitud del intervalo y disminuye la precisión. 4. con x = 25, σ = 6, n = 16, 1 − α = 0, 95. Por tanto α/2 = 0, 025 y z0,975 = 1, 96 (tabla). Intervalo: [25 − 1, 96 · 6/4 , 25 + 1, 96 · 6/4] = [22, 06, 27, 94] Mayor nivel de confianza requerido, aumenta la amplitud del intervalo y disminuye la precisión. 2. Media de una población normal, σ desconocida X ∼ N(µ, σ 2 ), con µ y σ desconocidos. Se quiere un intervalo de confianza para µ al nivel de confianza 100·(1 − α) %. Se toma una muestra aleatoria (X1 , X2 , . . . , Xn ). En este caso el estadı́stico será: t= X −µ √ ∼ t (n−1) s/ n que se distribuye según una t-student con n − 1 grados de libertad, siendo s el desvı́o estándar muestral. Distribución t-student y distribución normal La distribución t-student, al igual que la distribución normal estándar Z tiene media cero, es simétrica respecto a la media y toma valores entre −∞ y +∞. Mientras que la distribución Z tiene varianza uno, la varianza de la t es mayor que uno. Por tanto, es m ás dispersa que Z . A medida que n aumenta, la distribución t se aproxima a la distribución Z . Puede aproximarse la t con la distribución Z cuando n ≥ 30. Z o t con n ≥ (30) t(15) µ t(10) Ejemplo: Un fabricante de vehı́culos sabe que el consumo de gasolina de sus vehı́culos se distribuye normal. Se selecciona una muestra aleatoria de 6 coches y se observa el consumo cada 100 km, obteniéndose una media de 19, 48 y un desvı́o de 1, 06. Se solicita: obtener los intervalos de confianza para el consumo medio de gasolina a los niveles de confianza del 90 % y del 95 %. El intervalo de confianza para la media poblacional cuando el desvı́o estándar es desconocido tiene la forma: √ √ (n−1) (n−1) X − t1−α/2 · s/ n , X + t1−α/2 · s/ n Utilizando una t-student con 6 − 1 = 5 grados de libertad: Intervalo para µ con 1 − α = 0, 90 : √ (n−1) X − t1−α/2 · s/ n 1, 06 19, 48 − 2, 015 · √ 6 , , √ (n−1) X + t1−α/2 · s/ n 1, 06 19, 48 + 2, 015 · √ 6 = (18, 61, 20, 35) Intervalo para µ con 1 − α = 0, 95 : 1, 06 19, 48 − 2, 571 · √ 6 , 1, 06 19, 48 + 2, 571 · √ 6 = (18, 37, 20, 59) Se puede observar que si se desea mayor nivel de confianza el intervalo se hace más amplio: existe una relación negativa entre confianza y precisión. Los resultados presentados se refieren a poblaciones normales. Para estas poblaciones podrá usarse en general el estadı́stico Z (normal estándar), tanto cuando la distribución es exacta (varianza conocida, muestras chicas o grandes) como cuando es aproximada (varianza desconocida, muestras grandes). Cuando la varianza es desconocida y la muestra es pequeña (n < 30) se usa la distribución t. 3. Media de cualquier población, muestras grandes Para cualquier población, si conocemos la desviación estándar σ, la distribución aproximada de la media estandarizada en muestras grandes es √ X n − µX D n → N(0, 1) σ Por lo general no será el caso, por lo que usaremos el resultado que indica que √ X n − µX D n → N(0, 1) s 4. Proporción poblacional Muchas veces es de interés estimar la proporción de la población con cierta caracterı́stica (por ejemplo, proporción de votantes de determinado partido polı́tico). Para estimar una proporción poblacional (p), utilizaremos la proporción muestral pb como estimador. La estimación las proporciones muestrales es similar a la de las medias. De cualquier población es posible obtener muchas muestras diferentes de un tamaño dado. Cada muestra tendrá su propia proporción de “éxitos”. Al igual que con la media muestral, el valor esperado de la distribución muestral de las proporciones muestrales será igual a la proporción de éxitos en la población: E (b p) = p El error estándar de la distribución muestral de la proporción será: r p (1 − p) σpb = n A su vez, cuando n es grande, la distribución de la proporción muestral será aproximadamente normal: p (1 − p) pb ∼ N p, n Por tanto, para la estimación de un intervalo de confianza para la proporción muestral podemos utilizar el estadı́stico: Z= pb − p σpb La varianza del estimador de la proporciónqmuestral depende del parámetro p que deseamos estimar: σpb = p(1−p) . Se usa el estimador del n error estándar de la distribución de las proporciones muestrales, dado por: r pb (1 − pb) spb = n El intervalo aleatorio vendrá dado por: pb − p ≤ z1−α/2 = 1 − α P −z1−α/2 ≤ spb Operando obtenemos: P pb − z1−α/2 · spb ≤ p ≤ pb + z1−α/2 · spb = 1 − α Por lo que el intervalo de confianza es: pb − z1−α/2 · spb , pb + z1−α/2 · spb Ejemplo: Se quiere determinar qué porcentaje de casas de la ciudad de Montevideo tienen más de un televisor. Una muestra aleatoria de 500 casas revela que 275 tienen dos o más televisores. ¿Cuál es el intervalo de confianza del 90 % para estimar la proporción? Proporción muestral: pb = 275/500 = 0, 55 Estimación del error estándar de la distribución de la proporción muestral: r r pb (1 − pb) 0, 55 (0, 45) = = 0, 007 spb = n 500 Intervalo aleatorio: P pb − z0,95 · spb ≤ p ≤ pb + z0,95 · spb = 0, 9 Buscando en la tabla de la normal estándar tenemos: [0,55 − 1, 65 · 0, 007 , 0,55 + 1, 65 · 0, 007] , 0,561] Intervalo de confianza. [0,538 Podemos tener confianza de que en el 90 % de los intervalos obtenidos de esta manera se encuentra el valor poblacional.