5. Estimación

Anuncio
Estadı́stica y sus aplicaciones en Ciencias Sociales
5. Estimación
Facultad de Ciencias Sociales, UdelaR
Índice
1. Repaso: estimadores y estimaciones. Propiedades de los
estimadores.
2. Estimación puntual. Propiedades. Estimación de la media
poblacional. Estimación de una proporción.
3. Intervalo aleatorio y estimación por intervalos de confianza.
Intervalos para medias y proporciones.
5.1. Estimadores y estimaciones
El objetivo de la inferencia estadı́stica es extraer conclusiones sobre una
población a partir de la información contenida en una muestra aleatoria de
la misma.
La distribución de una variable en la población se caracteriza a partir de
algunos parámetros poblacionales (media, varianza, etc.) que denotamos θ.
⇒ usamos la inferencia estadı́stica para obtener información sobre los
valores de los parámetros poblacionales, basándonos en la información
contenida en la muestra.
Para dar un valor numérico al parámetro θ usando la información de la
muestra se construye una función h(·) : Rn → Θ (donde Θ es el conjunto
de todos los valores posibles de θ o espacio paramétrico).
Dicha función h(X1 , X2 , . . . , Xn ), que asocia a cada muestra un elemento
del espacio paramétrico se llama estimador de θ.
Un estimador es un estadı́stico, cuya elección dependerá del parámetro
poblacional que nos interese. El valor h(x1 , x2 , . . . , xn ) que el estimador
toma en una muestra concreta es una estimación del parámetro.
Estimación puntual: se selecciona un estadı́stico muestral que se utiliza
como estimador del parámetro poblacional. Se obtiene a partir de las
observaciones muestrales un único valor numérico para el parámetro
desconocido.
Estimación por intervalos: se especifica un rango de valores posibles
dentro de los cuales puede encontrarse el verdadero valor del parámetro y
se le asocia una probabilidad que representa un determinado nivel de
confianza.
Contraste o prueba de hipótesis: se plantea una hipótesis sobre el valor
del parámetro (θ) y se utiliza la información proporcionada por la muestra
para decidir si la hipótesis se rechaza o no.
Propiedades de los estimadores:
Definición: sesgo de un estimador
Si consideramos un parámetro θ y su estimador θb podemos definir el sesgo
como la diferencia entre el valor esperado del estimador y el parámetro a
estimar:
B θb = E θb − θ
Si la media de la distribución del estimador coincide con el parámetro que
con él se busca estimar, su sesgo es igual a cero. Los estimadores que
tienen esta propiedad se denominan insesgados. Su distribución está
centrada en el valor del parámetro.
Ejemplo: la media muestral X es un estimador insesgado de la media
poblacional µ porque
la media de la distribución de la media muestral es
µ. Por tanto, E X = µ. El gráfico muestra las distribuciones de dos
estimadores del parámetro θ, uno sesgado θb1 y otro insesgado θb2 .
f(𝜃) f(𝜃! ) f(𝜃! ) θ 𝜃 Definición: Error Cuadrático Medio
b que denotamos ECM θb ,
El Error Cuadrático Medio de un estimador θ,
es el valor esperado del cuadrado de la diferencia entre θb y el parámetro θ,
es decir:
2 ECM θb = E θb − θ
El ECM es la suma de dos componentes no negativos:
h i2
ECM θb = Var θb + B θb
El error cuadrático medio de un estimador es igual a su varianza más su
sesgo al cuadrado.
Cuando se comparan estimadores, importa si son sesgados o insesgados, e
importan también las varianzas. En esta situación un criterio para elegir
entre varios estimadores podrı́a ser la minimización del ECM.
No es fácil obtener siempre un estimador θb que haga mı́nimo su ECM para
todos los valores posibles de θ. Un estimador θb puede dar lugar a un ECM
mı́nimo para algunos valores del parámetro θ, mientras que otro estimador
θe puede dar lugar a un ECM mı́nimo para valores diferentes de θ.
Definición: Eficiencia
Se considera los estimadores insesgados
y entre éstos se busca el que tenga
b
el error cuadrático medio ECM θ mı́nimo. Si un estimador θb es
insesgado B θb = 0. Entonces:
ECM θb = Var θb
Por tanto se busca obtener, de entre todos los estimadores insesgados,
un estimador que tenga varianza mı́nima, si es que existe. Éste será el
estimador insesgado de varianza mı́nima o estimador eficiente.
Supongamos que θb1 y θb2 son estimadores insesgados de θ. θb1 es un
estimador más eficiente que θb2 si, en muestreos repetidos con un tamaño
muestral dado, su varianza es menor que la de θb2 . Para el estimador con
varianza más pequeña los valores posibles para θ estarán menos dispersos.
Gráficamente:
f(𝜃) f(𝜃! ) f(𝜃! ) θ 𝜃 Definición: Consistencia
Convergencia en probabilidad: Dados una variable aleatoria Xn (que
depende de n), y una constante k, si para cualquier ε > 0 se cumple que
P(|Xn − k| > ε) → 0
cuando n → ∞, entonces Xn converge en probabilidad a k.
Definición: Si tenemos un estimador θb para un parámetro θ, si θb
converge en probabilidad a θ, entonces se dice que θb es un estimador
consistente para θ.
Un estimador es consistente si, a medida que n aumenta, el valor del
estadı́stico se aproxima al parámetro.
Condición suficiente: un estimador cuyo ECM tiende a 0 cuando n → ∞
es consistente. Por tanto, un estimador insesgado cuya varianza se
aproxima a cero a medida que n aumenta será consistente.
Ejemplo: la varianza de la media muestral es: σX2 = σ 2 /n. A medida que
n
aumenta n, se aproximará a cero. Por tanto, X n es un estimador
consistente de µ.
Si un estadı́stico no es un estimador consistente, tomar una muestra más
grande no mejorará la precisión de la estimación.
Parámetros y estimadores
Parámetro
poblacional θ
Media µ
Estimador puntual
insesgado θb
Valor esperado
Varianza
b
E (θ)
b
V (θ)
µ
σ2
n
c2 = s 2 = Pn (Xi −X )
σ
i=1
n−1
σ2
E (X −µ)4
n−3
− n(n−1)
σ4
n
Pn
p
p(1−p)
n
µ
b=X =
Pn
Xi
i=1 n
2
Varianza σ 2
proporción p
pb=
Xi
i=1 n
5.2 Estimación puntual
Consiste en obtener un único número, calculado a partir de las
observaciones muestrales, utilizado como estimación del parámetro θ.
El estimador θb tendrá su distribución en el muestreo. Para diferentes
b
realizaciones de una muestra de tamaño n se tendrá diferentes valores de θ.
5.3. Estimación por intervalos
Los estimadores “puntuales” son funciones de las observaciones
muestrales. Cuando se calcula el valor del estimador para una muestra
concreta entonces se tiene una estimación puntual, valor que en general
diferirá del verdadero valor del parámetro θ.
Dado que el estimador es una variable aleatoria y tiene una distribución, es
posible acompañar la estimación del parámetro con alguna medida del
posible error asociado a la estimación (precisión), que se traduce en un
intervalo o rango de valores para θ, acompañado de la probabilidad de que
el parámetro se encuentre en este intervalo (confianza).
Los intervalos serán del tipo:
h
b
θ(X1 , X2 , . . . , Xn ) ,
b
θ(X1 , X2 , . . . , Xn )
i
Los extremos del intervalo son estadı́sticos. Variarán de manera aleatoria
de una muestra a otra, pues dependen de las observaciones de la muestra.
Tanto los extremos del intervalo como su amplitud serán aleatorios. No
podremos saber con seguridad si el valor del parámetro θ se encuentra
dentro del intervalo obtenido una vez seleccionada una sola muestra.
Se busca obtener un intervalo de la amplitud deseada y con alta
probabilidad de contener al parámetro θ.
Se elige la probabilidad deseada, que se representa por (1 − α). Los valores
usuales son 0, 90, 0, 95 y 0, 99. α es la probabilidad de error o la
probabilidad de que un intervalo dado no contenga el valor del parámetro
desconocido. Al valor 100·(1 − α) % se le llama nivel de confianza.
Para obtener una estimación por intervalo del parámetro poblacional θ
θ(X1 , X2 , . . . , Xn ) nos
desconocido, los estadı́sticos b
θ(X1 , X2 , . . . , Xn ) y b
darán los valores extremos del intervalo, tales que:
i
h
θ(X1 , X2 , . . . , Xn ) = 1 − α
P b
θ(X1 , X2 , . . . , Xn ) ≤ θ ≤ b
Se trata de un intervalo aleatorio, pues los extremos dependen de la
muestra seleccionada. b
θyb
θ son variables aleatorias. El parámetro θ es
desconocido.
En consecuencia, antes de seleccionar la muestra podemos decir quehla i
θ
θ, b
probabilidad de que el parámetro θ tome algún valor en el intervalo b
es igual a (1 − α). Esto no será correcto decirlo después de seleccionar la
muestra.
Para una muestra dada se tendrá dos valores concretos a y b para los
lı́mites inferior e superior del intervalo. No podemos afirmar que
P (a ≤ θ ≤ b) = (1 − α); no tiene sentido pues a, b y θ son tres
constantes. No hay nada aleatorio en el intervalo una vez extraı́da la
muestra.
No nos referimos a la probabilidad del intervalo numérico sino al nivel de
confianza del intervalo.
La interpretación es que si consideramos un número grande de muestras
del mismo tamaño y calculamos los lı́mites inferior y superior para cada
muestra, se obtendrá que aproximadamente el 100·(1 − α) % de los
intervalos resultantes contendrán al valor del parámetro θ.
Como aproximadamente el 100·α % restante no contendrá al valor del
parámetro θ, al intervalo particular obtenido (a, b) se le llama intervalo
para θ al nivel de confianza del 100·(1 − α) %. Se refiere a la regla con la
cual fue construido, y no a la probabilidad de que θ esté entre esos dos
valores (a, b) en particular.
Estimación por intervalos. Ejemplos
1. Media de una población normal- σ conocida
Sea una población N(µ, σ 2 ), con σ conocido. Se quiere obtener un
intervalo de confianza para µ al nivel de confianza 100·(1 − α) %. Se toma
una muestra aleatoria (X1 , X2 , . . . , Xn ).
2
La media muestral X ∼ N µ, σn , por lo cual
Z=
X −µ
√ ∼ N (0, 1 )
σ/ n
La idéntica distribución se refiere a que todas las observaciones provienen
de la misma población y son generadas por el mismo mecanismo
estadı́stico.
Sabemos que
P −z1−α/2
≤
X −µ
√
σ/ n
<
z1−α/2
=1−α
Donde z1−α/2 es el valor de la distribución normal (0, 1) que acumula una
probabilidad igual a 1 − α/2 para valores menores o iguales.
Esto nos da el intervalo aleatorio
√
P X − z1−α/2 · σ/ n
≤
µ
<
√ X + z1−α/2 · σ/ n = 1 − α
El gráfico siguiente muestra la obtención de sucesivos intervalos para la
media µ de una población N(µ, σ 2 ), con σ conocida, de la forma:
σ
X n − z1−α/2 √
n
,
σ
X n + z1−α/2 √
n
θ(X1 , X2 , . . . , Xn ) =
donde b
θ(X1 , X2 , . . . , Xn ) = X n − z1−α/2 √σn y b
X n + z1−α/2 √σn , considerando como coeficiente de confianza
(1 − α) = 0, 95
𝑓! (x) µμ– z!!!/! 𝜎/ 𝑛 µμ + z!!!/! 𝜎/ 𝑛 α/2 1–α = 0,95 α/2 = 0,025 x µ θ = x! – z!!!/! 𝜎/
𝑛 x! θ = x! + z!!!/! 𝜎/ 𝑛 Interpretación:
“Si se toma un número grande de muestras aleatorias de tamaño n de la
θ para cada muestra, se espera que
misma población y se calcula b
θyb
aproximadamente el 95 % de los intervalos contenga el verdadero valor del
parámetro µ y que el 5 % restante no lo contenga.
En la práctica sólo se tiene una muestra aleatoria y, por tanto, sólo un
intervalo de confianza. No se conoce si el intervalo obtenido es uno entre
el 95 % que contiene a µ o uno entre el 5 % que no lo contiene. Por eso se
habla de que se tiene un nivel de confianza de 95 %.”
Ejemplo:
De una población normal se toma una muestra aleatoria cuya media
es 25. Obtener un intervalo de confianza para la media poblacional m en
los siguientes casos:
1. n = 16;
σ = 6;
1 − α = 0,90;
2. n = 64;
σ = 6;
1 − α = 0,90;
3. n = 16;
σ = 10;
1 − α = 0,90;
(mayor varianza)
4. n = 16;
σ = 10;
1 − α = 0,95;
(mayor confianza deseada)
(mayor tamaño muestral)
√
Forma del intervalo: x − z1−α/2 · σ/ n
,
√ x + z1−α/2 · σ/ n
1. con x = 25, σ = 6, n = 16, 1 − α = 0, 90 tenemos α/2 = 0, 05 y
z0,95 = 1, 645 (tabla).
Intervalo: [25 − 1, 645 · 6/4
,
25 + 1, 645 · 6/4] = [22, 54, 27, 46]
2. con x = 25, σ = 6, n = 64, 1 − α = 0, 90. Por tanto α/2 = 0, 05 y
z0,95 = 1, 645 (tabla).
Intervalo: [25 − 1, 645 · 6/8 ,
25 + 1, 645 · 6/8] = [23, 77, 26, 23]
Mayor tamaño de la muestra disminuye la amplitud del intervalo y,
por tanto, aumenta la precisión.
3. para x = 25, σ = 10, n = 16, 1 − α = 0, 90 (mayor desvı́o).
Intervalo: [25 − 1, 645 · 10/4
,
25 + 1, 645 · 10/4] = [20, 88, 29, 11]
Mayor desviación estándar de la variable: aumenta la amplitud del
intervalo y disminuye la precisión.
4. con x = 25, σ = 6, n = 16, 1 − α = 0, 95. Por tanto α/2 = 0, 025 y
z0,975 = 1, 96 (tabla).
Intervalo: [25 − 1, 96 · 6/4
,
25 + 1, 96 · 6/4] = [22, 06, 27, 94]
Mayor nivel de confianza requerido, aumenta la amplitud del
intervalo y disminuye la precisión.
2. Media de una población normal, σ desconocida
X ∼ N(µ, σ 2 ), con µ y σ desconocidos. Se quiere un intervalo de
confianza para µ al nivel de confianza 100·(1 − α) %. Se toma una
muestra aleatoria (X1 , X2 , . . . , Xn ). En este caso el estadı́stico será:
t=
X −µ
√ ∼ t (n−1)
s/ n
que se distribuye según una t-student con n − 1 grados de libertad,
siendo s el desvı́o estándar muestral.
Distribución t-student y distribución normal
La distribución t-student, al igual que la distribución normal estándar Z
tiene media cero, es simétrica respecto a la media y toma valores entre
−∞ y +∞. Mientras que la distribución Z tiene varianza uno, la varianza
de la t es mayor que uno. Por tanto, es m ás dispersa que Z . A medida
que n aumenta, la distribución t se aproxima a la distribución Z . Puede
aproximarse la t con la distribución Z cuando n ≥ 30.
Z o t con n ≥ (30) t(15) µ t(10) Ejemplo:
Un fabricante de vehı́culos sabe que el consumo de gasolina de sus
vehı́culos se distribuye normal. Se selecciona una muestra aleatoria de 6
coches y se observa el consumo cada 100 km, obteniéndose una media de
19, 48 y un desvı́o de 1, 06. Se solicita: obtener los intervalos de confianza
para el consumo medio de gasolina a los niveles de confianza del 90 % y
del 95 %.
El intervalo de confianza para la media poblacional cuando el desvı́o
estándar es desconocido tiene la forma:
√
√ (n−1)
(n−1)
X − t1−α/2 · s/ n , X + t1−α/2 · s/ n
Utilizando una t-student con 6 − 1 = 5 grados de libertad:
Intervalo para µ con 1 − α = 0, 90 :
√
(n−1)
X − t1−α/2 · s/ n
1, 06
19, 48 − 2, 015 · √
6
,
,
√ (n−1)
X + t1−α/2 · s/ n
1, 06
19, 48 + 2, 015 · √
6
= (18, 61, 20, 35)
Intervalo para µ con 1 − α = 0, 95 :
1, 06
19, 48 − 2, 571 · √
6
,
1, 06
19, 48 + 2, 571 · √
6
= (18, 37, 20, 59)
Se puede observar que si se desea mayor nivel de confianza el intervalo se
hace más amplio: existe una relación negativa entre confianza y precisión.
Los resultados presentados se refieren a poblaciones normales.
Para estas poblaciones podrá usarse en general el estadı́stico Z (normal
estándar), tanto cuando la distribución es exacta (varianza conocida,
muestras chicas o grandes) como cuando es aproximada (varianza
desconocida, muestras grandes). Cuando la varianza es desconocida y la
muestra es pequeña (n < 30) se usa la distribución t.
3. Media de cualquier población, muestras grandes
Para cualquier población, si conocemos la desviación estándar σ, la
distribución aproximada de la media estandarizada en muestras grandes es
√
X n − µX D
n
→ N(0, 1)
σ
Por lo general no será el caso, por lo que usaremos el resultado que indica
que
√
X n − µX D
n
→ N(0, 1)
s
4. Proporción poblacional
Muchas veces es de interés estimar la proporción de la población con cierta
caracterı́stica (por ejemplo, proporción de votantes de determinado partido
polı́tico).
Para estimar una proporción poblacional (p), utilizaremos la proporción
muestral pb como estimador.
La estimación las proporciones muestrales es similar a la de las medias. De
cualquier población es posible obtener muchas muestras diferentes de un
tamaño dado. Cada muestra tendrá su propia proporción de “éxitos”.
Al igual que con la media muestral, el valor esperado de la distribución
muestral de las proporciones muestrales será igual a la proporción de éxitos
en la población:
E (b
p) = p
El error estándar de la distribución muestral de la proporción será:
r
p (1 − p)
σpb =
n
A su vez, cuando n es grande, la distribución de la proporción muestral
será aproximadamente normal:
p (1 − p)
pb ∼ N p,
n
Por tanto, para la estimación de un intervalo de confianza para la
proporción muestral podemos utilizar el estadı́stico:
Z=
pb − p
σpb
La varianza del estimador de la proporciónqmuestral depende del
parámetro p que deseamos estimar: σpb = p(1−p)
. Se usa el estimador del
n
error estándar de la distribución de las proporciones muestrales, dado por:
r
pb (1 − pb)
spb =
n
El intervalo aleatorio vendrá dado por:
pb − p
≤ z1−α/2 = 1 − α
P −z1−α/2 ≤
spb
Operando obtenemos:
P pb − z1−α/2 · spb
≤
p
≤
pb + z1−α/2 · spb = 1 − α
Por lo que el intervalo de confianza es:
pb − z1−α/2 · spb ,
pb + z1−α/2 · spb
Ejemplo:
Se quiere determinar qué porcentaje de casas de la ciudad de Montevideo
tienen más de un televisor. Una muestra aleatoria de 500 casas revela que
275 tienen dos o más televisores. ¿Cuál es el intervalo de confianza del
90 % para estimar la proporción?
Proporción muestral: pb = 275/500 = 0, 55
Estimación del error estándar de la distribución de la proporción muestral:
r
r
pb (1 − pb)
0, 55 (0, 45)
=
= 0, 007
spb =
n
500
Intervalo aleatorio:
P pb − z0,95 · spb ≤ p ≤ pb + z0,95 · spb = 0, 9
Buscando en la tabla de la normal estándar tenemos:
[0,55 − 1, 65 · 0, 007
,
0,55 + 1, 65 · 0, 007]
,
0,561]
Intervalo de confianza.
[0,538
Podemos tener confianza de que en el 90 % de los intervalos obtenidos de
esta manera se encuentra el valor poblacional.
Descargar