Distribuciones en el muestreo y EMV

Anuncio
Ignacio Cascos Fernández
Departamento de Estadı́stica
Universidad Carlos III de Madrid
Estimación de Parámetros
Estadı́stica I — curso 2008–2009
Veremos cómo construir valores aproximados de los parámetros de los modelos de probabilidad del tema anterior a partir de muestras de variables
aleatorias distribuidas según esos modelos. A estas aproximaciones de los
parámetros las llamaremos estimaciones y juegan un papel básico en la Inferencia Estadı́stica, proceso de que nos permite obtener conclusiones sobre
el comportamiento de una población a partir de los datos de una muestra.
El muestreo aleatorio consiste en la selección aleatoria de un número
fijado de elementos de una población. Una muestra aleatoria de tamaño n
son n variables aleatorias independientes X1 , X2 , . . . , Xn que siguen la misma
distribución que la población X.
1.
Estadı́sticos (estimadores)
Pretendemos obtener información acerca de los parámetros de la población
(media, varianza, proporción, . . . ) a partir de una muestra.
Un estadı́stico es cualquier función de las observaciones de una muestra
aleatoria, es por lo tanto una variable aleatoria.
Se llama estimador de un parámetro θ a cualquier función de una muestra θ̂ = f (X1 , X2 , . . . , Xn ) que conduce a la obtención de valores aproximados
de θ. Un estimador es un estadı́stico.
Al valor que toma un estimador en una muestra especı́fica, lo denominamos estimación.
La estimación es puntual cuando el estimador θ̂ toma como valores números reales.
1
1.1.
Propiedades de los estimadores
Estimador insesgado o centrado. Un estimador de un parámetro θ es
insesgado si su valor esperado es θ, es decir, θ̂ es insesgado si E[θ̂] = θ.
A la diferencia E[θ̂] − θ se le llama sesgo del estimador,
sesgo[θ̂] = E[θ̂] − θ .
Varianza de un estimador. De entre los estimadores insesgados de un
parámetro, el mejor, o más eficiente, será aquel de menor varianza. La eficiencia de un estimador es el inverso de su varianza,
Eficiencia[θ̂] =
1
var[θ̂]
.
Podemos estudiar cuál es el mejor de entre dos estimadores insesgados
comparando sus varianzas. La eficiencia relativa se construye como
ER[θ̂2 ; θ̂1 ] =
Eficiencia[θ̂2 ]
Eficiencia[θ̂1 ]
=
var[θ̂1 ]
var[θ̂2 ]
.
El error estándar de un estimador es su desviación tı́pica,
q
σθ̂ = var[θ̂] .
Si la desviación tı́pica depende del parámetro θ, al no conocer θ tampoco
conoceremos el error estándar de su estimación. No obstante, podemos sustituir θ por su estimación θ̂ y obtendremos el error estándar estimado
σ̂θ̂ .
Error Cuadrático Medio. Para comparar estimadores no centrados o un
estimador centrado con otro que no lo es, disponemos del Error Cuadrático
Medio, que se define como
ECM[θ̂] = E[(θ̂ − θ)2 ] = var[θ̂] + sesgo[θ̂]2 .
Consistencia. Un estimador es consistente cuando, a medida que aumenta
el tamño de la muestra, más se aproxima al valor del parámetro que pretende
estimar, hasta converger a él.
2
2.
2.1.
Distribuciones en el muestreo
Distribución en el muestreo de la media
Sea X una variable aleatoria con media µ y desviación tı́pica σ conocida.
Podemos tomar una muestra aleatoria simple de X de tamaño n, obteniendo
X1 , X2 , . . . , Xn , n variables aleatorias independientes distribuidas como X.
La media muestral será
n
1X
X=
Xi
n i=1
que es claramente una variable aleatoria.
Se trata de un estimador centrado de µ, es decir, E[X] = µ y su varianza
es var[X] = σ 2 /n
Si X sigue distribución normal, encones X también seguirá distribución
normal.
Además, por el Teorema Central del Lı́mite (si n ≥√30) la distribución de
X se aproxima a la de una variable aleatoria N(µ, σ/ n).
Distribución en el muestreo de la proporción. La proporción muestral
es un caso particular de la media muestral. Dada una población, llamamos
p a la proporción poblacional de elementos que presentan una determinada
caracterı́stica. Si extraemos aleatoriamente un individuo de dicha población,
la variable aleatoria X que toma valor 1 si tal individuo presenta la caracterı́stica y 0 si no es ası́, es una variable de Bernoulli, X ∼ B(1, p).
Si tomamos una muestra aleatoria simple de X de tamaño n, X1 , X2 , . . . ,
Xn , entonces
n
1X
X=
Xi = p̂
n i=1
representa el cociente entre el número de elementos que poseen la caracterı́stica y el tamaño de la muestra, es decir, la proporción muestral.
Finalmente, si n ≥ 30, aplicando el Teorema p
Central del Lı́mite, la distribución de p̂ se aproxima por una normal, N(p, p(1 − p)/n ).
3
2.2.
La varianza en el muestreo
Tenemos dos alternativas para estimar la varianza poblacional σ 2 . La primera
es la varianza muestral que se define como
n
1X
2
(Xi − X)2 ,
S =
n i=1
y la segunda, la cuasivarianza muestral que es
n
1 X
Ŝ 2 =
(Xi − X)2 .
n − 1 i=1
La cuasivarianza muestral es un estimador insesgado de σ 2 y, en consecuencia,
la varianza muestral no lo es,
n − 1
2
2
2
E[Ŝ ] = σ
;
E[S ] =
σ2 .
n
2.3.
Distribuciones en el muestreo de poblaciones normales
Partimos de X ∼ N(µ, σ) y una muestra aleatoria suya X1 , X2 , . . . , Xn de
tamaño n. Es decir, X1 , X2 , . . . , Xn son n variables aleatorias independientes
que tienen la misma distribución que X.
Distribución de la varianza muestral de una población normal Cuando tomamos una muestra de una población normal, la distribución de la
varianza muestral S 2 es tal que
donde χ2n−1
nS 2
(n − 1)Ŝ 2
=
∼ χ2n−1
σ2
σ2
denota la distribución chi cuadrado con n − 1 grados de libertad.
Distribución de la media muestral con varianza desconocida Cuando tomamos una muestra de una población normal y la varianza poblacional
(σ 2 ) es desconocida, podemos reemplazarla por la (cuasi)varianza muestral
y obtenemos
X −µ
X −µ
q
=p
∼ tn−1
2 /(n − 1)
S
2
Ŝ /n
donde tn−1 denota la distribución t de Student con n − 1 grados de libertad.
4
Distribución del cociente de varianzas Tomamos dos muestras independientes procedentes de dos poblaciones normales. Es decir, a partir
de una variable X ∼ N(µX , σX ) obtenemos una muestra aleatoria suya
X1 , X2 , . . . , Xn y a partir de otra variable Y ∼ N(µY , σY ) obtenemos también
una muestra aleatoria de ella misma Y1 , Y2 , . . . , Ym , de tal modo que las X’s
y las Y ’s son independientes. Tenemos entonces que la distribución de sus
cocientes de varianzas muestrales cumple,
2
2
2
2
SˆX /σX
nSX
/[(n − 1)σX
]
=
∼ Fn−1,m−1
2
mSY2 /[(m − 1)σY2 ]
SˆY /σY2
donde Fn−1,m−1 es una distribución de Fisher-Snedecor con n − 1 y m − 1
grados de libertad.
3.
Estimación Máximo Verosı́mil
Partimos de una muestra aleatoria simple X1 , X2 , . . . , Xn que proviene de
una distribución paramétrica conocida. Nuestro objetivo es buscar el valor
θ0 del parámetro θ para el cual es más probable que los datos provengan de
esa distribución con θ = θ0 .
Denotamos nuestras observaciones como x = (x1 , x2 , . . . , xn ), es decir, x
es un vector con n datos.
Para obtener el Estimador Máximo Verosı́mil (EMV) de un parámetro θ
debemos efectuar los siguientes pasos:
1. Función de verosimilitud. Si tenemos un modelo discreto
l(θ|x) =
n
Y
P (Xi = xi |θ) ,
i=1
mientras que si el modelo de partida es continuo,
l(θ|x) =
n
Y
f (xi |θ) ,
i=1
donde f (·|θ) denota la función de densidad supuesto que el parámetro
es θ.
El objetivo final es obtener el valor de θ para el que l(θ|x) alcanza el
mayor valor.
5
2. Función soporte. L(θ|x) = ln l(θ|x)
3. Primera derivada. Resolvemos ∂L(θ|x)/∂θ para hallar θ̂, nuestro objetivo es buscar el valor de θ donde la función soporte tiene un máximo.
4. Segunda derivada. Comprobamos ∂ 2 L(θ̂)/∂θ2 < 0 para confirmar que la
función soporte alcanzar un máximo en θ̂, con lo que será el Estimador
Máximo Verosı́mil.
Propiedades de los EMV. Para distribuciones cuyo rango es conocido
y no depende de ningún parámetro, el método de máxima verosimilitud da
lugar a estimadores:
Asintóticamente centrados. E[θ̂] →n θ ;
Asintóticamente normales. θ̂ ≈ N(θ, var[θ̂]) ;
Asintóticamente de varianza mı́nima. var[θ̂] =
−
∂ 2 L(θ̂)
∂θ2
−1
;
Invariantes frente a transformaciones biunı́vocas. Si θ̂ es EMV de θ,
entonces g(θ̂) es EMV de g(θ) .
6
Descargar