Estimación puntual

Anuncio
ESTIMACIÓN PUNTUAL
Julián de la Horra
Departamento de Matemáticas U.A.M.
1
Introducción
En este capı́tulo, vamos a abordar la Estimación Puntual, que es uno de
los tres grandes conjuntos de técnicas que utilizaremos en la Inferencia Estadı́stica. La situación general que vamos a considerar es la siguiente:
Disponemos de una muestra aleatoria (X1 , ..., Xn ) de una caracterı́stica X
de una población. Pensamos que esta caracterı́stica puede ser adecuadamente
modelizada mediante un modelo de probabilidad con función de masa Pθ (x)
(en el caso discreto) o con función de densidad fθ (x) (en el caso continuo).
En cualquiera de los casos, lo único que nos falta por conocer es el valor del
parámetro θ ∈ Θ que es desconocido.
Lo que tratamos de hacer en este capı́tulo es encontrar estimaciones puntuales de este parámetro desconocido. En primer lugar, se plantearán dos
ejemplos sencillos que servirán como motivación.
Ejemplo 1.- En los ejercicios de cálculo de probabilidades, siempre se
suele hablar de monedas equilibradas pero, naturalmente, no todas lo son.
Nos gustarı́a conocer aproximadamente (estimar) la probabilidad de cara de
una determinada moneda, y llamamos p = P (Cara).
Necesitamos datos, para lo cual lanzamos la moneda, por ejemplo, 100
veces, y anotamos los resultados. Supongamos que obtenemos 55 caras y 45
cruces.
Desde un punto de vista formal, las caras y las cruces pueden ser codificadas mediante unos y ceros, de modo que tenemos una muestra aleatoria
(X1 , ..., X100 ) de
(
X=
1 (si sale cara) con probabilidad p
0 (si sale cruz) con probabilidad 1 − p
y, por tanto, X puede ser modelizada mediante un modelo de Bernoulli con
parámetro p desoconocido.
En este caso sencillo, parece razonable estimar la probabilidad de cara de
la siguiente forma:
p̂ = Frecuencia relativa de caras =
55
Número de caras obtenidas
=
= 0, 55
Número de lanzamientos
100
1
Ejemplo 2.- Estamos interesados en conocer aproximadamente (estimar)
el nivel medio de colesterol, µ, de las personas de una población. No se puede
abordar el estudio en toda la población porque el número total de individuos
es muy grande.
Necesitamos datos para poder dar una estimación de µ. Mediremos el
nivel de colesterol de, por ejemplo, 100 individuos elegidos al azar. Supongamos que el nivel medio de colesterol que obtenemos en la muestra es de 190
unidades.
Desde un punto de vista formal, lo que tenemos es una muestra aleatoria (X1 , ..., X100 ) de la caracterı́stica X = “Nivel de colesterol”, que puede
ser modelizada mediante una distribución N (µ; σ), con parámetros µ y σ
desconocidos.
En este caso sencillo, parece razonable estimar el nivel medio de colesterol
de la siguiente forma:
µ̂ = Nivel medio de colesterol en la muestra = x̄ = 190
Obsérvese que µ es el nivel medio de colesterol (desconocido) de toda la
población, mientras que x̄ es el nivel medio de colesterol (conocido) de la
muestra.
Si todas las situaciones a las que nos tuviéramos que enfrentar fueran
tan sencillas e intuitivas como las de los ejemplos anteriores, seguramente
no necesitarı́amos desarrollar una metodologı́a general de la estimación puntual. Pero, por un lado, los problemas no siempre son tan sencillos y, por
otro lado, la intuición, a veces no nos dice nada, y otras veces nos resulta
engañosa. Por este motivo, vamos a dar una metodologı́a general que nos
permita enfrentarnos a este tipo de problemas de un modo sistemático y lo
más objetivo posible.
2
Estimadores puntuales
En primer lugar, vamos a definir lo que entenderemos por un estimador
puntual del parámetro θ:
Definición.- Sea (X1 , . . . , Xn ) una muestra aleatoria de una caracterı́stica
X de una población con función de masa Pθ (x) (caso discreto), o con función
de densidad fθ (x) (caso continuo), donde θ ∈ Θ es desconocido. Un estimador puntual de θ es una función T que a cada posible muestra (x1 , . . . , xn )
le hace corresponder una estimación T (x1 , . . . , xn ) de θ.
2
Observaciones:
1. Lo que vamos a estimar habitualmente es θ pero, en algunos casos,
podrı́a interesarnos estimar alguna función de θ. Por ejemplo, cuando
X ∼ N (µ; σ), nos puede interesar estimar la desviación tı́pica σ, pero
también podemos estar interesados en estimar la varianza σ 2 . En lo
que sigue, sólo nos referiremos a la estimación de θ, pero teniendo claro
que no habrı́a ningún problema en extender las ideas a la estimación
de alguna función de θ.
2. Evidentemente, T = T (X1 , . . . , Xn ) es una variable aleatoria. En realidad, un estimador puntual no es más que un estadı́stico con una misión
especial: acercarse lo más posible al verdadero y desconocido valor del
parámetro.
3. La definición que hemos dado de estimador puntual es enormemente
general y engloba, tanto estimadores muy razonables, como estimadores
completamente absurdos. Por este motivo, lo siguiente que vamos a
hacer es indicar alguna propiedad deseable para un estimador razonable.
3
Error cuadrático medio. Estimadores
insesgados
Definición.- El error cuadrático medio de un estimador T , para estimar θ,
se define como:
ECM (T ) = E[(T − θ)2 ] = E[(T (X1 , ..., Xn ) − θ)2 ]
El objetivo de la definición está bastante claro:
(a) T (X1 , ..., Xn ) − θ mide el error que se comete al estimar θ mediante
T (X1 , ..., Xn ).
(b) Consideramos el cuadrado de ese error para evitar que las diferencias
positivas se compensen con las negativas.
(c)Finalmente, calculamos cuanto vale, en promedio, este error cuadrático.
Esta idea del error cuadrático medio ya fue utilizada para definir la recta
de regresión. Por supuesto, lo que nos interesa es utilizar estimadores con
3
un error cuadrático pequeño. Para ver como puede conseguirse un error
cuadrático pequeño, veamos una forma alternativa de expresarlo:
E[(T − θ)2 ] = E[((T − E[T ]) + (E[T ] − θ))2 ]
= E[(T − E[T ])2 ] + (E[T ] − θ)2
= V (T ) + (Sesgo de T )2
donde:
Sesgo de T = E[T ] − θ
De este modo, el error cuadrático medio se puede reducir, bien reduciendo
la varianza del estimador, o bien reduciendo su sesgo. Una manera de eliminar completamente el sesgo es trabajar con estimadores insesgados:
Definición.- Un estimador T es insesgado (o centrado) para estimar θ,
cuando verifica:
E[T ] = θ
Los estimadores insesgados, no sólo son interesantes porque contribuyan
a reducir el error cuadrático medio; son interesantes por sı́ mismos ya que, en
promedio, sus estimaciones aciertan con el objetivo de estimar θ. Es sencillo
encontrar ejemplos de estimadores insesgados:
Ejemplo 1 (continuado).- Consideramos una muestra aleatoria (X1 , . . . , Xn )
de X ∼ Bernoulli(p) (recordemos que este modelo será utilizado siempre que
se quiera estimar una proporción p). Se habı́a considerado que un estimador
razonable para p podı́a ser:
p̂ = Frecuencia relativa de éxitos =
1X
Xi = X̄
n
Es muy sencillo comprobar que este estimador es insesgado para p:
E[p̂] = E
1X
1X
1
Xi =
E[Xi ] = (np) = p
n
n
n
También es muy sencillo hallar su error cuadrático medio:
ECM (p̂) = ECM (X̄) = V (X̄) + (Sesgo)2 =
4
V (X)
p(1 − p)
=
n
n
Ejemplo 2 (continuado).- Consideramos una muestra aleatoria (X1 , . . . , Xn )
de una caracterı́stica X ∼ N (µ; σ). Se habı́a considerado que un estimador
razonable para µ podı́a ser:
µ̂ =
1X
Xi = X̄
n
Es muy sencillo comprobar que este estimador es insesgado para µ:
1X
1X
1
E[µ̂] = E
Xi =
E[Xi ] = (nµ) = µ
n
n
n
También es muy sencillo hallar su error cuadrático medio:
V (X)
σ2
ECM (µ̂) = ECM (X̄) = V (X̄) + (Sesgo) =
=
n
n
2
En cualquier caso, la cuestión fundamental sobre los estimadores puntuales es la que se planteaba en la introducción y sigue todavı́a sin respuesta:
¿Es posible dar una metodologı́a general que nos permita construir estimadores puntuales de un modo sistemático y lo más objetivo posible?
Vamos a dar respuesta a esta cuestión en las dos siguientes secciones.
4
Método de los momentos
En el Ejemplo 2 de la Introducción, se proponı́a estimar el nivel medio de
colesterol de toda una población, mediante el nivel medio de colesterol en
una muestra. La idea intuitiva que hay detrás de este modo de proceder es
que, seguramente, la media muestral (conocida) será bastante parecida a la
media de toda la población (desconocida). Esta idea intuitiva es la que se
utiliza para formalizar el método de los momentos:
Definición.- Sea (X1 , . . . , Xn ) una muestra aleatoria de una caracterı́stica
X con función de masa Pθ (x) (o función de densidad fθ (x)), donde θ =
(θ1 , . . . , θk ).
El estimador de θ por el método de los momentos es el formado por los
valores θ̃1 , . . . , θ̃k que se obtienen al resolver en θ1 , . . . , θk el siguiente sistema
de k ecuaciones:

P
E[X] = n1 ni=1 Xi 

P

E[X 2 ] = n1 ni=1 Xi2 

... ... ... ...


1 Pn
k
k 
E[X ] = n i=1 Xi
5
Observaciones:
1. La justificación del método de los momentos es sencilla: se basa en la
intuición de que los momentos de la población (E[X], E[X 2 ], . . . ) se
P
P
“parecerán” a los respectivos momentos de la muestra ( n1 Xi , n1 Xi2 ,
. . . ). En consecuencia, consideramos k ecuaciones derivadas de esta intuición (tantas como componentes tiene el parámetro que necesitamos
estimar). El nombre del método procede de que utilizamos los momentos (poblacionales y muestrales).
2. Hay que señalar, no obstante, que el método de los momentos presenta
a veces graves inconvenientes. Por ejemplo, es perfectamente posible
que la estimación obtenida corresponda a valores que están fuera del
espacio paramétrico. Obviamente, esto último no es muy aconsejable.
5
Método de máxima verosimilitud
El método más ampliamente utilizado para construir estimadores puntuales
es el método de máxima verosimilitud. Está basado también en una idea
intuitiva muy sencilla y no presenta inconvenientes serios como le ocurre a
veces al método de los momentos. En el ejemplo siguiente vemos las ideas
básicas que nos llevarán a la definición general.
Ejemplo 3.- Consideramos una urna con 4 bolas, que pueden ser blancas
o negras, pero no sabemos en qué proporción. Llamaremos θ a la proporción
(desconocida) de bolas blancas en la urna, que puede tomar los valores
1 1 3
θ ∈ Θ = 0, , , , 1
4 2 4
Para obtener información sobre este parámetro, extraemos de la urna 2 bolas
con reemplazamiento (de esta forma, las observaciones son independientes).
Supongamos que la primera bola observada es blanca y la segunda negra, de
modo que la muestra obtenida es (B, N ). La probabilidad que los diferentes
valores de θ le dan a la muestra obtenida recibe el nombre de función de
verosimilitud y es de la siguiente forma:
L(θ) = Pθ (B, N ) =


0
si θ = 0





 3/16 si θ = 1/4
4/16 si θ = 1/2



3/16 si θ = 3/4




0
6
si θ = 1
La idea del método de máxima verosimilitud es muy sencilla y muy razonable: tomar como estimación de θ, aquel valor que hace más probable
(más verosı́mil) la muestra obtenida. Por tanto, en este caso, si la muestra
obtenida era (B, N ), la estimación de máxima verosimilitud serı́a:
θ̂ = 1/2
Esta idea intuitiva del Ejemplo 3 es la que se utiliza para formalizar el
método de máxima verosimilitud:
Definición.- Sea (X1 , . . . , Xn ) una muestra aleatoria de una caracterı́stica
X con función de masa Pθ (x) (o función de densidad fθ (x)), donde θ =
(θ1 , . . . , θk ).
La función de verosimilitud de θ es:
L(θ) = Pθ (x1 , ..., xn ) = Pθ (x1 ) . . . Pθ (xn )
L(θ) = fθ (x1 , ..., xn ) = fθ (x1 ) . . . fθ (xn )
(caso discreto)
(caso continuo)
El estimador de máxima verosimilitud de θ es el formado por los valores
(θ̂1 , . . . , θ̂k ) que maximizan la función de verosimilitud L(θ).
Observaciones:
1. La función de verosimilitud expresa la probabilidad (o la densidad)
que los diferentes valores de θ le dan a la muestra obtenida. Lo que
hacemos, por tanto, es maximizar esa probabilidad (o densidad), es
decir, elegir el valor de θ que hace más verosı́mil la muestra obtenida.
2. Por la propia definición, la estimación de máxima verosimilitud siempre
es un valor del espacio paramétrico (algo que no siempre ocurre con el
método de los momentos).
3. El procedimiento más habitual para obtener el estimador de máxima
verosimilitud es el siguiente:
• Obtenemos la función de verosimilitud:
L(θ) = Pθ (x1 , ..., xn ) = Pθ (x1 ) . . . Pθ (xn )
Por supuesto, si estamos en un caso continuo, utilizarı́amos la
función de densidad del modelo utilizado.
• Obtenemos ln L(θ) en vez de L(θ), ya que es más fácil de manejar
y presenta los mismos máximos y mı́nimos.
7
• Despejamos θ1 , . . . , θk del siguiente sistema de ecuaciones:
∂ ln L(θ)
∂θ1

= 0 


... ... ... ...


∂ ln L(θ)
= 0 
∂θk
Por supuesto, hay que tener precaución con este procedimiento, ya que
el punto crı́tico obtenido no tiene por qué corresponder a un máximo.
También puede ocurrir que la función de verosimilitud se maximice en
un extremo y no obtengamos nada con este procedimiento.
8
Descargar