Cap´ıtulo 4 Estimación puntual

Anuncio
Capı́tulo 4
Estimación puntual
El objetivo que se marca la Estadı́stica es adaptar un modelo de comportamiento a distintas
caracterı́sticas de una población, para poder estimarlas. Para ello partimos del conocimiento de cada
caracterı́stica en una muestra a la que pedimos sea suficientemente representativa. Se puede definir
esta representatividad de distintas maneras, y cada una llevarı́a a un concepto diferente de muestra.
La definición que consideraremos en este capı́tulo (y que utilizaremos en los sucesivos) es la más
sencilla y habitual.
Una vez tomada una muestra representativa, se decide tomar cierto modelo para la caracterı́stica
estudiada, que supondremos es numérica. Si esta caracterı́stica, X, es de tipo de discreto, la consideraremos como una variable aleatoria, y ası́ adaptaremos un modelo con distribución dada por una
función de masa P . Si X es de tipo continuo, el modelo vendrá dado por una función de masa, f .
Para abreviar, diremos que estamos estudiando una población X con función de masa P (o función
de densidad f ).
1.
Muestra aleatoria. Parámetro y estimador
Definición 1.1. Una muestra aleatoria de tamaño N , de una población X con función de
masa P (o función de densidad f ), es un vector aleatorio (X1 � X2 � . . . � XN ) donde:
a) La distribución marginal de cada Xi viene dada por P (o por f ).
b) X1 , . . . , XN son independientes.
Veamos cómo, con esta definición, podemos tomar siempre una muestra aleatoria como una
muestra representativa de la población estudiada.
a) Cada Xi representa el valor de X en el elemento i–ésimo de la muestra.
b) El hecho de que cada distribución marginal venga dada por la misma distribución significa,
informalmente, que todos los elementos de la población tienen la misma oportunidad de aparecer
en la muestra. Con otras palabras: la probabilidad de que un valor aparezca en la observación
i–ésima depende sólo de la probabilidad que dicho valor tiene en la población, de manera que
cada observación representa por igual a la población.
67
68
CAPÍTULO 4. ESTIMACIÓN PUNTUAL
c) Suponer que las observaciones sean independientes, es cómodo para el desarrollo teórico del modelo del muestreo. Ası́, si (X1 � . . . � XN ) es una muestra aleatoria de una población X, la función
de masa de la muestra vendrá dada por:
caso discreto: P (x1 � . . . � xN ) = P (x1 ) · · · · · P (xN )
caso continuo: f (x1 � . . . � xN ) = f (x1 ) · · · · · f (xN ) .
Esta independencia la podemos entender de dos maneras:
– de un modo exacto, significa que cada vez que observamos un elemento lo devolvemos a la
población (“reemplazamiento”);
– de una manera aproximada, significa que el tamaño de la población es muy grande en comparación con el de la muestra, de modo que la composición de la población se altera muy
poco al faltarle algunos elementos (los ya observados).
Nota: Conviene distinguir entre los conceptos de “muestra aleatoria” y “muestra”. La primera es
un vector aleatorio, con su función de masa (o densidad, según el tipo). La segunda es una colección
de números, x1 � . . . � xN , que entenderemos como una “realización” del vector aleatorio (X1 � . . . � XN ).
En adelante, en general, usaremos letras mayúsculas para referirnos a variables, y minúsculas para
valores de las mismas.
Por supuesto desconocemos P (o f ), pues de conocerla el problema no serı́a tal. Precisamente,
nuestro objetivo es ganar información sobre P (o f ) a partir de las observaciones X1 � . . . � XN . Para
ello, una buena idea es resumir la información aportada por los datos muestrales. Lo mejor serı́a que
estos resúmenes no perdiesen nada de la información contenida en la muestra. Esta necesidad nos
lleva a la definición de estadı́stico:
Definición 1.2. Un estadı́stico es una función real T de la muestra aleatoria (X1 � . . . � XN ).
En particular, un estadı́stico es una variable aleatoria, T (X1 � . . . � XN ), y, en consecuencia, podemos
hablar de su esperanza, varianza, . . . . Algunos de los más utilizados, en todo tipo de situaciones, son:
N
1 �
Xi
Media muestral: X̄ =
N i=1
N
1 �
Varianza muestral: VX =
(Xi − X̄)2
N i=1
N
1 �
2
Cuasi–varianza muestral: SX
=
(Xi − X̄)2 .
N − 1 i=1
Propiedades: Sea (X1 � . . . � XN ) una muestra aleatoria de una población X con esperanza µ y
varianza σ 2 , entonces:
a) E[X̄] = µ;
σ2
b) V (X̄) = ;
N
2
c) E[SX
] = σ2;
d) E[VX ] = NN−1 σ 2 .
1. MUESTRA ALEATORIA. PARÁMETRO Y ESTIMADOR
69
Ejercicio 1 Demostrar las propiedades anteriores.
Solución: Basta aplicar las definiciones en cada caso, en efecto:
N
N
�
�1 �
1 �
1
Xi =
E[Xi ] =
Nµ = µ ;
E[X̄] = E
N i=1
N i=1
N
V (X̄) = V
N
N
�
�1 �
1 �
Xi = 2
V (Xi )
N i=1
N i=1
(por independencia)
σ2
1
2
N
σ
=
;
N2
N
N
�
�
� 1 �
��
1
2
] = E
(Xi − X̄)2 =
(Xi − µ + µ − X̄)2
E
E[SX
N − 1 i=1
N −1
i=1
=
��
�
�
1
E
(Xi − µ)2 + N (X̄ − µ)2 + 2(µ − X̄)
(Xi − µ)
=
N −1
i=1
i=1
N
N
�
��
1
(Xi − µ)2 − N (X̄ − µ)2
E
N −1
i=1
N
=
�
�
��
σ2 �
1 �� �
1 � 2
Nσ − N
= σ2 ;
E (Xi − µ)2 − N E (X̄ − µ)2 =
=
N − 1 i=1
N −1
N
N
E[VX ] = E
1.1.
�
�N − 1
� N −1
2
=
(Xi − X̄)2 = E
SX
σ2 .
N
N
i=1
N
��
Inferencia paramétrica
El problema que tenemos planteado es el desconocimiento de la disribución concreta que sigue la
población X. En la mayorı́a de casos este desconocimiento será parcial, y, por ejemplo, tendremos
cierta sospecha del tipo de función de masa o de densidad que buscamos: una binomial, una Poisson,
una normal, . . . . Ası́, será habitual suponer que la población sigue cierto modelo de probabilidad del
que nos faltará conocer algún parámetro. De la resolución de este tipo de problemas se encarga la
Inferencia paramétrica. En general, la situación será la siguiente:
La población, X, sigue cierta distribución, de la que conocemos la forma de su función de masa P
(o de su función de densidad, f ). En ella aparece un parámetro, θ, desconocido (que puede ser
de una o más dimensiones). El conjunto de posibles valores del parámetro se denomina espacio
paramétrico, y lo representaremos por Θ.
Si la caracterı́stica que estudiamos es discreta, representaremos a su función de masa por Pθ ; y si es
continua, a su función de densidad por fθ . En ambos casos, para resaltar el objetivo de nuestro
problema: resolver o estimar el valor del parámetro desconocido θ.
La función de masa (o densidad) de la muestra aleatoria será de la forma:
caso discreto: Pθ (x1 � . . . � xN ) = Pθ (x1 ) · · · · · Pθ (xN )
caso continuo: fθ (x1 � . . . � xN ) = fθ (x1 ) · · · · · fθ (xN ) .
70
CAPÍTULO 4. ESTIMACIÓN PUNTUAL
La Inferencia paramétrica se divide en tres grandes partes, dependiendo de la naturaleza del problema a resolver, y del tipo de solución que demos:
A. estimación puntual;
B. estimación por intervalos de confianza;
C. contraste de hipótesis paramétricas;
y dedicaremos sendos capı́tulos a cada una de ellas.
Terminamos esta introducción a la Inferencia paramétrica, ocupándonos de una cuestión que
quedó en el aire: no perder demasiada información con los estadı́sticos. Más en concreto, introducido
en el lenguaje el concepto de parámetro, θ, lo que nos gustarı́a es utilizar estadı́sticos sencillos que
conserven toda la información sobre θ que lleva la muestra (X1 � . . . � XN ). Motivamos este último
cometido con el siguiente ejemplo.
Ejemplo 32 La probabilidad de obtener cara al lanzar una moneda es un valor desconocido, θ, entre
0 y 1 (espacio paramétrico Θ = (0� 1)). Si al suceso cara le asignamos el valor 1, y a su contrario,
cruz, el valor 0, y lanzamos la moneda N veces, obtenemos una muestra aleatoria (X1 � . . . � XN ) de
una población, X, con función de masa
Pθ (x) = θx (1 − θ)1−x
x = 0� 1 ( distribucción de Bernoulli ) .
La función de masa de la muestra es:
Pθ (x1 � . . . � xN ) = θx1 (1 − θ)1−x1 · · · · · θxN (1 − θ)1−xN = θ
�N
i=1
xi
�N
(1 − θ)N −
i=1
xi
.
Parece claro, en este caso, que el estadı́stico
N
�
T (X1 � . . . � XN ) =
Xi = “número de caras obtenidas”
i=1
contiene tanta información sobre θ como la descripción detallada del resultado de los N lanzamientos.
Observando que T ∼ B(N ; θ), será fácil obtener la probabilidad de una muestra (x1 � . . . � xN )
condicionada por el hecho de que el estadı́stico T ha tomado el valor t (han salido t caras en los N
lanzamientos):
P (x1 � . . . � xN | T = t) =
P (T = t | x1 � . . . � xN ) Pθ (x1 � . . . � xN )
Pθ (T = t)
�N
P (T = t | x1 � . . . � xN ) θ i=1 xi (1 − θ)N −
=
�N �
θt (1 − θ)N −t
t

N
�

θ t �1−θ)N −t
1

si
=
xi = t
 N t
N
θ �1−θ)N −t
(
(
i=1
t)
t)
=
N
�


 0
si
xi �= t .
�N
i=1
xi
i=1
Es decir, la distribución de la muestra (X1 � . . . � XN ) condicionada por T = t no depende del
parámetro θ. Intuitivamente, esto significa que lo que queda de la muestra, una vez extraı́da la
información contenida en T , no nos va a decir nada más sobre θ. En este sentido se introduce el
siguiente concepto.
2. ESTIMACIÓN PUNTUAL
71
Definición 1.3. Sea (X1 � . . . � XN ) una muestra aleatoria de una población X con función de masa Pθ (o función de densidad fθ ). Un estadı́stico, T , es suficiente para θ cuando la distribución
de (X1 � . . . � XN ) condicionada por T = t no depende de θ.
A pesar de la claridad del concepto, es muy difı́cil utilizar esta definición para decidir si un
estadı́stico es suficiente. En primer lugar hay que conjeturar qué estadı́stico T puede ser suficiente,
y después obtener la distribución condicionada, que será casi siempre difı́cil. Afortunadamente hay
una caracterización sencilla alternativa:
Propiedad: Sea (X1 � . . . � XN ) una muestra aleatoria de una población X con función de masa Pθ
�o función de densidad fθ ). Un estadı́stico T es suficiente para θ si y sólo si:
�
�
Pθ (x1 � . . . � xN ) = g T (x1 � . . . � xN )� θ h(x1 � . . . � xN )
�o la correspondiente identidad para el caso continuo).
En el caso del lanzamiento de la moneda, se tendrı́a la siguiente sencilla comprobación:
Pθ (x1 � . . . � xN ) = θ
con
�N
i=1
xi
(1 − θ)N −
T (x1 � . . . � xN ) =
�N
i=1
xi
�
= g(T (x1 � . . . � xN )� θ) h(x1 � . . . � xN )
N
i=1 xi
g(T (x1 � . . . � xN )� θ) = θT �x1 �...�xN ) (1 − θ)N −T �x1 �...�xN )
h(x1 � . . . � xN ) = 1 .
2.
Estimación puntual
Supongamos dada una caracterı́stica X y aceptemos que sigue cierto modelo dado por una función
de masa Pθ (o de densidad fθ ), de la que desconocemos el valor del parámetro θ dentro de un espacio
paramétrico Θ.
El objetivo de la estimación puntual es tomar un valor plausible para el parámetro θ. Para ello
se considera una muestra aleatoria (X1 � . . . � XN ) de la población X, y a partir de una realización
de la misma, esto es, una colección de datos x1 � . . . � xN , se decidirá el valor para la estimación del
parámetro.
Definición 2.1. Sea (X1 � . . . � XN ) una muestra aleatoria de una población X con función de masa
Pθ (o función de densidad fθ ), donde θ ∈ Θ. Un estimador puntual de g(θ) es una función T
que a cada posible muestra (x1 � . . . � xN ) le hace corresponder una estimación T (x1 � . . . � xN ) de g(θ).
Observaciones:
a) Habitualmente se buscará estimar θ (esto es, g(θ) = θ), pero puede interesarnos estimar alguna
función de θ (por ejemplo θ2 ). Por esta razón hablaremos de estimadores puntuales de g(θ).
b) Evidentemente, T (X1 � . . . � XN ) es una variable aleatoria (o un vector aleatorio si g(θ) tiene
más de una dimensión). En realidad, un estimador puntual no es más que un estadı́stico con
un objetivo concreto: acercarse lo más posible al verdadero valor de g(θ). Según nos convenga
usaremos la notación T (X1 � . . . � XN ) o simplemente T .
c) La definición dada de estimador puntual es muy general, y engloba tanto estimadores razonables como otros completamente absurdos. Lo siguiente que haremos es mostrar propiedades
deseables para un estimador razonable, eliminando, ası́, estimadores indeseables.
72
CAPÍTULO 4. ESTIMACIÓN PUNTUAL
Definición 2.2. El error cuadrático medio de un estimador T para estimar g(θ) se define
como:

N �
�
�



(caso discreto)
T (x1 � . . . � xN ) − g(θ)2 Pθ (x1 ) · · · · · Pθ (xN )
�
�
i=1
�
Eθ (T − g(θ))2 =
�
�


T (x1 � . . . � xN ) − g(θ)2 fθ (x1 ) · · · · · fθ (xN ) dx1 . . . dxN (caso continuo)

�
Es claro que un estimador será más efectivo cuánto más pequeño sea su error cuadrático medio.
El siguiente desarrollo nos aporta una fórmula sencilla para el cálculo de este error:
�
�
�
�
Eθ (T − g(θ))2 = Eθ (T − Eθ [T ] + Eθ [T ] − g(θ))2
�
�
= Eθ (T − Eθ [T ])2 + (Eθ [T ] − g(θ))2
= Vθ (T ) + (Sesgo(T ))2
siendo Sesgo(T ) = Eθ [T ] − g(θ).
De esta última igualdad vemos que podemos reducir el error cuadrático medio, bien reduciendo la
varianza del estimador, bien reduciendo su sesgo para estimar g(θ). Podemos eliminar completamente
el sesgo al trabajar con estimadores insesgados.
Definición 2.3. Un estimador T es insesgado (o centrado) para estimar g(θ), si verifica:
Eθ [T ] = g(θ)
para todo θ ∈ Θ .
Al considerar sólo estimadores insesgados podemos estar eliminando otros estimadores valiosos
(a pesar de no ser insesgados). No obstante tenemos una ventaja adicional, pues para un estimador
insesgado su error cuadrático medio es simplemente Vθ (T ). De este modo, dentro de los estimadores
insesgados buscarı́amos el de varianza mı́nima. Este cometido es muy interesante, pero excede el nivel
de este curso.
Es sencillo encontrar ejemplos de estimadores insesgados.
Ejemplo 33 Sea (X1 � . . . � XN ) una muestra aleatoria de una población X con distribución N (µ ; σ).
En este caso θ = (µ� σ), y tenemos:
T1 (X1 � . . . � XN ) = X̄ es un estimador insesgado de g1 (θ) = µ, ya que Eθ [X̄] = µ;
2
(cuasi-varianza) es insesgado para estimar g2 (θ) = σ 2 , ya que Eθ [X̄] = σ 2 .
T1 (X1 � . . . � XN ) = SX
Otra propiedad bastante razonable a exigir a un estimador T es que, cuanto mayor sea el tamaño
muestral N , más se acerque la estimación T (x1 � . . . � xN ) al verdadero valor de g(θ). Esto nos lleva al
siguiente concepto:
Definición 2.4. Un estimador T es consistente para estimar g(θ) si, para todo θ ∈ Θ:
�
lı́m FT (t) = 0 para t < g(θ)
N →∞
lı́m FT (t) = 1
N →∞
para t > g(θ)
donde FT es la función de distribución de T (X1 � . . . � XN ).
3. MÉTODOS DE CONSTRUCCIÓN DE ESTIMADORES
73
La idea es que, a medida que aumenta el tamaño muestral, más se concentra la distribución
de la variable aleatoria T (X1 � . . . � XN ) alrededor del verdadero valor de g(θ) (sea cual sea), y, en
consecuencia, las estimaciones T (x1 � . . . � xN ) cada vez se acercan más a dicho valor.
Calcular la función de distribución de T suele ser difı́cil, por lo que es difı́cil ver, a partir de la
definición, cuándo un estimador va a ser consistente. Afortunadamente tenemos una propiedad, más
fácil de comprobar en muchas situaciones, que nos permite afirmar si un estimador es consistente.
Propiedad: Si T es un estimador que verifica:
i. lı́m Eθ [T ] = g(θ), para todo θ ∈ Θ,
N →∞
ii. lı́m Vθ (T ) = 0, para todo θ ∈ Θ,
N →∞
entonces es consistente.
Ejemplo 34 Sea (X1 � . . . � XN ) una muestra aleatoria de una población X ∼ N (µ � σ), θ = (µ� σ).
El estimador T1 (X1 � . . . � XN ) = X̄ es consistente para estimar g1 (θ) = µ, ya que:
lı́m Eθ [T1 ] =
N →∞
lı́m Vθ (T1 ) =
N →∞
3.
lı́m Eθ [X̄] = lı́m µ = µ = g1 (θ)
N →∞
N →∞
σ2
= 0.
N →∞ N
lı́m Vθ (X̄) = lı́m
N →∞
Métodos de construcción de estimadores
Vamos a mostrar dos sencillos métodos de construcción de estimadores puntuales razonables,
aplicables a cualquier situación. Empezaremos con el método de los momentos, y posteriormente,
pasaremos al más utilizado: el método de máxima verosimilitud.
3.1.
Método de los momentos
Definición 3.1. Sea (X1 � . . . � XN ) una muestra aleatoria de una población X con función de masa
Pθ (o función de densidad fθ ), con parámetro desconocido θ = (θ1 � . . . � θk ) ∈ Θ. El estimador de θ
por el método de los momentos es el formado por los valores θ�1 , . . . , θ�k que se obtienen al resolver,
en las variables θ1 � . . . � θk , el sistema de ecuaciones:

N
1 �



E
[X]
=
Xi
θ


N i=1

..
..
..
.
.
.


N

�
1


Xk
 Eθ [X k ] =
N i=1 i
donde, Eθ [X j ] se denomina momento de orden j.
La justificación de este método es sencilla: parece razonable pensar que los momentos de la población se parecerán a los respectivos momentos de la muestra. Se plantean entonces tantas ecuaciones
como componentes tenga el parámetro a estimar.
No obstante, este método presenta serios incovenientes. Por ejemplo, es posible obtener estimaciones fuera del espacio paramétrico.
74
CAPÍTULO 4. ESTIMACIÓN PUNTUAL
3.2.
Método de máxima verosimilitud
Es el método más utilizado para construir estimadores puntuales. Se basa, también, en una idea
muy sencilla, y tiene la ventaja de no presentar los inconvenientes que a veces surgen con el método
de los momentos. Motivamos el método con el siguiente ejemplo.
Ejemplo 35 Sabemos que en una urna hay, entre negras y blancas, un total de 4 bolas, pero desconocemos la composición exacta. Sea θ la proporción de, por ejemplo, bolas blancas. Es claro cuál es
el espacio paramétrico en este caso, pues θ puede tomar los valores:
0;
1/4 ;
1/2 ;
3/4 ;
1.
Para obtener más información se extraen de la urna 2 bolas, con reemplazamiento (para tener independencia en las observaciones). Supongamos que la primera bola ha sido blanca y la segunda negra,
es decir la muestra obtenida ha sido (B� N ). La probabilidad que tenı́amos de obtener esta muestra,
dependiendo de la composición de la urna, esto es de la proporción θ, era:

0
si θ = 0




 3/16 si θ = 1/4
1/4
si θ = 1/2
Pθ (B� N ) =


3/16
si
θ = 3/4



0
si θ = 1
La idea del método de máxima verosimilitud es tomar como estimación de θ aquel valor que daba
más probabilidad a la muestra obtenida, en este caso θ� = 1/2.
Definición 3.2. �Método de máxima verosimilitud) Sea (X1 � . . . � XN ) una muestra aleatoria
de una población X con función de masa Pθ (o función de densidad fθ ), con parámetro desconocido
� de θ es el formado por los valores
θ = (θ1 � . . . � θk ) ∈ Θ. El estimador de máxima verosimilitud, θ,
�
�
(θ1 � . . . � θk ) que maximizan la que llamaremos función de verosimilitud de la muestra obtenida,
que se define por:
�
(caso discreto)
Pθ (x1 ) · . . . · Pθ (xn )
L(θ) = L(θ ; x1 � . . . � xN ) =
fθ (x1 ) · . . . · fθ (xn )
(caso continuo)
Observaciones:
a) La función de verosimilitud expresa la probabilidad (o la densidad) que los diferentes valores
de θ dan a la muestra obtenida. Lo que hacemos, por tanto, es maximizar esa probabilidad
(o densidad).
b) De la misma definición, vemos que la estimación de máxima verosimilitud siempre es un valor
del espacio paramétrico.
c) Para no tener que manejar productos, en muchas ocasiones es más cómodo encontrar el estimador de máxima verosimilitud considerando log(L(θ)), en lugar de L(θ). Puesto que la función
3. MÉTODOS DE CONSTRUCCIÓN DE ESTIMADORES
75
log(x) es monótona creciente, log(L(θ)) se hace máxima (y mı́nima) en los mismos puntos
que L(θ). La ventaja es que basta despejar θ1 , . . . , θk del sistema de ecuaciones:

∂ log(L(θ))


= 0


∂θ1

.. .. ..
. . .



∂ log(L(θ))


= 0
∂θk
Por supuesto hay que tener precaución con este procedimiento, pues el punto crı́tico obtenido no
tiene por qué corresponder a un máximo. Además, puede ocurrir que la función de verosimilitud
se maximice en un extremo, en cuyo caso no tiene por qué dar un punto crı́tico, es decir, no
obtendrı́amos nada con este procedimiento.
� será el
d) Obsérvese, por último, que si θ� es el estimador de máxima verosimilitud, entonces g(θ)
de g(θ). Si, por ejemplo, hemos obtenido X̄ como estimador de máxima verosimilitud para θ,
entonces X̄ 2 lo será para θ2 .
Ejercicio 2 Dada una muestra aleatoria de tamaño N de una población X, calcular los estimadores
� y por el de máxima verosimilitud, θ,
� en los
puntuales para θ por el método de los momentos, θ,
siguientes casos:
a) X ∼ Bernoulli de parámetro p;
b) X ∼ Poisson (λ);
c) X ∼ Exponencial (λ);
d) X ∼ N (µ ; σ), (σ conocido);
e) X ∼ N (µ ; σ), (µ conocido);
f) X ∼ N (µ ; σ).
Solución: Planteamos ambos métodos en cada caso, y utilizamos, para cuando haga falta, la igualdad E[X 2 ] = V [X] + E[X]2 , que se deduce inmediatamente de la definición de varianza de una
variable aleatoria.
a) X ∼ Bernoulli de parámetro p. Queremos estimar el parámetro desconocido p ∈ (0� 1), siendo
la función de masa:
Pp (x) = px (1 − p)x
x = 0� 1 .
Método de los momentos. Puesto que el parámetro es de una dimensión, se considera solo el
primer momento. El momento de orden 1 de la población, Ep [X], es su esperanza, p, y el
de la muestra es la media muestral x̄. Tomamos pues el estimador
p� = x̄ .
76
CAPÍTULO 4. ESTIMACIÓN PUNTUAL
Método de máxima verosimilitud. La función de verosimilitud es:
L(p) = L(p ; x1 � . . . � xN ) = px1 (1 − p)x1 · · · · · pxN (1 − p)xN = p
�
xi
(1 − p)N −
�
xi
.
Tomamos, para simplificar cálculos, su logaritmo y lo maximizamos:
� �
�
�� �
xi log(1 − p)
log(L(p)) =
xi log(p) + N −
�
�
�
d log(L(p))
xi N − xi
xi − N p
=
−
=
.
dp
p
1−p
p(1 − p)
�
xi = x̄. Además,
Al igualar a cero la derivada se obtiene un punto crı́tico para p = N1
un simple análisis del signo de la derivada nos muestra que ésta es positiva para p < x̄, y
negativa para p > x̄* . Por tanto, este punto crı́tico corresponde a un máximo, por lo que
tomamos como estimador de máxima verosimilitud:
p� = x̄ .
b) X ∼ Poisson (λ). Queremos estimar el parámetro desconocido λ > 0, siendo la función de masa:
Pλ (x) =
λx e−λ
x�
x = 0� 1� 2� . . . .
Método de los momentos. El momento de orden 1 de la población, Eλ [X], es su esperanza, λ,
y el de la muestra es la media muestral x̄. Tomamos pues el estimador de momentos
� = x̄ .
λ
Método de máxima verosimilitud. La función de verosimilitud para una muestra dada es:
L(λ) =
con logaritmo:
log(L(λ)) =
��
λ
�
xi
�
e−N λ
xi �
�
��
xi log(λ) − N λ − log
xi �) .
El último término asusta, pero no hay problema porque es una constante. Al derivar e
igualar a cero obtenemos:
�
1 �
d log(L(λ))
xi
=
− N = 0 ⇐⇒ λ =
xi = x̄ .
dλ
λ
N
De nuevo, es fácil ver que este punto crı́tico corresponde a un máximo, por lo que tomaremos como estimador de máxima verosimilitud:
�
� = x̄ .
λ
En efecto,
positivo, al ser el espacio paramétrico el intervalo �0� 1). Por otra parte,
� el denominador es siempre
�
�
p < x̄ = �1
xi equivale a N p <
xi , quedando el numerador positivo. Por contra, p > x̄ equivale a N p >
xi ,
quedando el numerador negativo.
3. MÉTODOS DE CONSTRUCCIÓN DE ESTIMADORES
77
c) X ∼ Exponencial (λ). Queremos estimar el parámetro desconocido λ > 0, siendo la función
de densidad:
fλ (x) = λe−λx
x > 0.
Método de los momentos. El momento de orden 1 de la población, Eλ [X], es su esperanza, 1/λ,
y el de la muestra es la media muestral x̄. Tomamos pues el estimador de momentos
�= 1.
λ
x̄
Método de máxima verosimilitud. La función de verosimilitud para una muestra dada es:
L(λ) = λN e−λ
�
con logaritmo:
log(L(λ)) = N log(λ) −
Al derivar e igualar a cero obtenemos:
N �� �
d log(L(λ))
=
−
xi = 0
dλ
λ
xi
��
⇐⇒
�
xi λ .
1
N
λ= � = .
x̄
xi
Obsérvese que λ > 0 y que cada dato, xi , de una muestra correspondiente a esta población
es positivo. Es fácil, entonces, ver que este punto crı́tico corresponde a un máximo, por lo
que tomaremos como estimador de máxima verosimilitud:
�= 1.
λ
x̄
d) X ∼ N (µ ; σ), (σ conocido). Queremos estimar el parámetro desconocido µ ∈ �, siendo la
función de densidad para esta población:
�
�
(x − µ)2
1
exp −
fµ (x) = √
�
para todo x ∈ �.
2σ 2
σ 2π
Método de los momentos. El momento de orden 1 de la población, Eµ [X], es su esperanza, µ,
y el de la muestra es la media muestral x̄. Tomamos pues el estimador de momentos
µ
� = x̄ .
Método de máxima verosimilitud. La función de verosimilitud para una muestra dada es:
� �
�
�
�N
1
(xi − µ)2
√
exp −
L(µ) =
2σ 2
σ 2π
con logaritmo:
√
�
(xi − µ)2
2
�� �
� 2σ
2
√
xi − 2
xi µ + N µ 2
= −N log(σ 2π) −
.
2σ 2
log(L(µ)) = −N log(σ 2π) −
78
CAPÍTULO 4. ESTIMACIÓN PUNTUAL
Al derivar, respecto de µ, e igualar a cero obtenemos:
�
d log(L(µ))
xi N µ
− 2 = 0 ⇐⇒
=
2
dµ
σ
σ
µ = x̄ .
Este punto crı́tico corresponde a un máximo (¿por qué?), por lo que tomaremos como
estimador de máxima verosimilitud:
µ
� = x̄ .
e) X ∼ N (µ ; σ), (µ conocido). Ahora el parámetro desconocido es σ > 0, siendo la función de
densidad para esta población:
�
�
(x − µ)2
1
fσ (x) = √
exp −
�
para todo x ∈ �.
2σ 2
σ 2π
Método de los momentos. El momento de orden 1 de la población, E[X], es su esperanza, µ.
Ası́, la primera ecuación planteada en el método de los momentos no nos dice nada del
parámetro que intentamos estimar, σ. Tomamos entonces el momento de orden 2:
E[X 2 ] = V [X] + E[X]2 = σ 2 + µ2 .
Por otra parte, el momento de orden 2 de la muestra es
σ 2 + µ2 =
1 � 2
xi
N
1 � 2
xi . La ecuación quedarı́a:
N
Tomamos pues el estimador de momentos para g(σ) = σ 2
1 � 2
σ
�2 =
x i − µ2 .
N
Nótese que en este caso podemos obtener estimadores absurdos. Si, por ejemplo, sabemos
que µ = 5 y la muestra es (3� 3� 6), obtendrı́amos σ
�2 = −7, que es un valor absurdo.
Método de máxima verosimilitud. La función de verosimilitud para una muestra dada es:
�
� �
�
�N
1
(xi − µ)2
√
L(σ) =
exp −
2σ 2
σ 2π
con logaritmo:
√
log(L(σ)) = −N log(σ 2π) −
�
Al derivar, respecto de σ, e igualar a cero obtenemos:
�
−N
d log(L(σ))
(xi − µ)2
= 0 ⇐⇒
=
+
dσ
σ
σ3
(xi − µ)2
.
2σ 2
σ2 =
1 �
(xi − µ)2 .
N
Este punto crı́tico corresponde a un máximo (¿por qué?), por lo que tomaremos como
estimador de máxima verosimilitud para g(σ) = σ 2 :
1 �
σ
�2 =
(xi − µ)2 .
N
3. MÉTODOS DE CONSTRUCCIÓN DE ESTIMADORES
79
f) X ∼ N (µ ; σ).
En este último caso, se desconocen ambos parámetros de la población, y ası́ estimaremos:
θ = (µ� σ), con µ ∈ � y σ > 0. La función de densidad es:
�
�
(x − µ)2
1
exp −
fθ (x) = √
�
para todo x ∈ �.
2σ 2
σ 2π
Método de los momentos. Tenemos que considerar dos ecuaciones (pues hay 2 parámetros):
µ = x̄
σ 2 + µ2 =
Obtenemos como solución para el sistema:
µ = x̄
y
σ2 =
N
1 � 2
x .
N i=1 i
N
1 � 2
1 �
(xi − x̄)2
xi − x̄2 = varianza muestral =
N
N i=1
de manera que, el estimador de momentos para g(µ� σ) = (µ� σ 2 ), vendrá dado por:
µ
� = x̄ �
N
1 �
(xi − x̄)2 .
σ
� =
N i=1
2
Nótese que ahora, el estimador para σ 2 no puede producir resultados absurdos.
Método de máxima verosimilitud. La función de verosimilitud para una muestra dada es:
� �
�
�
�N
1
(xi − µ)2
√
exp −
L(µ� σ) =
2σ 2
σ 2π
con logaritmo:
√
log(L(µ� σ)) = −N log(σ 2π) −
que conviene escribir como:
√
log(L(µ� σ)) = −N log(σ) − N log( 2π) −
�
�
(xi − µ)2
;
2σ 2
x2i − 2
��
�
xi µ + N µ 2
;
2σ 2
El sistema planteado, igualando a cero las derivadas parciales respecto a cada una de las
variables, es:
�
∂ log(L(µ� σ))
xi N µ
− 2 =0
=
2
∂µ
σ
σ
�
−N
(xi − µ)2
∂ log(L(µ� σ))
=
+
=0
∂σ
σ
σ3
�
µ = x̄ �
con solución:
σ 2 = N1 (xi − x̄)2 .
Tomamos esta solución como estimación de máxima verosimilitud al dar un máximo:
N
1 �
2
(xi − x̄)2 .
µ
� = x̄ �
σ
� =
N i=1
80
CAPÍTULO 4. ESTIMACIÓN PUNTUAL
Problemas
1. Sea (X1 � . . . � XN ) una muestra aleatoria de una población X con función de densidad:
fθ (x) = e−x+θ
si x > θ �
(θ ∈ �) .
a) Hallar el estimador por el método de los momentos de θ.
b) Estudiar si el estimador encontrado en el apartado anterior es insesgado para estimar el
parámetro θ.
2. Sea (X1 � . . . � XN ) una muestra aleatoria de una población X con función de densidad:
fθ (x) =
� −x2 �
x
exp
θ2
2θ2
si x > 0 �
(θ > 0) .
Hallar el estimador de máxima verosimilitud de θ.
3. Sea (X1 � . . . � XN ) una muestra aleatoria de una población X con función de densidad:
fθ (x) = θ
� 1 �θ+1
x
si x > 1 �
(θ > 1) .
a) Hallar el estimador de máxima verosimilitud de θ.
b) Hallar el estimador de θ por el método de los momentos.
4. Se toma una muestra aleatoria de tamaño N de una población cuya función de densidad es:
f (x) =
� (log x − µ)2 �
exp −
2σ 2
xσ 2π
1
√
si x > 0
donde µ puede ser cualquier número real y σ es mayor que cero. Hallar los estimadores de
máxima verosimilitud de µ y σ 2 .
5. En una gran piscifactorı́a hay una proporción desconocida de peces de cierta especie A. Para
obtener información sobre dicha proporción, vamos a ir sacando peces al azar.
a) Si la proporción de peces de la especie A es p, ¿cuál es la probabilidad de que el primer
pez de la especie A sea el décimo que extraemos?
b) Tres personas realizan, independientemente unas de otras, el proceso de sacar peces al
azar hasta encontrarse con el primero de tipo A:
La primera persona obtiene el primer pez tipo A en la décima extracción; la segunda, en
la decimoquinta extracción; y en la decimoctava extracción, la tercera.
Escribir la función de verosimilitud y obtener la estimación de máxima verosimilitud de p.
6. Para estudiar la proporción p de caballos afectados por la peste equina se les va a someter a
una prueba. Sabemos que la prueba será positiva si el animal está enfermo; si está sano, hay
una probabilidad 0.04 de que la prueba resulte positiva.
a) Halla la relación entre la probabilidad p de estar enfermo y la probabilidad q de dar
positivo en la prueba.
3. MÉTODOS DE CONSTRUCCIÓN DE ESTIMADORES
81
b) Calcula el estimador de máxima verosimilitud de p si 500 ejemplares son sometidos a la
prueba y resulta positiva en 95 casos.
c) Si realmente hay un 20 % de caballos afectados por la epidemia, ¿cuál es la probabilidad
de que la prueba resulte positiva en al menos 95 ejemplares de los 500?
7. La distancia X entre un árbol cualquiera y el árbol más próximo a él en un bosque sigue una
distribución de Rayleigh con función de densidad
fθ (x) = 2θx exp(−θx2 )
si x ≥ 0 (θ > 0) .
a) Obtener los estimadores de máxima verosimilitud de θ y de
g(θ) = Eθ [X] =
basados en muestras de tamaño N .
1 � π � 12
�
2 θ
b) Obtener el estimador de θ por el método de los momentos.
8. El coseno X del ángulo con el que se emiten los electrones en un proceso radiactivo es una
variable aleatoria con densidad
fθ (x) =
1 + θx
2
si − 1 ≤ x ≤ 1 (−1 ≤ θ ≤ 1) .
Consideramos una muestra aleatoria (X1 � . . . � XN ) de esta variable aleatoria.
a) Obtener el estimador de θ por el método de los momentos.
b) Calcular la varianza de este estimador y demostrar que es consistente para estimar θ.
9. Se considera una muestra aleatoria (X1 � . . . � XN ) de una población con densidad
1
fθ (x) = e−x/θ
θ
si x > 0 (θ > 0) .
a) Obtener el estimador de máxima verosimilitud de θ y θ2 .
b) Consideramos ahora el estimador
T =
X1 + 2X2
.
3
¿Es T insesgado para estimar θ?
Hallar la varianza de T , sabiendo que la varianza poblacional es θ2 .
10. La lectura de voltaje dada por un voltı́metro conectado a un circuito eléctrico, es una variable
aleatoria con distribución uniforme en el intervalo (θ� θ + 1), siendo θ el verdadero valor (desconocido) del voltaje. Sea (X1 � . . . � XN ) una muestra aleatoria de lecturas de dicho voltı́metro.
a) Demostrar que la media muestral X̄ es un estimador sesgado de θ, y calcular el sesgo.
b) Calcular el error cuadrático medio de X̄.
c) Obtener, a partir de X̄, un estimador insesgado de θ.
82
CAPÍTULO 4. ESTIMACIÓN PUNTUAL
11. Disponemos de una variable aleatoria de una población con función de densidad
fθ (x) =
θ
x2
si x ≥ θ
(θ > 0) .
Calcular el estimador de máxima verosimilitud de θ y de 1/θ.
12. Se obtiene una muestra aleatoria (X1 � . . . � XN ) de una población con función de densidad
fθ (x) = θxθ−1
si x ∈ (0� 1) (θ > 0) .
Para estimar θ, calcúlese:
a) un estadı́stico suficiente;
b) el estimador de máxima verosimilitud;
c) el estimador por el método de los momentos.
13. Supongamos que se realizan N observaciones independientes de una variable aleatoria X, con
función de densidad
1 1
fθ (x) = x θ −1 si 0 ≤ x ≤ 1 (θ �= 0) .
θ
a) Obtener el estimador de θ por el método de los momentos.
b) Obtener el estimador de máxima verosimilitud de θ.
c) Obtener el estimador de máxima verosimilitud de Pθ (X < 1/2).
14. El error (en centigramos) que se comete al pesar un objeto en una balanza puede considerarse
como una variable aleatoria con distribución N (µ = 0 ; σ = 15).
a) Calcular la probabilidad de que el error cometido (en valor absoluto) en una pesada sea
inferior a 20 centigramos.
b) Si se quiere que el error medio cometido (en valor absoluto) sea inferior a 5 centigramos
con probabilidad 0.9, ¿cuál es el número mı́nimo de pesadas que hemos de realizar?
15. Vamos a clasificar las personas de un paı́s según dos caracterı́sticas: color de los ojos (oscuros
o claros) y sexo (hombre o mujer). Las dos caracterı́sticas son independientes.
a) Obtenemos una muestra al azar de la población con los siguientes resultados:
200
150
350
300
mujeres de ojos claros;
hombres con ojos claros;
mujeres con ojos oscuros;
hombres de ojos oscuros.
Obtener la estimación de máxima verosimilitud de p = P {hombre} y q = P {ojos claros}.
b) Después de muchas horas de intenso trabajo llegamos a saber con exactitud que p = 0.4 y
q = 0.6. Si tomamos 8 personas al azar de ese paı́s, ¿cuál es la probabilidad de encontrar
alguna mujer de ojos oscuros? Y si la muestra que tomamos es de 200 personas, ¿cuál es
la probabilidad de que haya más de 60 mujeres de ojos oscuros?
Descargar