Tema 7: Estimación puntual.

Anuncio
68
Estadı́stica
Tema 7: Estimación puntual.
7.1 Introducción a la Inferencia Estadı́stica.
En los temas anteriores se ha hecho énfasis en la teorı́a de la probabilidad y en determinados modelos
probabilı́sticos. En este tema y los siguientes nos centraremos en el estudio de procedimientos que nos
permitan tomar decisiones referidas a determinados problemas que presentan incertidumbre. Estos
procedimientos se engloban en lo que denominamos Inferencia Estadı́stica.
El objetivo de la Inferencia Estadı́stica es obtener información sobre la ley de probabilidades (o modelo
probabilı́stico) de un fenómeno, a partir de algunos datos experimentales.
Existen distintos tipos de procedimientos de Inferencia. Nosotros nos vamos a centrar en los llamados
procedimientos clásicos, en los que se supone que la única información disponible sobre el modelo
son los datos correspondientes a una muestra representativa de la población objeto de estudio, y los
problemas concretos que vamos a abordar se resumen en los siguientes:
(a) Problemas en los que la distribución de la variable se conoce, pero los parámetros (todos o
parte) que la caracterizan son desconocidos. El problema es, en este caso, cómo obtener un
valor o valores numéricos, a partir de los datos, que sea un pronóstico o estimación razonable
de ese parámetro. Cuando la solución proporcionada es un sólo valor numérico, hablaremos
de procedimientos de estimación puntual. Cuando la solución proporcionada es un intervalo
de valores en el que “probablemente” estará el parámetro, hablaremos de procedimientos de
estimación por intervalos.
(b) Problemas en los que se trata de constatar que una afirmación acerca de la distribución de
probabilidades del fenómeno estudiado es o no cierta. En este caso, hablaremos de procedimientos
de contraste de hipótesis.
Ejemplo 1: Supongamos que estamos estudiando el tiempo hasta el fallo de un determinado componente
electrónico. Se ha seleccionado una muestra representativa de este tipo de componente y se han
mantenido en funcionamiento hasta fallar, anotándose la duración de cada uno. Nos podemos plantear
los siguientes interrogantes:
(a) Si sabemos ya que el tiempo hasta el fallo sigue una distribución exponencial, ¿cuál es el tiempo
medio hasta el fallo para este tipo de componentes? (Corresponde a un problema de estimación
puntual).
(b) En las mismas condiciones que antes (sabiendo que la distribución es exponencial), ¿qué rango de
valores para la duración media parece razonable?. (Corresponderı́a a un problema de estimación
por intervalos).
(c) Los componentes provienen de dos procesos de fabricación distintos y se quiere determinar si
existen diferencias en cuanto al tiempo medio hasta el fallo. (Problema de contraste).
69
Estadı́stica
7.2 Muestreo; tipos de muestreo.
En una gran parte de los estudios experimentales es imposible disponer de los datos correspondientes a
todos los elementos de la población objeto de estudio (por razones económicas, de tiempo, o porque el
estudio suponga la destrucción del elemento estudiado o porque los elementos estudiados no existan en
la realidad). En esos casos es necesario trabajar a partir de los datos de sólo una parte de la población
y para que el estudio tenga validez interesa que esa parte sea representativa de toda la población.
Ya habı́amos definido anteriormente muestra como una parte representativa de la población; un procedimiento de muestreo es un procedimiento para seleccionar muestras representativas. Existen diversos
tipos de muestreo. Vamos a introducir algunos:
(a) Muestreo aleatorio simple: En este caso, cada elemento de la población tiene idéntica probabilidad
de ser elegido en cada una de las extracciones. Este tipo de muestreo se aplica cuando en la
población existe homogeneidad respecto de la caracterı́stica a estudiar.
En los casos en los que la muestra se extrae de una población finita, corresponde a extracciones
con reemplazamiento.
Este tipo de muestreo es uno de los más importantes, pues en él se basan los demás tipos que
vamos a introducir y una gran parte de los métodos estadı́sticos que vamos a desarrollar son
válidos sólo si la muestra se ha seleccionado por este procedimiento.
Definición 1 Sea X una v.a.; llamaremos muestra aleatoria simple (m.a.s.) de tamaño n de
X a un conjunto de variables aleatorias (X1 , . . . , Xn ) independientes y con idéntica distribución
que la variable X. Por tanto, una m.a.s. es un vector aleatorio, cada uno de cuyos elementos
representa los posibles valores de la componente i-ésima de una muestra aleatoria de tamaño n
de la población.
Ejemplo 2: Consideremos una población formada por 10 matrimonios, sobre la que se observa la
caracterı́stica ”número de hijos”.
Matrimonio
”número de hijos”
1
Alonso Pérez
1
2
Bueno Pongo
2
3
Delgado Delgado
2
4
Delgado Grueso
1
5
Luis Calle
3
6
Martı́nez Juez
3
7
Pérez Pérez
3
8
Ramos Ramos
2
9
Rodrı́guez Ruiz
3
10
Ruiz Maya
1
Sea X la variable aleatoria que asigna a cada matrimonio el ”número de hijos” del matrimonio.
70
Estadı́stica
El soporte de esta variable es SX = {1, 2, 3} y la ley de probabilidades viene dada por :
p(X = 1) = 0.3
p(X = 2) = 0.3
p(X = 3) = 0.4
Vamos a considerar ahora todas las posibles muestras de tamanõ 3 de X y la probabilidad de
extraer cada una de esas muestras:
Muestra
Probabilidad
(1,1,1)
(0.3)3
Muestr
Probabilidad
Muestra
Probabilidad
= 0.027
(3,1,1)
(0.3)2 (0.4)
= 0.036
(3,2,3)
(0.3)(0.4)2 = 0.048
(1,1,2)
(0.3)3 = 0, 027
(1,3,3)
(0.3)(0.4)2 = 0.048
(3,3,2)
(0.3)(0.4)2 = 0.048
(1,2,1)
(0.3)3 = 0.027
(3,1,3)
(0.3)(0.4)2 = 0.048
(3,3,3)
(0.4)3 = 0.064
(2,1,1)
(0.3)3 = 0.027
(3,3,1)
(0.3)(0.4)2 = 0.048
(1,2,3)
(0.3)2 (0.4) = 0.036
(1,2,2)
(0.3)3 = 0.027
(2,2,3)
(0.3)2 (0.4) = 0.036
(1,3,2)
(0.3)2 (0.4) = 0.036
(2,1,2)
(0.3)3 = 0.027
(2,3,2)
(0.3)2 (0.4) = 0.036
(2,3,1)
(0.3)2 (0.4) = 0.036
(2,2,1)
(0.3)3 = 0.027
(3,2,2)
(0.3)2 (0.4) = 0.036
(2,1,3)
(0.3)2 (0.4) = 0.036
(1,1,3)
(0.3)2 (0.4) = 0.036
(2,2,2)
(0.3)3 = 0.027
(3,1,2)
(0.3)2 (0.4) = 0.036
(1,3,1)
(0.3)2 (0.4) = 0.036
(2,3,3)
(0.3)(0.4)2 = 0.048
(3,2,1)
(0.3)2 (0.4) = 0.036
Lo que acabamos de dar es la ley de probabilidades del vector aleatorio (X1 , X2 , X3 ), donde cada
Xi representa el valor de X en el elemento i-ésimo de la muestra y podemos ver que cada Xi es
también una variable aleatoria con la misma distribución que X.
En general: puesto que una m.a.s. es un vector aleatorio, quedará definido si conozco su soporte y su ley de probabilidades. Teniendo en cuenta que las componentes del vector son v.a.
independientes y con la misma distribución que X,
• si X es discreta, p(x1 , x2 , . . . , xn ) = p(x1 )p(x2 ) . . . p(xn ), donde p es la función de probabilidad
de X.
• si X es continua, f (x1 , x2 , . . . , xn ) = f (x1 )f (x2 ) . . . f (xn ), donde f es la función de densidad
de X.
(b) Muestreo estratificado:
Se utiliza cuando la población no es homogénea. Se trata de respetar la heterogeneidad de la
población en la muestra: proporción de hombres/mujeres, de edad/profesión, ...
La población se subdivide en clases o estratos homogéneos. La muestra se toma asignando
un número de elementos a cada estrato y escogiendo los elementos dentro de cada estrato por
muestreo aleatorio simple.
(c) Muestreo por conglomerados.
Se utiliza cuando la población es homogénea respecto de la caracterı́stica a estudiar, pero se
encuentra dividida de manera natural en grupos (por ejemplo, provincias, colegios, ...). Se seleccionan algunos de los subgrupos de la población y en cada subgrupo se estudia toda la población
o una parte elegida por muestreo aleatorio simple.
(d) Muestreo sistemático.
Este tipo se utiliza para elementos ordenados de alguna manera (por ejemplo en listas, o en orden
cronológico de fabricación, etc).
71
Estadı́stica
Se selecciona un primer elemento de la población de manera aleatoria y a partir de él se seleccionan
los demás elementos a intervalos fijos.
Por la forma de selección, en principio, no se puede suponer independencia entre las observaciones.
Si el orden de los elementos en la lista es al azar, entonces el muestreo sistemático es equivalente
al muestreo aleatorio simple. Si los individuos próximos tienden a ser más semejantes que los
alejados, este muestreo tiende a ser más preciso que el muestreo aleatorio simple al cubrir más
homogéneamente toda la población.
7.3 Estadı́sticos y Estimadores.
En cualquiera de los procedimientos de Inferencia descritos anteriormente, un concepto que juega un
papel importante es el de estadı́stico:
Definición 2 Dada una v.a. X, y un tamaño muestral n, llamaremos estadı́stico T a una aplicación
del conjunto de muestras aleatorias simples de la población en IRk ,
Un estadı́stico es, por tanto, un vector aleatorio, cuya distribución depende de la del vector aleatorio
(X1 , . . . , Xn ), y por tanto de la de la v.a. X.
Ejemplo 3: Con los mismos datos que en el ejemplo 2, podemos considerar los siguientes estadı́stico,
definidos sobre el conjunto de muestras de tamanõ 3 de la variable X:
• T1 (X1 , X2 , X3 ) = máx{X1 , X2 , X3 }
Este estadı́stico es una variable aleatoria cuyo soporte es ST1 = {1, 2, 3} y su ley de probabilidades
viene dada por:
p(T1 = 1) = p(muestras de tamanõ 3 para las que máx{X1 , X2 , X3 } = 1) = p((1, 1, 1)) = 0.027
p(T1 = 2) = p(muestras de tamanõ 3 para las que máx{X1 , X2 , X3 } = 2) =
S
S
S
S
S
S
= p((2, 1, 1) (1, 2, 1) (1, 1, 2) (2, 2, 1) (2, 1, 2) (1, 2, 2) (2, 2, 2)) == 7(0.027) = 0.189
p(T1 = 3) = p(muestras de tamanõ 3 para las que máx{X1 , X2 , X3 } = 3) =
= 12(0.036) + 6(0.048) + 0.064 = 0.784
• T2 (X1 , X2 , X3 ) = M ed{X1 , X2 , X3 }
Este estadı́stico es una variable aleatoria cuyo soporte es ST2 = {1, 2, 3} y su ley de probabilidades
viene dada por:
p(T2 = 1) = p(muestras de tamanõ 3 para las que M ed{X1 , X2 , X3 } = 1) =
S
S
S
S
S
S
= p((1, 1, 1) (1, 1, 2) (2, 1, 1) (1, 2, 1) (1, 1, 3) (1, 3, 1) (3, 1, 1)) =
= 4(0.027) + 3(0.036) = 0.216
p(T2 = 2) = p(muestras de tamanõ 3 para las que M ed{X1 , X2 , X3 } = 2) =
72
Estadı́stica
= 4(0.027) + 9(0.036) = 0.432
p(T2 = 3) = p(muestras de tamanõ 3 para las que M ed{X1 , X2 , X3 } = 3) =
= 6(0.048) + 0.064 = 0.352
• T3 (X1 , X2 , X3 ) =
X1 +X2 +X3
3
Este estadı́stico es una variable aleatoria cuyo soporte es ST1 = {1, 43 , 53 , 2, 37 , 38 , 3} y su ley de
probabilidades viene dada por:
p(T3 = 1) = p((1, 1, 1)) = 0.027
p(T3 = 43 ) = 3(0.027) = 0.081
p(T3 = 53 ) = 3(0.027) + 3(0.036) = 0.189
p(T3 = 2) = 0.027 + 6(0.036) = 0.243
p(T3 = 73 ) = 3(0.036) + 3(0.048) = 0.252
p(T3 = 83 ) = 3(0.048) = 0.144
p(T3 = 3) = 0.064
Definición 3 (a) Cuando el objetivo es estimar un parámetro θ, llamaremos espacio paramétrico al
conjunto de todos los posibles valores de θ y lo denotaremos por Θ.
Se llama estimador a un estadı́stico θ̂ que se utiliza para estimar el valor de un parámetro θ y
cuyo conjunto de llegada coincide con el espacio paramétrico;
(b) Se llama estimación al valor del estimador para una muestra concreta.
Ejemplo 4:
• El espacio paramétrico del parámetro p de una variable aleatoria B(p) es el intervalo [0,1].
• El espacio paramétrico del parámetro pλ de una variable aleatoria P(λ) es (0, ∞).
• El espacio paramétrico del parámetro µ de una variable aleatoria N (µ, σ) es IR.
Ejemplo 5:
• La aplicación que a cada muestra aleatoria de tamaño n de la variable X, (X1 , . . . , Xn ) le asigna el
valor X̄ =
n
P
Xi
n es un estadı́stico; si este estadı́stico se utiliza para estimar la media poblacional,
i=1
diremos que es un estimador. Si (x1 , . . . , xn ) es una muestra concreta de la variable, el valor
x̄ =
n
P
xi
n será una estimación de la media poblacional.
i=1
• Igualmente, la aplicación que a cada muestra aleatoria de tamaño n de la variable X, (X1 , . . . , Xn )
le asigna el valor M ed(X) = mediana{(X1 , . . . , Xn )} es un estadı́stico; si este estadı́stico se utiliza
para estimar la media poblacional, diremos que es un estimador. Si (x1 , . . . , xn ) es una muestra
concreta de la variable, el valor M ed{x1 , . . . , xn } será una estimación de la media poblacional.
73
Estadı́stica
7.4 Propiedades deseables en un buen estimador.
Para un mismo parámetro se pueden elegir varios estimadores (por ejemplo, para estimar la media de
la población puede considerarse la media muestral, la mediana muestral, la moda, etc). Se plantea el
problema de elegir el estimador más adecuado entre varios posibles. Vamos a explicar algunas de las
propiedades que serı́a deseable que un estimador tuviese.
(a) Centrado o insesgado:
Si θ̂ es un estimador del parámetro θ, se dice que es centrado si E(θ̂) = θ. En otro caso se dice
que es sesgado y se define el sesgo de θ̂ como:
sesgo(θ̂) = E(θ̂) − θ.
Ejemplo 6:
• La media muestral es un estimador insesgado de la media de la población, µ.
Sea X la variable aleatoria correspondiente a la caracterı́stica de la población y (X1 , X2 , . . . , Xn )
una m.a.s. de X; sea X̄ =
n
P
Xi
n . Entonces:
i=1
E(X̄) = E
!
à n
X Xi
n
i=1
=
n
X
µ
E
i=1
Xi
n
¶
=
n
X
E(Xi )
i=1
n
(aquı́ se aplica que la media de una suma de v.a. es la suma de sus medias y que la media
de una constante por una v.a. es la constante por la media de la variable).
Como las variables Xi son igualmente distribuidas que la variable X, tendrán también su
misma media, µ; por tanto,
E(X̄) =
n
X
E(Xi )
i=1
=
n
n
X
µ
i=1
n
= µ.
• La varianza muestral es un estimador sesgado de la varianza de la población, σ 2 .
Sea X la variable aleatoria correspondiente a la caracterı́stica de la población y (X1 , X2 , . . . , Xn )
una m.a.s. de X; sea s2 =
n
P
(Xi −X̄)2
i=1
2
E(s ) = E
n
à n
!
X (Xi − X̄)2
i=1
=E
. Entonces:
n
=E
à n
!
X (Xi − µ)2 + (µ − X̄)2 + 2(Xi − µ)(µ − X̄)
n
à n
X (Xi − µ)2
n
i=1
=E
à n
!
X (Xi − µ)2
i=1
n
i=1
i=1
=E
à n
!
X (Xi − µ + µ − X̄)2
n
+
n
X
(µ − X̄)2
n
i=1
+E
+ 2(µ − X̄)
à n
!
X (µ − X̄)2
i=1
n
=
n
X
(Xi − µ)
i=1
n
=
!
=
+ 2E((µ − X̄)(X̄ − µ)) =
74
Estadı́stica
=
n
X
E(Xi − µ)2
n
i=1
=
n
X
i=1
+
n
X
E(µ − X̄)2
n
i=1
− 2E((X̄ − µ)2 ) = 1
n
X
σ2
E(µ − X̄)2
+
− 2E((X̄ − µ)2 ) = 2
n
n
i=1
=
n
X
σ2
i=1
n
−
σ2
n−1
= σ2
.
n
n
2
2
2
Hemos obtenido que E(s2 ) = σ 2 n−1
n . Se deduce fácilmente que E(ŝ ) = σ , donde ŝ =
n
P
(Xi −X̄)2
i=1
n−1
, y por tanto, este sı́ es un estimador centrado de σ 2 .
(b) Varianza mı́nima:
Se define estimador insesgado de mı́nima varianza como aquel estimador del parámetro que entre
todos los insesgados, es el de menor varianza. (Dicho estimador no existe siempre).
Observación 1 La importancia de esta propiedad se comprende a partir del teorema de Chebychev, que afirmaba
que
E(´θ̂) ± kσ(θ̂) se concentra
³
´ para una variable aleatoria θ̂, en el intervalo
³
1
al menos el 1 − k2 100% de la probabilidad, es decir, que el 1 − k12 100% de las veces que
obtenga de forma aleatoria un valor de la variable, ese valor estará en dicho intervalo.
³
Por tanto, si θ̂ es un estimador del parámetro θ, “al menos para el 1 −
1
k2
´
100% de las mues-
tras”, el estimador θ̂ tomará
un
³
´ valor en E(θ̂) ± kσ(θ̂). Si el estimador es centrado, eso significa
1
que para “al menos el 1 − k2 100% de las muestras” el error cometido al estimar θ por medio
de θ̂ será menor que kσ(θ̂) y se deduce que este error es menor cuanto menor sea σ 2 (θ̂).
En ocasiones, los estimadores que se utilizan no son centrados. En ese caso, la propiedad equivalente a ser de varianza mı́nima es tener error cuadrático medio mı́nimo:
Definición 4 Se define el error cuadrático medio (ECM) de un estimador θ̂ como: ECM (θ̂) =
E(θ̂ − θ)2 .
Proposición 1 Se verifica que: ECM (θ̂) = (sesgo(θ̂))2 + V ar(θ̂).
Demostración
ECM (θ̂) = E(θ̂ − θ)2 = E(θ̂ − E(θ̂) + E(θ̂) − θ)2 =
= E((θ̂ − E(θ̂))2 + (E(θ̂) − θ)2 + 2(θ̂ − E(θ̂))(E(θ̂) − θ)) =
= E(θ̂ − E(θ̂))2 + E(E(θ̂) − θ)2 + E(2(θ̂ − E(θ̂))(E(θ̂) − θ)) =
= V ar(θ̂) + (E(θ̂) − θ)2 + 2(E(θ̂) − θ)E(θ̂ − E(θ̂)) = 3 = V ar(θ̂) + (sesgo(θ̂))2 .
1
E(Xi − µ)2 = V ar(Xi ) = σ 2 , por tener las variables
µ
¶Xi la misma distribución que X.
2
E(µ − X̄)2 = E(X̄ − µ)2 = V ar(X̄) = V ar
n
P
i=1
X1 , . . . , Xn son independientes, por ser una m.a.s..
3
Obsérvese que E(θ̂ − E(θ̂)) = 0.
Xi
n
=
1
V
n2
ar(
n
P
i=1
Xi ) =
1
n2
n
P
i=1
V ar(Xi ) =
nσ 2
n2
=
σ2
,
n
ya que las variables
75
Estadı́stica
En el resultado anterior, puede verse que si el estimador es centrado, el ECM coincide con la
varianza del estimador.
(c) Consistencia:
Los estimadores, en general dependen del tamaño n de la muestra (por ejemplo, X̄ en realidad
deberı́a escribirse como X̄n ). Por tanto, en general, para cada n vamos a tener un estimador
θ̂n ; se dice entonces que {θ̂n }∞
n=1 es una sucesión de estimadores consistentes si cumple las dos
condiciones siguientes:
i. lim E(θ̂n ) = θ.
n7→∞
ii. lim V ar(θ̂n ) = 0.
n7→∞
Esta propiedad nos asegura que aunque un estimador no sea insesgado y con varianza pequeña,
basta aumentar el tamaño de la muestra para poder disminuir el ECM, y en este sentido, los
estimadores con esta propiedad pueden ser estimadores razonables del parámetro.
Ejemplo 7:
i. La media muestral es un estimador consistente de la media poblacional.
En efecto, anteriormente hemos probado que para cualquier tamaño muestral n, la media
2
muestral es centrada y que V ar(X̄n ) = σn . Por tanto, se cumplen las dos propiedades de la
definición de consistencia.
ii. El estimador θ̂n =
En efecto, θ̂n =
n
P
Xi
n−1 es un estimador consistente de la media poblacional.
i=1
n
(n−1) X̄.
Por tanto:
n
n
(n−1) E(X̄) = (n−1) µ 7−→ µ si n 7→ ∞ .
n2 σ 2
n2
n
2
ar(θ̂n ) = (n−1)
2 V ar(X̄) = (n−1)2 n = (n−1)2 σ
• E(θ̂n ) =
• V
7−→ 0 si n 7→ ∞ .
7.5 Métodos para la obtención de estimadores.
(a) Método de los momentos:
Este método consiste en igualar los momentos muestrales respecto del origen, ak , a los correspondientes momentos poblacionales αk ( que están relacionados con los parámetros de la distribución).
Recordemos que si X es una v.a., el momento de orden k (k ≥ 1) respecto del origen, αk , se define
como:
• αk =
• αk =
∞
P
xki p(xi ), si X es discreta, con SX = {x1 , . . . , xn , . . .}.
i=1
R∞ k
−∞ x
f (x) dx, si X es continua, con función de densidad f (x).
Método:
Si el número de parámetros que hay que estimar es k, dada una m.a.s. de tamaño n, (X1 , . . . , Xn ),
se plantea el siguiente sistema de ecuaciones (que en general no es lineal):
76
Estadı́stica















n
P
Xi
α1 =
i=1
n
P
α2 =
i=1
..
.
n
(Xi )2
n
..
.



n
P

(Xi )k 

αk =


n

i=1



..
..


.
.
hasta obtener k ecuaciones que involucren a los parámetros.
De este sistema se despejan los parámetros y las expresiones obtenidas para éstos, en función de
los valores de la muestra, serán los estimadores por el método de los momentos.
Observación 2 Generalmente, los parámetros de los que depende la distribución de una v.a.
suelen ser la media poblacional, o la varianza o algún valor relacionado con estos; puede verse
fácilmente que estas medidas están relacionadas con los momentos respecto del origen. Por
ejemplo, α1 = µ α2 = σ 2 + µ2 .
Observación 3 Los estadı́sticos ası́ obtenidos pueden no ser estimadores, es decir, podemos
obtener soluciones que queden fuera del espacio paramétrico.
Ejemplo 8:
• Estimador por el método de los momentos de la media poblacional.
Puesto que hay que estimar un único parámetro, plantearemos una única ecuación:
α1 =
n
X
Xi
n
i=1
Como α1 = µ, sustituyendo en la ecuación se obtiene:
µ=
n
X
Xi
n
i=1
y por tanto el estimador será: µ̂ =
n
P
Xi
n .
i=1
• Estimador por el método de los momentos de la media y la varianza poblacionales.
En este caso hay que estimar dos parámetros, luego habrá que plantear dos ecuaciones:



 α1 =


 α2 =
n
P
Xi
i=1
n
P
i=1
n
(Xi )2
n
Teniendo en cuenta la relación indicada en la observación 2 anterior, este sistema es equivalente a:

n
P

Xi

 µ=
n


 σ 2 + µ2 =
i=1
n
P
i=1
(Xi )2
n
77
Estadı́stica
Despejando µ y σ 2 se obtiene las siguientes expresiones:
(
Pn
µ=
σ2 =
Xi
i=1 n
(Xi −X̄)2
i=1
n
Pn
Por tanto los correspondientes estimadores por el método de los momentos son:
(
µ̂ = X̄
σˆ2 = s2 .
(b) Método de máxima verosimilitud:
El método de máxima verosimilitud se basa en la búsqueda de aquel valor del parámetro que hace
más probable obtener la muestra que precisamente se ha obtenido. Vamos a desarrollar esta idea
con un ejemplo y después expondremos de forma teórica el método.
Ejemplo 9: Supongamos que X es una v.a. con distribución de Bernouilli de parámetro p y que
(x1 , . . . , xn ) son los valores (concretos) de una muestra aleatoria de tamaño n, (X1 , . . . , Xn ).
Si p ' 1, parece lógico pensar que en esta muestra casi todos los valores xi sean 1, mientras
que si p ' 0, será más probable que los elementos sean casi todos nulos. Si p ' 1/2, entonces
esperarı́amos que aproximadamente hubiese igual número de 0 que de 1.
Sin embargo, no conocemos p pero si los valores que hemos obtenido en la muestra, x1 , . . . , xn .
Ya hemos visto que la proporción de 0 y 1 en la muestra es más probable con unos valores de p
que con otros y la pregunta que nos vamos a formular es ¿cuál es el valor de p ∈ [0, 1] que hace
que la probabilidad de obtener precisamente esta muestra sea máxima?.
La probabilidad de obtener esta muestra es:
p(x1 , x2 , . . . , xn ) = p(x1 ) . . . p(xn ) = pk (1 − p)n−k ,
donde k es el número de 1 en la muestra, es decir, k =
n
P
i=1
xi .
El problema de encontrar el valor de p ∈ [0, 1] que hace máxima esta probabilidad es un problema
de extremos absolutos en [0, 1].
Si llamamos l(p) = pk (1 − p)n−k ( k ≥ 0), derivando en (0, 1) e igualando a 0:
l0 (p) = kpk−1 (1 − p)n−k − pk (n − k)(1 − p)n−k−1 =
= pk−1 (1 − p)n−k−1 [k(1 − p) − (n − k)p] = pk−1 (1 − p)n−k−1 [k − np]
n
P
El punto crı́tico que se obtiene es: p =
k
n
=
i=1
n
xi
.
l00 (p)
Calculando
y substituyendo, se obtiene que éste es un punto de máximo relativo. Como
l(0) = l(1) = 0, se concluye que también es un máximo absoluto, pues la función es continua y
no tiene más extremos relativos en (0, 1).
n
P
xi
De esta forma hemos obtenido un estimador de p, p̂ = i=1n . A este estimador se le denomina
estimador máximo verosı́mil (EMV) de p (se observa que coincide con la media muestral X̄).
78
Estadı́stica
Vamos a describir ahora teóricamente el método:
Método: Sea X una v.a. cuya distribución depende de un conjunto de parámetros θ1 , θ2 , . . . , θk ,
desconocidos y cuyo valor queremos estimar. Sea (X1 , . . . , Xn ) una m.a.s. de X. Denotaremos
por θ~ = (θ1 , θ2 , . . . , θk ).
Definición 5 Se denomina función de verosimilitud para la muestra (x1 , . . . , xn ) a la función,
~ dada por:
definida sobre el conjunto de posibles valores del parámetro θ,
(
~ =
l(θ)
pθ~ (x1 , x2 , . . . , xn ) = pθ~ (x1 ) . . . pθ~ (xn ) si X es discreta
fθ~ (x1 , x2 , . . . , xn ) = fθ~ (x1 ) . . . fθ~ (xn ) si X es continua
Definición 6 El estimador máximo verosı́mil de θ~ para la muestra (x1 , . . . , xn ) es el valor del
vector θ~ para el cuál la función de verosimilitud alcanza el máximo absoluto.
Método:
- Formar la función de verosimilitud para una muestra arbitraria de tamaño n.
- Resolver el correspondiente problema de máximos absolutos en el dominio de los parámetros.
- Definir como EMV las expresiones obtenidas al determinar el máximo absoluto.
Observación 4 El método de máxima verosimilitud plantea varias dificultades en la práctica:
- No siempre existe el máximo absoluto para la función de verosimilitud.
- Aún cuando éste exista, para determinarlo es necesario resolver un problema de extremos absolutos restringidos a un dominio de IRn , problema que no siempre es fácil de resolver.
En muchas ocasiones, en lugar de maximizar la función de verosimilitud es más fácil maximizar
la función L(θ) = ln (l (θ)), llamada función soporte. Si la función l(θ) es estrictamente positiva
en el dominio de θ, entonces los máximos de una y otra función se corresponden y por tanto
maximizar una es equivalente a obtener los máximos de la otra. (Un ejemplo es la determinación
del EMV de µ y σ para una v.a. con distribución normal).
Proposición
³ ´2 (Teorema de invarianza) Si θ̂ es el E.M.V. de θ y g es una función de θ,
entonces g θ̂ es el E.M.V. de g (θ) .
79
Estadı́stica
ESTADÍSTICA 06-07. Hoja 7
1. Obtener un estimador insesgado para p en una m.a.s. de tamaño n de una distribución binomial
B(m,p) con m conocido y calcular su error cuadrático medio. ¿Es consistente?.
2. Para estimar la media de una población se considera el estimador aX̄. Encontrar el valor de a que
minimice el error cuadrático medio.
3. Los defectos en una placa fotográfica siguen una distribución de Poisson.
(a) Encontrar un estimador centrado para λ, indicando la varianza del estimador.
(b) Se estudian 7 placas, encontrando: 3, 5, 2, 1, 2, 3, 4 defectos. Dar la estimación máximo verosı́mil
de λ y de la longitud media entre defectos.
4. Calcular el valor de k para el cuál θ̂ = k X̄ es un estimador insesgado del parámetro θ de la v.a. X que
sigue una distribución uniforme en el intervalo (0, θ).
5. Calcular por el método de los momentos un estimador de θ en el supuesto de que X sea una variable
aleatoria con función de densidad:
f (x) =


 0


3θ3
x4
x≤θ
x>θ
6. Calcular por el método de los momentos estimadores de a y de b en una distribución uniforme en el
intervalo [a,b].
7. El coseno X del ángulo con el que se emiten los electrones en un proceso radiactivo es una variable
aleatoria con función de densidad:

1 + θx




fθ (x) =
2



 0
−1 ≤ x ≤ 1
(−1 ≤ θ ≤ 1)
en otro caso
Consideremos una muestra aleatoria simple (X1 , X2 , ..., Xn ) de esta variable.
(a) Obtener el estimador de θ por el método de los momentos.
(b) Calcular la varianza de este estimador y demostrar que es consistente.
80
Estadı́stica
8. En una gran piscifactorı́a hay una proporción desconocida de peces de una especie A. Para obtener
información sobre esa proporción vamos a ir sacando peces al azar.
(a) Si la proporción de peces de la especie A es p, ¿cuál es la probabilidad de que el primer pez de
la especie A sea el décimo que extraemos?.
(b) Tres personas realizan, independientemente unas de otras, el proceso de sacar peces al azar hasta
encontrarse con el primero de tipo A:
La 1a persona obtiene el primer pez de tipo A en la décima extracción.
La 2a persona obtiene el primer pez de tipo A en la décimoquinta extracción.
La 3a persona obtiene el primer pez de tipo A en la décimoctava extracción.
Escribir la función de verosimilitud y obtener la estimación de máxima verosimilitud de p.
9. Hallar el E.M.V. para una m.a.s. de tamaño n en una v.a. de Bernouilli de parámetro p.
10. Hallar el E.M.V. de (µ, σ) para una m.a.s. de tamaño n en una v.a. N (µ, σ).
11. Sea X una v.a. con distribución uniforme en el intervalo [θ − 1, θ + 1]. Se ha observado la siguiente
muestra: 2.522 , 2.614 , 1.160 , 1.627 , 1.410 , 2.612 , 1.636 , 2.945 , 2.952 , 1.502. Hallar la estimación
máximo verosı́mil de θ.
12. Sea X un v.a. U (0, θ) . Sea X1 , X2 , . . . , Xn una m.a.s. de X.
(a) Demostrar que X(n) = máx (X1 , X2 , . . . , Xn ) es el E.M.V. de θ. ¿Es insesgado?. Calcular su
E.C.M. ¿Es consistente?.
(b) Dar un estimador T1 insesgado de θ. ¿Es consistente?.
(c) Sea T2 = (n + 2)X(n) /(n + 1). ¿Es insesgado?. ¿Es consistente?.
(d) ¿Qué estimador es preferible entre T1 y T2 ?.
(e) Se ha observado la siguiente muestra: 3.872 , 2.758 , 2.096 , 2.494 , 0.917 , 0.801 , 1.192 Hallar la
estimación de θ.
13. La función de densidad de una v.a. X es f (x, θ) = (θ + 1) xθ
si 0 < x < 1.
(a) Hallar un estimador de θ mediante el método de los momentos.
(b) Hallar el E.M.V. de θ.
14. Calcular por el método de los momentos un estimador de θ en el supuesto de que X sea una variable
aleatoria U (−θ, θ) .
15. Sea X una v.a. con distribución geométrica de parámetro p. Obtener un estimador de p por el método
de los momentos y el E.M.V..
16. Sea (X1 , X2 , . . . , Xn ) una m.a.s. de una v.a. con función de densidad fθ (x) = θ(1 − x)θ−1 ;
0 ≤ x ≤ 1, θ > 0.
Encontrar el estimador máximo verosı́mil para el paramétro θ.
81
Estadı́stica
17. Dada una muestra aleatoria simple (X1 , X2 , . . . , Xn ) procedente de una población X con función de
densidad

2
 x e x2θ
si x ≥ 0
θ
f (x) =

0
si x < 0.
Calcular por el método de máxima verosimilitud un estimador para θ.
18. Sea X un variable aleatoria con media µ y varianza σ 2 . Dadas dos muestras aleatorias independientes
de tamaño n1 y n2 , con medias muestrales X̄1 y X̄2 , demuestre que
X̄ = aX̄1 + (1 − a)X̄2 ,
0<a<1
es un estimador insesgado para µ.
Si X̄1 y X̄2 , son independientes, encuentre el valor de a que minimiza la desviación estándar de X̄.
¿Es consistente el estimador, para dicho valor de a?.
19. Supón que T1 , T2 y T3 son estimadores de θ. Se sabe que Eθ (T1 ) = Eθ (T2 ) = θ, Eθ (T3 ) = θ + 2,
V arθ (T1 ) = 12, V arθ (T2 ) = 10 y V arθ ((T3 − θ)2 ) = 13. Compara estos tres estimadores desde el
punto de vista del sesgo y la varianza. ¿Cuál prefieres? ¿Por qué?
20. Sea X1 , X2 , . . . , X7 una m.a.s. de una población que tiene media µ y varianza σ 2 .
Se consideran dos estimadores de µ:
θ̂1 =
X1 + X2 + · · · + X7
7
θ̂2 =
(a) ¿Estos estimadores son insesgados?
(b) Calcular la varianza de cada uno.
(c) ¿Cuál consideras mejor estimador de µ? ¿Por qué?
2X1 − X6 + X4
2
82
Estadı́stica
21. Ciertas piezas tienen una duración mı́nima θ > 0 y una duración extra aleatoria que sigue una distribución exponencial de parámetro 1 de manera que el tiempo de vida de la población de piezas es una
variable aleatoria X con densidad:
(
f (x, θ) =
eθ−x si x > θ
0
si x ≤ θ
Se extrae una muestra aleatoria simple de tamaño n de X.
(a) Obtén el estimador máximo verosı́mil T1 de θ.
(b) Calcula el estimador T2 de θ por el método de los momentos.
Nota: Puede ser útil el hecho de que X = θ + Y con Y ∼ E(1).
(c) ¿Es T2 un estimador insesgado de θ? ¿Y consistente para θ?
(d) Sabiendo que E(T1 ) = θ +
1
n
y V ar(T1 ) =
1
n2
¿Qué estimador es preferible para θ? ¿Por qué?
(e) Un ingeniero proporciona una estimación de θ a partir de T1 y de una muestra de tamaño 30. ¿Qué
tamaño muestral serı́a necesario para conseguir con T2 una estimación preferible a la obtenida
por el ingeniero?
22. Sea X1 , X2 , . . . , Xn una muestra aleatoria de tamaño n.
(a) Demuestre que X¯2 es un estimador sesgado de µ2 .
Nota: Recordar que V ar(X) = E(X 2 ) − (E(X))2
(b) Determine la magnitud del sesgo en este estimador.
(c) ¿Qué sucede con el sesgo a medida que aumenta el tamaño n de la muestra?
23. En un experimento de Bernouilli se observan los valores x1 , x2 , . . . , xn en n ensayos independientes.
Se proponen los siguientes estadı̀sticos como estimadores del parámetro p:
n
1X
x1
T1 =
n i=1
Ã
n
X
1
T2 =
1+
x1
n+2
i=1
!
(a) ¿Son estimadores insesgados de p?
(b) ¿Son estimadores consistentes?
24. Sea T una v.a. con distribución exponencial de parámetro λ, que representa el tiempo de vida de una
componente.
(a) Demostrar que la probabilidad de dejar de funcionar antes del tiempo medio de vida no depende
del parámetro λ.
(b) Hallar el E.M.V. de la media de la población a partir de una m.a.s. de tamaño n.
83
Estadı́stica
25. El porcentaje X de una componente en un producto tiene una función de densidad f (x) =
si 0 < x < θ, y cero en otro caso.
2
(θ
θ2
− x)
(a) Dada una muestra aleatoria simple de tamaño n calcular el estimador de θ por el método de los
momentos y analizar su consistencia.
(b) Suponiendo que el tamaño muestral es uno, calcular el estimador máximo verosı́mil de θ.
(c) Particulariza el estimador obtenido en el apartado (a) al caso n = 1 y compáralo con el obtenido
en el apartado (b).
26. La variable X representa los precios de alquiler de los apartamentos de una zona turı́stica. La función
de densidad de X es:
(
1 −x/θ
x>0
θe
f (x, θ) =
0
x≤0
Se elige una muesta aleatoria simple X1 , X2 , . . . , Xn (n ≥ 2) de precios y se consideran los estimadores
de θ:
X1 + X2 + · · · + Xn−1
X1 + X2 + · · · + Xn
θ̂1 =
θ̂2 =
n−1
n+1
(a) Estudia la consistencia de θ̂1 y θ̂2 .
(b) ¿Cuál de los dos estimadores es preferible?
Descargar