Consideraciones Previas - Universidad Técnica Federico Santa María

Anuncio
Universidad Técnica Federico Santa María
Consideraciones Previas
Capítulo 7
Conceptos Básicos
Distribuciones usadas en Inferencia
Teoremas relevantes
Estimación Puntual
Métodos de Evaluación de
Estimadores Puntuales
Estimación por Intervalos
Estimación de Parámetros
Estadística Computacional
II Semestre 2005
Prof. Héctor Allende
Página
e-mail
: www.inf.utfsm.cl/~hallende
: [email protected]
H. Allende, R. Salas
2
Distribuciones usadas en Inferencia
1.- Ji-Cuadrado con “n” grados de libertad.
Sea X1, X2, ..., Xn n v.a. continuas independientes
tal que Xi ~ N (0,1) i = 1, …, n (i.i.d.)
n
2
fY ( y ) =
−1 −
n
2
y
2
n
2 Γ 
2
I R+ ( y)
X
Y
n
~
OBS:
Γ(α + 1) = α ⋅ Γ (α ), α > 0
1. E [Y ] = n
TABLA
fY ( y )
Var [Y ] = 2n
2
ϕY (t ) = (1 − 2t )
n
−
2
y
E [Y ] = n
4
OBS:
1. E [T ] = 0
n
n−2
3. ϕ T (t ) no existe
2. Var [T ] =
t − Student (n )
t2 
 n + 1 
Γ
  1 + 
n 
 2 
fT (t ) =
n
πnΓ 
2
Profesor: Hector Allende
e dy es la función gamma
además,
3
2.- t-Student
Sea X v.a.c. tal que X ~ N (0,1)
Y v.a.c. tal que Y ~ χ2(n)
T=
α −y
0
4.
Distribuciones usadas en Inferencia
Sea
∫y
3. χ 2 ( n ) ⇔ Γ n ;2 
i =1
n
∞
2. Var [Y ] = 2n
Y = ∑ X i ~ χ 2( n )
y2 e
donde Γ(α + 1) =
−
fT (y)
n +1
2
t
I R (t )
5
6
1
Universidad Técnica Federico Santa María
Distribuciones usadas en Inferencia
3.- F-de Fisher
Sea X v.a.c. tal que X ~ χ2(n)
Y v.a.c. tal que Y ~ χ2(m)
X
Sea Z = n
Y
m
independientes
donde la constante
OBS:
1. E [Z ] =
n+m
n
Γ

2
 2   n 
K =
 
n mm
Γ Γ 
2  2 
n
,m>2
m−2
2
~
2. V [Z ] = 2 m  (n + m − 2) , m > 4
F ( n, m )
K •z
fZ (z) =
n
−1
2
n 

z
1 +
m


n+m
2
m−2
3. ϕ Z (t )
I R+ ( z)
n( m − 4)
fZ (z)
no existe
E[Z] =
7
n
m−2
8
Teoremas Límites
Teoremas Límites
• Convergencia en Distribución (CD):
Una sucesión de v.a. X1,X2,…,Xn converge en
distribución a una v.a. X si
Notación:
• A partir de la CD nace uno de los teoremas más
importantes en estadística:
limn→∞ FX n ( x ) = FX ( x )
D
X n →
X
∀x donde FX (x ) es continua.
Note que la convergencia se efectúa sobre las cdfs y
no en las variables aleatorias, las cuales no requieren
ser i.i.d., como en una muestra.
9
Teorema Central de Límite (TCL):
Sea X1, X2, …, Xn una secuencia de v.a.i.i.d.,
n
con E [X i ] = µ y V [X i ] = σ 2 finitas. Sea X n = (1 / n )∑i =1 X i .
Sea
Entonces, ∀y ∈ ℜ :


D


Y n →
N ( 0 ,1)
Xn −µ 
Yn = 
σ
 Es decir:

y
t2


1 −2
n 

limn→∞ FYn ( y ) = ∫
e dt
− ∞ 2π
10
Teoremas Límites
• El TCL es útil cualquiera sea el modelo de
probabilidad a partir del cual se generaron las v.a. Xi.
• No obstante, si este modelo es semejante a la
distribución Normal, la aproximación será buena aun
para pequeñas muestras; mientras que si el modelo de la
población es poco parecido a una Normal, la
aproximación resultará adecuada sólo para muestras
grandes, es decir, n > 30.
• La v.a. Yn se emplea para hacer inferencia sobre,
µ
cuando se conoce el valor de la varianza poblacional.σ 2
• Como desventaja, no existe forma de evaluar la
calidad de la aproximación.
11
Profesor: Hector Allende
z
Teoremas Límites
• Ejemplo 1:
Suponga que X1, X2, …, Xn es una secuencia de v.a.i.i.d.
de una distribución Binomial Negativa(r,p). Entonces,
Sabemos que E [X i ] = r (1 − p) / p y V [X i ] = r (1 − p ) / p 2 .
El TCL declara que:
(
n X n − r (1 − p ) / p
r (1 − p ) / p 2
)
D
→
N (0,1)
Se pide calcular P ( X ≤ 11). Es mucho más fácil computar
esta probabilidad mediante el TCL con N(0,1) que utilizar
directamente la función de probabilidad de la distribución
Binomial Negativa.
12
2
Universidad Técnica Federico Santa María
Teoremas Límites
Teoremas Límites
• Ejemplo 2:
• Considere r = 10, p = 1/2 y n = 30.
• Cálculo directo:
 30

P( X ≤ 11) = P  ∑ X i ≤ 330 
 i =1

300
x
330 300 + x − 1

 1   1 
= ∑ 
   

2
2
x




x=0 

= .8916
Obs:
∑ X es una BN(nr,p)
i
Se tiene una muestra de 64 datos de cierta v.a., se sabe que
la desviación estándar es igual a 16. Calcule la probabilidad
de que la media muestral se encuentre a no más de 4 unidades
del verdadero valor.
 X −µ
4 
P X − µ ≤ 4 = P
≤
σ / n σ / n 


(
)
• Usando el TCL:
 −4
X −µ
4 

= P
≤
≤

σ / n σ / n σ / n 
= P(− 2 ≤ Y ≤ 2 )
n>
= FY (2) − FY ( −2)
 30 ( X − 10)
30 (11 − 10) 

≤
P( X ≤ 11) = P

20
20


≈ P (Y ≤ 1.2247 )
= .8888
13
Teoremas Límites
ó
limn →∞ P ( X n − X < ε ) = 1
P
Xn 
→ X
Note que las v.a. no requieren ser i.i.d.
Además,
P
Xn 
→
X
⇒
Y ~ N(0,1).
14
Teoremas Límites
• Convergencia en Probabilidad (CP):
Una sucesión de v.a. X1,X2,…,Xn converge en
probabilidad a una v.a. X si, ∀ε > 0 ,
Notación:
limn →∞ P ( X n − X ≥ ε ) = 0
30
= .9544
• A partir de la CP nace otro importante resultado:
Ley Débil de los Grandes Números (LDGN):
Sea X1,X2,…,Xn una secuencia de v.a.i.i.d.,
n
con E [X i ] = µ y V [X i ] = σ 2 finitas. Sea X n = (1 / n )∑i =1 X i .
Entonces, ∀ε > 0 :
(
limn →∞ P X n − µ < ε
es decir:
X
D
X n →
X
n
)
= 1
P
→
µ
15
16
Teoremas Límites
Teoremas Límites
• Para demostrar el resultado anterior, debemos recurrir
a otro teorema muy utilizado en estadística:
• Demo LDGN: Se quiere demostrar que:
Desigualdad de Chebyshev (Tchebysheff):
Ya que X n es una v.a. tal que E [X n ] = µ y V [X n ] = σ 2 / n
del Teo. Chebyshev se tiene que
Sea X una v.a. con un función (densidad) de
probabilidad f ( x ) tal que E [X ] = µ y V [X ] = σ 2 son finitas.
Entonces ∀ε > 0 :
equivalentemente, si ε = kσ :
2
P( X − µ ≥ ε ) ≤
σ
ε2
1
P( X − µ ≥ kσ ) ≤ 2
k
Entrega una cota de la probabilidad de que una v.a. se
aleje a lo más ‘k’ desviaciones estándar de su media. 17
Profesor: Hector Allende
(
limn →∞ P X n − µ < ε
(
P Xn −µ ≥ε
)
)
= 1
≤
σ2
nε 2
como σ 2 tiene valor finito, tomando límite en esta
expresión conforme n → ∞ , se tiene que
(
limn→∞ P X n − µ ≥ ε
)
= 0
ó
(
limn→∞ P X n − µ < ε
)
= 1
18
3
Universidad Técnica Federico Santa María
Teoremas Límites
Teoremas Límites
• La LDGN es útil para estimar el tamaño necesario de
una muestra para asegurar con determinar probabilidad
que la media no se alejará más allá de una cantidad
específica de la media poblacional.
• Ejemplo…:
Por Chebyshev tenemos que
(
)
≤
σ2
nε 2
(
)
≤
10
= 1 − 0.9
n 22
P Xn −µ ≥ε
• Ejemplo: Considere un proceso aleatorio de varianza
conocida σ 2 = 10 y media µ desconocida. ¿Cuál debe ser
el tamaño de la muestra para que la media X n se
encuentre dentro de un intervalo igual a dos unidades
respecto de la media poblacional, con probabilidad de al
menos 0.9?
P Xn −µ ≥2
n=
10
= 25
4 * 0.1
19
20
Teoremas Límites
Teoremas Límites
• Convergencia Casi Segura (CCS):
También conocida como convergencia con
probabilidad 1. Es el tipo de convergencia más dura.
Una sucesión de v.a. X1,X2,…,Xn converge casi
seguramente a una v.a. X si, ∀ε > 0 ,
Notación:
ó
P (limn→∞ X n − X ≥ ε ) = 0
P (limn→∞ X n − X < ε ) = 1
⇒
Sea X1,X2,…,Xn una secuencia de v.a.i.i.d.,
n
con E [X i ] = µ y V [X i ] = σ 2 finitas. Sea X n = (1 / n )∑i =1 X i .
Entonces, ∀ε > 0 :
es decir:
P
Xn 
→
X
(
P limn→∞ X n − µ < ε
X
n
)
= 1
CS
→
µ
21
Estimación de Parámetros
22
Estimación de Parámetros
El objetivo de la estimación de parámetros es proveer de
métodos que permitan determinar con cierta precisión, el
vector de parámetros desconocidos ϑ, de un modelo
estadístico f(x ; ϑ) a partir de una muestra aleatoria de
una población bajo estudio.
1. Método de estimación Puntual:
Se busca un estimador ϑ que, con base en los
datos muestrales, dé origen a una estimación
univaluada del valor del parámetro.
2. Método de estimación por Intervalos:
Se determina un intervalo aleatorio I(ϑ), donde
con cierta probabilidad, se encuentra el valor del
parámetro ϑ.
1. Método de estimación Puntual
2. Método de estimación por Intervalos
23
Profesor: Hector Allende
Ley Fuerte de los Grandes Números (LFGN):
CS
X n →
X
Note que las v.a. no requieren ser i.i.d.
Además,
CS
X n → X
• A partir de la CCS nace otro importante resultado:
24
4
Universidad Técnica Federico Santa María
Definición de Estimador
Estimación Puntual
La idea detrás de la estimación puntual es bastante
simple. Cuando muestreamos desde una población
descrita por su función de densidad o cuantía, f ( x | θ )
conocer θ significa conocer la población entera.
Un estimador es una regla que nos indica cómo obtener un
parámetro de un modelo, basándose en la información
contenida en una muestra ( M={ f ( x | θ ) : θ ∈ Θ } modelo )
T :
χ
x
τ⊂Θ
T (x) = T (X1, X2,...., Xn)
T (x) : Estimador de θ, variable aleatoria, función de la
muestra, que no depende del parámetro θ.
Por lo tanto, es natural contar con métodos para
encontrar buenos estimadores del parámetro θ .
(T (x) es una estadística basada en la Información
χ)
χ={x : x es una muestra aleatoria} Espacio de Información
25
Métodos de Estimación Puntual
♦ En lo que sigue θˆ = T (X1, X2,..., Xn) estimador de θ.
26
Método de Momentos
Quizá este sea el método de estimación puntual más
antiguo (Karl Pearson, 1800’s).
♦ Método de Momentos
♦ Método de Máxima Verosimilitud
Sea X1, X2, …, Xn, una muestra desde una población
con pdf o pmf f ( x | θ1 ,θ 2 ,...,θ k ) . Los estimadores de
los k parámetros se encuentran igualando los
primeros k momentos muestrales con los correspondientes k momentos poblacionales. Resolviendo el
sistema de ecuaciones encontramos el vector de
estimación: θˆ = (θˆ1 ,θˆ2 ,...,θˆk )
♦ Método de Estimación de Bayes
27
Método de Momentos
Momentos Observados
n
m1 = 1 / n ∑ X i1
m
Ejemplo: Se tiene una muestra X1,X2,…,Xn iid que se
supone siguen una distribución N ( µ ,σ 2 ). Encuentre los
parámetros de la Gaussiana.
µ2 = E [ X 2 ]
Solución: Según la notación anterior, los parámetros de
la distribución son θ1 = µ y θ 2 = σ 2 .
,
i =1
m
n
mk = 1 / n ∑ X
Método de Momentos
Momentos Observados
(centrados en cero)
,
µ1 = E[ X 1 ]
i =1
n
m2 = 1 / n ∑ X i2
m
k
i
,
Tenemos que m1 =
µk = E [ X k ]
i =1
1 n 1
∑ Xi = X
n i =1
1
n
2
y m2 = n ∑ X i
i =1
µt +σ
La fgm de una v.a. X Gaussiana es φ X (t ) = e
y resolvemos el sistema de ecuaciones:
entonces µ1 = µ y µ2 = µ + σ
2
mr = µ r , r = 1,..., k
29
Profesor: Hector Allende
28
2 2
t /2
2
,
30
5
Universidad Técnica Federico Santa María
Método de Momentos
Método de Máxima Verosimilitud
...Ejemplo: resolviendo el sistema de ecuaciones:
El método de MV es la técnica más popular para
derivar estimadores. Sea X1,X2,…,Xn, una muestra
desde una población con pdf o pmf f ( x | θ1 ,θ 2 ,...,θ k ) .
X =µ
1 n 2
∑ Xi = µ2 + σ 2
n i =1
La función de verosimilitud se define como:
L( x | θ ) = L( x1 , x1 ,..., xn | θ1 ,θ 2 ,...,θ k ) = ∏i =1 f ( xi | θ1 ,θ 2 ,...,θ k )
Para cada punto Xi de la muestra, θ es el estimador
de los parámetros en el cual L( x | θ ) alcanza su valor
máximo como función del verdadero valor θ .
n
Encontramos que el estimador del verdadero valor
de θ = (θ1 ,θ 2 ) = ( µ , σ 2 ) es θˆ = (θˆ1 ,θˆ2 ) = ( µˆ ,σˆ 2 ) tal que:
µ̂ = X
1 n
σˆ 2 = ∑ ( X i − X ) 2
n i =1
31
Método de Máxima Verosimilitud
Si la función de verosimilitud es diferenciable (en θi ),
el estimador de máxima verosimilitud (EMV) θ del
verdadero valor θ es aquel que resuelve:
∂
L( x | θ ) = 0, i = 1,..., k
∂θ i
32
Método de Máxima Verosimilitud
Dependiendo de la pdf o pmf, puede resultar muy
complicada la función de verosimilitud, es por ello que
es más fácil trabajar con la función de logverosimilitud, definida como:
( x | θ ) = ln L( x | θ ) = ∑i =1 ln f ( xi | θ1 ,θ 2 ,...,θ k )
n
Equivalentemente, el EMV θˆ es el valor de θ para el
cual se cumple:
No obstante, habría que chequear que se cumple:
∂2
L( x | θ ) θ =θˆ , < 0 i = 1,..., k
∂θ i2
∂
( x | θ ) = 0, i = 1,..., k
∂θi
33
Método de Máxima Verosimilitud
Ejemplo: Se tiene una muestra X1,X2,…,Xn iid que se
supone siguen una distribución N ( µ ,σ 2 ). Encuentre los
parámetros de la Gaussiana.
Solución: Según la notación anterior, los parámetros de
la distribución son:θ = (θ1 ,θ 2 ) = ( µ , σ 2 ).
 − ( xi − µ ) 2 
1
exp
2

2π σ
 2σ

n
n
n
1
2
= − ln 2π − ln σ −
∑ ( xi − µ )2
2
2
2σ 2 i =1
( x | θ ) = ∑i =1 ln
n
Método de Máxima Verosimilitud
...Ejemplo: resolviendo el sistema de ecuaciones:
∂
( x | θ ) = 0
∂µ
∂
( x | θ ) = 0
∂σ 2
Encontramos que el estimador del verdadero valor
de θ = (θ1 ,θ 2 ) = ( µ , σ 2 ) es θˆ = (θˆ1 ,θˆ2 ) = ( µˆ ,σˆ 2 ) tal que:
µ̂ = X
1 n
∑ ( X i − X )2
n i =1
σˆ 2 =
35
Profesor: Hector Allende
34
36
6
Universidad Técnica Federico Santa María
Método de Estimación de Bayes
Método de Estimación de Bayes
En los enfoques previos consideramos al parámetro θ es
considerado como una cantidad desconocida, pero fija.
Trabajábamos con una muestra aleatoria (m.a.)
proveniente de una población caracterizada por θ y,
basándonos en los valores observados de la muestra,
obteníamos conocimiento sobre el valor de θ , es decir,
computábamos una cantidad aproximada θ .
La distribución a priori es subjetiva, basada sobre la
opinión del analista, y es formulada antes de que los datos
sean vistos (de ahí su nombre).
En el enfoque bayesiano θ es considerado una cantidad
cuya variación puede ser descrita por una distribución de
probabilidad, llamada Probabilidad a Priori.
Entonces, se toma una muestra desde una población
caracterizada por θ , y la probabilidad a priori es
actualizada con la información muestral. La probabilidad
a priori actualizada se denomina Probabilidad a
Posteriori, cuya actualización se realiza a través de la
regla de Bayes. Es la probabilidad a posteriori la que se
utiliza para hacer inferencia sobre θ .
37
38
Método de Estimación de Bayes
Método de Estimación de Bayes
Si denotamos la distribución a priori por π (θ ) y la
distribución de muestreo por
f (x | θ ) , entonces la
distribución a posteriori, que es la distribución
condicional de θ dada la muestra x , está dada por:
Note que la distribución a posteriori es una distribución
condicional, condicionada sobre las observaciones de la
muestra. Esta distribución será utilizada para hacer
inferencia sobre θ , la cual se considera como una
cantidad aleatoria. Por ejemplo, la media de la
distribución a posteriori puede ser usada como estimador
puntual de θ .
π (θ | x ) =
f (x | θ )π (θ )
m( x )
( f (x | θ )π (θ ) = f (x,θ ))
donde m(x) es la distribución marginal de x , esto es:
m( x) = ∫ f ( x | θ )π (θ )dθ
39
Método de Estimación de Bayes
Método de Estimación de Bayes
Ejemplo: Considere la muestra X1,X2,…,Xn iid
Bernoulli(p). Entonces Y = ∑ X i es una Binomial(n,p).
Asumiremos que la distribución a priori de p es Beta(α , β )
Encuentre la distribución a posteriori de p.
La distribución conjunta de Y y p es:
...Ejemplo:
 n 
  Γ(α + β ) α −1

p (1 − p ) β −1 
f ( y , p ) =   p y (1 − p ) n − y  

 y 
  Γ(α )Γ( β )
 n  Γ(α + β ) y +α −1
p
(1 − p) n − y + β −1
=  
 y  Γ(α )Γ( β )
y la marginal de Y es:
f ( y , p ) = f ( y | p )π ( p )
1
 n  Γ(α + β ) Γ( y + α ) Γ(n − y + β )
f ( y ) = ∫ f ( y, p )dp =  
Γ( n + α + β )
 y  Γ(α )Γ( β )
0
condicional x marginal
41
Profesor: Hector Allende
40
42
7
Universidad Técnica Federico Santa María
Método de Estimación de Bayes
Método de Estimación de Bayes
...Ejemplo:
La marginal de Y calculada previamente se conoce con
el nombre de Beta-Binomial. Luego, la distribución a
posteriori de p dado y es:
f ( p | y) =
Γ( n + α + β )
f ( y, p)
=
p y +α −1 (1 − p) n − y + β −1
f ( y)
Γ( y + α ) Γ( n − y + β )
que es una distribución Beta ( y + α , n − y + β ) .
Recuerde que p es la variable, mientras que y es tratada
como fija en la actualización.
...Ejemplo:
Una estimación natural para el parámetro p es la media
de la distribución condicional, la cual nos entregaría en
estimador de Bayes de p:
pˆ B =
y +α
α +β +n
Esta cantidad combina información proveniente de la
distribución a priori, así como también de la muestra.
43
44
Método de Estimación de Bayes
Métodos de Evaluación de E.Puntual
...Ejemplo:
En efecto, el estimador de Bayes p̂B obtenido puede
reescribirse como combinación lineal de la media a
priori y la media muestral, con coeficientes
determinados por α , β y n.
Los métodos discutidos previamente proveen herramientas
para encontrar estimadores puntuales de parámetros. Una
dificultad se presenta, no obstante, cuando podemos aplicar
varias de estas técnicas a una situación particular, y nos
encontramos con la tarea de escoger entre diversos
estimadores.

 y   α + β  α
n
  + 

pˆ B = 
 α + β + n  n   α + β + n  α + β
media muestral



Es probable que diferentes técnicas entreguen el mismo
resultado, pero frecuentemente esto no ocurre. A
continuación examinaremos algunos criterios que faciliten la
tarea de seleccionar un determinado estimador.
media a priori
45
Métodos de Evaluación de E.Puntual
Error Cuadrático Medio (ECM):
El ECM de un estimador T ≡ θˆ del parámetro θ es la función
de θ definida por E[T − θ ]2 .
El ECM mide el promedio de las diferencias cuadradas entre
el estimador y el verdadero valor del parámetro, una medida
razonable del desempeño de un estimador puntual.
Una medida alternativa podría ser E[| T − θ |] . No obstante, la
medida cuadrática que utiliza ECM tiene dos ventajas sobre
otras medidas de distancia: primero que es bastante tratable
analíticamente, y segundo que tiene la siguiente
interpretación:
47
Profesor: Hector Allende
46
Métodos de Evaluación de E.Puntual
Error Cuadrático Medio (ECM):
ECM (T ) = E[T − θ ]2 = E[T 2 − 2Tθ + θ 2 ]
= E[T 2 ] − 2θE[T ] + θ 2
= V [T ] + ( E[T ]) 2 − 2θE[T ] + θ 2
= V [T ] + ( E[T ] − θ )2
= V [T ] + ( Sesgo(T )) 2
Donde se define el Sesgo (Bias) de un estimador puntual
como:
Sesgo(T ) = E [T ] − θ
48
8
Universidad Técnica Federico Santa María
Métodos de Evaluación de E.Puntual
Error Cuadrático Medio (ECM):
El ECM incorpora dos componentes, una que mide la
variabilidad del estimador (precisión) y la otra que mide su
sesgo (cercanía al verdadero valor).
Un estimador con buenas propiedades de ECM tiene
varianza y sesgo pequeños. Parece razonable entonces
escoger como el mejor estimador de θ , la estadística que
tenga el ECM más pequeño posible de entre todos los
estimadores factibles de θ …
Métodos de Evaluación de E.Puntual
Error Cuadrático Medio (ECM):
… No obstante, no existe ningún estimador que minimice el
ECM para todos los posibles valores de θ . Es decir, un
estimador puede tener un ECM mínimo para algunos
valores de θ , mientras que otro estimador tendrá la misma
propiedad, pero para otros valores de θ .
Ejemplo: Considere la m.a. X1,X2,…,Xn de alguna
distribución tal que E [X i ] = µ y V [X i ] = σ 2 . Considere
las estadísticas (estimadores):
T1 =
49
Métodos de Evaluación de E.Puntual
1 n
∑ Xi = X
n i =1
y T2 =
como posibles estimadores de µ .
Error Cuadrático Medio (ECM):
Ejemplo: … Obtener los ECM de T1 y T2 y demostrar
que ECM(T2) < ECM(T1) para algunos valores de µ ,
mientras que la proposición inversa es cierta para otros
valores de µ .
Solución:
• Para T2 :
ECM (T1 ) = V [T1 ] =
ECM (T2 ) =
Métodos de Evaluación de E.Puntual
Error Cuadrático Medio (ECM):
Solución: … Si n = 10 y σ 2 = 100, entonces
1000 + µ 2
ECM (T1 ) = 10 y ECM (T2 ) =
121
Al igualar ambas expresiones y resolviendo para µ , se
tiene que:
ECM(T2) < ECM(T1) para µ < 210
µ > 210
En base a esto podemos afirmar que se deben examinar
ciertos criterios adicionales para la selección de los
estimadores.
53
Profesor: Hector Allende
1
1 n
nµ
n

E ∑ X i  =
∑ E [X i ] = n + 1
n + 1  i =1  n + 1 i =1
n
nσ 2
∑V [X ] = (n + 1)
i
i =1
2
2
σ2
n
para
E [T2 ] =
1
 1 n

V [T2 ] = V 
∑ Xi  =
2
 n + 1 i =1  (n + 1)
51
ECM(T1) < ECM(T2)
50
Métodos de Evaluación de E.Puntual
Error Cuadrático Medio (ECM):
Solución:
• Para T1 :
El sesgo de T1 es cero, dado que E [T1 ] = E [X ] = µ
1 n
∑ Xi
n + 1 i =1
nσ 2
nσ 2 + µ 2
 nµ

+
− µ =
2
(n + 1)  n + 1
(n + 1)2

52
Métodos de Evaluación de E.Puntual
Estimadores Insesgados:
Recordemos que en el ECM de un estimador se definió el
Sesgo o Bias. Se dice que la estadística T = T(X1 , X 2 ,..., X n )
es un estimador insesgado de θ , si E[T ] = θ para todos los
valores posibles de θ .
En otras palabras, es deseable que la media del estimador
sea igual al parámetro que se está estimando.
De esta forma, para cualquier estimador insesgado de θ , la
distribución de muestreo de T se encuentra centrada
alrededor de θ y ECM (T ) = V [T ] .
54
9
Universidad Técnica Federico Santa María
Métodos de Evaluación de E.Puntual
Estimadores Insesgados:
Ejemplo: Sean X1,X2,X3 y X4 una m.a. de tamaño 4
proveniente de una población exponencial de parámetro θ.
Demuestre que T1 = ( X 1 + X 2 ) / 6 + ( X 3 + X 4 ) / 3
y T2 = ( X 1 + 2 X 2 + 3 X 3 + 4 X 4 ) / 5 son estimadores
insesgado y sesgado, respectivamente, del parámetro θ.
Solución: Sabemos que E[Xi] = θ (exponencial)
E[T1 ] = ( E[ X 1 ] + E[ X 2 ]) / 6 + ( E[ X 3 ] + E[ X 4 ]) / 3
insesgado
= 2θ / 6 + 2θ / 3 = θ
E[T2 ] = ( E[ X 1 ] + 2 E[ X 2 ] + 3E[ X 3 ] + 4 E[ X 4 ]) / 5
sesgado
= 10θ / 5 = 2θ
Métodos de Evaluación de E.Puntual
Estimadores Consistentes:
Es razonable esperar que un buen estimador de un
parámetro θ sea cada vez mejor conforme crece el tamaño
de la muestra.
Esto es, conforme la información de una v.a. se vuelve más
completa, la distribución de muestreo de un buen estimador
se encuentra cada vez más centrada alrededor del
parámetro θ .
55
56
Métodos de Evaluación de E.Puntual
Métodos de Evaluación de E.Puntual
Estimadores Consistentes:
Sea T el estimador del parámetro θ , y sea T1 , T2 ,..., Tn una
secuencia de estimadores que representan a T con base en
muestras de tamaño 1,2,…,n, respectivamente. Se dice que T es
un estimador consistente para θ si
Estimadores Insesgados de Varianza Mínima:
Como ya vimos, es difícil determinar un estimador con
mínimo ECM para todo valor de θ . Sin embargo, podemos
efectuar esta búsqueda dentro de la clase de estimadores
insesgados. Si un estimador T se encuentra dentro de esta
clase, se tiene que:
limn →∞ P (| Tn − θ |≤ ε ) = 1
E[T ] = θ
para todo valor de θ y ε > 0 .
Obs.: Esta definición proviene del concepto de Convergencia
en Probabilidad. Como ejemplo, anteriormente demostramos
que la media muestral X n es un estimador consistente de la
media poblacional µ .
57
y ECM (T ) = V [T ]
Entonces, dentro de la clase de estimadores insesgados,
podemos comparar éstos según su varianza.
58
Métodos de Evaluación de E.Puntual
Métodos de Evaluación de E.Puntual
Estimadores Insesgados de Varianza Mínima:
Sea X1,X2,…,Xn una m.a. de una distribución cuya densidad
tiene la forma f (x | θ ) . Sea T = T(X1 , X 2 ,..., X n ) un estimador
de θ tal que E[T ] = θ y V [T ] es menor que la varianza de
cualquier otro estimador insesgado de θ para todos los valores
posibles de θ . Se dice entonces que T es un estimador
insesgado de varianza mínima de θ .
Estimadores Insesgados de Varianza Mínima:
Sea X1,X2,…,Xn una m.a. de una distribución cuya densidad
tiene la forma f (x | θ ). Si T es un estimador insesgado de θ ,
entonces la varianza de T debe satisfacer la siguiente
desigualdad:
−1
  ∂ ln f ( X | θ ) 2  
V [T ] ≥ nE 
 
∂θ
  
 
¿Cómo encontrar, si existe, un estimador de varianza mínima?
Sería iluso calcular todos los estimadores posibles para cierto
parámetro θ y escoger aquel de varianza más pequeña. Para
evitar dicha operatoria, recurrimos a un resultado que recibe el
nombre de cota inferior de Cramér-Rao.
59
Profesor: Hector Allende
Esta desigualdad establece un límite inferior para la varianza
de un estimador de θ (cota inferior de Cramér-Rao).
60
10
Universidad Técnica Federico Santa María
Métodos de Evaluación de E.Puntual
Estimadores Eficientes:
Si T es cualquier estimador insesgado del parámetro θ , se dice
que T es un estimador eficiente si se cumple que:
  ∂ ln f ( X | θ ) 2  
V [T ] = nE 
 
∂θ
  
 
−1
Por lo tanto, el estimador eficiente de θ es el estimador de
mínima varianza, cuyo valor corresponde a la cota inferior de
Cramér-Rao.
El estimador eficiente de θ , si se puede encontrar, es el mejor
estimador insesgado de θ en el contexto de la inferencia
estadística.
61
Métodos de Evaluación de E.Puntual
Estimadores Eficientes:
...Ejemplo:
2
Entonces:
 ∂ ln p( x | λ ) 2 
x −λ
E 
  = E

∂λ
 λ 
 

1
V[X ] 1
2
= 2 E [x − λ ] = 2 =
λ
λ
λ
Y por la definición de eficiencia, el estimador eficiente T de λ
λ σ2
1
debe ser tal que se cumpla:
= =
V [T ] =
n/λ n
n
De aquí inferimos que el estimador eficiente de λ es la
media muestral: T = X .
63
Métodos de Evaluación de E.Puntual
Estimadores Eficientes:
Ejemplo: Sean X1,X2,…,Xn una m.a. de una distribución
Poisson de parámetro λ . Encuentre el estimador eficiente
de λ .
Solución: Sabemos que la pmf de una distribución Poisson
está dada por p( x | λ ) = e − λ λx / x!, y su esperanza y varianza
2
están dadas por E[ X ] = µ = λ y V [ X ] = σ = λ . Luego:
ln p( x | λ ) = x ln(λ ) − λ − ln( x! )
∂ ln p( x | λ ) x
x−λ
= −1 =
∂λ
λ
λ
62
Métodos de Evaluación de E.Puntual
Eficiencia Relativa:
Se define la eficiencia relativa del estimador T2 respecto del
estimador T1 como:
ECM (T1 )
ef (T2 , T1 ) =
ECM (T2 )
La varianza de un estimador insesgado es la cantidad más
importante para decidir qué tan bueno es. Si T1 y T2 son dos
cualesquiera estimadores insesgados de θ :
V [T1 ]
ef (T2 , T1 ) =
V [T2 ]
Se dice que T1 es más eficiente que T2 si V [T1 ] ≤ V [T2 ] .
64
Métodos de Evaluación de E.Puntual
Métodos de Evaluación de E.Puntual
Estimadores Suficientes:
Una estadística suficiente para un parámetro θ es aquella que
utiliza toda la información contenida en la muestra aleatoria
con respecto a θ .
Por ejemplo, suponga que la m.a. X1,X2,…,X50 de 50
observaciones proviene de una función de densidad
caracterizada por el parámetro θ .
Con una estadística suficiente para θ , lo que se tiene es una
manera de resumir todas las mediciones de los datos de la
muestra en un valor en el que toda la información de la
muestra con respecto a θ se encuentre contenida en este valor.
Estimadores Suficientes:
• Por ejemplo, el estimador T = (X1+X3+…+X49)/25 ¿contiene
toda la información pertinente con respecto a θ ?
A pesar que el estimador proporciona un solo valor, no es
posible que éste contenga toda la información muestral con
respecto a θ , dado que se ha excluido la mitad de los datos.
65
Profesor: Hector Allende
• ¿Qué se puede decir acerca de la media muestral? Que
contiene todos los datos, pero significa esto que toda
información muestral con respecto a θ se extrae considerando X
66
11
Universidad Técnica Federico Santa María
Métodos de Evaluación de E.Puntual
Métodos de Evaluación de E.Puntual
Estimadores Suficientes:
Se dice que un estimador T = T(X1,X2,…,Xn) es suficiente para
un parámetro θ si la distribución conjunta de X1,X2,…,Xn
dado T, se encuentra libre de θ ; es decir, si se afirma T,
entonces X1,X2,…,Xn no tiene nada más que decir con
respecto a θ .
Estimadores Suficientes:
Sea X1,X2,…,Xn una m.a. de una distribución con densidad de
probabilidad f (x | θ ) . Se dice que la estadística T =
T(X1,X2,…,Xn) es suficiente para θ sí y sólo si la función de
verosimilitud puede factorizarse de la siguiente forma:
La importancia de este concepto radica en el hecho de que si
existe un estimador eficiente de θ , se encontrará que éste es
una estadística suficiente.
L( x | θ ) = L( x1 , x1 ,..., xn | θ ) = h(t | θ ) g ( x1 ,..., xn )
para cualquier valor t = T(x1,x2,…,xn) de T (realización) y en
donde g ( x1 ,..., xn ) no contiene al parámetro θ .
67
Métodos de Evaluación de E.Puntual
Estimadores Suficientes:
Ejemplo: Sea X1,X2,…,Xn una m.a. de una distribución
Poisson con pdf p( x | λ ) = e − λ λx /. x!
Demostrar que el estimador eficiente de λ es a su vez
suficiente.
Solución:
L( x1 , x1 ,..., xn | λ ) = p( x1 | λ ) p( x2 | λ ) p( xn | λ )
Métodos de Evaluación de E.Puntual
Estimadores Suficientes:
…Solución:
n
L( x1 , x1 ,..., xn | λ ) = h ∑i =1 xi | λ g ( x1 , x2 ,..., xn )
con
n
n
x
h ∑i =1 xi | λ = λ∑i =1 i e −nλ
)
(
(
)
Entonces ∑i =1 xi es una estadística suficiente para λ . Dado
que el estimador eficiente X es una función uno a uno de
esta estadística, X también es suficiente para λ .
n
= e − λ λx1 / x1!⋅e − λ λx2 / x2!⋅ ⋅ e − λ λxn / xn !
n
x
= λ∑i =1 i e −nλ / ∏ xi !
n
68
i =1
69
Estimación por Intervalos
Propiedades de los Estimadores
Máximo Verosímiles
En la práctica, interesa no sólo dar una estimación
de un parámetro, sino que además, un intervalo
que permita precisar la incertidumbre existente en
la estimación.
Definición: Sea x m.a. ∝ f ( x , θ ). Sean θ1=T1(x),
θ2=T2(x) dos estadísticas de θ : T1 ≤ T2 ∧ ∀x ∈χ ;
P [θ1 ≤ θ ≤ θ2] = 1 - α = γ
Los estimadores máximo verosímiles son:
Asintóticamente insesgados
Asintóticamente normales
Asintóticamente eficientes
Invariantes bajo transformaciones biunívocas
Si ∃ estimador suficiente, θˆMV es suficiente
Entonces el I = [θ1 ; θ2] se llama intervalo aleatorio
de confianza del 100 γ % para θ ( 0 < α < 1 ).
71
Profesor: Hector Allende
70
72
12
Universidad Técnica Federico Santa María
Estimación por Intervalos
Método de la Cantidad Pivotal
Fijado α, el problema de determinar θ1 y θ2 puede
resolverse encontrando una variable aleatoria
Q(x,θ) cuya distribución esté totalmente definida,
que sea independiente de θ.
1. Encontrar una cantidad Q.
2. P [q1 ≤ Q ≤ q2] = 1 - α = γ
3. Invertir P [θ1 ≤ θ ≤ θ2] = γ , obteniendo así un
intervalo I=[θ1 ; θ2] de confianza para θ de nivel
100 γ %.
La variable Q(x,θ) se denomina “Cantidad Pivotal”.
La construcción del intervalo de confianza se
efectúa con base en el mejor estimador del
parámetro desconocido θ.
73
Observación: Para muestras grandes la v.a. Q siempre
ˆ
existe, ya que si θˆMV , entonces Z = θ − θ MV
ˆ )
(
σ
θ
MV
tiene distribución normal estándar.
El intervalo para θ estaría dado por: I = [θˆMV ± z 1 − α 2 σ (θˆMV
donde el cuantil z1−α / 2 puede obtenerse de la tabla de la
distribución Normal estándar.
)]
74
Estimación por Intervalos
Estimación por Intervalos
1) I.Confianza para µ cuando se muestrea una distribución
normal con varianza conocida:
Considerando como estimador de la media poblacional µ
como la media muestral X , deseamos construir un intervalo
de confianza tal que:
1) I.Confianza para µ cuando se muestrea una distribución
normal con varianza conocida:
g1 ( µ )
∫ f ( x; µ ) d x = α / 2
−∞
y
∞
∫ f ( x; µ ) d x = α / 2
la v.a.
Z = ( X − µ ) /(σ / n ) ~ N (0,1) ,
g1 ( µ ) − µ
considerando σ / n = zα / 2 y
además de zα / 2 = − z1−α / 2 se tiene:
g2 ( µ )
f ( x; µ ) es la función de densidad de la distribución de muestreo
de X , y g1 ( µ ) y g 2 ( µ ) son funciones de µ , las cuales
no contienen a ningún otro parámetro desconocido.
X ~ N ( µ , σ ),
g (µ ) − µ 
 g (µ ) − µ
P[ g1 ( µ ) < X < g 2 ( µ )] = P  1
= 1−α
<Z< 2
σ / n 
 σ/ n
P[ g1 ( µ ) < X < g 2 ( µ )] = 1 − α
donde
Puesto que
entonces:
75
g2 (µ ) − µ
= z1−α / 2 ,
σ/ n
σ
σ 

P  X − z1−α / 2
=1−α
< µ < X + z1−α / 2
n
n 

76
Estimación por Intervalos
Estimación por Intervalos
1) I.Confianza para µ cuando se muestrea una distribución
normal con varianza conocida:
2) I.Confianza para µ cuando se muestrea una distribución
normal con varianza desconocida:
Luego, el intervalo de confianza del 100(1 − α )% para la media
poblacional es:
σ
σ  
σ 

I =  x − z1−α / 2
, x + z1−α / 2
= x ± z1−α / 2
n
n  
n 

donde el cuantil z1−α / 2 puede obtenerse de la tabla de la
distribución Normal estándar.
Es sabido que cuando se muestrea una v.a. X ~ N ( µ ,σ ) ,
donde tanto µ como σ son desconocidos, la v.a.
X − µ sigue una distribución t-Student con (n-1) gl.,
T=
S / n donde S es la desviación estándar y n es el
tamaño de la muestra.
Por lo tanto, es posible determinar el valor del cuantil
t1−α / 2 ,n −1 de T, para el cual:
P[ −t1−α / 2,n −1 < T < t1−α / 2,n −1 ] = 1 − α
77
Profesor: Hector Allende
78
13
Universidad Técnica Federico Santa María
Estimación por Intervalos
Estimación por Intervalos
2) I.Confianza para µ cuando se muestrea una distribución
normal con varianza desconocida:
S
S 
Entonces: P  X − t1−α / 2,n −1
< µ < X + t1−α / 2 ,n −1
= 1−α

n
n 

Luego, el intervalo de confianza del 100(1 − α )% para la media
poblacional es:
s
s  
s 

= x ± t1−α / 2,n −1
I =  x − t1−α / 2,n −1
, x + t1−α / 2,n −1
n
n  
n 

donde el cuantil t1−α / 2 ,n −1 puede obtenerse de la tabla de la
distribución t-Student con (n-1) grados de libertad.
3) I.Confianza para la diferencia de medias cuando se
muestrean dos distribuciones normales independientes:
Sean X1,X2,…,Xnx y Y1,Y2,…,Yny dos m.a. de dos
distribuciones normales independientes, con medias µ X y µY
y varianzas σ X2 y σ Y2 , respectivamente.
Se desea construir un intervalo de confianza para la
diferencia µ X − µY , con el supuesto que se conocen las
varianzas.
Es sabido que la v.a. Z = X − Y −2(µ X −2 µY ) ~ N (0,1)
σ X σY
+
n X nY
79
Estimación por Intervalos
80
Estimación por Intervalos
3) I.Confianza para la diferencia de medias cuando se
muestrean dos distribuciones normales independientes:
Por lo tanto, es posible determinar el valor del cuantil
z1−α / 2 para el cual P[− z1−α / 2 < Z < z1−α / 2 ] = 1 − α
3) I.Confianza para la diferencia de medias cuando se
muestrean dos distribuciones normales independientes:
Si las varianzas se desconoce, pero son iguales, entonces la
v.a.
X − Y − ( µ X − µY )
gl
Z=
Entonces:
Sp

σ X2 σ Y2
σ X2 σ Y2 
+
< µ X − µY < X − Y + z1−α / 2
+
P  X − Y − z1−α / 2
 = 1 −α
n
n
n X nY 
X
Y

2
2 

El intervalo está dado por: I =  x − y ± z1−α / 2 σ X + σ Y 
n X nY 

~ t − Student (k )
1
1
+
n X nY

k = n X + nY − 2
El intervalo está dado por: I =  x − y ± t1−α / 2 ,k s p

1
1 
+ 
n X nY 
donde el estimado combinado de la varianza común es:
(n X − 1) s X2 + (nY − 1) sY2
k
donde el cuantil z1−α / 2 puede obtenerse de la tabla de la
distribución Normal estándar.
81
s 2p =
Estimación por Intervalos
Estimación por Intervalos
4) I.Confianza para σ cuando se muestrea una distribución
normal con media desconocida:
4) I.Confianza para σ cuando se muestrea una distribución
normal con media desconocida:
2
Es sabido que cuando se muestrea una v.a. X ~ N ( µ ,σ ) ,
donde tanto µ como σ son desconocidos, la v.a.
(n − 1) S 2 sigue una distribución Ji-cuadrada con (n-1) gl.,
χ=
σ 2 donde S es la desviación estándar y n es el
tamaño de la muestra.
Por lo tanto, es posible determinar el valor de los cuantiles
χ 2α / 2 ,n −1 y χ 21−α / 2 ,n −1 tales que
P[ χ 2α / 2,n −1 < χ < χ 21−α / 2,n −1 ] = 1 − α
Profesor: Hector Allende
83
82
2
Luego, el intervalo de confianza del 100(1 − α )%
para la
varianza, con base en los datos de una muestra de tamaño n
es:
 (n − 1) s 2 (n − 1) s 2 
I = 2
, 2

 χ 1−α / 2,n −1 χ α / 2,n −1 
donde los cuantiles χ α / 2,n −1 y χ 1−α / 2,n −1 se obtienen de la
tabla de la distribución Ji-Cuadrada con (n-1) gl.
2
2
84
14
Universidad Técnica Federico Santa María
Estimación por Intervalos
Estimación por Intervalos
5) I.Confianza para el cuociente de dos varianzas cuando se
muestrean dos distribuciones normales independientes:
5) I.Confianza para el cuociente de dos varianzas cuando se
muestrean dos distribuciones normales independientes:
Sean X1,X2,…,Xnx y Y1,Y2,…,Yny dos m.a. de dos
distribuciones normales independientes, con medias µ X y µY
y varianzas σ X2 y σ Y2 , respectivamente.
Se desea construir un intervalo de confianza para el
2
2
cuociente σ Y / σ X .
Es sabido que la v.a. F =
donde
Fa =
1
f1−α / 2,nY −1,n X −1
1
f1−α / 2,n X −1,nY −1
y Fb =
2
2
El intervalo está dado por: I =  Fa sY , Fb sY 
2
2
s
s
S X2 SY2
/
~ F (n X − 1, nY − 1)
σ X2 σ Y2

85
Profesor: Hector Allende
Por lo tanto, es posible determinar los cuantiles a y b tales
que: P[Fa < F < Fb ] = 1 − α
X
X

donde los cuantiles Fa y Fb pueden obtenerse de la tabla de la
distribución F con (nX-1) y (nY-1) grados de libertad.
86
15
Descargar