Métodos Cuantitativos II

Anuncio
Métodos Cuantitativos II
Gloria Garcı́a Garcı́a
[email protected]
Índice general
1. Conceptos de teorı́a de la probabilidad
1.1. Espacios de probabilidad . . . . . . . . . . . . . . . . . . . . .
1.1.1. Propiedades elementales de las σ–álgebras . . . . . . . .
1.1.2. Propiedades elementales de las probabilidades . . . . . .
1.2. Vectores aleatorios. Función de distribución y de densidad conjunta.
1.3. Independencia de variables aleatorias . . . . . . . . . . . . . . .
1.3.1. Densidades marginales y condicionales . . . . . . . . . .
1.3.2. Esperanza condicionada . . . . . . . . . . . . . . . . . .
1.3.3. Independencia de variables aleatorias . . . . . . . . . . .
1.4. Operadores esperanza y covarianza . . . . . . . . . . . . . . . .
1.4.1. Operador esperanza generalizado . . . . . . . . . . . . .
1.4.2. Esperanza y covarianza de un vector aleatorio . . . . . .
1.5. La distribución normal multivariante . . . . . . . . . . . . . . .
1.5.1. Definición y propiedades . . . . . . . . . . . . . . . . .
1.5.2. Algunos resultados sobre formas cuadráticas . . . . . . .
3
3
4
5
5
8
8
11
12
13
13
14
16
16
18
2. Fundamentos de Inferencia Estadı́stica
2.1. Introducción . . . . . . . . . . . . . . . . . . .
2.1.1. Algunas consideraciones sobre Inferencia
2.1.2. Tipos de muestreo . . . . . . . . . . . .
2.2. Estimación Puntual . . . . . . . . . . . . . . .
2.2.1. El problema de la estimación puntual . .
2.2.2. Procedimientos de estimación . . . . . .
2.2.3. Propiedades de los estimadores . . . . .
19
19
20
20
25
25
25
28
1
. . . . . .
Estadı́stica
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2
Métodos Cuantitativos II. 2009-2010. G.Garcı́a.
2.2.4. Cota de Cramér-Rao . . . . . . . . . . . . . . . . . . .
2.3. Regiones de confianza . . . . . . . . . . . . . . . . . . . . . . .
2.4. Contraste de hipótesis: el enfoque clásico . . . . . . . . . . . .
31
33
36
CAPÍTULO
1
Conceptos de teorı́a de la probabilidad
1.1.
Espacios de probabilidad
En esta sección se introduce la axiomática de Kolmogorov, que proporciona un
modelo matemático para el tratamiento del azar. La axiomática de Kolmogorov,
concretada en la noción de espacio de probabilidad, fue introducida por este
autor en una monografı́a publicada en 1933. Los conceptos matemáticos que
intervienen provienen de la teorı́a de la medida, desarrollada a partir del 1900
por H. Lebesgue, M. Fréchet, E. Borel, J. Radon y C. Carathéodory entre otros.
Definición 1.1.1. Un experimento estadı́stico o aleatorio es un experimento en
el que
EA1 Todos los resultados del experimento son conocidos por adelantado.
EA2 No se conoce ninguna información previa sobre la posibilidad o verosimilitud de darse uno u otro resultado.
EA3 El experimento puede ser repetido bajo idénticas condiciones.
La siguiente definición precisa el modelo matemático que se asociará a un experimento aleatorio.
Definición 1.1.2. Un espacio de probabilidad es una terna (Ω, A, P ) tal que,
3
4
Métodos Cuantitativos II. 2009-2010. G.Garcı́a.
EP1 Ω es un conjunto formado por las posibles realizaciones o resultados del
fenómeno aleatorio en estudio.
EP2 A es una familia de partes de Ω que tiene estructura de σ–álgebra, esto
es es una clase no vacı́a de subconjuntos de Ω que es cerrada bajo la
formación de uniones numerables y complementarios.
EP3 P es una función de conjunto en [0, 1], esto es P : A → [0, 1], tal que
P1 P (∅) = 0
P2 P (Ω) = 1
P3 P es σ–aditiva, es decir P (∪∞
n=1 An ) =
An son disjuntos dos a dos.
P∞
n=1 P (An )
si los conjuntos
Los elementos de Ω son llamados puntos muestrales y los de A sucesos.
Observación 1.1.3. Si el conjunto Ω es finito, que A sea una σ–álgebra es
equivalente a que sea un álgebra. De igual manera, la σ–aditividad de P es
equivalente a decir que sea aditiva, esto es P (A ∪ B) = P (A) + P (B) si
A ∩ B = ∅.
En el caso de un conjunto Ω infinito, las hipótesis de σ–álgebra y σ–aditividad
se imponen por razones de orden técnico. Por ejemplo, si queremos comprobar
que la probabilidad les suceso ”Que salga alguna vez cara al tirar una moneda”
es igual a 1, hay que calcular 12 + 212 + 213 + · · · = 1 y necesitamos la hipótesis
de σ–aditividad.
Observación 1.1.4. En el lenguaje de la teorı́a de la medida (Ω, A) es un espacio
medible y P es una medida tal que P (Ω) = 1. En el lenguaje de la teorı́a de la
probabilidad, diremos que P es una probabilidad.
1.1.1.
Propiedades elementales de las σ–álgebras
1. El conjunto vacı́o pertenece a toda σ–álgebra
2. Fijado Ω, la σ–álgebra más pequeña es {∅, Ω} y la más grande P(Ω).
3. La intersección de una familia cualquiera de σ–álgebras, también es σ–
álgebra.
4. Dada una familia C de partes de Ω, designaremos por σ(C) la σ–álgebra
generada por C, que por definición es la intersección de todas las σ–
álgebras que contienen a C. Se verifica que σ(C) es la mı́nima σ–álgebra
que contiene a C, en el sentido que está contenida en cualquier otra σ–
álgebra que contenga a C.
Métodos Cuantitativos II. 2009-2010. G.Garcı́a
5
Ejemplo 1.1.5. Sea S la familia de partes de R formada por los intervalos de la
forma (a, b] con a < b, las semirrectas (a, +∞), (−∞, a] con a ∈ R, el conjunto
∅ y R. La σ–álgebra generada por S es la σ–álgebra de Borel, que denotaremos
B(R), es la σ–álgebra generada por los conjuntos abiertos (o cerrados) de R.
De manera similar se obtendrı́a B((0, 1)) o bien B(R2 ) o en general B(Rn ).
1.1.2.
Propiedades elementales de las probabilidades
1. P (∅) = 0
2. La propiedad de σ–aditividad implica la de aditividad finita.
3. Para todo A ∈ A, P (Ac ) = 1 − P (A).
4. Si A, B ∈ A cumplen A ⊂ B, entonces P (A) ≤ P (B)
5. Si A, B ∈ A, P (A ∪ B) + P (A ∩ B) = P (A) + P (B)
P
6. P es subaditiva, es decir es decir P (∪ni=1 Ai ) ≤ ni=1 P (Ai ) para cualquier
familia de conjuntos {Ai }i=1..n de A
7. Para cualquier familia de conjuntos {Ai }i=1..n de A,
P (∪ni=1 Ai )
=
n
X
i=1
+
n
X
P (Ai ) −
i<j<k; 1≤i,j,k≤n
n
X
i<j; 1≤i,j≤n
P (Ai ∩ Aj )+
P (Ai ∩ Aj ∩ Ak ) + · · · + (−1)n P (∩ni=1 Ai )
8. Sea {An }n≥1 una sucesión de conjuntos de A. Entonces,
i. Si la sucesión es creciente y denotamos por A el conjunto ∪∞
n=1 An ,
se cumple que P (A) = lı́mn→∞ P (An )
ii. Si la sucesión es decreciente y denotamos por A el conjunto ∩∞
n=1 An ,
se cumple también que P (A) = lı́mn→∞ P (An )
1.2.
Vectores aleatorios. Función de distribución y de
densidad conjunta.
Es conocido el concepto de variable aleatoria como herramienta para medir,
analizar una caracterı́stica de una población. Sin embargo, en determinados
6
Métodos Cuantitativos II. 2009-2010. G.Garcı́a.
casos puede interesar estudiar simultáneamente diferentes propiedades caracterı́sticas o bien estudiar alguna propiedad de un elemento de una población
que deba ser descrita con diversos ı́ndices numéricos. Con esta finalidad, dedicaremos esta sección a introducir el concepto de vector aleatorio y a estudiar
algunas de sus propiedades principales.
Sea (Ω, A, P ) un espacio de probabilidad arbitrario pero fijado. Recordemos que
una aplicación X : Ω → R cumpliendo
∀B ∈ B(R), X −1 (B) ∈ A
es una variable aleatoria. La función de distribución asociada a una variable
aleatoria X es la función F : R → [0, 1] definida por
F (x) = P ◦ X −1 ((−∞, x]) = P (X ≤ x)
Recordemos que las funciones de distribución de variables aleatorias cumplen el
ser crecientes, continuas por la derecha y tener lı́mites en −∞ y en +∞ 0 y 1
respectivamente.
El concepto de vector aleatorio sigue como,
Definición 1.2.1. Una aplicación X : Ω → Rm , X = (X1 , X2 , . . . , Xm ) tal
que cada uno de los componentes Xi : Ω → R es un vector aleatorio.
Introducimos ahora la función de distribución asociada a un vector aleatorio, que
engloba la de distribución de una variable aleatoria. Sin embargo, para poder
hablar que la función de distribución de un vector aleatorio X necesitamos
introducir un orden parcial en Rm . Concretamente, si x = (x1 , . . . , xm ) e y =
(y1 , . . . , ym ) ∈ Rm , diremos que x ≤ y si y sólo si x1 ≤ y1 , . . . , xm ≤ ym .
Definición 1.2.2. La función de distribución asociada a un vector aleatorio X
es la función F : Rm → [0, 1] definida por
F (x) = P (X1 ≤ x1 , . . . , Xm ≤ xm )
para todo x = (x1 , . . . , xm ) ∈ Rm
De manera análoga al caso unidimensional, se verifican las siguientes propiedades,
1. F es creciente
2. F es continua por la derecha en el sentido
lı́m F (y) = F (x)
y↓x
donde y ↓ x significa yi ↓ xi para todo i = 1, . . . , m.
Métodos Cuantitativos II. 2009-2010. G.Garcı́a
7
3. F verifica las siguientes propiedades asintóticas,
lı́m F (x) = 1
x→∞
lı́m F (x) = 0
xi →−∞
Observación 1.2.3. Debe hacerse notar que, en general, las funciones de distribución marginales pueden ser obtenidas a través de la conjunta mediante un
paso al lı́mite, esto es,
FXi (xi ) =
lı́m
xj →∞; j6=i
F (x1 , . . . , xm )
Introducimos a continuación los conceptos de vectores aleatorios discretos y
absolutamente continuos.
Definición 1.2.4. Un vector aleatorio X se denomina discreto si las variables
aleatorias componentes son discretas.
Ejemplo 1.2.5. (Ley Multinomial) Consideremos una experiencia aleatoria para
la que existen m resultados
posibles A1 , . . . , Am de probabilidades respectiPm
p
= 1. Repetimos el experimento n veces y devas p1 , . . . , pm con
j
j=1
notemos por Xi la variable aleatoria que cuenta el número de veces que se
ha producido Ai , para i = 1, . . . , m. Observemos que Xi ∼ Bin(n, pi ). Sea
X = (X1 , X2 , . . . , Xm ) que toma valores en
(
)
m
X
C = (n1 , . . . , nm ) ∈ Nm :
ni = n
i=1
Mediante cálculos combinatorios se demuestra que si (n1 , . . . , nm ) ∈ C,
n!
pn1 . . . pnmm
n1 ! . . . nm ! 1
El vector aleatorio X descrito anteriormente tiene ley multinomial de parámetros
n, p1 , . . . , pm que denotaremos M (n; p1 , . . . , pm ).
P ((X1 , X2 , . . . , Xm ) = (n1 , n2 , . . . , nm )) =
Pasamos ahora a introducir los vectores aleatorios absolutamente continuos.
Definición 1.2.6. Una función f : Rm → R es una densidad en Rm si se
verifican las condiciones siguientes,
D1 f ≥ 0
8
Métodos Cuantitativos II. 2009-2010. G.Garcı́a.
D2 La integral
R∞
R∞
−∞ . . . −∞ f (x)dx
Z
∞
...
−∞
existe en el sentido Riemann y
Z
∞
f (x)dx = 1
−∞
Definición 1.2.7. Un vector aleatorio X (m-dimensional) es absolutamente
continuo con densidad f si su función de distribución F se puede escribir como
Z x1
Z xm
F (x) =
...
f (x)dx,
x = (x1 , . . . , xm ) ∈ Rm
−∞
−∞
donde f es una función de densidad en Rm . Diremos que f es la función de
densidad (conjunta) de X.
Ejemplo 1.2.8. Sea (X1 , X2 ) un vector aleatorio con densidad de probabilidad

 e−(x+y) 0 < x < ∞, 0 < y < ∞
f (x, y) =
 0
en caso contrario
Entonces,
1.3.

 (1 − e−x )(1 − e−y ) 0 < x < ∞, 0 < y < ∞
F (x, y) =
 0
en caso contrario
Independencia de variables aleatorias
1.3.1.
Densidades marginales y condicionales
Los vectores aleatorios absolutamente continuos verifican la propiedad de que
sus componentes también son absolutamente continuos. Concretamente,
Proposición 1.3.1. Sea X = (X1 , . . . , Xm ) un vector aleatorio absolutamente continuo. Entonces, cada una de sus componentes, Xi , i = 1, . . . , m son
también absolutamente continuas; las densidades respectivas, que denotaremos
fi se expresan como,
fXi (y) =
Z
∞
−∞
para y ∈ R
...
Z
∞
−∞
f ((x1 , . . . , xi−1 , y, xi+1 , . . . , xm ))dx1 . . . dxi−1 dxi+1 , . . . dxm
Métodos Cuantitativos II. 2009-2010. G.Garcı́a
9
Definición 1.3.1. Las densidades fXi se denominan densidades marginales.
Cabe destacar que las densidades marginales no determinan la densidad del
vector aleatorio. De hecho, diferentes densidades conjuntas pueden dar lugar a
marginales idénticas.
Ejemplo 1.3.2. Consideremos las densidades definidas en el plano por,

 1 (1 + xy) −1 < x < 1, −1 < y < 1
4
f (x, y) =
 0
en caso contrario
g(x, y) =


1
4
 0
−1 < x < 1, −1 < y < 1
en caso contrario
En ambos casos, las marginales son,

 1 −1 < x < 1
2
fX (x) = gX (x) =
 0 en caso contrario

 1 −1 < y < 1
2
fY (y) = gY (y) =
 0 en caso contrario
Consideremos a continuación el concepto de distribuciones condicionales. Por
la dificultad de la notación, resolveremos el caso m = 2 dejando el caso general
para consultar en las referencias.
Definición 1.3.3. Sea (X1 , X2 ) un vector aleatorio de tipo discreto. Si P (X2 =
x2 ) > 0, fijado x2 , la función
P (X1 = x1 |X2 = x2 ) =
P (X1 = x1 , X2 = x2 )
P (X2 = x2 )
es la función de masa de X1 condicionado a X2 = x2 .
Observación 1.3.4. De igual manera, pero siempre que P (X1 = x1 ) > 0,
podı́amos definir la función de masa de X2 condicionado a X1 = x1 .
Supongamos ahora que (X1 , X2 ) un vector aleatorio absolutamente continuo.
Como P (Xi = xi ) = 0 no podemos utilizar exactamente la construcción anterior. Sin embargo, para cada x1 y cada intervalo de la forma (x2 −ǫ, x2 +ǫ], consideremos la probabilidad del suceso {X1 ≤ x1 } sabiendo que X2 ∈ (x2 − ǫ, x2 + ǫ]
10
Métodos Cuantitativos II. 2009-2010. G.Garcı́a.
pero siempre que P {X2 ∈ (x2 − ǫ, x2 + ǫ]} > 0. Concretamente estudiaremos
el caso en el que el lı́mite,
lı́m P {X1 ≤ x1 |X2 ∈ (x2 − ǫ, x2 + ǫ]}
ǫ→0+
exista.
Definición 1.3.5. La distribución condicional de la variable aleatoria X1 a que
X2 = x2 se define como el lı́mite
lı́m P {X1 ≤ x1 |X2 ∈ (x2 − ǫ, x2 + ǫ]}
ǫ→0+
siempre que este exista. En tal caso, lo denotaremos por FX1 |X2 =x2 (x1 ) y
definiremos, en caso que exista, la función de densidad de X1 condicionada
a que X2 = x2 como aquella función no negativa fX1 |X2 =x2 cumpliendo,
Z x1
FX1 |X2 =x2 (x1 ) =
fX1 |X2 =x2 (y) dy
−∞
En diferentes casos se puede probar la existencia y obtener explı́citamente las
densidades condicionales. Concretamente, si (X1 , X2 ) es un vector aleatorio
absolutamente continuo con función de densidad (conjunta) f , en cualquier
punto (x1 , x2 ) en el que f sea continua y la marginal fX2 (x2 ) > 0 y sea
continua, se tiene
fX1 |X2 =x2 (x1 ) =
f (x1 , x2 )
fX2 (x2 )
para x1 ∈ R.
Observación 1.3.6. Todos los razonamientos previos son extensibles al caso en
que X1 no es una variable aleatoria sino un vector aleatorio m dimensional. Los
problemas aparecen cuando el condicionamiento viene dado por un grupo de
variables aleatorias y no por una sola variable.
En el caso general, sea (X1 , . . . , Xm ) un vector aleatorio absolutamente continuo con función de densidad f((X1 ,...,Xm ) y sea {i1 < . . . < ik , j1 < . . . jk } un
subconjunto de {1, . . . , m}. Entonces,
F(Xi1 ,...,Xi
)
k |(Xj ,...,Xj )
1
k
=
(xi1 , . . . , xik ) =
R xik
Qk
−∞ . . . −∞ f(Xi1 ,...,Xik ;Xj1 ,...,Xjk ) (xi1 , . . . , xik ; xj1 , . . . , xjk )
p=1 dxip
R∞
R∞
Qk
p=1 dxip
−∞ . . . −∞ f(Xi1 ,...,Xik ;Xj1 ,...,Xjk ) (xi1 , . . . , xik ; xj1 , . . . , xjk )
R xi1
Métodos Cuantitativos II. 2009-2010. G.Garcı́a
1.3.2.
11
Esperanza condicionada
En este apartado analizaremos únicamente en detalle el caso m = 2. El caso
m > 2 se sigue de éste.
Definición 1.3.7. Sean X1 y X2 dos variables aleatorias. La esperanza condicionada de X1 a X2 = x2 se define como,
E(X1 |X2 = x2 ) =
Z
∞
−∞
x1 fX1 |X2 =x2 (x1 ) dx1
si ambas X1 y X2 son conjuntamente continuas y como
E(X1 |X2 = x2 ) =
X
x1 P (X1 = x1|X2 =x2 )
x1
si ambas X1 y X2 son conjuntamente discretas.
Se verifican las siguientes propiedades de la esperanza condicionada,
1. E[c|Y ] = c donde c es una constante.
2. E[aX + b|Y ] = aE[X|Y ] + b donde a, b son constantes.
3. Si g1 , g2 son funciones Borel-medibles y E[gi (X)] existe para i = 1, 2
entonces
E[a1 g1 (X) + a2 g2 (X)|Y ] = a1 E[g1 (X)|Y ] + a2 E[g2 (X)|Y ]
donde a1 y a2 son constantes.
4. Si X ≥ 0, entonces E[X|Y ] ≥ 0.
5. Si X1 ≤ X2 , entonces E[X1 |Y ] ≤ E[X2 |Y ].
6. (Esperanzas iteradas) Supongamos que E(g(X)) exista. Entonces,
E(g(X)) = E (E(g(X)|Y ))
12
Métodos Cuantitativos II. 2009-2010. G.Garcı́a.
1.3.3.
Independencia de variables aleatorias
Definición 1.3.8. Una colección de variables aleatorias X1 , . . . , Xm se denomina mutuamente o completamente independientes si y sólo si
F (x1 , . . . , xm ) =
m
Y
FXi (xi ),
i=1
∀(x1 , . . . , xm ) ∈ Rm
donde F es la función de distribución del vector aleatorio (X1 , . . . , Xm ) y FXi la
función de distribución marginal, esto es de cada Xi , i = 1, . . . , m. En ocasiones
F se denomina función de distribución conjunta.
Definición 1.3.9. Una sucesión de variables aleatorias (Xn )n≥1 se denomina independiente si para cualquier n = 2, 3, 4, . . . las variables aleatorias X1 , . . . , Xn
son independientes.
Definición 1.3.10. Sea X una variable aleatoria con distribución L(X). Diremos que (Xn )n≥1 es una sucesión de variables aleatorias independientes e
idénticamente distribuidas (iid) con ley L(X) si (Xn )n≥1 es una sucesión de
variables aleatorias independientes y la distribución de Xn es la misma que la
de la variable X.
Se verifican las siguientes propiedades,
1. Si X1 , . . . , Xm son independientes, cualquier subcolección Xi1 , . . . , Xik
de X1 , . . . , Xm también son independientes.
2. Sean X1 , . . . , Xm variables aleatorias con marginales absolutamente continuas. Entonces, X1 , . . . , Xm son independientes si y sólo si
f (x1 , . . . , xm ) =
m
Y
i=1
fXi (xi )
∀(x1 , . . . , xm ) ∈ Rm
donde f es la función de densidad conjunta de X1 , . . . , Xm y fXi las
densidades marginales.
3. Sean X1 , . . . , Xm variables aleatorias integrables e independientes. Entonces el producto X1 . . . Xm también es integrable cumpliéndose
E(X1 . . . Xm ) = E(X1 ) . . . E(Xm )
Métodos Cuantitativos II. 2009-2010. G.Garcı́a
13
4. Si (Xi )i∈I es una sucesión de variables aleatorias independientes y gi :
R → R son funciones medibles, (g(Xi ))i∈I continua siendo una sucesión
de variables aleatorias independientes.
Observación 1.3.11. Dados dos espacios medibles (Ω, A) y (F, F), la aplicación X : Ω → F es medible si X −1 (B) ∈ A para todo B ∈ F.
Ejemplo 1.3.12. La distribución de un vector aleatorio (X, Y ) está caracterizada per la función de densidad fXY (x, y) = 4xy si 0 < x < 1 i 0 < y < 1
1. Comprueba que esta función cumple les condiciones para ser una función
de densidad.
R1R1
La función es positiva en el dominio y 0 0 fXY (x, y) dxdy = 1
2. Encuentra las densidades marginales de X y de Y .
R1
fX (x) = 0 fXY (x, y) dy = 2x
R1
fY (y) = 0 fXY (x, y) dx = 2y
3. ¿Son X e Y independientes?
Si, ya que fX (x)fY (y) = fXY (x, y)
4. Calculad E[X], E[Y ] y Cov(X, Y ) = E[XY ] − E[X]E[Y ].
R1
E[X] = 0 xfX (x) dx = 23
R1
E[Y ] = 0 yfY (y) dy = 23
Cov(X, Y ) = 0
5. Calcula E[X|Y ].
Por ser X e Y independientes, se tiene que E[X|Y ] = E[X] =
1.4.
2
3
Operadores esperanza y covarianza
Este apartado es de tipo técnico dedicado a introducir una serie de herramientas
necesarias para el buen funcionamiento de cursos avanzados en Estadı́stica.
1.4.1.
Operador esperanza generalizado
Sea (Xij )i=1,...,n; j=1,...,m un conjunto de variables aleatorias con valores esperados E(Xij ). Con el objetivo de expresar tanto las variables como sus valores
esperados en forma de matriz, introducimos las siguientes definiciones.
14
Métodos Cuantitativos II. 2009-2010. G.Garcı́a.
Definición 1.4.1. Diremos que X = [Xij ]i=1,...,n;
ria.
j=1,...,m
es una matriz aleato-
Definición 1.4.2. Sea X una matriz aleatoria. Introducimos el operador esperanza generalizado E de X como
E(X) = [E(Xij )]i=1,...,n;
j=1,...,m
Propiedades
El operador esperanza generalizado verifica las siguientes propiedades de linealidad
1. Sean A (l × n) B (m × p) y C (l × p) matrices de constantes. Entonces
E(AXB + C) = AE(X)B + C
Observación 1.4.3. Un corolario interesante de la propiedad anterior se
tiene para n = 1 con B = Id C = 0.
2. Si A y B son matrices l × 1 de constantes y X e Y son vectores aleatorios
1 × m, entonces
E(AX + BY) = AE(X) + BE(Y)
Observación 1.4.4. Como corolario se tiene el caso en que A = a ∈ R y
B = b ∈ R.
1.4.2.
Esperanza y covarianza de un vector aleatorio
Siguiendo las ideas de la sección anterior vemos que un vector aleatorio puede
ser entendido como una matriz aleatoria en la que n = 1.
Notación 1.4.5. Sea X = (X1 , . . . , Xm ) un vector aleatorio. Escribiremos X en
lugar de X explicitando, si fuera necesrio las dimensiones del vector.
Ası́, podemos introducir el operador esperanza generalizado de X como E(X).
Observación 1.4.6. En este caso vemos que E(X) = (E(X1 ), . . . , E(Xm ))
Nuestro objetivo es ahora generalizar las nociones de varianza y de covarianza
para vectores aleatorios.
Métodos Cuantitativos II. 2009-2010. G.Garcı́a
15
Definición 1.4.7. Sean X e Y vectores aleatorios 1 × m y 1 × n. Introducimos
el operador covarianza C entre X e Y como,
C(X, Y) = E (X − E(X))t (Y − E(Y)
Observación 1.4.8. En este caso vemos que C(X, Y) es una matriz m × n cuyas
componentes son [Cov(Xi , Yj )].
Definición 1.4.9. Si,en la definición anterior X = Y, diremos que C(X, X),
que indicaremos por V(X), es la matriz de dispersión o de varianzas-covarianzas
de X.
Propiedades
La matriz de varianzas-covarianzas verifica las siguientes propiedades respecto
a las transformaciones lineales de los vectores.
Sean X e Y vectores aleatorios 1 × m y 1 × n.
1. Si A, B son dos matrices de constantes m × l y n × p , entonces
C(XA, YB) = At C(X, Y) B
Como corolario directo de esta propiedad se tienen las siguientes dos.
2. Si en la propiedad 1, B = Id,
C(XA, Y) = At C(X, Y)
3. Si en la propiedad 1, X = Y y A = B,
V(XA) = At V(X)A
4. Si X, Y, U, V son vectores aleatorios (no necesariamente distintos) 1×m
y a, b, c, d son reales (incluyendo el valor 0),
C(aX + bY, cU + dV) = ac C(X, U) + ad C(X, V) + bc C(Y, U) + bd C(Y, V)
Como corolario de esta propiedad, se tiene la siguiente.
16
Métodos Cuantitativos II. 2009-2010. G.Garcı́a.
5. Si en la propiedad 4, X = U, Y = V, a = c y b = d se tiene,
V(aX + bY) = a2 V(X) + 2ab C(X, Y) + b2 V(Y)
6. Si X es un vector aleatorio 1 × m de manera que ninguna componente
de X es combinación lineal del resto (esto es no existe a 6= 0 m × 1 y
b ∈ R tal que X a = b para todos los valores de X = x), entonces V(X)
es una matriz definida positiva.
Observación 1.4.10. En este apartado hemos introducido diferentes herramientas que, entre otras cosas van a permitir reescribir los resultados de la sección
1.3 de forma compacta.
1.5.
La distribución normal multivariante
La distribución básica en Análisis Multivariante clásico es la distribución normal multivariante. Es común el hecho que las observaciones multivariantes se
distribuyan, al menos aproximadamente, de forma normal; esto es especialmente
cierto en el caso de medias muestrales (y también de matrices de varianzascovarianzas muestrales) debido al efecto del Teorema del Lı́mite Central.
1.5.1.
Definición y propiedades
Definición 1.5.1. Sea X un vector aleatorio 1 × m. Diremos que X tiene una
distribución normal m-variante si, para cualquier a ∈ Rm , la distribución de Xa
es normal univariante.
Partiendo de esta definición, vamos a establecer algunas propiedades de la distribución normal multivariante.
Teorema 1.5.1. Si X sigue una distribución normal m-variante, entonces µ =
E(X) y Σ = V(X) existen y determinan la distribución de X.
Notación 1.5.2. La distribución normal m-variante del vector X en el teorema
anterior será denotada por Nm (µ, Σ) y escribiremos X ∼ Nm (µ, Σ).
Propiedades
1. Si X ∼ Nm (µ, Σ), B es m × k y b es 1 × k, entonces,
Y = XB + b ∼ Nk (µB + b, B ′ ΣB)
Como consecuencia directa del resultado anterior, se tiene,
Métodos Cuantitativos II. 2009-2010. G.Garcı́a
17
2. Si X ∼ Nm (µ, Σ), entonces la distribución marginal de cualquier subconjunto k(< m) continua siendo normal.
Demostración. Basta particionar el vector X como X = (X1 , X2 ) y
aplicar la propiedad 1 con B = (Idk : 0) y b = 0.
Observación 1.5.3. Según esta última propiedad, la distribución marginal
de cada componente de X es normal univariante, pero el recı́proco no es
cierto en general.
3. X ∼ Nm (µ, Σ) y X, µ y Σ están particionados según,

X = (X1 , X2 ) µ = (µ1 , µ2 ) Σ = 
Σ11 Σ12
Σ21 Σ22


donde X1 y µ1 son k × 1 y Σ11 es k × k, entonces los subvectores X1 y
X2 son independientes si y sólo si Σ12 = Σt21 = 0.
Sea X ∼ Nm (µ, Σ), la densidad de X es,
fX (x) = p
1
1
exp(− (x − µ)Σ−1 (x − µ)t )
2
(2Π)m |Σ|
Ejemplo 1.5.4. Sea X = (X1 , X2 ) ∼ N2 (µ, Σ). Suponiendo que σ12 = var(X1 ) >
0, σ22 = var(X2 ) > 0 y que el coeficiente de correlación ρ entre X1 y X2 verifica
−1 < ρ < 1. Nuestro objetivo es determinar, de forma explı́cita, la función de
densidad de probabilidad de X.
Sea µ = E(X) = (µ1 , µ2 ) y

 

2
σ11 σ12
σ1
ρσ1 σ2
=

V(X) = Σ = 
2
σ21 σ22
ρσ1 σ2
σ2
Según las condiciones del enunciado,
|Σ| = σ12 σ22 (1 − ρ2 ) > 0
Por lo tanto Σ es no singular y
Σ−1

1
1  σ12
=
1 − ρ2
− σ1ρσ2
− σ1ρσ2
1
σ22
y la función de densidad conjunta entre X1 y X2 es,


18
Métodos Cuantitativos II. 2009-2010. G.Garcı́a.
x1 − µ1 2
1
+
fX (x1 , x2 ) =
exp −
2 (1 − ρ2 )
σ1
2π σ1 σ2 1 − ρ2
!!
x2 − µ2 2
(x1 − µ1 )(x2 − µ2 )
+
− 2ρ
σ2
σ1 σ2
1
p
1.5.2.
Algunos resultados sobre formas cuadráticas
Teorema 1.5.2. Sea X ∼ Nm (µ, Σ). Entonces,
Q = (X − µ)Σ−1 (X − µ)t ∼ χ2m
Demostración. Como Σ es definida positiva, existe una matriz ortogonal T
(con valores reales) tal que
T t ΣT = Λ = diag(λ1 , . . . , λm )
donde λ1 , . . . , λm , los valores propios de Σ, son todos positivos.
Definimos, Y = (X − µ)T . Entonces, (X − µ) = YT t con lo que E(Y) = 0 y
V(Y) = Λ. De esta manera, las componentes de Y = (Y1 , . . . , Ym ) son todas
mutuamente independientes cumpliendo Yi ∼ N (0, λi ). Como,
Q = (X − µ)Σ−1 (X − µ)t = YT t Σ−1 (YT t )t =
= YΛ−1 Y t =
m
X
Y2
i
i=1
λi
=
m
X
i=1
Zi2 ∼ χ2m
donde Zi , para i = 1, . . . , m son variables aleatorias independientes, idénticamente distribuidas según N (0, 1).
Teorema 1.5.3. Sea X ∼ Nm (µ, σ 2 Idm ) y P una matriz m × m simétrica de
rango r. Entonces,
Q=
1
(X − µ)P (X − µ)t ∼ χ2m ⇔ P 2 = P
σ2
CAPÍTULO
2
Fundamentos de Inferencia Estadı́stica
2.1.
Introducción
Statistics must have a clearly defined purpose, one aspect of
which is scientific advance and the other, human welfare and
national development.
P.C. Mahalanobis (1956)
Naturalmente, no existe un acuerdo en lo que entendemos por estadı́stica y no
encontramos una sino muchas definiciones al respecto. Entre otras, podemos
destacar
El objetivo de la estadı́stica es efectuar una decisión sobre una base probabilı́stica de la evidencia observable.
P.C. Mahalanobis (1950)
La Estadı́stica es la lógica del análisis de la incertidumbre y la toma de
decisiones adecuadas.
C.R. Rao (1989)
Probablemente, la parte común a estas dos definiciones sea la posibilidad que
ofrece la Estadı́stica de tomar decisiones en función de la realidad observable y
posiblemente sea este el aspecto que la hace atractiva en tan variados ámbitos.
19
20
Métodos Cuantitativos II. 2009-2010. G.Garcı́a.
Dirı́amos que la E stadı́stica Matemática es una disciplina que comprende un
conjunto de métodos y técnicas concebidos para establecer o ayudar a establecer enunciados de naturaleza inductiva. La aplicación de los métodos formales
desarrollados por la E stadı́stica matemática será el objetivo de lo que en ocasiones se denomina E stadı́stica aplicada.
2.1.1.
Algunas consideraciones sobre Inferencia Estadı́stica
El objetivo de la Inferencia Estadı́stica es estimar parámetros de la población
tales como la media o el total en función de las frecuencias observadas de una
variable. Al considerar poblaciones finitas es posible que se plantee la cuestión
de estudiar toda la población y ası́ determinar los parámetros poblacionales de
interés. Sin embargo, son claras las ventajas de realizar un muestreo en lugar de
estudiar toda la población: reducción de costes, mayor rapidez en la obtención
de los resultados, mejor supervisión del trabajo a realizar...
El primer punto a abordar, el de la descripción de la realidad observable, es el
objetivo del Muestreo Estadı́stico. Introducimos los siguientes conceptos.
Definición 2.1.1. Llamaremos población a un conjunto homogéneo de elementos en los que se estudia una caracterı́stica dada.
Definición 2.1.2. Un censo es un estudio (exhaustivo) de todos los elementos
de una población.
Definición 2.1.3. Una muestra es un conjunto representativo de los elementos
de una población.
El muestreo estadı́stico tiene como objetivo el de seleccionar adecuadamente una
muestra de tal manera que la información obtenida de ésta sobre la caracterı́stica
de interés sea similar a la que se obtendrı́a del censo pero con mayor rapidez y a
menor coste. Ahora bien, la clave de un procedimiento de muestreo es garantizar
que la muestra sea representativa de la población.
2.1.2.
Tipos de muestreo
Muestreo aleatorio simple con reposición
El muestreo aleatorio simple con reposición se adapta bien al modelo de la
estadı́stica clásica donde se trabaja con una colección de variables aleatorias
independientes e idénticamente distribuidas.
Métodos Cuantitativos II. 2009-2010. G.Garcı́a
21
Definición 2.1.4. Diremos que una muestra es aleatoria simple con reposición
cuando cada elemento de la población tiene la misma probabilidad de ser elegido para la muestra. Se efectúa cada observación con reemplazamiento, de tal
manera que la población es idéntica en todas las extracciones.
Este tipo de muestreo presenta diferentes problemas, entre los que cabe destacar
el elevado coste que supone que todas las posibles muestras tengan la misma
probabilidad de ser escogidas (fundamentalmente en areas geográficas grandes)
y la ausencia, en muchas ocasiones de un censo de la población.
Muestreo aleatorio simple sin reposición
La transición del muestreo aleatorio simple con reposición al simple sin reposición debe verse como una extensión o adaptación a la realidad del modelo anterior. Sin embargo, conviene hacer notar que la no reposición revierte en que las
variables aleatorias que utilizamos para modelar continúan siendo idénticamente
distribuidas pero ahora han perdido la condición de independencia.
Observación 2.1.5. El muestreo aleatorio simple debe utilizarse cuando los elementos de la población son homogéneos respecto a la caracterı́stica en estudio,
es decir cuando no disponemos de información previa que permita decidir qué elementos de la población tendrán valores altos (o bajos) en ella.
Observación 2.1.6. Suele ocurrir que en las encuestas de opinión, los elementos
(personas) son heterogéneos en razón del sexo, edad, profesión... Interesará, en
estos casos, que la muestra tenga una composición análoga a la de la población
que no conseguiremos utilizando el muestreo aleatorio simple.
Muestreo estratificado
El diseño de las encuestas por muestreo tiene como motivación el de hacer
inferencias sobre una población según la información contenida en una muestra.
El diseño de encuestas por muestreo estratificado tiene como objetivo maximizar
la cantidad de información a obtener de una muestra para un coste dado de ésta.
En el caso de disponer de grupos identificables para la caracterı́stica en estudio,
el error de estimación que se producirı́a por muestreo estratificado es inferior al
que se tendrı́a utilizando muestreo aleatorio simple, en especial si los grupos o
estratos son homogéneos entre sı́.
Como ejemplo del muestreo por conglomerados, podemos considerar la estimacin del salario medio de un ciudadano de la Unin Europoea. Podramos considerar un muestreo por estratos donde cada uno de los pases de la UE formara
22
Métodos Cuantitativos II. 2009-2010. G.Garcı́a.
un estrato. A grandes rasgos, se requiere de los estratos que sean grupos, relacionados con la caracterstica en estudio y que presenten heterogeneidad entre
ellos y homogeneidad dentro de ellos. Con ms precisin,
Definición 2.1.7. Se denomina muestreo estratificado aquel en el que los elementos de la población se dividen en clases o grupos disjuntos llamados estratos,
relacionados con la caracterstica en estudio. La muestra se toma asignando un
número de miembros o cuota a cada estrato y escogiendo estos elementos por
muestreo simple dentro de cada estrato.
En concreto, si existen k estratos de tamaños N1 , . . . , Nk siendo N = N1 +
· · ·+Nk , tomaremos una muestra que garantice una presencia adecuada de cada
estrato. Existen dos criterios básicos para dividir el tamaño total de la muestra
n entre los estratos ni .
1. Proporcionalmente al tamaño relativo de cada estrato en la población
(Asignación proporcional),
ni = n
Ni
, i = 1, . . . , k
N
2. Proporcionalmente a la variabilidad de cada estrato, esto es requeriremos que los estratos más variables estén más representados (Asignación
de Neyman). En concreto, si σi es la desviación tı́pica muestral en cada
estrato,
σi Ni
ni = n Pk
, i = 1, . . . , k
i=1 σi Ni
Observación 2.1.8. Existen otros criterios de asignación basados en el
coste que supone efectuar cada observación en un estrato.
Muestreo por conglomerados
Podemos entender el muestreo por conglomerados como un muestreo irrestricto
aleatorio donde cada unidad de muestreo contiene un número determinado de
elementos a incorporar ı́ntegramente en la muestra. Debemos notar que las ideas
de estrato y conglomerado son en cierta forma contrapuestas pues un estrato
debe ser lo más homogéneo posible (y heterogéneos entre ellos), mientras que
un conglomerado debe ser lo más heterogéneo posible (y homogéneos entre
ellos).
Métodos Cuantitativos II. 2009-2010. G.Garcı́a
23
Una situacin en la que el muestreo por conglomerados sera de utilidad con la
consecuente reduccin del error de estimacin, frente al muestreo aleatorio simple,
sera en la estimacin de la nota media de acceso a la Universidad. En este caso,
los conglomerados seran los diferentes centros de estudio de Enseanza Media.
Definición 2.1.9. Un conglomerado es una colección intrı́nseca (o en ocasiones
conveniente) de elementos de la población.
Definición 2.1.10. El muestreo por conglomerados consiste en obtener una
muestra aleatoria aleatoria simple de conglomerados y en cada unidad se muestrean todos los elementos que la forman.
En ocasiones, un conglomerado contiene demasiados elementos para obtener
mediciones sobre cada uno de ellos. El muestreo por conglomerados también
pueden presentar el siguiente problema: en ocasiones la homogeneidad dentro
del grupo es tan acusada que mediciones sobre una parte del conglomerado
proporciona suficiente información sobre toda la colección.
Definición 2.1.11. Una muestra por conglomerados en dos etapas se obtiene
seleccionando primero una muestra aleatoria simple sin reposición de los conglomerados y posteriormente una muestra aleatoria simple dentro de cada conglomerado.
Sea N el número total de conglomerados en la población y n el número total de
conglomerados en una muestra irrestricta aleatoria. Sea Mi el número de elementos en el conglomerado i-ésimo, i = 1, . . . , N y mi el número de elementos
en la muestra del conglomerado i-ésimo, i = 1, . . . , n.
Muestra
Población
Número conglomerados
n
N
Número elementos en congl.
mi
Mi
Número elementos
m=
Pn
i=1 mi
M=
PN
i=1 Mi
24
Métodos Cuantitativos II. 2009-2010. G.Garcı́a.
Observación 2.1.12. La selección de los tamaños de muestra en la primera etapa (muestreo por conglomerados en 1 etapa y en 2 etapas) y en la segunda
(muestreo por conglomerados en 2 etapas) se resuelve en función de criterios
de variabilidad y de coste pero con expresiones bastante más complicadas que
en el caso de muestreo estratificado.
Observación 2.1.13. El muestreo por conglomerados en 2 etapas es sólo un ejemplo de muestreo polietápico donde diferentes métodos de muestreo se combinan
para optimizar los resultados finales.
Muestreo sistemático
Cuando los elementos de la población están ordenados según una caracterı́stica relacionada con la de interés en una lista de orden, se utiliza muestreo
sistemático.
Definición 2.1.14. Sea N el tamaño de una población de la que se quiere
obtener una muestra de tamaño n. Sea k el entero más próximo a N
n . Una
muestra obtenida al seleccionar aleatoriamente un elemento de los primeros
k en la lista de orden y después cada k elemento se denomina una muestra
sistemática de 1 en k.
El muestreo sistemático es una opción util al muestreo irrestricto aleatorio,
pues está menos expuesto a los errores de selección de las unidades muestrales
que cometen los investigadores de campo. Además puede proporcionar mayor
información que la que se obtiene mediante muestreo irrestricto aleatorio con
la misma unidad de costo pues se extiende más uniformemente por toda la
población. En ocasiones se utiliza en poblaciones que varı́an en el tiempo, por
ejemplo en una cadena de producción pues puede considerar, en ocasiones, que
la variación temporal influye en el proceso de fabricación.
Finalmente comentar que existen otros tipos de muestreo no probabilı́stico, entre
otros, los muestreos circunstancial, intencional o los dados por una muestra de
voluntarios (fundamentalmente en el ámbito de las ciencias de la salud). Sin
embargo, se debe hacer énfasis en la dificultad que supone dar una medida
del error de estimación en estos otros muestreos por lo que conviene evitarlos
siempre que sea posible.
Métodos Cuantitativos II. 2009-2010. G.Garcı́a
2.2.
Estimación Puntual
2.2.1.
El problema de la estimación puntual
25
Sea X una variable aleatoria sobre un espacio de probabilidad (Ω, A, P ). Supongamos que la función de distribución F de X depende de una familia de parámetros y supongamos, para lo que sigue, que la forma funcional de F es conocida,
excepto por un número finito de estos parámetros. Sea θ el vector de parámetros
desconocidos.
Definición 2.2.1. El conjunto de los valores admisibles para θ es el espacio de
parámetros que denotaremos como Θ.
Notación 2.2.2. Diremos que Fθ es la función de distribución de X, o bien que
Pθ es la ley o distribución de probabilidad de X, si θ es el vector de parámetros
asociado con la distribución de X.
Sea X una variable aleatoria con distribución de probabilidad Pθ siendo θ =
(θ1 , . . . , θk ) el vector de parámetros desconocidos. Sea X1 , . . . , Xn v.a. iid ∼
X. Vamos a abordar el problema de aproximar θ en función de la muestra
observable.
Definición 2.2.3. Una aplicación T (X1 , . . . , Xn ) en Θ (medible) es un estadı́stico.
Definición 2.2.4. Sea x1 , . . . , xn n realizaciones de X y T (X1 , . . . , Xn ) en Θ
un estadı́stico. Diremos que T (x1 , . . . , xn ) es una estimación de θ. o bien una
realización de T (X1 , . . . , Xn )
El problema de la estimación paramétrica consiste en obtener una estimación del
parámetro desconocido θ con buenas propiedades. Sin embargo, antes vamos a
abordar algunos de los diferentes procedimientos de estimación.
2.2.2.
Procedimientos de estimación
El método de los momentos
Uno de los métodos más sencillos de estimación es el método de los momentos
formalizado por K. Pearson a finales del siglo XIX. El objetivo es estimar un
vector de parámetros θ = (θ1 , . . . , θk ) cuyos componentes pueden expresarse en
función de k momentos de la población, m1 , . . . , mk , esto es
26
Métodos Cuantitativos II. 2009-2010. G.Garcı́a.
θ1 = g1 (m1 , . . . , mk )
..
..
.
.
θk = gk (m1 , . . . , mk )
donde g1 , . . . , gk son funciones B. Proponemos el siguiente procedimiento,
1. Sustituimos los momentos poblacionales por los correspondientes momentos muestrales m̂1 , . . . , m̂k .
2. Proponemos como estimación de θ el vector θ̂ = (θ̂1 , . . . , θ̂k ) obtenido
según,
θˆ1 = g1 (m̂1 , . . . , m̂k )
..
..
.
.
θ̂k = gk (m̂1 , . . . , m̂k )
Ejemplo 2.2.5. Dada una muestra aleatoria {8, 6, 4, 5, 7} de una distribución
χ2 se pretende determinar sus grados de libertad por el método de los momentos.
Como E(χ2m ) = m, calculando la media muestral, se tiene m̂1 = 6. Ası́, la
estimación por momentos de los grados de libertad es 6.
Ejemplo 2.2.6. Dada una muestra aleatoria {2, 4, 9, 1} de una distribución
U (a, b) estamos interesados en estimar a y b por el método de los momentos.
1
2
En este caso, E(U (a, b)) = a+b
2 y V ar(U (a, b)) = 12 (b − a) . Como x = 4 y
38
2
s = 3 resolviendo el correspondiente sistema se tienen dos pares de soluciones:
√
√
√
√
a = 4 − 2 19 , b = 4 + 2 19 y a = 4 + 2 19 , b = 4 − 2 19. Como a < b
escogemos la primera solución.
Observación 2.2.7. Es fácil extender el método
de los momentos para estimar los
P
momentos mixtos, esto es usaremos n1 ni=1 Xi Yi para estimar E(XY ) siendo
X1 , . . . , Xn v.a. iid ∼ X e Y1 , . . . , Yn v.a. iid ∼ Y .
La estimación máximo verosı́mil
El principio de estimación máximo verosı́mil asume que la muestra es representativa de una población y escoge como estimación aquel valor del parámetro
que maximiza la función de densidad de probabilidad o de masa de la variable
subyacente. El concepto de función de verosimilitud es debido a Fisher que,
Métodos Cuantitativos II. 2009-2010. G.Garcı́a
27
en su obra Theory of Statistical Estimation (1925), establece las bases para la
estimación puntual. Fisher debe considerarse el descubridor del método de la
máxima verosimilitud para la estimación de parámetros, método que en general
resulta ser muy superior al método de los momentos, ya que proporciona, bajo condiciones de regularidad, estimadores no sólo consistentes sino al menos
asintóticamente eficientes (cuando no eficientes). También introduce el concepto de suficiencia, y lo relaciona con la estimación máximo verosı́mil.
Sea X = (X1 , . . . , Xn ) un vector aleatorio con función de densidad de probabilidad (o de masa) fθ (x1 , . . . , xn ) para θ ∈ Θ ⊂ Rk .
Definición 2.2.8. Diremos que la función,
L(x1 , . . . , xn ; θ) = fθ (x1 , . . . , xn )
como función de θ es la función de verosimilitud.
Observación 2.2.9. Si X1 , . . . , Xn son v.a. iid ∼ X siendo fθ (x) la función de
densidad de probabilidad (o de masa) de X, la función de verosimilitud es
L(x1 , . . . , xn ; θ) =
n
Y
fθ (xi )
i=1
Definición 2.2.10. El Principio de estimación máximo–verosı́mil consiste en escoger como estimación θ̂ = θ̂(x1 , . . . , xn ) de θ aquella que maximice L(x1 , . . . , xn ; θ),
esto es,
L(x1 , . . . , xn ; θ̂) = sup L(x1 , . . . , xn ; θ)
θ∈Θ
Observación 2.2.11. Las constantes no son admitidas como estimadores.
En general es conveniente trabajar con el logaritmo de la función de verosimilitud
en lugar de con la propia verosimilitud y nuestro objetivo será encontrar θ̂ tal
que
log L(x1 , . . . , xn ; θ̂) = sup log L(x1 , . . . , xn ; θ)
θ∈Θ
Consideremos la situación en que Θ es un subconjunto abierto de Rk y fθ es una
función de θ diferenciable en θ (esto es existen las derivadas parciales de primer
orden en las componentes de θ). Si el supremo anterior existe, debe verificar las
ecuaciones de verosimilitud, esto es
∂
log L(x1 , . . . , xn ; θ̂) = 0
∂θj
j = 1, . . . , k
28
Métodos Cuantitativos II. 2009-2010. G.Garcı́a.
Ejemplo 2.2.12. Sean X1 , . . . , Xn v.a. iid ∼ N (µ, σ 2 ) donde tanto µ como σ 2
son desconocidos. Aquı́ Θ = R × R+ = {(µ, σ 2 ); µ ∈ R , σ 2 ∈ (0, +∞)}.
1
2
L(x1 , . . . , xn ; µ, σ ) =
(σ 2 2π)
exp(−
n
2
Pn
i=1 (xi −
2σ 2
n
n
log L(x1 , . . . , xn ; µ, σ ) = − log(σ 2 ) − log(2 π) −
2
2
2
Pn
µ)2
)
i=1 (xi −
2σ 2
µ)2
Las ecuaciones de verosimilitud son,
− σ12
− n2 σ12 +
1
2 σ4
Pn
i=1 (xi
Pn
i=1 (xi
− µ) = 0
− µ)2 = 0
Resolviendo estas ecuaciones obtenemos
=
1
n
Pn
= xn
σˆ2 =
1
n
Pn
− xn )2
µ̂
i=1 xi
i=1 (xi
Vemos que (µ̂, σˆ2 ) ∈ Θ con probabilidad 1. Una evaluación del hessiano del
logaritmo de la función de verosimilitud asegura que (µ̂, σˆ2 ) la maximiza.
2.2.3.
Propiedades de los estimadores
Hemos visto que es posible obtener diferentes estimadores puntuales en una
misma situación. Vamos a investigar las propiedades de éstos con el objetivo
que nos ayuden a escoger entre unos y otros.
Para lo que sigue, sean X1 , . . . , Xn v.a.iid con distribución de probabilidad
común Pθ , para θ ∈ Θ ∈ Rk . Sea X = (X1 , . . . , Xn ) y x = (x1 , . . . , xn ) y
T (X) = T (X1 , . . . , Xn )
Suficiencia
Definición 2.2.13. T es suficiente para θ si y sólo si P (X = x|T = t) es
independiente de θ (excepto quizás en un conjunto de medida 0).
Métodos Cuantitativos II. 2009-2010. G.Garcı́a
29
Ejemplo 2.2.14. Sean X1 , X2 v.a. iid ∼ P oiss(λ) Entonces, X1 + X2 es
suficiente para λ pues
P ((X1 , X2 ) = (x1 , x2 )|X1 + X2 = t) =
que es independiente de λ.
t!
1
x1 !(t − x1 )! 2t
Resolver si un estimador es suficiente o no, de forma directa, suele ser un problema de delicado y costoso en tiempo. Sin embargo, existe el siguiente criterio
de suficiencia.
Teorema 2.2.1. Sea X1 , . . . , Xn v.a. discretas con función de distribución de
masa pθ (x1 , . . . , xn ). Entonces, T (X1 , . . . , Xn ) es suficiente para θ si y sólo si
pθ (x1 , . . . , xn ) = h(x1 , . . . , xn ) gθ (T (x1 , . . . , xn ))
donde h es una función no negativa que depende únicamente de x1 , . . . , xn y
gθ es una función no negativa que depende únicamente de T (x1 , . . . , xn ) y de
θ.
Observación 2.2.15. El teorema 2.2.1 también es válido en el caso continuo
aunque bajo ciertas condiciones de regularidad (ver Teorema 4.4.6 de Rohatgi
) que para las familias que vamos a tratar se verificarán.
Estimadores insesgados
Definición 2.2.16. Un estimador integrable T de θ es insesgado si
Eθ (T ) = θ
R
donde Eθ (T ) indica Rn P
T (x1 , . . . , xn )fθ (x1 , . . . , xn ) dx1 . . . dxn en el caso absolutamente continuo y {x1 ,...,xn } T (x1 , . . . , xn )pθ (x1 , . . . , xn ) en el caso discreto.
Definición 2.2.17. Diremos que Bθ (T ) = Eθ (T )−θ es el sesgo de T al estimar
θ.
P
Ejemplo 2.2.18. Vamos a probar que el estimador σˆ2 = n1 ni=1 (Xi − X n )2
para σ 2 del ejemplo 2.2.12 tiene sesgo.
Observemos que Xi ∼ N (µ, σ 2 ) para i = 1, . . . , n y que según las propiedades
2
de la ley normal multivariante, X n ∼ N (µ, σn ). Por otra parte,
n
n
X
X
2
(Xi − X n )2 =
Xi2 − nX n
i=1
i=1
30
Métodos Cuantitativos II. 2009-2010. G.Garcı́a.
Ası́,
n
X
σ2
Eµ,σ2 ( (Xi − X n )2 ) = n(σ 2 + µ2 ) − n( + µ2 ) = (n − 1)σ 2
n
i=1
Por lo tanto,
(n − 1)σ 2
Eµ,σ2 (σˆ2 ) =
n
ˆ
2
Aún ası́ observemos que el sesgo de σ tiende a 0 cuando el tamaño muestral
aumenta.
Eficiencia
Definición 2.2.19. Sea T un estimador de θ de cuadrado integrable. Introducimos el error cuadrático medio de T al estimar θ como
M SEθ (T ) = Eθ (T − θ)2
En el caso de los estimadores insesgados para θ, el error cuadrático medio tiene
la interpretación intuitiva de la precisión en la estimación del parámetro pues
Eθ (T − θ)2 = Eθ (T − Eθ (T ))2 = var θ (T )
Definición 2.2.20. Sea U el conjunto de todos los estimadores insesgados T
de θ ∈ Θ tales que Eθ (T 2 ) < ∞. Un estimador T0 ∈ U es UMVUE (uniformly
minimum variance unbiased estimate) de θ si
var θ (T0 ) ≤ var θ (T )
para todo t ∈ U y θ ∈ Θ
Definición 2.2.21. Sean T1 y T2 dos estimadores insesgados de θ tales que
Eθ T12 < ∞ y Eθ T22 < ∞. Definimos la eficiencia de T1 relativa a T2 como,
ef θ (T1 |T2 ) =
var θ (T1 )
var θ (T2 )
y diremos que T1 es más eficiente que T2 si ef θ (T1 |T2 ) < 1.
Observación 2.2.22. Es posible extender todos estos conceptos a la estimación
vectorial, definiendo
M SEθ (T ) = Eθ kT − θk2
Métodos Cuantitativos II. 2009-2010. G.Garcı́a
31
Propiedades asintóticas
Sea {Pθ ; θ ∈ Θ}, Θ ∈ Rk una familia no vacı́a de distribuciones de probabilidad
y T un estimador de θ Sean X1 , X2 , . . . una sucesión de variables aleatorias
con función de distribución común Pθ , para θ ∈ Θ. Sean T (X1 , . . . , Xn ) = Tn ,
n ≥ 1 una sucesión de estimadores puntuales de θ.
Definición 2.2.23. (T )n es asintóticamente insesgado para θ si todo Tn es
integrable y
lı́m Bθ (Tn ) = 0
n→∞
Definición 2.2.24. (T )n es es consistente para θ si
P − lı́m Tn = θ
n→∞
Observación 2.2.25. Recordemos que P − lı́mn→∞ Tn = θ si y sólo si para todo
ǫ > 0, lı́mn→∞ P (|Tn − θ| > ǫ) = 0.
Ejemplo 2.2.26. Sean X1 , X2 , . . . v.a. iid ∼ Bern(p). Según la WLLN,
Pn
Xi
=p
P − limn→∞ i=1
n
P
y por lo tanto, la media muestral n1 ni=1 Xi es consistente para p.
Ejemplo 2.2.27. En el ejemplo anterior, si lı́mn→∞ cn = 0,
Pn
Xi
P − limn→∞ i=1
+ cn = p
n
Definición 2.2.28. (T )n es asintóticamente eficiente para θ si todo Tn es de
cuadrado integrable y
lı́m M SEθ (Tn ) = 0
n→∞
2.2.4.
Cota de Cramér-Rao
En esta sección vamos a considerar una de las desigualdades más importantes
de la Estadı́stica Matemática que proporciona una cota inferior para la varianza
de un estimador no sesgado. Veremos la versión unidimensional aunque existen
las correspondientes versiones multidimensionales.
32
Métodos Cuantitativos II. 2009-2010. G.Garcı́a.
Teorema 2.2.2. (Cota de Cramér-Rao) Sea Θ una intervalo abierto de R y
{fθ ; θ ∈ Θ} una familia de funciones de densidad de probabilidad o de masa.
∂
fθ (x) existe
Supongamos que ∂θ
R para todo x y θ y que podemos derivar respecto
θ
bajo
el
signo
integral
Rn fθ (x)dx en el caso absolutamente continuo
P
y x fθ (x) en el caso discreto, esto es,
∂
∂θ
R
Rn
fθ (x)dx =
∂
∂θ
P
x fθ (x)
R
∂
Rn ∂θ fθ (x)dx
= 0
∂
x ∂θ fθ (x)
= 0
=
P
Sea T un estimador insesgado de θ tal que Eθ T 2 < ∞ para todo θ ∈ Θ y
verificando, además.
∂
∂θ
R
Rn
∂
∂θ
Entonces,
T (x)fθ (x)dx =
P
x
T (x)fθ (x) =
R
Rn
P
x
∂
T (x) ∂θ
fθ (x)dx
∂
T (x) ∂θ
fθ (x)
∂
1 ≤ varθ (T ) Eθ ( ln fθ (X))2
∂θ
para todo θ ∈ Θ.
∂
Observación 2.2.29. Si Eθ ( ∂θ
ln fθ (X))2 > 0 la desigualdad de Cramér-Rao
se escribe,
∂
Eθ ( ∂θ
siendo
1
∂
Eθ (( ∂θ
ln fθ (X))2 )
1
≤ var θ (T )
ln fθ (X))2
conocido como la Cota de Cramér-Rao.
∂
ln fθ (X))2 es la información
Definición 2.2.30. La cantidad In (θ) = Eθ ( ∂θ
de Fisher.
Observación 2.2.31. Si X = (X1 , . . . , Xn ) donde X1 , . . . , Xn son v.a. iid ∼ fθ ,
In (θ) = nI1 (θ).
Ejemplo 2.2.32. Demuestra que X n es UMVUE para la media µ de una distribución N (µ, σ 2 ).
En este caso, si X ∼ N (µ, σ 2 )
Métodos Cuantitativos II. 2009-2010. G.Garcı́a
I1 (µ) = Eµ,σ2
"
X −µ
σ2
2 #
33
=
1
σ2
Ası́,
In (µ) =
n
σ2
2
La cota de Cramér-Rao es σn . Como según, las propiedades de la distribución
2
normal multivariante X n ∼ N (µ, σn ), se tiene que X n es UMVUE para µ pues
es un estimador insesgado que alcanza la cota de Cramér-Rao.
2.3.
Regiones de confianza
En muchos problemas de Inferencia Estadı́stica, el experimentador está interesado en construir una familia de conjuntos que contengan el verdadero valor
del parámetro con una probabilidad (alta) especificada de antemano. Ese es el
problema que aborda la estimación paramétrica via regiones de confianza.
Definición 2.3.1. Sea PΘ = {Pθ ; θ ∈ Θ ⊂ Rk }, una familia de distribuciones
de probabilidad de un vector aleatorio X. Una familia de conjuntos S(x) de Θ
, donde S(x) depende de la observación x de X pero no de θ es una familia de
conjuntos aleatorios.
En particular, vamos a estar interesados en encontrar familias de conjuntos
aleatorios S(x) para θ ∈ Θ verificando la siguiente condición,
Definición 2.3.2. Diremos que una familia de conjuntos aleatorios S(x) para
θ ∈ Θ es una familia de conjuntos de confianza al nivel 1 − α para θ si,
Pθ (θ ∈ S(x)) ≥ 1 − α
Ejemplo 2.3.3. Si k = 1 las regiones de confianza se conocen como intervalos
de confianza. La construcción se basa en la existencia de estadı́sticos pivote para
las diferentes situaciones.
Supongamos que X ∼ N (µ, σ 2 ) donde σ 2 es conocida. En este caso, sabemos
que,
Xn − µ
q
∼ N (0, 1)
σ2
n
De esta manera,
34
Métodos Cuantitativos II. 2009-2010. G.Garcı́a.
Xn − µ
P (−z1− α2 < q
< z1− α2 ) = 1 − α)
σ2
n
donde z1− α2 es el valor de una distribución N (0, 1) tal que P (N (0, 1) ≤ z1− α2 ) =
1 − α2 .
De aquı́,
r
r
σ2
σ2
I(X) = (X n − z1− α2
< µ < X n − z1− α2
)
n
n
es in intervalo de confianza para µ con un nivel de confianza de 1 − α.
Observación 2.3.4. Según el Teorema del Lı́mite Central, estos razonamientos
también son válidos en el caso que X siga una distribución arbitraria pero
el tamaño de la muestra n sea grande (n ≥ 30, suele ser un buen valor de
referencia).
Ejemplo 2.3.5. Si σ es desconocida, podemos utilizar el hecho que
Xn − µ
q
∼ tn−1
S2
n
donde
n
S2 =
1 X
(Xi − X n )2
n−1
i=1
De esta manera, un intervalo de confianza para µ al nivel de confianza 1 − α
viene dado por
r
r
S2
S2
I(X) = (X n − tn−1,1− α2
, X n − tn−1,1− α2
)
n
n
donde tn−1,1− α2 es un valor tal que la distribución tn−1 verifica P (tn−1 ≤
tn−1,1− α2 ) = 1 − α2 .
Ejemplo 2.3.6. En el ejemplo anterior, si quisiéramos encontrar un intervalo
de confianza para σ 2 al nivel 1 − α utilizarı́amos el hecho que
(n − 1)S 2
∼ χ2n−1
σ2
Ası́, un intervalo de confianza para σ 2 al nivel 1 − α viene dado por,
Métodos Cuantitativos II. 2009-2010. G.Garcı́a
I(X) = (
35
(n − 1)S 2 (n − 1)S 2
,
)
χ2n−1,1− α
χ2n−1, α
2
α
2
donde P (χ2n−1 ≤ χ2n−1,1− α ) = 1 −
2
2
y P (χ2n−1 ≤ χ2n−1, α ) = α2 .
2
Ejemplo 2.3.7. Si quisiéramos encontrar una región de confianza para (µ, σ 2 )
simultáneamente podemos utilizar la información de los ejemplos 2.3.5 y 2.3.6
y la desigualdad de Boole. Supongamos que hemos construido un intervalo de
confianza al 1 − α1 % para µ (con σ 2 desconocida) y al 1 − α2 % para σ 2 .
Para simplificar las notaciones, denotemos tn−1,1− α1 como t y los valores crı́ticos
2
de la χ2n−1 , esto es χ2n−1, α2 y χ2n−1,1− α2 , respectivamente como a y b.
2
2
Recordemos que dados dos conjuntos cualesquiera A y B, se verifica,
1 ≥ P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
Por lo tanto,
P (A ∩ B) ≥ P (A) + P (B) − 1
Como P (A) = 1 − P (Ac ) y P (B) = 1 − P (B c ), sustituyendo en la desigualdad
previa tenemos P (A ∩ B) ≥ 1 − P (Ac ) + 1 − P (B c ) − 1, esto es
P (A ∩ B) ≥ 1 − P (Ac ) − P (B c )
Aplicando esta última expresión a los conjuntos
(
r
r )
S2
S2
A = Xn − t
< µ < Xn + t
n
n
y
B=
(n − 1)S 2
(n − 1)S 2
< σ2 <
b
a
podemos escribir,
P
(
Xn − t
r
S2
< µ < Xn + t
n
≥1−P
(
r
S2
n
)
r
S2
ó X n + t
n
µ ≤ Xn − t
∩
(n − 1)S 2
(n − 1)S 2
< σ2 <
b
a
r
)!
S2
≤µ
−
n
!
≥
36
Métodos Cuantitativos II. 2009-2010. G.Garcı́a.
−P
σ2 ≤
(n − 1)S 2
(n − 1)S 2
ó
≤ σ2
b
a
= 1 − α1 − α2
esto es el producto cartesiano
S(X) =
Xn − t
r
S2
, Xn + t
n
r
S2
n
!
×
(n − 1)S 2 (n − 1)S 2
,
b
a
es una región de confianza para (µ, σ 2 ) al 1 − α1 − α2 %.
2.4.
Contraste de hipótesis: el enfoque clásico
Anteriormente hemos considerado el problema de la estimación puntual a partir
de una muestra de una población cuya distribución de probabilidad es conocida
excepto por un número finito de parámetros desconocidos. Abordamos ahora
otro problema de gran importancia en Inferencia Estadı́stica: el del contraste de
hipótesis pero según el enfoque clásico.
Sean X1 , . . . , Xn son v.a. iid distribuidas como X ∼ Pθ , θ ∈ Θ ⊂ Rk . Supondremos que Pθ es conocida excepto por el parámetro θ y que Θ contiene como
mı́nimo dos puntos.
Definición 2.4.1. Una hipótesis paramétrica es una afirmación sobre el parámetro
desconocido θ. Habitualmente se denomina hipótesis nula y se escribe en la forma H0 : θ ∈ Θ0 ⊂ Θ. La afirmación H1 : θ ∈ Θ1 = Θ − Θ0 se denomina
hipótesis alternativa.
Si Θ0 ( o bien Θ1 ) contiene un único punto, diremos que H0 (respectivamente
H1 ) es simple. Observemos que si una hipótesis es simple, la distribución de X
está completamente especificada bajo la correspondiente hipótesis.
En el contexto del contraste de hipótesis, existen dos tipos de error que se
pueden llegar a cometer, el de tipo I y de tipo II.
Verdadero
Decisión
H0
H1
No rechazar H0
Correcto
Error tipo II
Rechazar H0
Error tipo I
Correcto
Métodos Cuantitativos II. 2009-2010. G.Garcı́a
37
Definición 2.4.2. Diremos que
P (Rechazar H0 | H0 cierta)
es el tamaño o nivel de significación del contraste.
Definición 2.4.3. Introducimos la potencia en θ ∈ Θ
potencia(θ) = Pθ (Rechazar H0 )
esto es la probabilidad de rechazar H0 cuando el verdadero valor del parámetro
es θ.
Definición 2.4.4. Introducimos la función o curva caracterı́stica del contraste
como la aplicación, θ 7→ β(θ) = 1 − potencia(θ).
Dados dos contrastes con el mismo nivel de significación, escogeremos el que
tenga menos probabilidades de error de tipo II, lo que habitualmente se resume
diciendo que escogemos el más potente.
Definición 2.4.5. Un test de nivel α con función caracterı́tica β0 se denomina
el test uniformemente más potente (UMP) si para cualquier otro test de nivel
α con función de caracterı́stica β se verifica,
β0 (θ) ≤ β(θ) uniformemente en θ ∈ Θ1
El problema que se presenta es el de encontrar un test UMP para las diferentes
situaciones de interés pues en general no podremos afirmar su existencia.
El problema del contraste de hipótesis puede ser descrito como sigue. Dadas
x1 , . . . , xn realizaciones de X1 , . . . , Xn , estamos interesado en encontrar una
regla de decisión δ de manera que δ(x1 , . . . , xn ) nos lleve a rechazar o no
rechazar la hipótesis nula. En otras palabras y suponiendo que δ sea a valores
en R, la teorı́a clásica del contraste de hipótesis persigue encontrar una partición
disjunta R = A0 ∪ A1 tal que si δ(x1 , . . . , xn ) ∈ A1 , rechacemos la hipótesis
nula y si x ∈ A0 no la rechacemos.
Definición 2.4.6. Un subconjunto A1 ⊂ Rn tal que si δ(x1 , . . . , xn ) ∈ A1 ,
entonces H0 se rechaza, se denomina región crı́tica.
Definición 2.4.7. Si A1 es la región crı́tica de un test de hipótesis, Pθ (A1 )
para θ ∈ Θ0 es la probabilidad del error de tipo I y Pθ (A0 ) para θ ∈ Θ1 es la
probabilidad del error de tipo II.
38
Métodos Cuantitativos II. 2009-2010. G.Garcı́a.
Idealmente, estarı́amos interesados en encontrar una región crı́tica A1 para la
que estas dos probabilidades sean nulas. En la práctica se procede de la siguiente
forma: se limita la probabilidad del error de tipo I a un valor preasignado α
(habitualmente 0,05 o 0,01) que sea pequeño y se minimiza la probabilidad de
error de tipo II.
Ejemplo 2.4.8. Sea X ∼ N (µ, σ) siendo µ desconocida y σ conocida. Sea
Θ0 = {µ0 } ⊂ R y Θ1 = {µ1 } con µ1 > µ0 y escribamos,
H 0 : µ = µ0
H 1 : µ = µ1
Sean X1 , . . . , Xn v.a. iid N (µ, σ 2 ). Introducimos el estadı́stico de test,
Xn − µ
q
∼ N (0, 1)
σ2
n
Bajo la hipótesis nula,
X n − µ0
q
∼ N (0, 1)
σ2
n
Ası́, dado 0 < α < 1, si z1−α es un valor tal que P (N (0, 1) < z1−α ) = 1 − α,
tenemos que,


X n − µ0
α = Pµ0  q
> z1−α  = P (Error de tipo I)
σ2
n
La potencia del test en µ1 ∈ Θ1 es,
Pµ1
X n > µ0 + z1−α
r
σ2
n
!

X
−
µ
µ
−
µ
n
1
0
1
> q
+ z1−α  =
= Pµ1  q

σ2
n
σ2
n


X − µ
µ1 − µ0 
n
1
q
= Pµ1
> z1−α − q

σ2
σ2 
n
Por ser µ1 > µ0 se tiene que z1−α −
n
µq
1 −µ0
σ2
n
< z1−α . Por otra parte, si µ1 es el
valor correcto para la media de la distribución, tenemos
Métodos Cuantitativos II. 2009-2010. G.Garcı́a
X n − µ1
q
∼ N (0, 1)
σ2
n
Ası́ podemos concluir que la potencia del test en µ1 ∈ Θ1 verifica
r !
σ2
potencia(µ1 ) = Pµ1 X n > µ0 + z1−α
>α
n
y por lo tanto
P (Error de tipo II ) = 1 − potencia(µ1 ) < 1 − α
39
Descargar