Métodos Cuantitativos II Gloria Garcı́a Garcı́a [email protected] Índice general 1. Conceptos de teorı́a de la probabilidad 1.1. Espacios de probabilidad . . . . . . . . . . . . . . . . . . . . . 1.1.1. Propiedades elementales de las σ–álgebras . . . . . . . . 1.1.2. Propiedades elementales de las probabilidades . . . . . . 1.2. Vectores aleatorios. Función de distribución y de densidad conjunta. 1.3. Independencia de variables aleatorias . . . . . . . . . . . . . . . 1.3.1. Densidades marginales y condicionales . . . . . . . . . . 1.3.2. Esperanza condicionada . . . . . . . . . . . . . . . . . . 1.3.3. Independencia de variables aleatorias . . . . . . . . . . . 1.4. Operadores esperanza y covarianza . . . . . . . . . . . . . . . . 1.4.1. Operador esperanza generalizado . . . . . . . . . . . . . 1.4.2. Esperanza y covarianza de un vector aleatorio . . . . . . 1.5. La distribución normal multivariante . . . . . . . . . . . . . . . 1.5.1. Definición y propiedades . . . . . . . . . . . . . . . . . 1.5.2. Algunos resultados sobre formas cuadráticas . . . . . . . 3 3 4 5 5 8 8 11 12 13 13 14 16 16 18 2. Fundamentos de Inferencia Estadı́stica 2.1. Introducción . . . . . . . . . . . . . . . . . . . 2.1.1. Algunas consideraciones sobre Inferencia 2.1.2. Tipos de muestreo . . . . . . . . . . . . 2.2. Estimación Puntual . . . . . . . . . . . . . . . 2.2.1. El problema de la estimación puntual . . 2.2.2. Procedimientos de estimación . . . . . . 2.2.3. Propiedades de los estimadores . . . . . 19 19 20 20 25 25 25 28 1 . . . . . . Estadı́stica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Métodos Cuantitativos II. 2009-2010. G.Garcı́a. 2.2.4. Cota de Cramér-Rao . . . . . . . . . . . . . . . . . . . 2.3. Regiones de confianza . . . . . . . . . . . . . . . . . . . . . . . 2.4. Contraste de hipótesis: el enfoque clásico . . . . . . . . . . . . 31 33 36 CAPÍTULO 1 Conceptos de teorı́a de la probabilidad 1.1. Espacios de probabilidad En esta sección se introduce la axiomática de Kolmogorov, que proporciona un modelo matemático para el tratamiento del azar. La axiomática de Kolmogorov, concretada en la noción de espacio de probabilidad, fue introducida por este autor en una monografı́a publicada en 1933. Los conceptos matemáticos que intervienen provienen de la teorı́a de la medida, desarrollada a partir del 1900 por H. Lebesgue, M. Fréchet, E. Borel, J. Radon y C. Carathéodory entre otros. Definición 1.1.1. Un experimento estadı́stico o aleatorio es un experimento en el que EA1 Todos los resultados del experimento son conocidos por adelantado. EA2 No se conoce ninguna información previa sobre la posibilidad o verosimilitud de darse uno u otro resultado. EA3 El experimento puede ser repetido bajo idénticas condiciones. La siguiente definición precisa el modelo matemático que se asociará a un experimento aleatorio. Definición 1.1.2. Un espacio de probabilidad es una terna (Ω, A, P ) tal que, 3 4 Métodos Cuantitativos II. 2009-2010. G.Garcı́a. EP1 Ω es un conjunto formado por las posibles realizaciones o resultados del fenómeno aleatorio en estudio. EP2 A es una familia de partes de Ω que tiene estructura de σ–álgebra, esto es es una clase no vacı́a de subconjuntos de Ω que es cerrada bajo la formación de uniones numerables y complementarios. EP3 P es una función de conjunto en [0, 1], esto es P : A → [0, 1], tal que P1 P (∅) = 0 P2 P (Ω) = 1 P3 P es σ–aditiva, es decir P (∪∞ n=1 An ) = An son disjuntos dos a dos. P∞ n=1 P (An ) si los conjuntos Los elementos de Ω son llamados puntos muestrales y los de A sucesos. Observación 1.1.3. Si el conjunto Ω es finito, que A sea una σ–álgebra es equivalente a que sea un álgebra. De igual manera, la σ–aditividad de P es equivalente a decir que sea aditiva, esto es P (A ∪ B) = P (A) + P (B) si A ∩ B = ∅. En el caso de un conjunto Ω infinito, las hipótesis de σ–álgebra y σ–aditividad se imponen por razones de orden técnico. Por ejemplo, si queremos comprobar que la probabilidad les suceso ”Que salga alguna vez cara al tirar una moneda” es igual a 1, hay que calcular 12 + 212 + 213 + · · · = 1 y necesitamos la hipótesis de σ–aditividad. Observación 1.1.4. En el lenguaje de la teorı́a de la medida (Ω, A) es un espacio medible y P es una medida tal que P (Ω) = 1. En el lenguaje de la teorı́a de la probabilidad, diremos que P es una probabilidad. 1.1.1. Propiedades elementales de las σ–álgebras 1. El conjunto vacı́o pertenece a toda σ–álgebra 2. Fijado Ω, la σ–álgebra más pequeña es {∅, Ω} y la más grande P(Ω). 3. La intersección de una familia cualquiera de σ–álgebras, también es σ– álgebra. 4. Dada una familia C de partes de Ω, designaremos por σ(C) la σ–álgebra generada por C, que por definición es la intersección de todas las σ– álgebras que contienen a C. Se verifica que σ(C) es la mı́nima σ–álgebra que contiene a C, en el sentido que está contenida en cualquier otra σ– álgebra que contenga a C. Métodos Cuantitativos II. 2009-2010. G.Garcı́a 5 Ejemplo 1.1.5. Sea S la familia de partes de R formada por los intervalos de la forma (a, b] con a < b, las semirrectas (a, +∞), (−∞, a] con a ∈ R, el conjunto ∅ y R. La σ–álgebra generada por S es la σ–álgebra de Borel, que denotaremos B(R), es la σ–álgebra generada por los conjuntos abiertos (o cerrados) de R. De manera similar se obtendrı́a B((0, 1)) o bien B(R2 ) o en general B(Rn ). 1.1.2. Propiedades elementales de las probabilidades 1. P (∅) = 0 2. La propiedad de σ–aditividad implica la de aditividad finita. 3. Para todo A ∈ A, P (Ac ) = 1 − P (A). 4. Si A, B ∈ A cumplen A ⊂ B, entonces P (A) ≤ P (B) 5. Si A, B ∈ A, P (A ∪ B) + P (A ∩ B) = P (A) + P (B) P 6. P es subaditiva, es decir es decir P (∪ni=1 Ai ) ≤ ni=1 P (Ai ) para cualquier familia de conjuntos {Ai }i=1..n de A 7. Para cualquier familia de conjuntos {Ai }i=1..n de A, P (∪ni=1 Ai ) = n X i=1 + n X P (Ai ) − i<j<k; 1≤i,j,k≤n n X i<j; 1≤i,j≤n P (Ai ∩ Aj )+ P (Ai ∩ Aj ∩ Ak ) + · · · + (−1)n P (∩ni=1 Ai ) 8. Sea {An }n≥1 una sucesión de conjuntos de A. Entonces, i. Si la sucesión es creciente y denotamos por A el conjunto ∪∞ n=1 An , se cumple que P (A) = lı́mn→∞ P (An ) ii. Si la sucesión es decreciente y denotamos por A el conjunto ∩∞ n=1 An , se cumple también que P (A) = lı́mn→∞ P (An ) 1.2. Vectores aleatorios. Función de distribución y de densidad conjunta. Es conocido el concepto de variable aleatoria como herramienta para medir, analizar una caracterı́stica de una población. Sin embargo, en determinados 6 Métodos Cuantitativos II. 2009-2010. G.Garcı́a. casos puede interesar estudiar simultáneamente diferentes propiedades caracterı́sticas o bien estudiar alguna propiedad de un elemento de una población que deba ser descrita con diversos ı́ndices numéricos. Con esta finalidad, dedicaremos esta sección a introducir el concepto de vector aleatorio y a estudiar algunas de sus propiedades principales. Sea (Ω, A, P ) un espacio de probabilidad arbitrario pero fijado. Recordemos que una aplicación X : Ω → R cumpliendo ∀B ∈ B(R), X −1 (B) ∈ A es una variable aleatoria. La función de distribución asociada a una variable aleatoria X es la función F : R → [0, 1] definida por F (x) = P ◦ X −1 ((−∞, x]) = P (X ≤ x) Recordemos que las funciones de distribución de variables aleatorias cumplen el ser crecientes, continuas por la derecha y tener lı́mites en −∞ y en +∞ 0 y 1 respectivamente. El concepto de vector aleatorio sigue como, Definición 1.2.1. Una aplicación X : Ω → Rm , X = (X1 , X2 , . . . , Xm ) tal que cada uno de los componentes Xi : Ω → R es un vector aleatorio. Introducimos ahora la función de distribución asociada a un vector aleatorio, que engloba la de distribución de una variable aleatoria. Sin embargo, para poder hablar que la función de distribución de un vector aleatorio X necesitamos introducir un orden parcial en Rm . Concretamente, si x = (x1 , . . . , xm ) e y = (y1 , . . . , ym ) ∈ Rm , diremos que x ≤ y si y sólo si x1 ≤ y1 , . . . , xm ≤ ym . Definición 1.2.2. La función de distribución asociada a un vector aleatorio X es la función F : Rm → [0, 1] definida por F (x) = P (X1 ≤ x1 , . . . , Xm ≤ xm ) para todo x = (x1 , . . . , xm ) ∈ Rm De manera análoga al caso unidimensional, se verifican las siguientes propiedades, 1. F es creciente 2. F es continua por la derecha en el sentido lı́m F (y) = F (x) y↓x donde y ↓ x significa yi ↓ xi para todo i = 1, . . . , m. Métodos Cuantitativos II. 2009-2010. G.Garcı́a 7 3. F verifica las siguientes propiedades asintóticas, lı́m F (x) = 1 x→∞ lı́m F (x) = 0 xi →−∞ Observación 1.2.3. Debe hacerse notar que, en general, las funciones de distribución marginales pueden ser obtenidas a través de la conjunta mediante un paso al lı́mite, esto es, FXi (xi ) = lı́m xj →∞; j6=i F (x1 , . . . , xm ) Introducimos a continuación los conceptos de vectores aleatorios discretos y absolutamente continuos. Definición 1.2.4. Un vector aleatorio X se denomina discreto si las variables aleatorias componentes son discretas. Ejemplo 1.2.5. (Ley Multinomial) Consideremos una experiencia aleatoria para la que existen m resultados posibles A1 , . . . , Am de probabilidades respectiPm p = 1. Repetimos el experimento n veces y devas p1 , . . . , pm con j j=1 notemos por Xi la variable aleatoria que cuenta el número de veces que se ha producido Ai , para i = 1, . . . , m. Observemos que Xi ∼ Bin(n, pi ). Sea X = (X1 , X2 , . . . , Xm ) que toma valores en ( ) m X C = (n1 , . . . , nm ) ∈ Nm : ni = n i=1 Mediante cálculos combinatorios se demuestra que si (n1 , . . . , nm ) ∈ C, n! pn1 . . . pnmm n1 ! . . . nm ! 1 El vector aleatorio X descrito anteriormente tiene ley multinomial de parámetros n, p1 , . . . , pm que denotaremos M (n; p1 , . . . , pm ). P ((X1 , X2 , . . . , Xm ) = (n1 , n2 , . . . , nm )) = Pasamos ahora a introducir los vectores aleatorios absolutamente continuos. Definición 1.2.6. Una función f : Rm → R es una densidad en Rm si se verifican las condiciones siguientes, D1 f ≥ 0 8 Métodos Cuantitativos II. 2009-2010. G.Garcı́a. D2 La integral R∞ R∞ −∞ . . . −∞ f (x)dx Z ∞ ... −∞ existe en el sentido Riemann y Z ∞ f (x)dx = 1 −∞ Definición 1.2.7. Un vector aleatorio X (m-dimensional) es absolutamente continuo con densidad f si su función de distribución F se puede escribir como Z x1 Z xm F (x) = ... f (x)dx, x = (x1 , . . . , xm ) ∈ Rm −∞ −∞ donde f es una función de densidad en Rm . Diremos que f es la función de densidad (conjunta) de X. Ejemplo 1.2.8. Sea (X1 , X2 ) un vector aleatorio con densidad de probabilidad e−(x+y) 0 < x < ∞, 0 < y < ∞ f (x, y) = 0 en caso contrario Entonces, 1.3. (1 − e−x )(1 − e−y ) 0 < x < ∞, 0 < y < ∞ F (x, y) = 0 en caso contrario Independencia de variables aleatorias 1.3.1. Densidades marginales y condicionales Los vectores aleatorios absolutamente continuos verifican la propiedad de que sus componentes también son absolutamente continuos. Concretamente, Proposición 1.3.1. Sea X = (X1 , . . . , Xm ) un vector aleatorio absolutamente continuo. Entonces, cada una de sus componentes, Xi , i = 1, . . . , m son también absolutamente continuas; las densidades respectivas, que denotaremos fi se expresan como, fXi (y) = Z ∞ −∞ para y ∈ R ... Z ∞ −∞ f ((x1 , . . . , xi−1 , y, xi+1 , . . . , xm ))dx1 . . . dxi−1 dxi+1 , . . . dxm Métodos Cuantitativos II. 2009-2010. G.Garcı́a 9 Definición 1.3.1. Las densidades fXi se denominan densidades marginales. Cabe destacar que las densidades marginales no determinan la densidad del vector aleatorio. De hecho, diferentes densidades conjuntas pueden dar lugar a marginales idénticas. Ejemplo 1.3.2. Consideremos las densidades definidas en el plano por, 1 (1 + xy) −1 < x < 1, −1 < y < 1 4 f (x, y) = 0 en caso contrario g(x, y) = 1 4 0 −1 < x < 1, −1 < y < 1 en caso contrario En ambos casos, las marginales son, 1 −1 < x < 1 2 fX (x) = gX (x) = 0 en caso contrario 1 −1 < y < 1 2 fY (y) = gY (y) = 0 en caso contrario Consideremos a continuación el concepto de distribuciones condicionales. Por la dificultad de la notación, resolveremos el caso m = 2 dejando el caso general para consultar en las referencias. Definición 1.3.3. Sea (X1 , X2 ) un vector aleatorio de tipo discreto. Si P (X2 = x2 ) > 0, fijado x2 , la función P (X1 = x1 |X2 = x2 ) = P (X1 = x1 , X2 = x2 ) P (X2 = x2 ) es la función de masa de X1 condicionado a X2 = x2 . Observación 1.3.4. De igual manera, pero siempre que P (X1 = x1 ) > 0, podı́amos definir la función de masa de X2 condicionado a X1 = x1 . Supongamos ahora que (X1 , X2 ) un vector aleatorio absolutamente continuo. Como P (Xi = xi ) = 0 no podemos utilizar exactamente la construcción anterior. Sin embargo, para cada x1 y cada intervalo de la forma (x2 −ǫ, x2 +ǫ], consideremos la probabilidad del suceso {X1 ≤ x1 } sabiendo que X2 ∈ (x2 − ǫ, x2 + ǫ] 10 Métodos Cuantitativos II. 2009-2010. G.Garcı́a. pero siempre que P {X2 ∈ (x2 − ǫ, x2 + ǫ]} > 0. Concretamente estudiaremos el caso en el que el lı́mite, lı́m P {X1 ≤ x1 |X2 ∈ (x2 − ǫ, x2 + ǫ]} ǫ→0+ exista. Definición 1.3.5. La distribución condicional de la variable aleatoria X1 a que X2 = x2 se define como el lı́mite lı́m P {X1 ≤ x1 |X2 ∈ (x2 − ǫ, x2 + ǫ]} ǫ→0+ siempre que este exista. En tal caso, lo denotaremos por FX1 |X2 =x2 (x1 ) y definiremos, en caso que exista, la función de densidad de X1 condicionada a que X2 = x2 como aquella función no negativa fX1 |X2 =x2 cumpliendo, Z x1 FX1 |X2 =x2 (x1 ) = fX1 |X2 =x2 (y) dy −∞ En diferentes casos se puede probar la existencia y obtener explı́citamente las densidades condicionales. Concretamente, si (X1 , X2 ) es un vector aleatorio absolutamente continuo con función de densidad (conjunta) f , en cualquier punto (x1 , x2 ) en el que f sea continua y la marginal fX2 (x2 ) > 0 y sea continua, se tiene fX1 |X2 =x2 (x1 ) = f (x1 , x2 ) fX2 (x2 ) para x1 ∈ R. Observación 1.3.6. Todos los razonamientos previos son extensibles al caso en que X1 no es una variable aleatoria sino un vector aleatorio m dimensional. Los problemas aparecen cuando el condicionamiento viene dado por un grupo de variables aleatorias y no por una sola variable. En el caso general, sea (X1 , . . . , Xm ) un vector aleatorio absolutamente continuo con función de densidad f((X1 ,...,Xm ) y sea {i1 < . . . < ik , j1 < . . . jk } un subconjunto de {1, . . . , m}. Entonces, F(Xi1 ,...,Xi ) k |(Xj ,...,Xj ) 1 k = (xi1 , . . . , xik ) = R xik Qk −∞ . . . −∞ f(Xi1 ,...,Xik ;Xj1 ,...,Xjk ) (xi1 , . . . , xik ; xj1 , . . . , xjk ) p=1 dxip R∞ R∞ Qk p=1 dxip −∞ . . . −∞ f(Xi1 ,...,Xik ;Xj1 ,...,Xjk ) (xi1 , . . . , xik ; xj1 , . . . , xjk ) R xi1 Métodos Cuantitativos II. 2009-2010. G.Garcı́a 1.3.2. 11 Esperanza condicionada En este apartado analizaremos únicamente en detalle el caso m = 2. El caso m > 2 se sigue de éste. Definición 1.3.7. Sean X1 y X2 dos variables aleatorias. La esperanza condicionada de X1 a X2 = x2 se define como, E(X1 |X2 = x2 ) = Z ∞ −∞ x1 fX1 |X2 =x2 (x1 ) dx1 si ambas X1 y X2 son conjuntamente continuas y como E(X1 |X2 = x2 ) = X x1 P (X1 = x1|X2 =x2 ) x1 si ambas X1 y X2 son conjuntamente discretas. Se verifican las siguientes propiedades de la esperanza condicionada, 1. E[c|Y ] = c donde c es una constante. 2. E[aX + b|Y ] = aE[X|Y ] + b donde a, b son constantes. 3. Si g1 , g2 son funciones Borel-medibles y E[gi (X)] existe para i = 1, 2 entonces E[a1 g1 (X) + a2 g2 (X)|Y ] = a1 E[g1 (X)|Y ] + a2 E[g2 (X)|Y ] donde a1 y a2 son constantes. 4. Si X ≥ 0, entonces E[X|Y ] ≥ 0. 5. Si X1 ≤ X2 , entonces E[X1 |Y ] ≤ E[X2 |Y ]. 6. (Esperanzas iteradas) Supongamos que E(g(X)) exista. Entonces, E(g(X)) = E (E(g(X)|Y )) 12 Métodos Cuantitativos II. 2009-2010. G.Garcı́a. 1.3.3. Independencia de variables aleatorias Definición 1.3.8. Una colección de variables aleatorias X1 , . . . , Xm se denomina mutuamente o completamente independientes si y sólo si F (x1 , . . . , xm ) = m Y FXi (xi ), i=1 ∀(x1 , . . . , xm ) ∈ Rm donde F es la función de distribución del vector aleatorio (X1 , . . . , Xm ) y FXi la función de distribución marginal, esto es de cada Xi , i = 1, . . . , m. En ocasiones F se denomina función de distribución conjunta. Definición 1.3.9. Una sucesión de variables aleatorias (Xn )n≥1 se denomina independiente si para cualquier n = 2, 3, 4, . . . las variables aleatorias X1 , . . . , Xn son independientes. Definición 1.3.10. Sea X una variable aleatoria con distribución L(X). Diremos que (Xn )n≥1 es una sucesión de variables aleatorias independientes e idénticamente distribuidas (iid) con ley L(X) si (Xn )n≥1 es una sucesión de variables aleatorias independientes y la distribución de Xn es la misma que la de la variable X. Se verifican las siguientes propiedades, 1. Si X1 , . . . , Xm son independientes, cualquier subcolección Xi1 , . . . , Xik de X1 , . . . , Xm también son independientes. 2. Sean X1 , . . . , Xm variables aleatorias con marginales absolutamente continuas. Entonces, X1 , . . . , Xm son independientes si y sólo si f (x1 , . . . , xm ) = m Y i=1 fXi (xi ) ∀(x1 , . . . , xm ) ∈ Rm donde f es la función de densidad conjunta de X1 , . . . , Xm y fXi las densidades marginales. 3. Sean X1 , . . . , Xm variables aleatorias integrables e independientes. Entonces el producto X1 . . . Xm también es integrable cumpliéndose E(X1 . . . Xm ) = E(X1 ) . . . E(Xm ) Métodos Cuantitativos II. 2009-2010. G.Garcı́a 13 4. Si (Xi )i∈I es una sucesión de variables aleatorias independientes y gi : R → R son funciones medibles, (g(Xi ))i∈I continua siendo una sucesión de variables aleatorias independientes. Observación 1.3.11. Dados dos espacios medibles (Ω, A) y (F, F), la aplicación X : Ω → F es medible si X −1 (B) ∈ A para todo B ∈ F. Ejemplo 1.3.12. La distribución de un vector aleatorio (X, Y ) está caracterizada per la función de densidad fXY (x, y) = 4xy si 0 < x < 1 i 0 < y < 1 1. Comprueba que esta función cumple les condiciones para ser una función de densidad. R1R1 La función es positiva en el dominio y 0 0 fXY (x, y) dxdy = 1 2. Encuentra las densidades marginales de X y de Y . R1 fX (x) = 0 fXY (x, y) dy = 2x R1 fY (y) = 0 fXY (x, y) dx = 2y 3. ¿Son X e Y independientes? Si, ya que fX (x)fY (y) = fXY (x, y) 4. Calculad E[X], E[Y ] y Cov(X, Y ) = E[XY ] − E[X]E[Y ]. R1 E[X] = 0 xfX (x) dx = 23 R1 E[Y ] = 0 yfY (y) dy = 23 Cov(X, Y ) = 0 5. Calcula E[X|Y ]. Por ser X e Y independientes, se tiene que E[X|Y ] = E[X] = 1.4. 2 3 Operadores esperanza y covarianza Este apartado es de tipo técnico dedicado a introducir una serie de herramientas necesarias para el buen funcionamiento de cursos avanzados en Estadı́stica. 1.4.1. Operador esperanza generalizado Sea (Xij )i=1,...,n; j=1,...,m un conjunto de variables aleatorias con valores esperados E(Xij ). Con el objetivo de expresar tanto las variables como sus valores esperados en forma de matriz, introducimos las siguientes definiciones. 14 Métodos Cuantitativos II. 2009-2010. G.Garcı́a. Definición 1.4.1. Diremos que X = [Xij ]i=1,...,n; ria. j=1,...,m es una matriz aleato- Definición 1.4.2. Sea X una matriz aleatoria. Introducimos el operador esperanza generalizado E de X como E(X) = [E(Xij )]i=1,...,n; j=1,...,m Propiedades El operador esperanza generalizado verifica las siguientes propiedades de linealidad 1. Sean A (l × n) B (m × p) y C (l × p) matrices de constantes. Entonces E(AXB + C) = AE(X)B + C Observación 1.4.3. Un corolario interesante de la propiedad anterior se tiene para n = 1 con B = Id C = 0. 2. Si A y B son matrices l × 1 de constantes y X e Y son vectores aleatorios 1 × m, entonces E(AX + BY) = AE(X) + BE(Y) Observación 1.4.4. Como corolario se tiene el caso en que A = a ∈ R y B = b ∈ R. 1.4.2. Esperanza y covarianza de un vector aleatorio Siguiendo las ideas de la sección anterior vemos que un vector aleatorio puede ser entendido como una matriz aleatoria en la que n = 1. Notación 1.4.5. Sea X = (X1 , . . . , Xm ) un vector aleatorio. Escribiremos X en lugar de X explicitando, si fuera necesrio las dimensiones del vector. Ası́, podemos introducir el operador esperanza generalizado de X como E(X). Observación 1.4.6. En este caso vemos que E(X) = (E(X1 ), . . . , E(Xm )) Nuestro objetivo es ahora generalizar las nociones de varianza y de covarianza para vectores aleatorios. Métodos Cuantitativos II. 2009-2010. G.Garcı́a 15 Definición 1.4.7. Sean X e Y vectores aleatorios 1 × m y 1 × n. Introducimos el operador covarianza C entre X e Y como, C(X, Y) = E (X − E(X))t (Y − E(Y) Observación 1.4.8. En este caso vemos que C(X, Y) es una matriz m × n cuyas componentes son [Cov(Xi , Yj )]. Definición 1.4.9. Si,en la definición anterior X = Y, diremos que C(X, X), que indicaremos por V(X), es la matriz de dispersión o de varianzas-covarianzas de X. Propiedades La matriz de varianzas-covarianzas verifica las siguientes propiedades respecto a las transformaciones lineales de los vectores. Sean X e Y vectores aleatorios 1 × m y 1 × n. 1. Si A, B son dos matrices de constantes m × l y n × p , entonces C(XA, YB) = At C(X, Y) B Como corolario directo de esta propiedad se tienen las siguientes dos. 2. Si en la propiedad 1, B = Id, C(XA, Y) = At C(X, Y) 3. Si en la propiedad 1, X = Y y A = B, V(XA) = At V(X)A 4. Si X, Y, U, V son vectores aleatorios (no necesariamente distintos) 1×m y a, b, c, d son reales (incluyendo el valor 0), C(aX + bY, cU + dV) = ac C(X, U) + ad C(X, V) + bc C(Y, U) + bd C(Y, V) Como corolario de esta propiedad, se tiene la siguiente. 16 Métodos Cuantitativos II. 2009-2010. G.Garcı́a. 5. Si en la propiedad 4, X = U, Y = V, a = c y b = d se tiene, V(aX + bY) = a2 V(X) + 2ab C(X, Y) + b2 V(Y) 6. Si X es un vector aleatorio 1 × m de manera que ninguna componente de X es combinación lineal del resto (esto es no existe a 6= 0 m × 1 y b ∈ R tal que X a = b para todos los valores de X = x), entonces V(X) es una matriz definida positiva. Observación 1.4.10. En este apartado hemos introducido diferentes herramientas que, entre otras cosas van a permitir reescribir los resultados de la sección 1.3 de forma compacta. 1.5. La distribución normal multivariante La distribución básica en Análisis Multivariante clásico es la distribución normal multivariante. Es común el hecho que las observaciones multivariantes se distribuyan, al menos aproximadamente, de forma normal; esto es especialmente cierto en el caso de medias muestrales (y también de matrices de varianzascovarianzas muestrales) debido al efecto del Teorema del Lı́mite Central. 1.5.1. Definición y propiedades Definición 1.5.1. Sea X un vector aleatorio 1 × m. Diremos que X tiene una distribución normal m-variante si, para cualquier a ∈ Rm , la distribución de Xa es normal univariante. Partiendo de esta definición, vamos a establecer algunas propiedades de la distribución normal multivariante. Teorema 1.5.1. Si X sigue una distribución normal m-variante, entonces µ = E(X) y Σ = V(X) existen y determinan la distribución de X. Notación 1.5.2. La distribución normal m-variante del vector X en el teorema anterior será denotada por Nm (µ, Σ) y escribiremos X ∼ Nm (µ, Σ). Propiedades 1. Si X ∼ Nm (µ, Σ), B es m × k y b es 1 × k, entonces, Y = XB + b ∼ Nk (µB + b, B ′ ΣB) Como consecuencia directa del resultado anterior, se tiene, Métodos Cuantitativos II. 2009-2010. G.Garcı́a 17 2. Si X ∼ Nm (µ, Σ), entonces la distribución marginal de cualquier subconjunto k(< m) continua siendo normal. Demostración. Basta particionar el vector X como X = (X1 , X2 ) y aplicar la propiedad 1 con B = (Idk : 0) y b = 0. Observación 1.5.3. Según esta última propiedad, la distribución marginal de cada componente de X es normal univariante, pero el recı́proco no es cierto en general. 3. X ∼ Nm (µ, Σ) y X, µ y Σ están particionados según, X = (X1 , X2 ) µ = (µ1 , µ2 ) Σ = Σ11 Σ12 Σ21 Σ22 donde X1 y µ1 son k × 1 y Σ11 es k × k, entonces los subvectores X1 y X2 son independientes si y sólo si Σ12 = Σt21 = 0. Sea X ∼ Nm (µ, Σ), la densidad de X es, fX (x) = p 1 1 exp(− (x − µ)Σ−1 (x − µ)t ) 2 (2Π)m |Σ| Ejemplo 1.5.4. Sea X = (X1 , X2 ) ∼ N2 (µ, Σ). Suponiendo que σ12 = var(X1 ) > 0, σ22 = var(X2 ) > 0 y que el coeficiente de correlación ρ entre X1 y X2 verifica −1 < ρ < 1. Nuestro objetivo es determinar, de forma explı́cita, la función de densidad de probabilidad de X. Sea µ = E(X) = (µ1 , µ2 ) y 2 σ11 σ12 σ1 ρσ1 σ2 = V(X) = Σ = 2 σ21 σ22 ρσ1 σ2 σ2 Según las condiciones del enunciado, |Σ| = σ12 σ22 (1 − ρ2 ) > 0 Por lo tanto Σ es no singular y Σ−1 1 1 σ12 = 1 − ρ2 − σ1ρσ2 − σ1ρσ2 1 σ22 y la función de densidad conjunta entre X1 y X2 es, 18 Métodos Cuantitativos II. 2009-2010. G.Garcı́a. x1 − µ1 2 1 + fX (x1 , x2 ) = exp − 2 (1 − ρ2 ) σ1 2π σ1 σ2 1 − ρ2 !! x2 − µ2 2 (x1 − µ1 )(x2 − µ2 ) + − 2ρ σ2 σ1 σ2 1 p 1.5.2. Algunos resultados sobre formas cuadráticas Teorema 1.5.2. Sea X ∼ Nm (µ, Σ). Entonces, Q = (X − µ)Σ−1 (X − µ)t ∼ χ2m Demostración. Como Σ es definida positiva, existe una matriz ortogonal T (con valores reales) tal que T t ΣT = Λ = diag(λ1 , . . . , λm ) donde λ1 , . . . , λm , los valores propios de Σ, son todos positivos. Definimos, Y = (X − µ)T . Entonces, (X − µ) = YT t con lo que E(Y) = 0 y V(Y) = Λ. De esta manera, las componentes de Y = (Y1 , . . . , Ym ) son todas mutuamente independientes cumpliendo Yi ∼ N (0, λi ). Como, Q = (X − µ)Σ−1 (X − µ)t = YT t Σ−1 (YT t )t = = YΛ−1 Y t = m X Y2 i i=1 λi = m X i=1 Zi2 ∼ χ2m donde Zi , para i = 1, . . . , m son variables aleatorias independientes, idénticamente distribuidas según N (0, 1). Teorema 1.5.3. Sea X ∼ Nm (µ, σ 2 Idm ) y P una matriz m × m simétrica de rango r. Entonces, Q= 1 (X − µ)P (X − µ)t ∼ χ2m ⇔ P 2 = P σ2 CAPÍTULO 2 Fundamentos de Inferencia Estadı́stica 2.1. Introducción Statistics must have a clearly defined purpose, one aspect of which is scientific advance and the other, human welfare and national development. P.C. Mahalanobis (1956) Naturalmente, no existe un acuerdo en lo que entendemos por estadı́stica y no encontramos una sino muchas definiciones al respecto. Entre otras, podemos destacar El objetivo de la estadı́stica es efectuar una decisión sobre una base probabilı́stica de la evidencia observable. P.C. Mahalanobis (1950) La Estadı́stica es la lógica del análisis de la incertidumbre y la toma de decisiones adecuadas. C.R. Rao (1989) Probablemente, la parte común a estas dos definiciones sea la posibilidad que ofrece la Estadı́stica de tomar decisiones en función de la realidad observable y posiblemente sea este el aspecto que la hace atractiva en tan variados ámbitos. 19 20 Métodos Cuantitativos II. 2009-2010. G.Garcı́a. Dirı́amos que la E stadı́stica Matemática es una disciplina que comprende un conjunto de métodos y técnicas concebidos para establecer o ayudar a establecer enunciados de naturaleza inductiva. La aplicación de los métodos formales desarrollados por la E stadı́stica matemática será el objetivo de lo que en ocasiones se denomina E stadı́stica aplicada. 2.1.1. Algunas consideraciones sobre Inferencia Estadı́stica El objetivo de la Inferencia Estadı́stica es estimar parámetros de la población tales como la media o el total en función de las frecuencias observadas de una variable. Al considerar poblaciones finitas es posible que se plantee la cuestión de estudiar toda la población y ası́ determinar los parámetros poblacionales de interés. Sin embargo, son claras las ventajas de realizar un muestreo en lugar de estudiar toda la población: reducción de costes, mayor rapidez en la obtención de los resultados, mejor supervisión del trabajo a realizar... El primer punto a abordar, el de la descripción de la realidad observable, es el objetivo del Muestreo Estadı́stico. Introducimos los siguientes conceptos. Definición 2.1.1. Llamaremos población a un conjunto homogéneo de elementos en los que se estudia una caracterı́stica dada. Definición 2.1.2. Un censo es un estudio (exhaustivo) de todos los elementos de una población. Definición 2.1.3. Una muestra es un conjunto representativo de los elementos de una población. El muestreo estadı́stico tiene como objetivo el de seleccionar adecuadamente una muestra de tal manera que la información obtenida de ésta sobre la caracterı́stica de interés sea similar a la que se obtendrı́a del censo pero con mayor rapidez y a menor coste. Ahora bien, la clave de un procedimiento de muestreo es garantizar que la muestra sea representativa de la población. 2.1.2. Tipos de muestreo Muestreo aleatorio simple con reposición El muestreo aleatorio simple con reposición se adapta bien al modelo de la estadı́stica clásica donde se trabaja con una colección de variables aleatorias independientes e idénticamente distribuidas. Métodos Cuantitativos II. 2009-2010. G.Garcı́a 21 Definición 2.1.4. Diremos que una muestra es aleatoria simple con reposición cuando cada elemento de la población tiene la misma probabilidad de ser elegido para la muestra. Se efectúa cada observación con reemplazamiento, de tal manera que la población es idéntica en todas las extracciones. Este tipo de muestreo presenta diferentes problemas, entre los que cabe destacar el elevado coste que supone que todas las posibles muestras tengan la misma probabilidad de ser escogidas (fundamentalmente en areas geográficas grandes) y la ausencia, en muchas ocasiones de un censo de la población. Muestreo aleatorio simple sin reposición La transición del muestreo aleatorio simple con reposición al simple sin reposición debe verse como una extensión o adaptación a la realidad del modelo anterior. Sin embargo, conviene hacer notar que la no reposición revierte en que las variables aleatorias que utilizamos para modelar continúan siendo idénticamente distribuidas pero ahora han perdido la condición de independencia. Observación 2.1.5. El muestreo aleatorio simple debe utilizarse cuando los elementos de la población son homogéneos respecto a la caracterı́stica en estudio, es decir cuando no disponemos de información previa que permita decidir qué elementos de la población tendrán valores altos (o bajos) en ella. Observación 2.1.6. Suele ocurrir que en las encuestas de opinión, los elementos (personas) son heterogéneos en razón del sexo, edad, profesión... Interesará, en estos casos, que la muestra tenga una composición análoga a la de la población que no conseguiremos utilizando el muestreo aleatorio simple. Muestreo estratificado El diseño de las encuestas por muestreo tiene como motivación el de hacer inferencias sobre una población según la información contenida en una muestra. El diseño de encuestas por muestreo estratificado tiene como objetivo maximizar la cantidad de información a obtener de una muestra para un coste dado de ésta. En el caso de disponer de grupos identificables para la caracterı́stica en estudio, el error de estimación que se producirı́a por muestreo estratificado es inferior al que se tendrı́a utilizando muestreo aleatorio simple, en especial si los grupos o estratos son homogéneos entre sı́. Como ejemplo del muestreo por conglomerados, podemos considerar la estimacin del salario medio de un ciudadano de la Unin Europoea. Podramos considerar un muestreo por estratos donde cada uno de los pases de la UE formara 22 Métodos Cuantitativos II. 2009-2010. G.Garcı́a. un estrato. A grandes rasgos, se requiere de los estratos que sean grupos, relacionados con la caracterstica en estudio y que presenten heterogeneidad entre ellos y homogeneidad dentro de ellos. Con ms precisin, Definición 2.1.7. Se denomina muestreo estratificado aquel en el que los elementos de la población se dividen en clases o grupos disjuntos llamados estratos, relacionados con la caracterstica en estudio. La muestra se toma asignando un número de miembros o cuota a cada estrato y escogiendo estos elementos por muestreo simple dentro de cada estrato. En concreto, si existen k estratos de tamaños N1 , . . . , Nk siendo N = N1 + · · ·+Nk , tomaremos una muestra que garantice una presencia adecuada de cada estrato. Existen dos criterios básicos para dividir el tamaño total de la muestra n entre los estratos ni . 1. Proporcionalmente al tamaño relativo de cada estrato en la población (Asignación proporcional), ni = n Ni , i = 1, . . . , k N 2. Proporcionalmente a la variabilidad de cada estrato, esto es requeriremos que los estratos más variables estén más representados (Asignación de Neyman). En concreto, si σi es la desviación tı́pica muestral en cada estrato, σi Ni ni = n Pk , i = 1, . . . , k i=1 σi Ni Observación 2.1.8. Existen otros criterios de asignación basados en el coste que supone efectuar cada observación en un estrato. Muestreo por conglomerados Podemos entender el muestreo por conglomerados como un muestreo irrestricto aleatorio donde cada unidad de muestreo contiene un número determinado de elementos a incorporar ı́ntegramente en la muestra. Debemos notar que las ideas de estrato y conglomerado son en cierta forma contrapuestas pues un estrato debe ser lo más homogéneo posible (y heterogéneos entre ellos), mientras que un conglomerado debe ser lo más heterogéneo posible (y homogéneos entre ellos). Métodos Cuantitativos II. 2009-2010. G.Garcı́a 23 Una situacin en la que el muestreo por conglomerados sera de utilidad con la consecuente reduccin del error de estimacin, frente al muestreo aleatorio simple, sera en la estimacin de la nota media de acceso a la Universidad. En este caso, los conglomerados seran los diferentes centros de estudio de Enseanza Media. Definición 2.1.9. Un conglomerado es una colección intrı́nseca (o en ocasiones conveniente) de elementos de la población. Definición 2.1.10. El muestreo por conglomerados consiste en obtener una muestra aleatoria aleatoria simple de conglomerados y en cada unidad se muestrean todos los elementos que la forman. En ocasiones, un conglomerado contiene demasiados elementos para obtener mediciones sobre cada uno de ellos. El muestreo por conglomerados también pueden presentar el siguiente problema: en ocasiones la homogeneidad dentro del grupo es tan acusada que mediciones sobre una parte del conglomerado proporciona suficiente información sobre toda la colección. Definición 2.1.11. Una muestra por conglomerados en dos etapas se obtiene seleccionando primero una muestra aleatoria simple sin reposición de los conglomerados y posteriormente una muestra aleatoria simple dentro de cada conglomerado. Sea N el número total de conglomerados en la población y n el número total de conglomerados en una muestra irrestricta aleatoria. Sea Mi el número de elementos en el conglomerado i-ésimo, i = 1, . . . , N y mi el número de elementos en la muestra del conglomerado i-ésimo, i = 1, . . . , n. Muestra Población Número conglomerados n N Número elementos en congl. mi Mi Número elementos m= Pn i=1 mi M= PN i=1 Mi 24 Métodos Cuantitativos II. 2009-2010. G.Garcı́a. Observación 2.1.12. La selección de los tamaños de muestra en la primera etapa (muestreo por conglomerados en 1 etapa y en 2 etapas) y en la segunda (muestreo por conglomerados en 2 etapas) se resuelve en función de criterios de variabilidad y de coste pero con expresiones bastante más complicadas que en el caso de muestreo estratificado. Observación 2.1.13. El muestreo por conglomerados en 2 etapas es sólo un ejemplo de muestreo polietápico donde diferentes métodos de muestreo se combinan para optimizar los resultados finales. Muestreo sistemático Cuando los elementos de la población están ordenados según una caracterı́stica relacionada con la de interés en una lista de orden, se utiliza muestreo sistemático. Definición 2.1.14. Sea N el tamaño de una población de la que se quiere obtener una muestra de tamaño n. Sea k el entero más próximo a N n . Una muestra obtenida al seleccionar aleatoriamente un elemento de los primeros k en la lista de orden y después cada k elemento se denomina una muestra sistemática de 1 en k. El muestreo sistemático es una opción util al muestreo irrestricto aleatorio, pues está menos expuesto a los errores de selección de las unidades muestrales que cometen los investigadores de campo. Además puede proporcionar mayor información que la que se obtiene mediante muestreo irrestricto aleatorio con la misma unidad de costo pues se extiende más uniformemente por toda la población. En ocasiones se utiliza en poblaciones que varı́an en el tiempo, por ejemplo en una cadena de producción pues puede considerar, en ocasiones, que la variación temporal influye en el proceso de fabricación. Finalmente comentar que existen otros tipos de muestreo no probabilı́stico, entre otros, los muestreos circunstancial, intencional o los dados por una muestra de voluntarios (fundamentalmente en el ámbito de las ciencias de la salud). Sin embargo, se debe hacer énfasis en la dificultad que supone dar una medida del error de estimación en estos otros muestreos por lo que conviene evitarlos siempre que sea posible. Métodos Cuantitativos II. 2009-2010. G.Garcı́a 2.2. Estimación Puntual 2.2.1. El problema de la estimación puntual 25 Sea X una variable aleatoria sobre un espacio de probabilidad (Ω, A, P ). Supongamos que la función de distribución F de X depende de una familia de parámetros y supongamos, para lo que sigue, que la forma funcional de F es conocida, excepto por un número finito de estos parámetros. Sea θ el vector de parámetros desconocidos. Definición 2.2.1. El conjunto de los valores admisibles para θ es el espacio de parámetros que denotaremos como Θ. Notación 2.2.2. Diremos que Fθ es la función de distribución de X, o bien que Pθ es la ley o distribución de probabilidad de X, si θ es el vector de parámetros asociado con la distribución de X. Sea X una variable aleatoria con distribución de probabilidad Pθ siendo θ = (θ1 , . . . , θk ) el vector de parámetros desconocidos. Sea X1 , . . . , Xn v.a. iid ∼ X. Vamos a abordar el problema de aproximar θ en función de la muestra observable. Definición 2.2.3. Una aplicación T (X1 , . . . , Xn ) en Θ (medible) es un estadı́stico. Definición 2.2.4. Sea x1 , . . . , xn n realizaciones de X y T (X1 , . . . , Xn ) en Θ un estadı́stico. Diremos que T (x1 , . . . , xn ) es una estimación de θ. o bien una realización de T (X1 , . . . , Xn ) El problema de la estimación paramétrica consiste en obtener una estimación del parámetro desconocido θ con buenas propiedades. Sin embargo, antes vamos a abordar algunos de los diferentes procedimientos de estimación. 2.2.2. Procedimientos de estimación El método de los momentos Uno de los métodos más sencillos de estimación es el método de los momentos formalizado por K. Pearson a finales del siglo XIX. El objetivo es estimar un vector de parámetros θ = (θ1 , . . . , θk ) cuyos componentes pueden expresarse en función de k momentos de la población, m1 , . . . , mk , esto es 26 Métodos Cuantitativos II. 2009-2010. G.Garcı́a. θ1 = g1 (m1 , . . . , mk ) .. .. . . θk = gk (m1 , . . . , mk ) donde g1 , . . . , gk son funciones B. Proponemos el siguiente procedimiento, 1. Sustituimos los momentos poblacionales por los correspondientes momentos muestrales m̂1 , . . . , m̂k . 2. Proponemos como estimación de θ el vector θ̂ = (θ̂1 , . . . , θ̂k ) obtenido según, θˆ1 = g1 (m̂1 , . . . , m̂k ) .. .. . . θ̂k = gk (m̂1 , . . . , m̂k ) Ejemplo 2.2.5. Dada una muestra aleatoria {8, 6, 4, 5, 7} de una distribución χ2 se pretende determinar sus grados de libertad por el método de los momentos. Como E(χ2m ) = m, calculando la media muestral, se tiene m̂1 = 6. Ası́, la estimación por momentos de los grados de libertad es 6. Ejemplo 2.2.6. Dada una muestra aleatoria {2, 4, 9, 1} de una distribución U (a, b) estamos interesados en estimar a y b por el método de los momentos. 1 2 En este caso, E(U (a, b)) = a+b 2 y V ar(U (a, b)) = 12 (b − a) . Como x = 4 y 38 2 s = 3 resolviendo el correspondiente sistema se tienen dos pares de soluciones: √ √ √ √ a = 4 − 2 19 , b = 4 + 2 19 y a = 4 + 2 19 , b = 4 − 2 19. Como a < b escogemos la primera solución. Observación 2.2.7. Es fácil extender el método de los momentos para estimar los P momentos mixtos, esto es usaremos n1 ni=1 Xi Yi para estimar E(XY ) siendo X1 , . . . , Xn v.a. iid ∼ X e Y1 , . . . , Yn v.a. iid ∼ Y . La estimación máximo verosı́mil El principio de estimación máximo verosı́mil asume que la muestra es representativa de una población y escoge como estimación aquel valor del parámetro que maximiza la función de densidad de probabilidad o de masa de la variable subyacente. El concepto de función de verosimilitud es debido a Fisher que, Métodos Cuantitativos II. 2009-2010. G.Garcı́a 27 en su obra Theory of Statistical Estimation (1925), establece las bases para la estimación puntual. Fisher debe considerarse el descubridor del método de la máxima verosimilitud para la estimación de parámetros, método que en general resulta ser muy superior al método de los momentos, ya que proporciona, bajo condiciones de regularidad, estimadores no sólo consistentes sino al menos asintóticamente eficientes (cuando no eficientes). También introduce el concepto de suficiencia, y lo relaciona con la estimación máximo verosı́mil. Sea X = (X1 , . . . , Xn ) un vector aleatorio con función de densidad de probabilidad (o de masa) fθ (x1 , . . . , xn ) para θ ∈ Θ ⊂ Rk . Definición 2.2.8. Diremos que la función, L(x1 , . . . , xn ; θ) = fθ (x1 , . . . , xn ) como función de θ es la función de verosimilitud. Observación 2.2.9. Si X1 , . . . , Xn son v.a. iid ∼ X siendo fθ (x) la función de densidad de probabilidad (o de masa) de X, la función de verosimilitud es L(x1 , . . . , xn ; θ) = n Y fθ (xi ) i=1 Definición 2.2.10. El Principio de estimación máximo–verosı́mil consiste en escoger como estimación θ̂ = θ̂(x1 , . . . , xn ) de θ aquella que maximice L(x1 , . . . , xn ; θ), esto es, L(x1 , . . . , xn ; θ̂) = sup L(x1 , . . . , xn ; θ) θ∈Θ Observación 2.2.11. Las constantes no son admitidas como estimadores. En general es conveniente trabajar con el logaritmo de la función de verosimilitud en lugar de con la propia verosimilitud y nuestro objetivo será encontrar θ̂ tal que log L(x1 , . . . , xn ; θ̂) = sup log L(x1 , . . . , xn ; θ) θ∈Θ Consideremos la situación en que Θ es un subconjunto abierto de Rk y fθ es una función de θ diferenciable en θ (esto es existen las derivadas parciales de primer orden en las componentes de θ). Si el supremo anterior existe, debe verificar las ecuaciones de verosimilitud, esto es ∂ log L(x1 , . . . , xn ; θ̂) = 0 ∂θj j = 1, . . . , k 28 Métodos Cuantitativos II. 2009-2010. G.Garcı́a. Ejemplo 2.2.12. Sean X1 , . . . , Xn v.a. iid ∼ N (µ, σ 2 ) donde tanto µ como σ 2 son desconocidos. Aquı́ Θ = R × R+ = {(µ, σ 2 ); µ ∈ R , σ 2 ∈ (0, +∞)}. 1 2 L(x1 , . . . , xn ; µ, σ ) = (σ 2 2π) exp(− n 2 Pn i=1 (xi − 2σ 2 n n log L(x1 , . . . , xn ; µ, σ ) = − log(σ 2 ) − log(2 π) − 2 2 2 Pn µ)2 ) i=1 (xi − 2σ 2 µ)2 Las ecuaciones de verosimilitud son, − σ12 − n2 σ12 + 1 2 σ4 Pn i=1 (xi Pn i=1 (xi − µ) = 0 − µ)2 = 0 Resolviendo estas ecuaciones obtenemos = 1 n Pn = xn σˆ2 = 1 n Pn − xn )2 µ̂ i=1 xi i=1 (xi Vemos que (µ̂, σˆ2 ) ∈ Θ con probabilidad 1. Una evaluación del hessiano del logaritmo de la función de verosimilitud asegura que (µ̂, σˆ2 ) la maximiza. 2.2.3. Propiedades de los estimadores Hemos visto que es posible obtener diferentes estimadores puntuales en una misma situación. Vamos a investigar las propiedades de éstos con el objetivo que nos ayuden a escoger entre unos y otros. Para lo que sigue, sean X1 , . . . , Xn v.a.iid con distribución de probabilidad común Pθ , para θ ∈ Θ ∈ Rk . Sea X = (X1 , . . . , Xn ) y x = (x1 , . . . , xn ) y T (X) = T (X1 , . . . , Xn ) Suficiencia Definición 2.2.13. T es suficiente para θ si y sólo si P (X = x|T = t) es independiente de θ (excepto quizás en un conjunto de medida 0). Métodos Cuantitativos II. 2009-2010. G.Garcı́a 29 Ejemplo 2.2.14. Sean X1 , X2 v.a. iid ∼ P oiss(λ) Entonces, X1 + X2 es suficiente para λ pues P ((X1 , X2 ) = (x1 , x2 )|X1 + X2 = t) = que es independiente de λ. t! 1 x1 !(t − x1 )! 2t Resolver si un estimador es suficiente o no, de forma directa, suele ser un problema de delicado y costoso en tiempo. Sin embargo, existe el siguiente criterio de suficiencia. Teorema 2.2.1. Sea X1 , . . . , Xn v.a. discretas con función de distribución de masa pθ (x1 , . . . , xn ). Entonces, T (X1 , . . . , Xn ) es suficiente para θ si y sólo si pθ (x1 , . . . , xn ) = h(x1 , . . . , xn ) gθ (T (x1 , . . . , xn )) donde h es una función no negativa que depende únicamente de x1 , . . . , xn y gθ es una función no negativa que depende únicamente de T (x1 , . . . , xn ) y de θ. Observación 2.2.15. El teorema 2.2.1 también es válido en el caso continuo aunque bajo ciertas condiciones de regularidad (ver Teorema 4.4.6 de Rohatgi ) que para las familias que vamos a tratar se verificarán. Estimadores insesgados Definición 2.2.16. Un estimador integrable T de θ es insesgado si Eθ (T ) = θ R donde Eθ (T ) indica Rn P T (x1 , . . . , xn )fθ (x1 , . . . , xn ) dx1 . . . dxn en el caso absolutamente continuo y {x1 ,...,xn } T (x1 , . . . , xn )pθ (x1 , . . . , xn ) en el caso discreto. Definición 2.2.17. Diremos que Bθ (T ) = Eθ (T )−θ es el sesgo de T al estimar θ. P Ejemplo 2.2.18. Vamos a probar que el estimador σˆ2 = n1 ni=1 (Xi − X n )2 para σ 2 del ejemplo 2.2.12 tiene sesgo. Observemos que Xi ∼ N (µ, σ 2 ) para i = 1, . . . , n y que según las propiedades 2 de la ley normal multivariante, X n ∼ N (µ, σn ). Por otra parte, n n X X 2 (Xi − X n )2 = Xi2 − nX n i=1 i=1 30 Métodos Cuantitativos II. 2009-2010. G.Garcı́a. Ası́, n X σ2 Eµ,σ2 ( (Xi − X n )2 ) = n(σ 2 + µ2 ) − n( + µ2 ) = (n − 1)σ 2 n i=1 Por lo tanto, (n − 1)σ 2 Eµ,σ2 (σˆ2 ) = n ˆ 2 Aún ası́ observemos que el sesgo de σ tiende a 0 cuando el tamaño muestral aumenta. Eficiencia Definición 2.2.19. Sea T un estimador de θ de cuadrado integrable. Introducimos el error cuadrático medio de T al estimar θ como M SEθ (T ) = Eθ (T − θ)2 En el caso de los estimadores insesgados para θ, el error cuadrático medio tiene la interpretación intuitiva de la precisión en la estimación del parámetro pues Eθ (T − θ)2 = Eθ (T − Eθ (T ))2 = var θ (T ) Definición 2.2.20. Sea U el conjunto de todos los estimadores insesgados T de θ ∈ Θ tales que Eθ (T 2 ) < ∞. Un estimador T0 ∈ U es UMVUE (uniformly minimum variance unbiased estimate) de θ si var θ (T0 ) ≤ var θ (T ) para todo t ∈ U y θ ∈ Θ Definición 2.2.21. Sean T1 y T2 dos estimadores insesgados de θ tales que Eθ T12 < ∞ y Eθ T22 < ∞. Definimos la eficiencia de T1 relativa a T2 como, ef θ (T1 |T2 ) = var θ (T1 ) var θ (T2 ) y diremos que T1 es más eficiente que T2 si ef θ (T1 |T2 ) < 1. Observación 2.2.22. Es posible extender todos estos conceptos a la estimación vectorial, definiendo M SEθ (T ) = Eθ kT − θk2 Métodos Cuantitativos II. 2009-2010. G.Garcı́a 31 Propiedades asintóticas Sea {Pθ ; θ ∈ Θ}, Θ ∈ Rk una familia no vacı́a de distribuciones de probabilidad y T un estimador de θ Sean X1 , X2 , . . . una sucesión de variables aleatorias con función de distribución común Pθ , para θ ∈ Θ. Sean T (X1 , . . . , Xn ) = Tn , n ≥ 1 una sucesión de estimadores puntuales de θ. Definición 2.2.23. (T )n es asintóticamente insesgado para θ si todo Tn es integrable y lı́m Bθ (Tn ) = 0 n→∞ Definición 2.2.24. (T )n es es consistente para θ si P − lı́m Tn = θ n→∞ Observación 2.2.25. Recordemos que P − lı́mn→∞ Tn = θ si y sólo si para todo ǫ > 0, lı́mn→∞ P (|Tn − θ| > ǫ) = 0. Ejemplo 2.2.26. Sean X1 , X2 , . . . v.a. iid ∼ Bern(p). Según la WLLN, Pn Xi =p P − limn→∞ i=1 n P y por lo tanto, la media muestral n1 ni=1 Xi es consistente para p. Ejemplo 2.2.27. En el ejemplo anterior, si lı́mn→∞ cn = 0, Pn Xi P − limn→∞ i=1 + cn = p n Definición 2.2.28. (T )n es asintóticamente eficiente para θ si todo Tn es de cuadrado integrable y lı́m M SEθ (Tn ) = 0 n→∞ 2.2.4. Cota de Cramér-Rao En esta sección vamos a considerar una de las desigualdades más importantes de la Estadı́stica Matemática que proporciona una cota inferior para la varianza de un estimador no sesgado. Veremos la versión unidimensional aunque existen las correspondientes versiones multidimensionales. 32 Métodos Cuantitativos II. 2009-2010. G.Garcı́a. Teorema 2.2.2. (Cota de Cramér-Rao) Sea Θ una intervalo abierto de R y {fθ ; θ ∈ Θ} una familia de funciones de densidad de probabilidad o de masa. ∂ fθ (x) existe Supongamos que ∂θ R para todo x y θ y que podemos derivar respecto θ bajo el signo integral Rn fθ (x)dx en el caso absolutamente continuo P y x fθ (x) en el caso discreto, esto es, ∂ ∂θ R Rn fθ (x)dx = ∂ ∂θ P x fθ (x) R ∂ Rn ∂θ fθ (x)dx = 0 ∂ x ∂θ fθ (x) = 0 = P Sea T un estimador insesgado de θ tal que Eθ T 2 < ∞ para todo θ ∈ Θ y verificando, además. ∂ ∂θ R Rn ∂ ∂θ Entonces, T (x)fθ (x)dx = P x T (x)fθ (x) = R Rn P x ∂ T (x) ∂θ fθ (x)dx ∂ T (x) ∂θ fθ (x) ∂ 1 ≤ varθ (T ) Eθ ( ln fθ (X))2 ∂θ para todo θ ∈ Θ. ∂ Observación 2.2.29. Si Eθ ( ∂θ ln fθ (X))2 > 0 la desigualdad de Cramér-Rao se escribe, ∂ Eθ ( ∂θ siendo 1 ∂ Eθ (( ∂θ ln fθ (X))2 ) 1 ≤ var θ (T ) ln fθ (X))2 conocido como la Cota de Cramér-Rao. ∂ ln fθ (X))2 es la información Definición 2.2.30. La cantidad In (θ) = Eθ ( ∂θ de Fisher. Observación 2.2.31. Si X = (X1 , . . . , Xn ) donde X1 , . . . , Xn son v.a. iid ∼ fθ , In (θ) = nI1 (θ). Ejemplo 2.2.32. Demuestra que X n es UMVUE para la media µ de una distribución N (µ, σ 2 ). En este caso, si X ∼ N (µ, σ 2 ) Métodos Cuantitativos II. 2009-2010. G.Garcı́a I1 (µ) = Eµ,σ2 " X −µ σ2 2 # 33 = 1 σ2 Ası́, In (µ) = n σ2 2 La cota de Cramér-Rao es σn . Como según, las propiedades de la distribución 2 normal multivariante X n ∼ N (µ, σn ), se tiene que X n es UMVUE para µ pues es un estimador insesgado que alcanza la cota de Cramér-Rao. 2.3. Regiones de confianza En muchos problemas de Inferencia Estadı́stica, el experimentador está interesado en construir una familia de conjuntos que contengan el verdadero valor del parámetro con una probabilidad (alta) especificada de antemano. Ese es el problema que aborda la estimación paramétrica via regiones de confianza. Definición 2.3.1. Sea PΘ = {Pθ ; θ ∈ Θ ⊂ Rk }, una familia de distribuciones de probabilidad de un vector aleatorio X. Una familia de conjuntos S(x) de Θ , donde S(x) depende de la observación x de X pero no de θ es una familia de conjuntos aleatorios. En particular, vamos a estar interesados en encontrar familias de conjuntos aleatorios S(x) para θ ∈ Θ verificando la siguiente condición, Definición 2.3.2. Diremos que una familia de conjuntos aleatorios S(x) para θ ∈ Θ es una familia de conjuntos de confianza al nivel 1 − α para θ si, Pθ (θ ∈ S(x)) ≥ 1 − α Ejemplo 2.3.3. Si k = 1 las regiones de confianza se conocen como intervalos de confianza. La construcción se basa en la existencia de estadı́sticos pivote para las diferentes situaciones. Supongamos que X ∼ N (µ, σ 2 ) donde σ 2 es conocida. En este caso, sabemos que, Xn − µ q ∼ N (0, 1) σ2 n De esta manera, 34 Métodos Cuantitativos II. 2009-2010. G.Garcı́a. Xn − µ P (−z1− α2 < q < z1− α2 ) = 1 − α) σ2 n donde z1− α2 es el valor de una distribución N (0, 1) tal que P (N (0, 1) ≤ z1− α2 ) = 1 − α2 . De aquı́, r r σ2 σ2 I(X) = (X n − z1− α2 < µ < X n − z1− α2 ) n n es in intervalo de confianza para µ con un nivel de confianza de 1 − α. Observación 2.3.4. Según el Teorema del Lı́mite Central, estos razonamientos también son válidos en el caso que X siga una distribución arbitraria pero el tamaño de la muestra n sea grande (n ≥ 30, suele ser un buen valor de referencia). Ejemplo 2.3.5. Si σ es desconocida, podemos utilizar el hecho que Xn − µ q ∼ tn−1 S2 n donde n S2 = 1 X (Xi − X n )2 n−1 i=1 De esta manera, un intervalo de confianza para µ al nivel de confianza 1 − α viene dado por r r S2 S2 I(X) = (X n − tn−1,1− α2 , X n − tn−1,1− α2 ) n n donde tn−1,1− α2 es un valor tal que la distribución tn−1 verifica P (tn−1 ≤ tn−1,1− α2 ) = 1 − α2 . Ejemplo 2.3.6. En el ejemplo anterior, si quisiéramos encontrar un intervalo de confianza para σ 2 al nivel 1 − α utilizarı́amos el hecho que (n − 1)S 2 ∼ χ2n−1 σ2 Ası́, un intervalo de confianza para σ 2 al nivel 1 − α viene dado por, Métodos Cuantitativos II. 2009-2010. G.Garcı́a I(X) = ( 35 (n − 1)S 2 (n − 1)S 2 , ) χ2n−1,1− α χ2n−1, α 2 α 2 donde P (χ2n−1 ≤ χ2n−1,1− α ) = 1 − 2 2 y P (χ2n−1 ≤ χ2n−1, α ) = α2 . 2 Ejemplo 2.3.7. Si quisiéramos encontrar una región de confianza para (µ, σ 2 ) simultáneamente podemos utilizar la información de los ejemplos 2.3.5 y 2.3.6 y la desigualdad de Boole. Supongamos que hemos construido un intervalo de confianza al 1 − α1 % para µ (con σ 2 desconocida) y al 1 − α2 % para σ 2 . Para simplificar las notaciones, denotemos tn−1,1− α1 como t y los valores crı́ticos 2 de la χ2n−1 , esto es χ2n−1, α2 y χ2n−1,1− α2 , respectivamente como a y b. 2 2 Recordemos que dados dos conjuntos cualesquiera A y B, se verifica, 1 ≥ P (A ∪ B) = P (A) + P (B) − P (A ∩ B) Por lo tanto, P (A ∩ B) ≥ P (A) + P (B) − 1 Como P (A) = 1 − P (Ac ) y P (B) = 1 − P (B c ), sustituyendo en la desigualdad previa tenemos P (A ∩ B) ≥ 1 − P (Ac ) + 1 − P (B c ) − 1, esto es P (A ∩ B) ≥ 1 − P (Ac ) − P (B c ) Aplicando esta última expresión a los conjuntos ( r r ) S2 S2 A = Xn − t < µ < Xn + t n n y B= (n − 1)S 2 (n − 1)S 2 < σ2 < b a podemos escribir, P ( Xn − t r S2 < µ < Xn + t n ≥1−P ( r S2 n ) r S2 ó X n + t n µ ≤ Xn − t ∩ (n − 1)S 2 (n − 1)S 2 < σ2 < b a r )! S2 ≤µ − n ! ≥ 36 Métodos Cuantitativos II. 2009-2010. G.Garcı́a. −P σ2 ≤ (n − 1)S 2 (n − 1)S 2 ó ≤ σ2 b a = 1 − α1 − α2 esto es el producto cartesiano S(X) = Xn − t r S2 , Xn + t n r S2 n ! × (n − 1)S 2 (n − 1)S 2 , b a es una región de confianza para (µ, σ 2 ) al 1 − α1 − α2 %. 2.4. Contraste de hipótesis: el enfoque clásico Anteriormente hemos considerado el problema de la estimación puntual a partir de una muestra de una población cuya distribución de probabilidad es conocida excepto por un número finito de parámetros desconocidos. Abordamos ahora otro problema de gran importancia en Inferencia Estadı́stica: el del contraste de hipótesis pero según el enfoque clásico. Sean X1 , . . . , Xn son v.a. iid distribuidas como X ∼ Pθ , θ ∈ Θ ⊂ Rk . Supondremos que Pθ es conocida excepto por el parámetro θ y que Θ contiene como mı́nimo dos puntos. Definición 2.4.1. Una hipótesis paramétrica es una afirmación sobre el parámetro desconocido θ. Habitualmente se denomina hipótesis nula y se escribe en la forma H0 : θ ∈ Θ0 ⊂ Θ. La afirmación H1 : θ ∈ Θ1 = Θ − Θ0 se denomina hipótesis alternativa. Si Θ0 ( o bien Θ1 ) contiene un único punto, diremos que H0 (respectivamente H1 ) es simple. Observemos que si una hipótesis es simple, la distribución de X está completamente especificada bajo la correspondiente hipótesis. En el contexto del contraste de hipótesis, existen dos tipos de error que se pueden llegar a cometer, el de tipo I y de tipo II. Verdadero Decisión H0 H1 No rechazar H0 Correcto Error tipo II Rechazar H0 Error tipo I Correcto Métodos Cuantitativos II. 2009-2010. G.Garcı́a 37 Definición 2.4.2. Diremos que P (Rechazar H0 | H0 cierta) es el tamaño o nivel de significación del contraste. Definición 2.4.3. Introducimos la potencia en θ ∈ Θ potencia(θ) = Pθ (Rechazar H0 ) esto es la probabilidad de rechazar H0 cuando el verdadero valor del parámetro es θ. Definición 2.4.4. Introducimos la función o curva caracterı́stica del contraste como la aplicación, θ 7→ β(θ) = 1 − potencia(θ). Dados dos contrastes con el mismo nivel de significación, escogeremos el que tenga menos probabilidades de error de tipo II, lo que habitualmente se resume diciendo que escogemos el más potente. Definición 2.4.5. Un test de nivel α con función caracterı́tica β0 se denomina el test uniformemente más potente (UMP) si para cualquier otro test de nivel α con función de caracterı́stica β se verifica, β0 (θ) ≤ β(θ) uniformemente en θ ∈ Θ1 El problema que se presenta es el de encontrar un test UMP para las diferentes situaciones de interés pues en general no podremos afirmar su existencia. El problema del contraste de hipótesis puede ser descrito como sigue. Dadas x1 , . . . , xn realizaciones de X1 , . . . , Xn , estamos interesado en encontrar una regla de decisión δ de manera que δ(x1 , . . . , xn ) nos lleve a rechazar o no rechazar la hipótesis nula. En otras palabras y suponiendo que δ sea a valores en R, la teorı́a clásica del contraste de hipótesis persigue encontrar una partición disjunta R = A0 ∪ A1 tal que si δ(x1 , . . . , xn ) ∈ A1 , rechacemos la hipótesis nula y si x ∈ A0 no la rechacemos. Definición 2.4.6. Un subconjunto A1 ⊂ Rn tal que si δ(x1 , . . . , xn ) ∈ A1 , entonces H0 se rechaza, se denomina región crı́tica. Definición 2.4.7. Si A1 es la región crı́tica de un test de hipótesis, Pθ (A1 ) para θ ∈ Θ0 es la probabilidad del error de tipo I y Pθ (A0 ) para θ ∈ Θ1 es la probabilidad del error de tipo II. 38 Métodos Cuantitativos II. 2009-2010. G.Garcı́a. Idealmente, estarı́amos interesados en encontrar una región crı́tica A1 para la que estas dos probabilidades sean nulas. En la práctica se procede de la siguiente forma: se limita la probabilidad del error de tipo I a un valor preasignado α (habitualmente 0,05 o 0,01) que sea pequeño y se minimiza la probabilidad de error de tipo II. Ejemplo 2.4.8. Sea X ∼ N (µ, σ) siendo µ desconocida y σ conocida. Sea Θ0 = {µ0 } ⊂ R y Θ1 = {µ1 } con µ1 > µ0 y escribamos, H 0 : µ = µ0 H 1 : µ = µ1 Sean X1 , . . . , Xn v.a. iid N (µ, σ 2 ). Introducimos el estadı́stico de test, Xn − µ q ∼ N (0, 1) σ2 n Bajo la hipótesis nula, X n − µ0 q ∼ N (0, 1) σ2 n Ası́, dado 0 < α < 1, si z1−α es un valor tal que P (N (0, 1) < z1−α ) = 1 − α, tenemos que, X n − µ0 α = Pµ0 q > z1−α = P (Error de tipo I) σ2 n La potencia del test en µ1 ∈ Θ1 es, Pµ1 X n > µ0 + z1−α r σ2 n ! X − µ µ − µ n 1 0 1 > q + z1−α = = Pµ1 q σ2 n σ2 n X − µ µ1 − µ0 n 1 q = Pµ1 > z1−α − q σ2 σ2 n Por ser µ1 > µ0 se tiene que z1−α − n µq 1 −µ0 σ2 n < z1−α . Por otra parte, si µ1 es el valor correcto para la media de la distribución, tenemos Métodos Cuantitativos II. 2009-2010. G.Garcı́a X n − µ1 q ∼ N (0, 1) σ2 n Ası́ podemos concluir que la potencia del test en µ1 ∈ Θ1 verifica r ! σ2 potencia(µ1 ) = Pµ1 X n > µ0 + z1−α >α n y por lo tanto P (Error de tipo II ) = 1 − potencia(µ1 ) < 1 − α 39