Métodos Cuantitativos II

Métodos Cuantitativos II Gloria Garcı́a Garcı́a [email protected] Índice general 1. Conceptos de teorı́a de la probabilidad 1.1. Espacios de probabilidad . . . . . . . . . . . . . . . . . . . . . 1.1.1. Propiedades elementales de las σ–álgebras . . . . . . . . 1.1.2. Propiedades elementales de las probabilidades . . . . . . 1.2. Vectores aleatorios. Función de distribución y de densidad conjunta. 1.3. Independencia de variables aleatorias . . . . . . . . . . . . . . . 1.3.1. Densidades marginales y condicionales . . . . . . . . . . 1.3.2. Esperanza condicionada . . . . . . . . . . . . . . . . . . 1.3.3. Independencia de variables aleatorias . . . . . . . . . . . 1.4. Operadores esperanza y covarianza . . . . . . . . . . . . . . . . 1.4.1. Operador esperanza generalizado . . . . . . . . . . . . . 1.4.2. Esperanza y covarianza de un vector aleatorio . . . . . . 1.5. La distribución normal multivariante . . . . . . . . . . . . . . . 1.5.1. Definición y propiedades . . . . . . . . . . . . . . . . . 1.5.2. Algunos resultados sobre formas cuadráticas . . . . . . . 3 3 4 5 5 8 8 11 12 13 13 14 16 16 18 2. Fundamentos de Inferencia Estadı́stica 2.1. Introducción . . . . . . . . . . . . . . . . . . . 2.1.1. Algunas consideraciones sobre Inferencia 2.1.2. Tipos de muestreo . . . . . . . . . . . . 2.2. Estimación Puntual . . . . . . . . . . . . . . . 2.2.1. El problema de la estimación puntual . . 2.2.2. Procedimientos de estimación . . . . . . 2.2.3. Propiedades de los estimadores . . . . . 19 19 20 20 25 25 25 28 1 . . . . . . Estadı́stica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Métodos Cuantitativos II. 2009-2010. G.Garcı́a. 2.2.4. Cota de Cramér-Rao . . . . . . . . . . . . . . . . . . . 2.3. Regiones de confianza . . . . . . . . . . . . . . . . . . . . . . . 2.4. Contraste de hipótesis: el enfoque clásico . . . . . . . . . . . . 31 33 36 CAPÍTULO 1 Conceptos de teorı́a de la probabilidad 1.1. Espacios de probabilidad En esta sección se introduce la axiomática de Kolmogorov, que proporciona un modelo matemático para el tratamiento del azar. La axiomática de Kolmogorov, concretada en la noción de espacio de probabilidad, fue introducida por este autor en una monografı́a publicada en 1933. Los conceptos matemáticos que intervienen provienen de la teorı́a de la medida, desarrollada a partir del 1900 por H. Lebesgue, M. Fréchet, E. Borel, J. Radon y C. Carathéodory entre otros. Definición 1.1.1. Un experimento estadı́stico o aleatorio es un experimento en el que EA1 Todos los resultados del experimento son conocidos por adelantado. EA2 No se conoce ninguna información previa sobre la posibilidad o verosimilitud de darse uno u otro resultado. EA3 El experimento puede ser repetido bajo idénticas condiciones. La siguiente definición precisa el modelo matemático que se asociará a un experimento aleatorio. Definición 1.1.2. Un espacio de probabilidad es una terna (Ω, A, P ) tal que, 3 4 Métodos Cuantitativos II. 2009-2010. G.Garcı́a. EP1 Ω es un conjunto formado por las posibles realizaciones o resultados del fenómeno aleatorio en estudio. EP2 A es una familia de partes de Ω que tiene estructura de σ–álgebra, esto es es una clase no vacı́a de subconjuntos de Ω que es cerrada bajo la formación de uniones numerables y complementarios. EP3 P es una función de conjunto en [0, 1], esto es P : A → [0, 1], tal que P1 P (∅) = 0 P2 P (Ω) = 1 P3 P es σ–aditiva, es decir P (∪∞ n=1 An ) = An son disjuntos dos a dos. P∞ n=1 P (An ) si los conjuntos Los elementos de Ω son llamados puntos muestrales y los de A sucesos. Observación 1.1.3. Si el conjunto Ω es finito, que A sea una σ–álgebra es equivalente a que sea un álgebra. De igual manera, la σ–aditividad de P es equivalente a decir que sea aditiva, esto es P (A ∪ B) = P (A) + P (B) si A ∩ B = ∅. En el caso de un conjunto Ω infinito, las hipótesis de σ–álgebra y σ–aditividad se imponen por razones de orden técnico. Por ejemplo, si queremos comprobar que la probabilidad les suceso ”Que salga alguna vez cara al tirar una moneda” es igual a 1, hay que calcular 12 + 212 + 213 + · · · = 1 y necesitamos la hipótesis de σ–aditividad. Observación 1.1.4. En el lenguaje de la teorı́a de la medida (Ω, A) es un espacio medible y P es una medida tal que P (Ω) = 1. En el lenguaje de la teorı́a de la probabilidad, diremos que P es una probabilidad. 1.1.1. Propiedades elementales de las σ–álgebras 1. El conjunto vacı́o pertenece a toda σ–álgebra 2. Fijado Ω, la σ–álgebra más pequeña es {∅, Ω} y la más grande P(Ω). 3. La intersección de una familia cualquiera de σ–álgebras, también es σ– álgebra. 4. Dada una familia C de partes de Ω, designaremos por σ(C) la σ–álgebra generada por C, que por definición es la intersección de todas las σ– álgebras que contienen a C. Se verifica que σ(C) es la mı́nima σ–álgebra que contiene a C, en el sentido que está contenida en cualquier otra σ– álgebra que contenga a C. Métodos Cuantitativos II. 2009-2010. G.Garcı́a 5 Ejemplo 1.1.5. Sea S la familia de partes de R formada por los intervalos de la forma (a, b] con a < b, las semirrectas (a, +∞), (−∞, a] con a ∈ R, el conjunto ∅ y R. La σ–álgebra generada por S es la σ–álgebra de Borel, que denotaremos B(R), es la σ–álgebra generada por los conjuntos abiertos (o cerrados) de R. De manera similar se obtendrı́a B((0, 1)) o bien B(R2 ) o en general B(Rn ). 1.1.2. Propiedades elementales de las probabilidades 1. P (∅) = 0 2. La propiedad de σ–aditividad implica la de aditividad finita. 3. Para todo A ∈ A, P (Ac ) = 1 − P (A). 4. Si A, B ∈ A cumplen A ⊂ B, entonces P (A) ≤ P (B) 5. Si A, B ∈ A, P (A ∪ B) + P (A ∩ B) = P (A) + P (B) P 6. P es subaditiva, es decir es decir P (∪ni=1 Ai ) ≤ ni=1 P (Ai ) para cualquier familia de conjuntos {Ai }i=1..n de A 7. Para cualquier familia de conjuntos {Ai }i=1..n de A, P (∪ni=1 Ai ) = n X i=1 + n X P (Ai ) − i<j<k; 1≤i,j,k≤n n X i<j; 1≤i,j≤n P (Ai ∩ Aj )+ P (Ai ∩ Aj ∩ Ak ) + · · · + (−1)n P (∩ni=1 Ai ) 8. Sea {An }n≥1 una sucesión de conjuntos de A. Entonces, i. Si la sucesión es creciente y denotamos por A el conjunto ∪∞ n=1 An , se cumple que P (A) = lı́mn→∞ P (An ) ii. Si la sucesión es decreciente y denotamos por A el conjunto ∩∞ n=1 An , se cumple también que P (A) = lı́mn→∞ P (An ) 1.2. Vectores aleatorios. Función de distribución y de densidad conjunta. Es conocido el concepto de variable aleatoria como herramienta para medir, analizar una caracterı́stica de una población. Sin embargo, en determinados 6 Métodos Cuantitativos II. 2009-2010. G.Garcı́a. casos puede interesar estudiar simultáneamente diferentes propiedades caracterı́sticas o bien estudiar alguna propiedad de un elemento de una población que deba ser descrita con diversos ı́ndices numéricos. Con esta finalidad, dedicaremos esta sección a introducir el concepto de vector aleatorio y a estudiar algunas de sus propiedades principales. Sea (Ω, A, P ) un espacio de probabilidad arbitrario pero fijado. Recordemos que una aplicación X : Ω → R cumpliendo ∀B ∈ B(R), X −1 (B) ∈ A es una variable aleatoria. La función de distribución asociada a una variable aleatoria X es la función F : R → [0, 1] definida por F (x) = P ◦ X −1 ((−∞, x]) = P (X ≤ x) Recordemos que las funciones de distribución de variables aleatorias cumplen el ser crecientes, continuas por la derecha y tener lı́mites en −∞ y en +∞ 0 y 1 respectivamente. El concepto de vector aleatorio sigue como, Definición 1.2.1. Una aplicación X : Ω → Rm , X = (X1 , X2 , . . . , Xm ) tal que cada uno de los componentes Xi : Ω → R es un vector aleatorio. Introducimos ahora la función de distribución asociada a un vector aleatorio, que engloba la de distribución de una variable aleatoria. Sin embargo, para poder hablar que la función de distribución de un vector aleatorio X necesitamos introducir un orden parcial en Rm . Concretamente, si x = (x1 , . . . , xm ) e y = (y1 , . . . , ym ) ∈ Rm , diremos que x ≤ y si y sólo si x1 ≤ y1 , . . . , xm ≤ ym . Definición 1.2.2. La función de distribución asociada a un vector aleatorio X es la función F : Rm → [0, 1] definida por F (x) = P (X1 ≤ x1 , . . . , Xm ≤ xm ) para todo x = (x1 , . . . , xm ) ∈ Rm De manera análoga al caso unidimensional, se verifican las siguientes propiedades, 1. F es creciente 2. F es continua por la derecha en el sentido lı́m F (y) = F (x) y↓x donde y ↓ x significa yi ↓ xi para todo i = 1, . . . , m. Métodos Cuantitativos II. 2009-2010. G.Garcı́a 7 3. F verifica las siguientes propiedades asintóticas, lı́m F (x) = 1 x→∞ lı́m F (x) = 0 xi →−∞ Observación 1.2.3. Debe hacerse notar que, en general, las funciones de distribución marginales pueden ser obtenidas a través de la conjunta mediante un paso al lı́mite, esto es, FXi (xi ) = lı́m xj →∞; j6=i F (x1 , . . . , xm ) Introducimos a continuación los conceptos de vectores aleatorios discretos y absolutamente continuos. Definición 1.2.4. Un vector aleatorio X se denomina discreto si las variables aleatorias componentes son discretas. Ejemplo 1.2.5. (Ley Multinomial) Consideremos una experiencia aleatoria para la que existen m resultados posibles A1 , . . . , Am de probabilidades respectiPm p = 1. Repetimos el experimento n veces y devas p1 , . . . , pm con j j=1 notemos por Xi la variable aleatoria que cuenta el número de veces que se ha producido Ai , para i = 1, . . . , m. Observemos que Xi ∼ Bin(n, pi ). Sea X = (X1 , X2 , . . . , Xm ) que toma valores en ( ) m X C = (n1 , . . . , nm ) ∈ Nm : ni = n i=1 Mediante cálculos combinatorios se demuestra que si (n1 , . . . , nm ) ∈ C, n! pn1 . . . pnmm n1 ! . . . nm ! 1 El vector aleatorio X descrito anteriormente tiene ley multinomial de parámetros n, p1 , . . . , pm que denotaremos M (n; p1 , . . . , pm ). P ((X1 , X2 , . . . , Xm ) = (n1 , n2 , . . . , nm )) = Pasamos ahora a introducir los vectores aleatorios absolutamente continuos. Definición 1.2.6. Una función f : Rm → R es una densidad en Rm si se verifican las condiciones siguientes, D1 f ≥ 0 8 Métodos Cuantitativos II. 2009-2010. G.Garcı́a. D2 La integral R∞ R∞ −∞ . . . −∞ f (x)dx Z ∞ ... −∞ existe en el sentido Riemann y Z ∞ f (x)dx = 1 −∞ Definición 1.2.7. Un vector aleatorio X (m-dimensional) es absolutamente continuo con densidad f si su función de distribución F se puede escribir como Z x1 Z xm F (x) = ... f (x)dx, x = (x1 , . . . , xm ) ∈ Rm −∞ −∞ donde f es una función de densidad en Rm . Diremos que f es la función de densidad (conjunta) de X. Ejemplo 1.2.8. Sea (X1 , X2 ) un vector aleatorio con densidad de probabilidad   e−(x+y) 0 < x < ∞, 0 < y < ∞ f (x, y) =  0 en caso contrario Entonces, 1.3.   (1 − e−x )(1 − e−y ) 0 < x < ∞, 0 < y < ∞ F (x, y) =  0 en caso contrario Independencia de variables aleatorias 1.3.1. Densidades marginales y condicionales Los vectores aleatorios absolutamente continuos verifican la propiedad de que sus componentes también son absolutamente continuos. Concretamente, Proposición 1.3.1. Sea X = (X1 , . . . , Xm ) un vector aleatorio absolutamente continuo. Entonces, cada una de sus componentes, Xi , i = 1, . . . , m son también absolutamente continuas; las densidades respectivas, que denotaremos fi se expresan como, fXi (y) = Z ∞ −∞ para y ∈ R ... Z ∞ −∞ f ((x1 , . . . , xi−1 , y, xi+1 , . . . , xm ))dx1 . . . dxi−1 dxi+1 , . . . dxm Métodos Cuantitativos II. 2009-2010. G.Garcı́a 9 Definición 1.3.1. Las densidades fXi se denominan densidades marginales. Cabe destacar que las densidades marginales no determinan la densidad del vector aleatorio. De hecho, diferentes densidades conjuntas pueden dar lugar a marginales idénticas. Ejemplo 1.3.2. Consideremos las densidades definidas en el plano por,   1 (1 + xy) −1 < x < 1, −1 < y < 1 4 f (x, y) =  0 en caso contrario g(x, y) =   1 4  0 −1 < x < 1, −1 < y < 1 en caso contrario En ambos casos, las marginales son,   1 −1 < x < 1 2 fX (x) = gX (x) =  0 en caso contrario   1 −1 < y < 1 2 fY (y) = gY (y) =  0 en caso contrario Consideremos a continuación el concepto de distribuciones condicionales. Por la dificultad de la notación, resolveremos el caso m = 2 dejando el caso general para consultar en las referencias. Definición 1.3.3. Sea (X1 , X2 ) un vector aleatorio de tipo discreto. Si P (X2 = x2 ) > 0, fijado x2 , la función P (X1 = x1 |X2 = x2 ) = P (X1 = x1 , X2 = x2 ) P (X2 = x2 ) es la función de masa de X1 condicionado a X2 = x2 . Observación 1.3.4. De igual manera, pero siempre que P (X1 = x1 ) > 0, podı́amos definir la función de masa de X2 condicionado a X1 = x1 . Supongamos ahora que (X1 , X2 ) un vector aleatorio absolutamente continuo. Como P (Xi = xi ) = 0 no podemos utilizar exactamente la construcción anterior. Sin embargo, para cada x1 y cada intervalo de la forma (x2 −ǫ, x2 +ǫ], consideremos la probabilidad del suceso {X1 ≤ x1 } sabiendo que X2 ∈ (x2 − ǫ, x2 + ǫ] 10 Métodos Cuantitativos II. 2009-2010. G.Garcı́a. pero siempre que P {X2 ∈ (x2 − ǫ, x2 + ǫ]} > 0. Concretamente estudiaremos el caso en el que el lı́mite, lı́m P {X1 ≤ x1 |X2 ∈ (x2 − ǫ, x2 + ǫ]} ǫ→0+ exista. Definición 1.3.5. La distribución condicional de la variable aleatoria X1 a que X2 = x2 se define como el lı́mite lı́m P {X1 ≤ x1 |X2 ∈ (x2 − ǫ, x2 + ǫ]} ǫ→0+ siempre que este exista. En tal caso, lo denotaremos por FX1 |X2 =x2 (x1 ) y definiremos, en caso que exista, la función de densidad de X1 condicionada a que X2 = x2 como aquella función no negativa fX1 |X2 =x2 cumpliendo, Z x1 FX1 |X2 =x2 (x1 ) = fX1 |X2 =x2 (y) dy −∞ En diferentes casos se puede probar la existencia y obtener explı́citamente las densidades condicionales. Concretamente, si (X1 , X2 ) es un vector aleatorio absolutamente continuo con función de densidad (conjunta) f , en cualquier punto (x1 , x2 ) en el que f sea continua y la marginal fX2 (x2 ) > 0 y sea continua, se tiene fX1 |X2 =x2 (x1 ) = f (x1 , x2 ) fX2 (x2 ) para x1 ∈ R. Observación 1.3.6. Todos los razonamientos previos son extensibles al caso en que X1 no es una variable aleatoria sino un vector aleatorio m dimensional. Los problemas aparecen cuando el condicionamiento viene dado por un grupo de variables aleatorias y no por una sola variable. En el caso general, sea (X1 , . . . , Xm ) un vector aleatorio absolutamente continuo con función de densidad f((X1 ,...,Xm ) y sea {i1 < . . . < ik , j1 < . . . jk } un subconjunto de {1, . . . , m}. Entonces, F(Xi1 ,...,Xi ) k |(Xj ,...,Xj ) 1 k = (xi1 , . . . , xik ) = R xik Qk −∞ . . . −∞ f(Xi1 ,...,Xik ;Xj1 ,...,Xjk ) (xi1 , . . . , xik ; xj1 , . . . , xjk ) p=1 dxip R∞ R∞ Qk p=1 dxip −∞ . . . −∞ f(Xi1 ,...,Xik ;Xj1 ,...,Xjk ) (xi1 , . . . , xik ; xj1 , . . . , xjk ) R xi1 Métodos Cuantitativos II. 2009-2010. G.Garcı́a 1.3.2. 11 Esperanza condicionada En este apartado analizaremos únicamente en detalle el caso m = 2. El caso m > 2 se sigue de éste. Definición 1.3.7. Sean X1 y X2 dos variables aleatorias. La esperanza condicionada de X1 a X2 = x2 se define como, E(X1 |X2 = x2 ) = Z ∞ −∞ x1 fX1 |X2 =x2 (x1 ) dx1 si ambas X1 y X2 son conjuntamente continuas y como E(X1 |X2 = x2 ) = X x1 P (X1 = x1|X2 =x2 ) x1 si ambas X1 y X2 son conjuntamente discretas. Se verifican las siguientes propiedades de la esperanza condicionada, 1. E[c|Y ] = c donde c es una constante. 2. E[aX + b|Y ] = aE[X|Y ] + b donde a, b son constantes. 3. Si g1 , g2 son funciones Borel-medibles y E[gi (X)] existe para i = 1, 2 entonces E[a1 g1 (X) + a2 g2 (X)|Y ] = a1 E[g1 (X)|Y ] + a2 E[g2 (X)|Y ] donde a1 y a2 son constantes. 4. Si X ≥ 0, entonces E[X|Y ] ≥ 0. 5. Si X1 ≤ X2 , entonces E[X1 |Y ] ≤ E[X2 |Y ]. 6. (Esperanzas iteradas) Supongamos que E(g(X)) exista. Entonces, E(g(X)) = E (E(g(X)|Y )) 12 Métodos Cuantitativos II. 2009-2010. G.Garcı́a. 1.3.3. Independencia de variables aleatorias Definición 1.3.8. Una colección de variables aleatorias X1 , . . . , Xm se denomina mutuamente o completamente independientes si y sólo si F (x1 , . . . , xm ) = m Y FXi (xi ), i=1 ∀(x1 , . . . , xm ) ∈ Rm donde F es la función de distribución del vector aleatorio (X1 , . . . , Xm ) y FXi la función de distribución marginal, esto es de cada Xi , i = 1, . . . , m. En ocasiones F se denomina función de distribución conjunta. Definición 1.3.9. Una sucesión de variables aleatorias (Xn )n≥1 se denomina independiente si para cualquier n = 2, 3, 4, . . . las variables aleatorias X1 , . . . , Xn son independientes. Definición 1.3.10. Sea X una variable aleatoria con distribución L(X). Diremos que (Xn )n≥1 es una sucesión de variables aleatorias independientes e idénticamente distribuidas (iid) con ley L(X) si (Xn )n≥1 es una sucesión de variables aleatorias independientes y la distribución de Xn es la misma que la de la variable X. Se verifican las siguientes propiedades, 1. Si X1 , . . . , Xm son independientes, cualquier subcolección Xi1 , . . . , Xik de X1 , . . . , Xm también son independientes. 2. Sean X1 , . . . , Xm variables aleatorias con marginales absolutamente continuas. Entonces, X1 , . . . , Xm son independientes si y sólo si f (x1 , . . . , xm ) = m Y i=1 fXi (xi ) ∀(x1 , . . . , xm ) ∈ Rm donde f es la función de densidad conjunta de X1 , . . . , Xm y fXi las densidades marginales. 3. Sean X1 , . . . , Xm variables aleatorias integrables e independientes. Entonces el producto X1 . . . Xm también es integrable cumpliéndose E(X1 . . . Xm ) = E(X1 ) . . . E(Xm ) Métodos Cuantitativos II. 2009-2010. G.Garcı́a 13 4. Si (Xi )i∈I es una sucesión de variables aleatorias independientes y gi : R → R son funciones medibles, (g(Xi ))i∈I continua siendo una sucesión de variables aleatorias independientes. Observación 1.3.11. Dados dos espacios medibles (Ω, A) y (F, F), la aplicación X : Ω → F es medible si X −1 (B) ∈ A para todo B ∈ F. Ejemplo 1.3.12. La distribución de un vector aleatorio (X, Y ) está caracterizada per la función de densidad fXY (x, y) = 4xy si 0 < x < 1 i 0 < y < 1 1. Comprueba que esta función cumple les condiciones para ser una función de densidad. R1R1 La función es positiva en el dominio y 0 0 fXY (x, y) dxdy = 1 2. Encuentra las densidades marginales de X y de Y . R1 fX (x) = 0 fXY (x, y) dy = 2x R1 fY (y) = 0 fXY (x, y) dx = 2y 3. ¿Son X e Y independientes? Si, ya que fX (x)fY (y) = fXY (x, y) 4. Calculad E[X], E[Y ] y Cov(X, Y ) = E[XY ] − E[X]E[Y ]. R1 E[X] = 0 xfX (x) dx = 23 R1 E[Y ] = 0 yfY (y) dy = 23 Cov(X, Y ) = 0 5. Calcula E[X|Y ]. Por ser X e Y independientes, se tiene que E[X|Y ] = E[X] = 1.4. 2 3 Operadores esperanza y covarianza Este apartado es de tipo técnico dedicado a introducir una serie de herramientas necesarias para el buen funcionamiento de cursos avanzados en Estadı́stica. 1.4.1. Operador esperanza generalizado Sea (Xij )i=1,...,n; j=1,...,m un conjunto de variables aleatorias con valores esperados E(Xij ). Con el objetivo de expresar tanto las variables como sus valores esperados en forma de matriz, introducimos las siguientes definiciones. 14 Métodos Cuantitativos II. 2009-2010. G.Garcı́a. Definición 1.4.1. Diremos que X = [Xij ]i=1,...,n; ria. j=1,...,m es una matriz aleato- Definición 1.4.2. Sea X una matriz aleatoria. Introducimos el operador esperanza generalizado E de X como E(X) = [E(Xij )]i=1,...,n; j=1,...,m Propiedades El operador esperanza generalizado verifica las siguientes propiedades de linealidad 1. Sean A (l × n) B (m × p) y C (l × p) matrices de constantes. Entonces E(AXB + C) = AE(X)B + C Observación 1.4.3. Un corolario interesante de la propiedad anterior se tiene para n = 1 con B = Id C = 0. 2. Si A y B son matrices l × 1 de constantes y X e Y son vectores aleatorios 1 × m, entonces E(AX + BY) = AE(X) + BE(Y) Observación 1.4.4. Como corolario se tiene el caso en que A = a ∈ R y B = b ∈ R. 1.4.2. Esperanza y covarianza de un vector aleatorio Siguiendo las ideas de la sección anterior vemos que un vector aleatorio puede ser entendido como una matriz aleatoria en la que n = 1. Notación 1.4.5. Sea X = (X1 , . . . , Xm ) un vector aleatorio. Escribiremos X en lugar de X explicitando, si fuera necesrio las dimensiones del vector. Ası́, podemos introducir el operador esperanza generalizado de X como E(X). Observación 1.4.6. En este caso vemos que E(X) = (E(X1 ), . . . , E(Xm )) Nuestro objetivo es ahora generalizar las nociones de varianza y de covarianza para vectores aleatorios. Métodos Cuantitativos II. 2009-2010. G.Garcı́a 15 Definición 1.4.7. Sean X e Y vectores aleatorios 1 × m y 1 × n. Introducimos el operador covarianza C entre X e Y como, C(X, Y) = E (X − E(X))t (Y − E(Y) Observación 1.4.8. En este caso vemos que C(X, Y) es una matriz m × n cuyas componentes son [Cov(Xi , Yj )]. Definición 1.4.9. Si,en la definición anterior X = Y, diremos que C(X, X), que indicaremos por V(X), es la matriz de dispersión o de varianzas-covarianzas de X. Propiedades La matriz de varianzas-covarianzas verifica las siguientes propiedades respecto a las transformaciones lineales de los vectores. Sean X e Y vectores aleatorios 1 × m y 1 × n. 1. Si A, B son dos matrices de constantes m × l y n × p , entonces C(XA, YB) = At C(X, Y) B Como corolario directo de esta propiedad se tienen las siguientes dos. 2. Si en la propiedad 1, B = Id, C(XA, Y) = At C(X, Y) 3. Si en la propiedad 1, X = Y y A = B, V(XA) = At V(X)A 4. Si X, Y, U, V son vectores aleatorios (no necesariamente distintos) 1×m y a, b, c, d son reales (incluyendo el valor 0), C(aX + bY, cU + dV) = ac C(X, U) + ad C(X, V) + bc C(Y, U) + bd C(Y, V) Como corolario de esta propiedad, se tiene la siguiente. 16 Métodos Cuantitativos II. 2009-2010. G.Garcı́a. 5. Si en la propiedad 4, X = U, Y = V, a = c y b = d se tiene, V(aX + bY) = a2 V(X) + 2ab C(X, Y) + b2 V(Y) 6. Si X es un vector aleatorio 1 × m de manera que ninguna componente de X es combinación lineal del resto (esto es no existe a 6= 0 m × 1 y b ∈ R tal que X a = b para todos los valores de X = x), entonces V(X) es una matriz definida positiva. Observación 1.4.10. En este apartado hemos introducido diferentes herramientas que, entre otras cosas van a permitir reescribir los resultados de la sección 1.3 de forma compacta. 1.5. La distribución normal multivariante La distribución básica en Análisis Multivariante clásico es la distribución normal multivariante. Es común el hecho que las observaciones multivariantes se distribuyan, al menos aproximadamente, de forma normal; esto es especialmente cierto en el caso de medias muestrales (y también de matrices de varianzascovarianzas muestrales) debido al efecto del Teorema del Lı́mite Central. 1.5.1. Definición y propiedades Definición 1.5.1. Sea X un vector aleatorio 1 × m. Diremos que X tiene una distribución normal m-variante si, para cualquier a ∈ Rm , la distribución de Xa es normal univariante. Partiendo de esta definición, vamos a establecer algunas propiedades de la distribución normal multivariante. Teorema 1.5.1. Si X sigue una distribución normal m-variante, entonces µ = E(X) y Σ = V(X) existen y determinan la distribución de X. Notación 1.5.2. La distribución normal m-variante del vector X en el teorema anterior será denotada por Nm (µ, Σ) y escribiremos X ∼ Nm (µ, Σ). Propiedades 1. Si X ∼ Nm (µ, Σ), B es m × k y b es 1 × k, entonces, Y = XB + b ∼ Nk (µB + b, B ′ ΣB) Como consecuencia directa del resultado anterior, se tiene, Métodos Cuantitativos II. 2009-2010. G.Garcı́a 17 2. Si X ∼ Nm (µ, Σ), entonces la distribución marginal de cualquier subconjunto k(< m) continua siendo normal. Demostración. Basta particionar el vector X como X = (X1 , X2 ) y aplicar la propiedad 1 con B = (Idk : 0) y b = 0. Observación 1.5.3. Según esta última propiedad, la distribución marginal de cada componente de X es normal univariante, pero el recı́proco no es cierto en general. 3. X ∼ Nm (µ, Σ) y X, µ y Σ están particionados según,  X = (X1 , X2 ) µ = (µ1 , µ2 ) Σ =  Σ11 Σ12 Σ21 Σ22   donde X1 y µ1 son k × 1 y Σ11 es k × k, entonces los subvectores X1 y X2 son independientes si y sólo si Σ12 = Σt21 = 0. Sea X ∼ Nm (µ, Σ), la densidad de X es, fX (x) = p 1 1 exp(− (x − µ)Σ−1 (x − µ)t ) 2 (2Π)m |Σ| Ejemplo 1.5.4. Sea X = (X1 , X2 ) ∼ N2 (µ, Σ). Suponiendo que σ12 = var(X1 ) > 0, σ22 = var(X2 ) > 0 y que el coeficiente de correlación ρ entre X1 y X2 verifica −1 < ρ < 1. Nuestro objetivo es determinar, de forma explı́cita, la función de densidad de probabilidad de X. Sea µ = E(X) = (µ1 , µ2 ) y     2 σ11 σ12 σ1 ρσ1 σ2 =  V(X) = Σ =  2 σ21 σ22 ρσ1 σ2 σ2 Según las condiciones del enunciado, |Σ| = σ12 σ22 (1 − ρ2 ) > 0 Por lo tanto Σ es no singular y Σ−1  1 1  σ12 = 1 − ρ2 − σ1ρσ2 − σ1ρσ2 1 σ22 y la función de densidad conjunta entre X1 y X2 es,   18 Métodos Cuantitativos II. 2009-2010. G.Garcı́a. x1 − µ1 2 1 + fX (x1 , x2 ) = exp − 2 (1 − ρ2 ) σ1 2π σ1 σ2 1 − ρ2 !! x2 − µ2 2 (x1 − µ1 )(x2 − µ2 ) + − 2ρ σ2 σ1 σ2 1 p 1.5.2. Algunos resultados sobre formas cuadráticas Teorema 1.5.2. Sea X ∼ Nm (µ, Σ). Entonces, Q = (X − µ)Σ−1 (X − µ)t ∼ χ2m Demostración. Como Σ es definida positiva, existe una matriz ortogonal T (con valores reales) tal que T t ΣT = Λ = diag(λ1 , . . . , λm ) donde λ1 , . . . , λm , los valores propios de Σ, son todos positivos. Definimos, Y = (X − µ)T . Entonces, (X − µ) = YT t con lo que E(Y) = 0 y V(Y) = Λ. De esta manera, las componentes de Y = (Y1 , . . . , Ym ) son todas mutuamente independientes cumpliendo Yi ∼ N (0, λi ). Como, Q = (X − µ)Σ−1 (X − µ)t = YT t Σ−1 (YT t )t = = YΛ−1 Y t = m X Y2 i i=1 λi = m X i=1 Zi2 ∼ χ2m donde Zi , para i = 1, . . . , m son variables aleatorias independientes, idénticamente distribuidas según N (0, 1). Teorema 1.5.3. Sea X ∼ Nm (µ, σ 2 Idm ) y P una matriz m × m simétrica de rango r. Entonces, Q= 1 (X − µ)P (X − µ)t ∼ χ2m ⇔ P 2 = P σ2 CAPÍTULO 2 Fundamentos de Inferencia Estadı́stica 2.1. Introducción Statistics must have a clearly defined purpose, one aspect of which is scientific advance and the other, human welfare and national development. P.C. Mahalanobis (1956) Naturalmente, no existe un acuerdo en lo que entendemos por estadı́stica y no encontramos una sino muchas definiciones al respecto. Entre otras, podemos destacar El objetivo de la estadı́stica es efectuar una decisión sobre una base probabilı́stica de la evidencia observable. P.C. Mahalanobis (1950) La Estadı́stica es la lógica del análisis de la incertidumbre y la toma de decisiones adecuadas. C.R. Rao (1989) Probablemente, la parte común a estas dos definiciones sea la posibilidad que ofrece la Estadı́stica de tomar decisiones en función de la realidad observable y posiblemente sea este el aspecto que la hace atractiva en tan variados ámbitos. 19 20 Métodos Cuantitativos II. 2009-2010. G.Garcı́a. Dirı́amos que la E stadı́stica Matemática es una disciplina que comprende un conjunto de métodos y técnicas concebidos para establecer o ayudar a establecer enunciados de naturaleza inductiva. La aplicación de los métodos formales desarrollados por la E stadı́stica matemática será el objetivo de lo que en ocasiones se denomina E stadı́stica aplicada. 2.1.1. Algunas consideraciones sobre Inferencia Estadı́stica El objetivo de la Inferencia Estadı́stica es estimar parámetros de la población tales como la media o el total en función de las frecuencias observadas de una variable. Al considerar poblaciones finitas es posible que se plantee la cuestión de estudiar toda la población y ası́ determinar los parámetros poblacionales de interés. Sin embargo, son claras las ventajas de realizar un muestreo en lugar de estudiar toda la población: reducción de costes, mayor rapidez en la obtención de los resultados, mejor supervisión del trabajo a realizar... El primer punto a abordar, el de la descripción de la realidad observable, es el objetivo del Muestreo Estadı́stico. Introducimos los siguientes conceptos. Definición 2.1.1. Llamaremos población a un conjunto homogéneo de elementos en los que se estudia una caracterı́stica dada. Definición 2.1.2. Un censo es un estudio (exhaustivo) de todos los elementos de una población. Definición 2.1.3. Una muestra es un conjunto representativo de los elementos de una población. El muestreo estadı́stico tiene como objetivo el de seleccionar adecuadamente una muestra de tal manera que la información obtenida de ésta sobre la caracterı́stica de interés sea similar a la que se obtendrı́a del censo pero con mayor rapidez y a menor coste. Ahora bien, la clave de un procedimiento de muestreo es garantizar que la muestra sea representativa de la población. 2.1.2. Tipos de muestreo Muestreo aleatorio simple con reposición El muestreo aleatorio simple con reposición se adapta bien al modelo de la estadı́stica clásica donde se trabaja con una colección de variables aleatorias independientes e idénticamente distribuidas. Métodos Cuantitativos II. 2009-2010. G.Garcı́a 21 Definición 2.1.4. Diremos que una muestra es aleatoria simple con reposición cuando cada elemento de la población tiene la misma probabilidad de ser elegido para la muestra. Se efectúa cada observación con reemplazamiento, de tal manera que la población es idéntica en todas las extracciones. Este tipo de muestreo presenta diferentes problemas, entre los que cabe destacar el elevado coste que supone que todas las posibles muestras tengan la misma probabilidad de ser escogidas (fundamentalmente en areas geográficas grandes) y la ausencia, en muchas ocasiones de un censo de la población. Muestreo aleatorio simple sin reposición La transición del muestreo aleatorio simple con reposición al simple sin reposición debe verse como una extensión o adaptación a la realidad del modelo anterior. Sin embargo, conviene hacer notar que la no reposición revierte en que las variables aleatorias que utilizamos para modelar continúan siendo idénticamente distribuidas pero ahora han perdido la condición de independencia. Observación 2.1.5. El muestreo aleatorio simple debe utilizarse cuando los elementos de la población son homogéneos respecto a la caracterı́stica en estudio, es decir cuando no disponemos de información previa que permita decidir qué elementos de la población tendrán valores altos (o bajos) en ella. Observación 2.1.6. Suele ocurrir que en las encuestas de opinión, los elementos (personas) son heterogéneos en razón del sexo, edad, profesión... Interesará, en estos casos, que la muestra tenga una composición análoga a la de la población que no conseguiremos utilizando el muestreo aleatorio simple. Muestreo estratificado El diseño de las encuestas por muestreo tiene como motivación el de hacer inferencias sobre una población según la información contenida en una muestra. El diseño de encuestas por muestreo estratificado tiene como objetivo maximizar la cantidad de información a obtener de una muestra para un coste dado de ésta. En el caso de disponer de grupos identificables para la caracterı́stica en estudio, el error de estimación que se producirı́a por muestreo estratificado es inferior al que se tendrı́a utilizando muestreo aleatorio simple, en especial si los grupos o estratos son homogéneos entre sı́. Como ejemplo del muestreo por conglomerados, podemos considerar la estimacin del salario medio de un ciudadano de la Unin Europoea. Podramos considerar un muestreo por estratos donde cada uno de los pases de la UE formara 22 Métodos Cuantitativos II. 2009-2010. G.Garcı́a. un estrato. A grandes rasgos, se requiere de los estratos que sean grupos, relacionados con la caracterstica en estudio y que presenten heterogeneidad entre ellos y homogeneidad dentro de ellos. Con ms precisin, Definición 2.1.7. Se denomina muestreo estratificado aquel en el que los elementos de la población se dividen en clases o grupos disjuntos llamados estratos, relacionados con la caracterstica en estudio. La muestra se toma asignando un número de miembros o cuota a cada estrato y escogiendo estos elementos por muestreo simple dentro de cada estrato. En concreto, si existen k estratos de tamaños N1 , . . . , Nk siendo N = N1 + · · ·+Nk , tomaremos una muestra que garantice una presencia adecuada de cada estrato. Existen dos criterios básicos para dividir el tamaño total de la muestra n entre los estratos ni . 1. Proporcionalmente al tamaño relativo de cada estrato en la población (Asignación proporcional), ni = n Ni , i = 1, . . . , k N 2. Proporcionalmente a la variabilidad de cada estrato, esto es requeriremos que los estratos más variables estén más representados (Asignación de Neyman). En concreto, si σi es la desviación tı́pica muestral en cada estrato, σi Ni ni = n Pk , i = 1, . . . , k i=1 σi Ni Observación 2.1.8. Existen otros criterios de asignación basados en el coste que supone efectuar cada observación en un estrato. Muestreo por conglomerados Podemos entender el muestreo por conglomerados como un muestreo irrestricto aleatorio donde cada unidad de muestreo contiene un número determinado de elementos a incorporar ı́ntegramente en la muestra. Debemos notar que las ideas de estrato y conglomerado son en cierta forma contrapuestas pues un estrato debe ser lo más homogéneo posible (y heterogéneos entre ellos), mientras que un conglomerado debe ser lo más heterogéneo posible (y homogéneos entre ellos). Métodos Cuantitativos II. 2009-2010. G.Garcı́a 23 Una situacin en la que el muestreo por conglomerados sera de utilidad con la consecuente reduccin del error de estimacin, frente al muestreo aleatorio simple, sera en la estimacin de la nota media de acceso a la Universidad. En este caso, los conglomerados seran los diferentes centros de estudio de Enseanza Media. Definición 2.1.9. Un conglomerado es una colección intrı́nseca (o en ocasiones conveniente) de elementos de la población. Definición 2.1.10. El muestreo por conglomerados consiste en obtener una muestra aleatoria aleatoria simple de conglomerados y en cada unidad se muestrean todos los elementos que la forman. En ocasiones, un conglomerado contiene demasiados elementos para obtener mediciones sobre cada uno de ellos. El muestreo por conglomerados también pueden presentar el siguiente problema: en ocasiones la homogeneidad dentro del grupo es tan acusada que mediciones sobre una parte del conglomerado proporciona suficiente información sobre toda la colección. Definición 2.1.11. Una muestra por conglomerados en dos etapas se obtiene seleccionando primero una muestra aleatoria simple sin reposición de los conglomerados y posteriormente una muestra aleatoria simple dentro de cada conglomerado. Sea N el número total de conglomerados en la población y n el número total de conglomerados en una muestra irrestricta aleatoria. Sea Mi el número de elementos en el conglomerado i-ésimo, i = 1, . . . , N y mi el número de elementos en la muestra del conglomerado i-ésimo, i = 1, . . . , n. Muestra Población Número conglomerados n N Número elementos en congl. mi Mi Número elementos m= Pn i=1 mi M= PN i=1 Mi 24 Métodos Cuantitativos II. 2009-2010. G.Garcı́a. Observación 2.1.12. La selección de los tamaños de muestra en la primera etapa (muestreo por conglomerados en 1 etapa y en 2 etapas) y en la segunda (muestreo por conglomerados en 2 etapas) se resuelve en función de criterios de variabilidad y de coste pero con expresiones bastante más complicadas que en el caso de muestreo estratificado. Observación 2.1.13. El muestreo por conglomerados en 2 etapas es sólo un ejemplo de muestreo polietápico donde diferentes métodos de muestreo se combinan para optimizar los resultados finales. Muestreo sistemático Cuando los elementos de la población están ordenados según una caracterı́stica relacionada con la de interés en una lista de orden, se utiliza muestreo sistemático. Definición 2.1.14. Sea N el tamaño de una población de la que se quiere obtener una muestra de tamaño n. Sea k el entero más próximo a N n . Una muestra obtenida al seleccionar aleatoriamente un elemento de los primeros k en la lista de orden y después cada k elemento se denomina una muestra sistemática de 1 en k. El muestreo sistemático es una opción util al muestreo irrestricto aleatorio, pues está menos expuesto a los errores de selección de las unidades muestrales que cometen los investigadores de campo. Además puede proporcionar mayor información que la que se obtiene mediante muestreo irrestricto aleatorio con la misma unidad de costo pues se extiende más uniformemente por toda la población. En ocasiones se utiliza en poblaciones que varı́an en el tiempo, por ejemplo en una cadena de producción pues puede considerar, en ocasiones, que la variación temporal influye en el proceso de fabricación. Finalmente comentar que existen otros tipos de muestreo no probabilı́stico, entre otros, los muestreos circunstancial, intencional o los dados por una muestra de voluntarios (fundamentalmente en el ámbito de las ciencias de la salud). Sin embargo, se debe hacer énfasis en la dificultad que supone dar una medida del error de estimación en estos otros muestreos por lo que conviene evitarlos siempre que sea posible. Métodos Cuantitativos II. 2009-2010. G.Garcı́a 2.2. Estimación Puntual 2.2.1. El problema de la estimación puntual 25 Sea X una variable aleatoria sobre un espacio de probabilidad (Ω, A, P ). Supongamos que la función de distribución F de X depende de una familia de parámetros y supongamos, para lo que sigue, que la forma funcional de F es conocida, excepto por un número finito de estos parámetros. Sea θ el vector de parámetros desconocidos. Definición 2.2.1. El conjunto de los valores admisibles para θ es el espacio de parámetros que denotaremos como Θ. Notación 2.2.2. Diremos que Fθ es la función de distribución de X, o bien que Pθ es la ley o distribución de probabilidad de X, si θ es el vector de parámetros asociado con la distribución de X. Sea X una variable aleatoria con distribución de probabilidad Pθ siendo θ = (θ1 , . . . , θk ) el vector de parámetros desconocidos. Sea X1 , . . . , Xn v.a. iid ∼ X. Vamos a abordar el problema de aproximar θ en función de la muestra observable. Definición 2.2.3. Una aplicación T (X1 , . . . , Xn ) en Θ (medible) es un estadı́stico. Definición 2.2.4. Sea x1 , . . . , xn n realizaciones de X y T (X1 , . . . , Xn ) en Θ un estadı́stico. Diremos que T (x1 , . . . , xn ) es una estimación de θ. o bien una realización de T (X1 , . . . , Xn ) El problema de la estimación paramétrica consiste en obtener una estimación del parámetro desconocido θ con buenas propiedades. Sin embargo, antes vamos a abordar algunos de los diferentes procedimientos de estimación. 2.2.2. Procedimientos de estimación El método de los momentos Uno de los métodos más sencillos de estimación es el método de los momentos formalizado por K. Pearson a finales del siglo XIX. El objetivo es estimar un vector de parámetros θ = (θ1 , . . . , θk ) cuyos componentes pueden expresarse en función de k momentos de la población, m1 , . . . , mk , esto es 26 Métodos Cuantitativos II. 2009-2010. G.Garcı́a. θ1 = g1 (m1 , . . . , mk ) .. .. . . θk = gk (m1 , . . . , mk ) donde g1 , . . . , gk son funciones B. Proponemos el siguiente procedimiento, 1. Sustituimos los momentos poblacionales por los correspondientes momentos muestrales m̂1 , . . . , m̂k . 2. Proponemos como estimación de θ el vector θ̂ = (θ̂1 , . . . , θ̂k ) obtenido según, θˆ1 = g1 (m̂1 , . . . , m̂k ) .. .. . . θ̂k = gk (m̂1 , . . . , m̂k ) Ejemplo 2.2.5. Dada una muestra aleatoria {8, 6, 4, 5, 7} de una distribución χ2 se pretende determinar sus grados de libertad por el método de los momentos. Como E(χ2m ) = m, calculando la media muestral, se tiene m̂1 = 6. Ası́, la estimación por momentos de los grados de libertad es 6. Ejemplo 2.2.6. Dada una muestra aleatoria {2, 4, 9, 1} de una distribución U (a, b) estamos interesados en estimar a y b por el método de los momentos. 1 2 En este caso, E(U (a, b)) = a+b 2 y V ar(U (a, b)) = 12 (b − a) . Como x = 4 y 38 2 s = 3 resolviendo el correspondiente sistema se tienen dos pares de soluciones: √ √ √ √ a = 4 − 2 19 , b = 4 + 2 19 y a = 4 + 2 19 , b = 4 − 2 19. Como a < b escogemos la primera solución. Observación 2.2.7. Es fácil extender el método de los momentos para estimar los P momentos mixtos, esto es usaremos n1 ni=1 Xi Yi para estimar E(XY ) siendo X1 , . . . , Xn v.a. iid ∼ X e Y1 , . . . , Yn v.a. iid ∼ Y . La estimación máximo verosı́mil El principio de estimación máximo verosı́mil asume que la muestra es representativa de una población y escoge como estimación aquel valor del parámetro que maximiza la función de densidad de probabilidad o de masa de la variable subyacente. El concepto de función de verosimilitud es debido a Fisher que, Métodos Cuantitativos II. 2009-2010. G.Garcı́a 27 en su obra Theory of Statistical Estimation (1925), establece las bases para la estimación puntual. Fisher debe considerarse el descubridor del método de la máxima verosimilitud para la estimación de parámetros, método que en general resulta ser muy superior al método de los momentos, ya que proporciona, bajo condiciones de regularidad, estimadores no sólo consistentes sino al menos asintóticamente eficientes (cuando no eficientes). También introduce el concepto de suficiencia, y lo relaciona con la estimación máximo verosı́mil. Sea X = (X1 , . . . , Xn ) un vector aleatorio con función de densidad de probabilidad (o de masa) fθ (x1 , . . . , xn ) para θ ∈ Θ ⊂ Rk . Definición 2.2.8. Diremos que la función, L(x1 , . . . , xn ; θ) = fθ (x1 , . . . , xn ) como función de θ es la función de verosimilitud. Observación 2.2.9. Si X1 , . . . , Xn son v.a. iid ∼ X siendo fθ (x) la función de densidad de probabilidad (o de masa) de X, la función de verosimilitud es L(x1 , . . . , xn ; θ) = n Y fθ (xi ) i=1 Definición 2.2.10. El Principio de estimación máximo–verosı́mil consiste en escoger como estimación θ̂ = θ̂(x1 , . . . , xn ) de θ aquella que maximice L(x1 , . . . , xn ; θ), esto es, L(x1 , . . . , xn ; θ̂) = sup L(x1 , . . . , xn ; θ) θ∈Θ Observación 2.2.11. Las constantes no son admitidas como estimadores. En general es conveniente trabajar con el logaritmo de la función de verosimilitud en lugar de con la propia verosimilitud y nuestro objetivo será encontrar θ̂ tal que log L(x1 , . . . , xn ; θ̂) = sup log L(x1 , . . . , xn ; θ) θ∈Θ Consideremos la situación en que Θ es un subconjunto abierto de Rk y fθ es una función de θ diferenciable en θ (esto es existen las derivadas parciales de primer orden en las componentes de θ). Si el supremo anterior existe, debe verificar las ecuaciones de verosimilitud, esto es ∂ log L(x1 , . . . , xn ; θ̂) = 0 ∂θj j = 1, . . . , k 28 Métodos Cuantitativos II. 2009-2010. G.Garcı́a. Ejemplo 2.2.12. Sean X1 , . . . , Xn v.a. iid ∼ N (µ, σ 2 ) donde tanto µ como σ 2 son desconocidos. Aquı́ Θ = R × R+ = {(µ, σ 2 ); µ ∈ R , σ 2 ∈ (0, +∞)}. 1 2 L(x1 , . . . , xn ; µ, σ ) = (σ 2 2π) exp(− n 2 Pn i=1 (xi − 2σ 2 n n log L(x1 , . . . , xn ; µ, σ ) = − log(σ 2 ) − log(2 π) − 2 2 2 Pn µ)2 ) i=1 (xi − 2σ 2 µ)2 Las ecuaciones de verosimilitud son, − σ12 − n2 σ12 + 1 2 σ4 Pn i=1 (xi Pn i=1 (xi − µ) = 0 − µ)2 = 0 Resolviendo estas ecuaciones obtenemos = 1 n Pn = xn σˆ2 = 1 n Pn − xn )2 µ̂ i=1 xi i=1 (xi Vemos que (µ̂, σˆ2 ) ∈ Θ con probabilidad 1. Una evaluación del hessiano del logaritmo de la función de verosimilitud asegura que (µ̂, σˆ2 ) la maximiza. 2.2.3. Propiedades de los estimadores Hemos visto que es posible obtener diferentes estimadores puntuales en una misma situación. Vamos a investigar las propiedades de éstos con el objetivo que nos ayuden a escoger entre unos y otros. Para lo que sigue, sean X1 , . . . , Xn v.a.iid con distribución de probabilidad común Pθ , para θ ∈ Θ ∈ Rk . Sea X = (X1 , . . . , Xn ) y x = (x1 , . . . , xn ) y T (X) = T (X1 , . . . , Xn ) Suficiencia Definición 2.2.13. T es suficiente para θ si y sólo si P (X = x|T = t) es independiente de θ (excepto quizás en un conjunto de medida 0). Métodos Cuantitativos II. 2009-2010. G.Garcı́a 29 Ejemplo 2.2.14. Sean X1 , X2 v.a. iid ∼ P oiss(λ) Entonces, X1 + X2 es suficiente para λ pues P ((X1 , X2 ) = (x1 , x2 )|X1 + X2 = t) = que es independiente de λ. t! 1 x1 !(t − x1 )! 2t Resolver si un estimador es suficiente o no, de forma directa, suele ser un problema de delicado y costoso en tiempo. Sin embargo, existe el siguiente criterio de suficiencia. Teorema 2.2.1. Sea X1 , . . . , Xn v.a. discretas con función de distribución de masa pθ (x1 , . . . , xn ). Entonces, T (X1 , . . . , Xn ) es suficiente para θ si y sólo si pθ (x1 , . . . , xn ) = h(x1 , . . . , xn ) gθ (T (x1 , . . . , xn )) donde h es una función no negativa que depende únicamente de x1 , . . . , xn y gθ es una función no negativa que depende únicamente de T (x1 , . . . , xn ) y de θ. Observación 2.2.15. El teorema 2.2.1 también es válido en el caso continuo aunque bajo ciertas condiciones de regularidad (ver Teorema 4.4.6 de Rohatgi ) que para las familias que vamos a tratar se verificarán. Estimadores insesgados Definición 2.2.16. Un estimador integrable T de θ es insesgado si Eθ (T ) = θ R donde Eθ (T ) indica Rn P T (x1 , . . . , xn )fθ (x1 , . . . , xn ) dx1 . . . dxn en el caso absolutamente continuo y {x1 ,...,xn } T (x1 , . . . , xn )pθ (x1 , . . . , xn ) en el caso discreto. Definición 2.2.17. Diremos que Bθ (T ) = Eθ (T )−θ es el sesgo de T al estimar θ. P Ejemplo 2.2.18. Vamos a probar que el estimador σˆ2 = n1 ni=1 (Xi − X n )2 para σ 2 del ejemplo 2.2.12 tiene sesgo. Observemos que Xi ∼ N (µ, σ 2 ) para i = 1, . . . , n y que según las propiedades 2 de la ley normal multivariante, X n ∼ N (µ, σn ). Por otra parte, n n X X 2 (Xi − X n )2 = Xi2 − nX n i=1 i=1 30 Métodos Cuantitativos II. 2009-2010. G.Garcı́a. Ası́, n X σ2 Eµ,σ2 ( (Xi − X n )2 ) = n(σ 2 + µ2 ) − n( + µ2 ) = (n − 1)σ 2 n i=1 Por lo tanto, (n − 1)σ 2 Eµ,σ2 (σˆ2 ) = n ˆ 2 Aún ası́ observemos que el sesgo de σ tiende a 0 cuando el tamaño muestral aumenta. Eficiencia Definición 2.2.19. Sea T un estimador de θ de cuadrado integrable. Introducimos el error cuadrático medio de T al estimar θ como M SEθ (T ) = Eθ (T − θ)2 En el caso de los estimadores insesgados para θ, el error cuadrático medio tiene la interpretación intuitiva de la precisión en la estimación del parámetro pues Eθ (T − θ)2 = Eθ (T − Eθ (T ))2 = var θ (T ) Definición 2.2.20. Sea U el conjunto de todos los estimadores insesgados T de θ ∈ Θ tales que Eθ (T 2 ) < ∞. Un estimador T0 ∈ U es UMVUE (uniformly minimum variance unbiased estimate) de θ si var θ (T0 ) ≤ var θ (T ) para todo t ∈ U y θ ∈ Θ Definición 2.2.21. Sean T1 y T2 dos estimadores insesgados de θ tales que Eθ T12 < ∞ y Eθ T22 < ∞. Definimos la eficiencia de T1 relativa a T2 como, ef θ (T1 |T2 ) = var θ (T1 ) var θ (T2 ) y diremos que T1 es más eficiente que T2 si ef θ (T1 |T2 ) < 1. Observación 2.2.22. Es posible extender todos estos conceptos a la estimación vectorial, definiendo M SEθ (T ) = Eθ kT − θk2 Métodos Cuantitativos II. 2009-2010. G.Garcı́a 31 Propiedades asintóticas Sea {Pθ ; θ ∈ Θ}, Θ ∈ Rk una familia no vacı́a de distribuciones de probabilidad y T un estimador de θ Sean X1 , X2 , . . . una sucesión de variables aleatorias con función de distribución común Pθ , para θ ∈ Θ. Sean T (X1 , . . . , Xn ) = Tn , n ≥ 1 una sucesión de estimadores puntuales de θ. Definición 2.2.23. (T )n es asintóticamente insesgado para θ si todo Tn es integrable y lı́m Bθ (Tn ) = 0 n→∞ Definición 2.2.24. (T )n es es consistente para θ si P − lı́m Tn = θ n→∞ Observación 2.2.25. Recordemos que P − lı́mn→∞ Tn = θ si y sólo si para todo ǫ > 0, lı́mn→∞ P (|Tn − θ| > ǫ) = 0. Ejemplo 2.2.26. Sean X1 , X2 , . . . v.a. iid ∼ Bern(p). Según la WLLN, Pn Xi =p P − limn→∞ i=1 n P y por lo tanto, la media muestral n1 ni=1 Xi es consistente para p. Ejemplo 2.2.27. En el ejemplo anterior, si lı́mn→∞ cn = 0, Pn Xi P − limn→∞ i=1 + cn = p n Definición 2.2.28. (T )n es asintóticamente eficiente para θ si todo Tn es de cuadrado integrable y lı́m M SEθ (Tn ) = 0 n→∞ 2.2.4. Cota de Cramér-Rao En esta sección vamos a considerar una de las desigualdades más importantes de la Estadı́stica Matemática que proporciona una cota inferior para la varianza de un estimador no sesgado. Veremos la versión unidimensional aunque existen las correspondientes versiones multidimensionales. 32 Métodos Cuantitativos II. 2009-2010. G.Garcı́a. Teorema 2.2.2. (Cota de Cramér-Rao) Sea Θ una intervalo abierto de R y {fθ ; θ ∈ Θ} una familia de funciones de densidad de probabilidad o de masa. ∂ fθ (x) existe Supongamos que ∂θ R para todo x y θ y que podemos derivar respecto θ bajo el signo integral Rn fθ (x)dx en el caso absolutamente continuo P y x fθ (x) en el caso discreto, esto es, ∂ ∂θ R Rn fθ (x)dx = ∂ ∂θ P x fθ (x) R ∂ Rn ∂θ fθ (x)dx = 0 ∂ x ∂θ fθ (x) = 0 = P Sea T un estimador insesgado de θ tal que Eθ T 2 < ∞ para todo θ ∈ Θ y verificando, además. ∂ ∂θ R Rn ∂ ∂θ Entonces, T (x)fθ (x)dx = P x T (x)fθ (x) = R Rn P x ∂ T (x) ∂θ fθ (x)dx ∂ T (x) ∂θ fθ (x) ∂ 1 ≤ varθ (T ) Eθ ( ln fθ (X))2 ∂θ para todo θ ∈ Θ. ∂ Observación 2.2.29. Si Eθ ( ∂θ ln fθ (X))2 > 0 la desigualdad de Cramér-Rao se escribe, ∂ Eθ ( ∂θ siendo 1 ∂ Eθ (( ∂θ ln fθ (X))2 ) 1 ≤ var θ (T ) ln fθ (X))2 conocido como la Cota de Cramér-Rao. ∂ ln fθ (X))2 es la información Definición 2.2.30. La cantidad In (θ) = Eθ ( ∂θ de Fisher. Observación 2.2.31. Si X = (X1 , . . . , Xn ) donde X1 , . . . , Xn son v.a. iid ∼ fθ , In (θ) = nI1 (θ). Ejemplo 2.2.32. Demuestra que X n es UMVUE para la media µ de una distribución N (µ, σ 2 ). En este caso, si X ∼ N (µ, σ 2 ) Métodos Cuantitativos II. 2009-2010. G.Garcı́a I1 (µ) = Eµ,σ2 " X −µ σ2 2 # 33 = 1 σ2 Ası́, In (µ) = n σ2 2 La cota de Cramér-Rao es σn . Como según, las propiedades de la distribución 2 normal multivariante X n ∼ N (µ, σn ), se tiene que X n es UMVUE para µ pues es un estimador insesgado que alcanza la cota de Cramér-Rao. 2.3. Regiones de confianza En muchos problemas de Inferencia Estadı́stica, el experimentador está interesado en construir una familia de conjuntos que contengan el verdadero valor del parámetro con una probabilidad (alta) especificada de antemano. Ese es el problema que aborda la estimación paramétrica via regiones de confianza. Definición 2.3.1. Sea PΘ = {Pθ ; θ ∈ Θ ⊂ Rk }, una familia de distribuciones de probabilidad de un vector aleatorio X. Una familia de conjuntos S(x) de Θ , donde S(x) depende de la observación x de X pero no de θ es una familia de conjuntos aleatorios. En particular, vamos a estar interesados en encontrar familias de conjuntos aleatorios S(x) para θ ∈ Θ verificando la siguiente condición, Definición 2.3.2. Diremos que una familia de conjuntos aleatorios S(x) para θ ∈ Θ es una familia de conjuntos de confianza al nivel 1 − α para θ si, Pθ (θ ∈ S(x)) ≥ 1 − α Ejemplo 2.3.3. Si k = 1 las regiones de confianza se conocen como intervalos de confianza. La construcción se basa en la existencia de estadı́sticos pivote para las diferentes situaciones. Supongamos que X ∼ N (µ, σ 2 ) donde σ 2 es conocida. En este caso, sabemos que, Xn − µ q ∼ N (0, 1) σ2 n De esta manera, 34 Métodos Cuantitativos II. 2009-2010. G.Garcı́a. Xn − µ P (−z1− α2 < q < z1− α2 ) = 1 − α) σ2 n donde z1− α2 es el valor de una distribución N (0, 1) tal que P (N (0, 1) ≤ z1− α2 ) = 1 − α2 . De aquı́, r r σ2 σ2 I(X) = (X n − z1− α2 < µ < X n − z1− α2 ) n n es in intervalo de confianza para µ con un nivel de confianza de 1 − α. Observación 2.3.4. Según el Teorema del Lı́mite Central, estos razonamientos también son válidos en el caso que X siga una distribución arbitraria pero el tamaño de la muestra n sea grande (n ≥ 30, suele ser un buen valor de referencia). Ejemplo 2.3.5. Si σ es desconocida, podemos utilizar el hecho que Xn − µ q ∼ tn−1 S2 n donde n S2 = 1 X (Xi − X n )2 n−1 i=1 De esta manera, un intervalo de confianza para µ al nivel de confianza 1 − α viene dado por r r S2 S2 I(X) = (X n − tn−1,1− α2 , X n − tn−1,1− α2 ) n n donde tn−1,1− α2 es un valor tal que la distribución tn−1 verifica P (tn−1 ≤ tn−1,1− α2 ) = 1 − α2 . Ejemplo 2.3.6. En el ejemplo anterior, si quisiéramos encontrar un intervalo de confianza para σ 2 al nivel 1 − α utilizarı́amos el hecho que (n − 1)S 2 ∼ χ2n−1 σ2 Ası́, un intervalo de confianza para σ 2 al nivel 1 − α viene dado por, Métodos Cuantitativos II. 2009-2010. G.Garcı́a I(X) = ( 35 (n − 1)S 2 (n − 1)S 2 , ) χ2n−1,1− α χ2n−1, α 2 α 2 donde P (χ2n−1 ≤ χ2n−1,1− α ) = 1 − 2 2 y P (χ2n−1 ≤ χ2n−1, α ) = α2 . 2 Ejemplo 2.3.7. Si quisiéramos encontrar una región de confianza para (µ, σ 2 ) simultáneamente podemos utilizar la información de los ejemplos 2.3.5 y 2.3.6 y la desigualdad de Boole. Supongamos que hemos construido un intervalo de confianza al 1 − α1 % para µ (con σ 2 desconocida) y al 1 − α2 % para σ 2 . Para simplificar las notaciones, denotemos tn−1,1− α1 como t y los valores crı́ticos 2 de la χ2n−1 , esto es χ2n−1, α2 y χ2n−1,1− α2 , respectivamente como a y b. 2 2 Recordemos que dados dos conjuntos cualesquiera A y B, se verifica, 1 ≥ P (A ∪ B) = P (A) + P (B) − P (A ∩ B) Por lo tanto, P (A ∩ B) ≥ P (A) + P (B) − 1 Como P (A) = 1 − P (Ac ) y P (B) = 1 − P (B c ), sustituyendo en la desigualdad previa tenemos P (A ∩ B) ≥ 1 − P (Ac ) + 1 − P (B c ) − 1, esto es P (A ∩ B) ≥ 1 − P (Ac ) − P (B c ) Aplicando esta última expresión a los conjuntos ( r r ) S2 S2 A = Xn − t < µ < Xn + t n n y B= (n − 1)S 2 (n − 1)S 2 < σ2 < b a podemos escribir, P ( Xn − t r S2 < µ < Xn + t n ≥1−P ( r S2 n ) r S2 ó X n + t n µ ≤ Xn − t ∩ (n − 1)S 2 (n − 1)S 2 < σ2 < b a r )! S2 ≤µ − n ! ≥ 36 Métodos Cuantitativos II. 2009-2010. G.Garcı́a. −P σ2 ≤ (n − 1)S 2 (n − 1)S 2 ó ≤ σ2 b a = 1 − α1 − α2 esto es el producto cartesiano S(X) = Xn − t r S2 , Xn + t n r S2 n ! × (n − 1)S 2 (n − 1)S 2 , b a es una región de confianza para (µ, σ 2 ) al 1 − α1 − α2 %. 2.4. Contraste de hipótesis: el enfoque clásico Anteriormente hemos considerado el problema de la estimación puntual a partir de una muestra de una población cuya distribución de probabilidad es conocida excepto por un número finito de parámetros desconocidos. Abordamos ahora otro problema de gran importancia en Inferencia Estadı́stica: el del contraste de hipótesis pero según el enfoque clásico. Sean X1 , . . . , Xn son v.a. iid distribuidas como X ∼ Pθ , θ ∈ Θ ⊂ Rk . Supondremos que Pθ es conocida excepto por el parámetro θ y que Θ contiene como mı́nimo dos puntos. Definición 2.4.1. Una hipótesis paramétrica es una afirmación sobre el parámetro desconocido θ. Habitualmente se denomina hipótesis nula y se escribe en la forma H0 : θ ∈ Θ0 ⊂ Θ. La afirmación H1 : θ ∈ Θ1 = Θ − Θ0 se denomina hipótesis alternativa. Si Θ0 ( o bien Θ1 ) contiene un único punto, diremos que H0 (respectivamente H1 ) es simple. Observemos que si una hipótesis es simple, la distribución de X está completamente especificada bajo la correspondiente hipótesis. En el contexto del contraste de hipótesis, existen dos tipos de error que se pueden llegar a cometer, el de tipo I y de tipo II. Verdadero Decisión H0 H1 No rechazar H0 Correcto Error tipo II Rechazar H0 Error tipo I Correcto Métodos Cuantitativos II. 2009-2010. G.Garcı́a 37 Definición 2.4.2. Diremos que P (Rechazar H0 | H0 cierta) es el tamaño o nivel de significación del contraste. Definición 2.4.3. Introducimos la potencia en θ ∈ Θ potencia(θ) = Pθ (Rechazar H0 ) esto es la probabilidad de rechazar H0 cuando el verdadero valor del parámetro es θ. Definición 2.4.4. Introducimos la función o curva caracterı́stica del contraste como la aplicación, θ 7→ β(θ) = 1 − potencia(θ). Dados dos contrastes con el mismo nivel de significación, escogeremos el que tenga menos probabilidades de error de tipo II, lo que habitualmente se resume diciendo que escogemos el más potente. Definición 2.4.5. Un test de nivel α con función caracterı́tica β0 se denomina el test uniformemente más potente (UMP) si para cualquier otro test de nivel α con función de caracterı́stica β se verifica, β0 (θ) ≤ β(θ) uniformemente en θ ∈ Θ1 El problema que se presenta es el de encontrar un test UMP para las diferentes situaciones de interés pues en general no podremos afirmar su existencia. El problema del contraste de hipótesis puede ser descrito como sigue. Dadas x1 , . . . , xn realizaciones de X1 , . . . , Xn , estamos interesado en encontrar una regla de decisión δ de manera que δ(x1 , . . . , xn ) nos lleve a rechazar o no rechazar la hipótesis nula. En otras palabras y suponiendo que δ sea a valores en R, la teorı́a clásica del contraste de hipótesis persigue encontrar una partición disjunta R = A0 ∪ A1 tal que si δ(x1 , . . . , xn ) ∈ A1 , rechacemos la hipótesis nula y si x ∈ A0 no la rechacemos. Definición 2.4.6. Un subconjunto A1 ⊂ Rn tal que si δ(x1 , . . . , xn ) ∈ A1 , entonces H0 se rechaza, se denomina región crı́tica. Definición 2.4.7. Si A1 es la región crı́tica de un test de hipótesis, Pθ (A1 ) para θ ∈ Θ0 es la probabilidad del error de tipo I y Pθ (A0 ) para θ ∈ Θ1 es la probabilidad del error de tipo II. 38 Métodos Cuantitativos II. 2009-2010. G.Garcı́a. Idealmente, estarı́amos interesados en encontrar una región crı́tica A1 para la que estas dos probabilidades sean nulas. En la práctica se procede de la siguiente forma: se limita la probabilidad del error de tipo I a un valor preasignado α (habitualmente 0,05 o 0,01) que sea pequeño y se minimiza la probabilidad de error de tipo II. Ejemplo 2.4.8. Sea X ∼ N (µ, σ) siendo µ desconocida y σ conocida. Sea Θ0 = {µ0 } ⊂ R y Θ1 = {µ1 } con µ1 > µ0 y escribamos, H 0 : µ = µ0 H 1 : µ = µ1 Sean X1 , . . . , Xn v.a. iid N (µ, σ 2 ). Introducimos el estadı́stico de test, Xn − µ q ∼ N (0, 1) σ2 n Bajo la hipótesis nula, X n − µ0 q ∼ N (0, 1) σ2 n Ası́, dado 0 < α < 1, si z1−α es un valor tal que P (N (0, 1) < z1−α ) = 1 − α, tenemos que,   X n − µ0 α = Pµ0  q > z1−α  = P (Error de tipo I) σ2 n La potencia del test en µ1 ∈ Θ1 es, Pµ1 X n > µ0 + z1−α r σ2 n !  X − µ µ − µ n 1 0 1 > q + z1−α  = = Pµ1  q  σ2 n σ2 n   X − µ µ1 − µ0  n 1 q = Pµ1 > z1−α − q  σ2 σ2  n Por ser µ1 > µ0 se tiene que z1−α − n µq 1 −µ0 σ2 n < z1−α . Por otra parte, si µ1 es el valor correcto para la media de la distribución, tenemos Métodos Cuantitativos II. 2009-2010. G.Garcı́a X n − µ1 q ∼ N (0, 1) σ2 n Ası́ podemos concluir que la potencia del test en µ1 ∈ Θ1 verifica r ! σ2 potencia(µ1 ) = Pµ1 X n > µ0 + z1−α >α n y por lo tanto P (Error de tipo II ) = 1 − potencia(µ1 ) < 1 − α 39

Métodos Cuantitativos II

Documentos relacionados

Productos

Apoyo

Métodos Cuantitativos II

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib