ESTADÍSTICA, CURSO 2008–2009 1 TEMA 3: INFERENCIA ESTADISTICA 1 INTRODUCCION • Población. • Muestra, muestreo. • Objetivos de la inferencia estadı́stica. • Métodos paramétricos y no paramétricos. 2 TEORIA ELEMENTAL DEL MUESTREO 2.1 CONCEPTOS BASICOS • Muestreo aleatorio. • Muestreo con y sin reemplazamiento. • Parámetros poblacionales. • Distribución de probabilidad conjunta: P (X1 = x1 , X2 = x2 , . . . , Xn = xn ) = f (x1 , x2 , . . . , xn ) = f (x1 )f (x2 ) . . . f (xn ) • Estadı́stico. • Distribución muestral de un estadı́stico. 2.2 DISTRIBUCION MUESTRAL DE LA MEDIA X= X1 + X2 + . . . + Xn n ; x= x1 + x2 + . . . + xn n E(Xi ) = µXi = µ E(X) = E X1 + X2 + . . . + Xn n = ⇒ 1 1 (E(X1 ) + E(X2 ) + . . . + E(Xn )) = (nµ) n n µX = E(X) = µ 2 Var(Xi ) = σX = σ2 i Var(X) = Var X1 + X2 + . . . + Xn n = 1 1 1 Var(X1 ) + 2 Var(X2 ) + . . . + 2 Var(Xn ) = n2 n n ESTADÍSTICA, CURSO 2008–2009 =n 1 2 σ n2 2 σ2 2 σX = E (X − µ)2 = Var(X) = n ⇒ Muestreo sin reemplazamiento: 2 σX σ2 = Var(X) = n N −n N −1 Para una distribución cualquiera la variable tipificada: Z= X −µ √ σ/ n tiende N (0, 1) cuando n tiende a ∞. Pn Y − i=1 µi nX − nµ X −µ √ = √ = Z = pPn 2 2 σ/ n nσ i=1 σi √ Si la población es N (µ, σ) la media muestral es N (µ, σ/ n), con independencia de n. 2.3 DISTRIBUCION MUESTRAL DE UNA PROPORCION µP = E(P ) = µ = p σ2 = n σP2 2.4 ; σP2 = Var(P ) = N −n N −1 pq = n σ2 pq p(1 − p) = = n n n N −n N −1 DISTRIBUCION MUESTRAL DE LA DIFERENCIA DE MEDIAS Dadas dos poblaciones cualesquiera caracterizadas por (µ1 , σ1 ) y (µ2 , σ2 ) µX1 −X2 = µX1 − µX2 = µ1 − µ2 2 σX 1 −X2 2 2 = σX + σX = 1 2 σ12 σ2 + 2 n1 n2 La variable tipificada: Z= (X1 − X2 ) − (µ1 − µ2 ) q 2 σ1 σ22 n1 + n2 tiende a N (0, 1) cuando n1 y n2 tienden a ∞. En la práctica, se utiliza esta aproximación cuando n1 + n2 > 30 y n1 ' n2 . Distribución muestral de la diferencia de proporciones: µP1 −P2 = µP1 − µP2 = p1 − p2 σP2 1 −P2 = σP2 + σP2 = 1 2 p1 q1 p2 q2 + n1 n2 ESTADÍSTICA, CURSO 2008–2009 2.5 3 VARIANZA MUESTRAL S2 = Pn − X)2 n−1 i=1 (Xi s2 = ; Pn − x)2 n−1 i=1 (xi E(S 2 ) = µS 2 = σ 2 Demostración: n n n n X X X 2 X (Xi − X)2 = (Xi − µ)2 − 2(X − µ) (Xi − µ) + n(X − µ)2 (Xi − µ) − (X − µ) = i=1 i=1 i=1 = i=1 n n X X (Xi − µ)2 − n(X − µ)2 (Xi − µ)2 − 2(X − µ)n(X − µ) + n(X − µ)2 = i=1 i=1 2 Pn E(S ) = E 1 E(S ) = n−1 2 − X)2 n−1 i=1 (Xi n X ! 2 σX i − 2 nσX n X 1 = n−1 = i=1 ! E (Xi − µ) 2 − nE (X − µ) 2 i=1 1 n−1 σ2 1 (n − 1)σ 2 = σ 2 nσ 2 − n = n n−1 Definición alternativa: S 02 Pn i=1 (Xi = − X)2 n 2 E(S 0 ) = n−1 2 σ n Muestreo sin reemplazamiento: 2 E(S ) = µS 2 = 2.5.1 N N −1 σ2 Distribución muestral de (n − 1)S 2 /σ 2 S2 (n − 1) 2 = σ n X (Xi − µ)2 = n X Pn i=1 (Xi σ2 − X)2 (Xi − X)2 + n(X − µ)2 i=1 i=1 2 n X Xi − µ (n − 1)S 2 = + σ2 i=1 σ X −µ √ σ/ n 2 (χ2n = χ2n−1 + χ21 ) Entonces, la siguiente variable aleatoria obedece a una distribución χ2 con (n − 1) grados de libertad: χ2n−1 = (n − 1) S2 σ2 ESTADÍSTICA, CURSO 2008–2009 2.6 4 EL ESTADISTICO t t= t= X −µ √ S/ n √ (X − µ)/σ (X − µ)/(σ/ n) Z √ = p =q (S/σ)/ n 2 S 2 /σ 2 χn−1 /(n − 1) El estadı́stico t sigue una distribución t de Student con (n − 1) grados de libertad. 2.7 DISTRIBUCION MUESTRAL DE LA RAZON DE VARIANZAS F = χ2n1 −1 = (n1 − 1) S12 σ12 F = S12 /σ12 S22 /σ22 χ2n2 −1 = (n2 − 1) ; S22 σ22 χ2n1 −1 /(n1 − 1) χ2n2 −1 /(n2 − 1) El estadı́stico F tiene una distribución F de Fisher con (n1 − 1) y (n2 − 1) grados de libertad. 3 ESTIMACION DE PARAMETROS • Estimación de parámetros poblacionales. • Estimador • Propiedades de un estimador A de un parámetro poblacional α: 1. Insesgado: E(A) = µA = α 2. A1 más eficiente que A2 : 2 2 σA < σA 1 2 3. Consistente lim A = α n→∞ • Estimación puntual y por intervalos de confianza. ; 2 lim σA =0 n→∞ ESTADÍSTICA, CURSO 2008–2009 3.1 3.1.1 5 ESTIMACION PUNTUAL Principales estimadores puntuales • Población N (µ, σ). Estimadores puntuales de µ y σ 2 son la media X y la varianza muestral S 2 respectivamente. Insesgados pues: E(X) = µ E(S 2 ) = σ 2 ; • Distribución binomial de parámetro p. Estimador: proporción de éxitos P . Insesgado pues: E(P ) = p • Distribución de Poisson con parámetro λ. Estimador: Pn λ= 3.1.2 i=1 Xi n El método de máxima verosimilitud Función de verosimilitud: L(X1 , X2 , . . . , Xn ; α) = f (X1 , X2 , . . . , Xn ; α) = f (X1 , α)f (X2 , α) . . . f (Xn , α) El estimador de máxima verosimilitud es el valor de α que hace máxima L: 1 dL d ln L = =0 dα L dα • Distribución binomial: f (x, p) = px (1 − p)1−x = L= n Y 1−p p ; ; x=0 x=1 f (xi , p) = pf (1 − p)n−f i=1 ln L = f ln p + (n − f ) ln (1 − p) d ln L f n−f = − =0 dp p 1−p p(n − f ) = f − f p ⇒ p(n − f + f ) = f • Distribución normal N (µ, σ): L= n Y (xi −µ)2 1 √ e− 2σ2 σ 2π i=1 ⇒ p= f n ESTADÍSTICA, CURSO 2008–2009 ln L = n X i=1 6 √ (xi − µ)2 − ln 2π − ln σ − 2σ 2 =− n n 1 X ln 2π − ln σ 2 − 2 (xi − µ)2 2 2 2σ ∂ ln L 1 X (xi − µ) = 0 = − 22 ∂µ 2σ X (xi − µ) = 0 ⇒ X ⇒ Pn xi − nµ = 0 ⇒ µ= i=1 xi n n 1 1 X ∂ ln L = − + (xi − µ)2 = 0 ∂σ 2 2 σ2 2σ 4 2 nσ = 3.2 X (xi − µ) 2 ⇒ 2 σ = Pn i=1 (xi − µ)2 n ESTIMACION POR INTERVALOS DE CONFIANZA • Intervalo de confianza. • Estimador por intervalo: L1 = f1 (X1 , X2 , . . . , Xn ) ; L2 = f2 (X1 , X2 , . . . , Xn ) • Nivel de confianza 1 − α (β = parámetro poblacional): P (L1 < β < L2 ) = 1 − α Sea un estadı́stico B con distribución muestral normal: P (µB − σB < B < µB + σB ) = 0.6827 P (B − σB < µB < B + σB ) = 0.6827 P (µB − 2σB < B < µB + 2σB ) = 0.9544 ⇒ P (B − 2σB < µB < B + 2σB ) = 0.9544 P (µB − 3σB < B < µB + 3σB ) = 0.9973 P (B − 3σB < µB < B + 3σB ) = 0.9973 P (B − 1.96σB < µB < B + 1.96σB ) = 0.95 P (B − 2.58σB < µB < B + 2.58σB ) = 0.99 P (B − zα/2 σB < µB < B + zα/2 σB ) = 1 − α 3.2.1 Intervalos de confianza para la media A) Distribución normal: ESTADÍSTICA, CURSO 2008–2009 7 • Varianza poblacional σ 2 conocida: P (X − zα/2 σX < µX < X + zα/2 σX ) = 1 − α P ⇒ σ σ =1−α X − zα/2 √ < µ < X + zα/2 √ n n P −zα/2 < X −µ √ < zα/2 σ/ n =1−α σ I = X ± zα/2 √ n Muestreo sin reemplazamiento en población finita: " σ I = X ± zα/2 √ n r N −n N −1 # • Varianza poblacional σ 2 desconocida y n > 30: S S P X − zα/2 √ < µ < X + zα/2 √ =1−α n n S I = X ± zα/2 √ n • Varianza poblacional σ 2 desconocida y n < 30: X −µ √ < tα/2,n−1 = 1 − α P −tα/2,n−1 < S/ n P S S X − tα/2,n−1 √ < µ < X + tα/2,n−1 √ n n =1−α S I = X ± tα/2,n−1 √ n B) Para muestras grandes de cualquier población: S I = X ± zα/2 √ n • Intervalo de confianza para una proporción (distribución binomial) P P − zα/2 s P (1 − P ) < p < P + zα/2 n I = P ± zα/2 s s P (1 − P ) =1−α n P (1 − P ) n ESTADÍSTICA, CURSO 2008–2009 8 • Intervalo de confianza para el parámetro λ de una distribución de Poisson s λ < λ < λ + zα/2 n P λ − zα/2 s λ =1−α n s λ I = λ ± zα/2 n 3.2.2 Intervalos de confianza para la diferencia de medias A) Poblaciones normales: • Varianzas poblacionales σ12 y σ22 conocidas: s P (X1 − X2 ) − zα/2 σ12 σ2 + 2 < µ1 − µ2 < (X1 − X2 ) + zα/2 n1 n2 s I = (X1 − X2 ) ± zα/2 s σ12 σ22 + =1−α n1 n2 σ12 σ22 + n1 n2 • Varianzas poblacionales σ12 y σ22 desconocidas y n1 + n2 > 30 (con n1 ' n2 ): s P (X1 − X2 ) − zα/2 S12 n1 + S22 n2 s < µ1 − µ2 < (X1 − X2 ) + zα/2 s I = (X1 − X2 ) ± zα/2 S12 n1 + S22 n2 =1−α S12 S22 + n1 n2 • Varianzas poblacionales σ12 y σ22 desconocidas con σ1 = σ2 (muestras pequeñas): Z= (X1 − X2 ) − (µ1 − µ2 ) (X1 − X2 ) − (µ1 − µ2 ) q 2 r = 2 σ1 σ2 + σ 2 n11 + n12 n1 n2 χ2n1 +n2 −2 = (n1 − 1)S12 (n2 − 1)S22 (n1 − 1)S12 + (n2 − 1)S22 + = 2 2 σ σ σ2 (X1 − X2 ) − (µ1 − µ2 ) r T = σ 2 n11 + n12 ,s Sp2 = (X1 − X2 ) − (µ1 − µ2 ) (n1 − 1)S12 + (n2 − 1)S22 q = σ 2 (n1 + n2 − 2) Sp n11 + n12 (n1 − 1)S12 + (n2 − 1)S22 n1 + n2 − 2 ESTADÍSTICA, CURSO 2008–2009 9 (X1 − X2 ) − (µ1 − µ2 ) q < < tα/2,n1 +n2 −2 = 1 − α Sp n11 + n12 P −tα/2,n1 +n2 −2 r r 1 1 1 1 P (X1 − X2 ) − tα/2 Sp + < µ1 − µ2 < (X1 − X2 ) + tα/2 Sp + =1−α n1 n2 n1 n2 r 1 1 I = (X1 − X2 ) ± tα/2,n1 +n2 −2 Sp + n1 n2 • Varianzas poblacionales σ12 y σ22 desconocidas con σ1 6= σ2 (muestras pequeñas): T = (X1 − X2 ) − (µ1 − µ2 ) q 2 S1 S22 n1 + n2 f= s P (X1 − X2 ) − tα/2,f S12 n1 + S22 n2 S12 n1 + (S12 /n1 )2 n1 +1 + S22 n2 2 (S22 /n2 )2 n2 +1 −2 s < µ1 − µ2 < (X1 − X2 ) + tα/2,f s I = (X1 − X2 ) ± tα/2,f S12 n1 S12 n1 + S22 n2 B) Distribuciones no normales y muestras grandes: s I = (X1 − X2 ) ± zα/2 S12 n1 + S22 n2 • Intervalo de confianza para la diferencia de proporciones σp21 −p2 = p1 (1 − p1 ) p2 (1 − p2 ) + n1 n2 I = (P1 − P2 ) ± zα/2 s P1 (1 − P1 ) P2 (1 − P2 ) + n1 n2 + S22 n2 =1−α ESTADÍSTICA, CURSO 2008–2009 3.2.3 10 Intervalo de confianza para la varianza P P (n − 1)S 2 2 χ21−α/2,n−1 < < χ =1−α α/2,n−1 σ2 χ21−α/2,n−1 (n − 1)S 2 P χ2α/2,n−1 1 < 2 < σ (n − 1)S 2 ! (n − 1)S 2 (n − 1)S 2 < σ2 < 2 2 χα/2,n−1 χ1−α/2,n−1 " =1−α ⇒ ! (n − 1)S 2 (n − 1)S 2 I= , χ2α/2,n−1 χ21−α/2,n−1 =1−α # Desviación tı́pica: "s I= 3.2.4 (n − 1)S 2 , χ2α/2,n−1 s # (n − 1)S 2 χ21−α/2,n−1 Intervalo de confianza para la razón de varianzas P F1−α/2;n1 −1,n2 −1 < P =1−α S12 1 σ2 S2 1 < 12 < 12 2 S2 Fα/2;n1 −1,n2 −1 σ2 S2 F1−α/2;n1 −1,n2 −1 P S12 /σ12 < Fα/2;n1 −1,n2 −1 S22 /σ22 S12 1 σ2 S2 < 12 < 12 Fα/2;n2 −1,n1 −1 2 S2 Fα/2;n1 −1,n2 −1 σ2 S2 3.2.5 Determinación del tamaño de la muestra σ l = 2zα/2 √ n P (X − < µ < X + ) = 1 − α σ = zα/2 √ n ⇒ 2 n = zα/2 σ2 2 =1−α 1 S2 S12 , 12 Fα/2;n2 −1,n1 −1 I= 2 S2 Fα/2;n1 −1,n2 −1 S2 =1−α