Análisis estadístico de datos simulados Estimadores por intervalos Georgina Flesia FaMAF 7 de mayo, 2013 Estimador por intervalos Un estimador por intervalo de un parámetro es un intervalo aleatorio con una probabilidad de cobertura para el parámetro. Sean X1 , . . . , Xn independientes e idénticamente distribuídos F (θ). Quiero encontrar L(X1 , . . . , Xn ), R(X1 , . . . , Xn ) tal que P (L(X1 , . . . , Xn ) ≤ θ ≤ R(X1 , . . . , Xn )) = 1 − α La confianza que se da al intervalo es la probabilidad de que el intervalo contenga al parámetro, usualmente 1 − α. Estimador por intervalos Estimador por intervalo de la media poblacional Sean X1 , . . . , Xn i.i.d con media µ. Quiero encontrar L(X1 , . . . , Xn ), R(X1 , . . . , Xn ) tal que P (L(X1 , . . . , Xn ) ≤ µ ≤ R(X1 , . . . , Xn )) = 1 − α Sabemos que I X (n) es un estimador puntual de la media basado en X1 , . . . , Xn . I Si la población es normal con media µ y d.s. σ, X (n) − µ √ ∼ Z = N(0, 1) σ/ n Ejemplo Supongamos 1 − α = 0.95, entonces P |X (n) − µ| √ ≤ 1.96 σ n ! = 0.95. σ σ P X (n) − 1.96 √ ≤ θ ≤ X (n) + 1.96 √ n n Este es un intervalo posible, el de menor ancho con probabilidad fija 1 − α, y es simétrico. Estimador por intervalos I El intervalo aleatorio con extremos √ X (n) − 1.96 σ/ n y √ X (n) + 1.96 σ/ n se dice que es un estimador por intervalo, con un 95% de confianza para la media µ. I Si x es un valor observado de X (n), el intervalo con extremos √ √ x − 1.96 σ/ n y x + 1.96 σ/ n es el valor estimado del estimador por intervalo de µ, con un 95% de confianza. Estimador por intervalos: Significado I I I 1.96σ 1.96σ (X − √ , X + √ ). n n z0.025 = 1.96. El 95% de los intervalos cubren la media. Estimador por intervalo de la media poblacional I X (n) es un estimador puntual de la media. I Si la población es normal con media θ y d.s. σ, X (n) − θ √ ∼ Z = N(0, 1) σ/ n I P(Z > zα ) = α, para 0 < α < 1. I Si el nivel de confianza deseado es 1 − α, ! |X (n) − µ| √ P ≤ zα/2 = 1 − α. σ n σ σ P X (n) − zα/2 √ ≤ θ ≤ X (n) + zα/2 √ = 1 − α. n n Estimador por intervalos I El intervalo aleatorio con extremos √ X (n) − zα/2 σ/ n y √ X (n) + zα/2 σ/ n se dice que es un estimador por intervalo, con un 100(1 − α)% de confianza para la media µ. I Si x es un valor observado de X (n), el intervalo con extremos √ √ x − zα/2 σ/ n y x + zα/2 σ/ n es el valor estimado del estimador por intervalo de µ, con un 100(1 − α)% de confianza. Estimador por intervalos I Si la varianza σ 2 es desconocida, utilizamos el estimador S 2 (n). I Para determinar un intervalo de confianza, es necesario conocer la distribución del estadístico: √ X (n) − θ n S(n) Distribuciones derivadas de la normal I χ2 de Pearson con k grados de libertad: si Z1 , Z2 , . . . , Zk son v.a. N(0,1), independientes: χ2k = Z12 + · · · + Zk2 I Tk de Student, con k grados de libertad: (W. S. Gosset) Z Tk = r χ2k k Estimador por intervalos Distribuciones derivadas de la normal I Si X1 , X2 , . . . , Xk son v.a. N(µ, σ 2 ), independientes: el estadístico S 2 tiene una distribución Tn−1 : √ X (n) − µ n ∼ Tn−1 S(n) I Sea tα tal que P(|Tn−1 | > tα ) = 1 − α. S(n) S(n) = 1 − α. P X (n) − tα/2 √ ≤ µ ≤ X (n) + tα/2 √ n n Estimador por intervalos I El intervalo aleatorio con extremos √ X (n) − tα/2 S(n)/ n y √ X (n) + tα/2 S(n)/ n se dice que es un estimador por intervalo, con un 100(1 − α)% de confianza para la media µ con σ desconocido. I Si x es un valor observado de X (n), el intervalo con extremos √ √ x − tα/2 s/ n y x + tα/2 s/ n es el valor estimado del estimador por intervalo de µ, con un 100(1 − α)% de confianza, con σ desconocido. I Para n > 120, puede usarse la distribución normal, es decir, tα ≈ zα . Intervalos de confianza para proporciones I X1 , X2 , . . . , Xn : Bernoulli, independientes, con probabilidad p de éxito. I Para n suficientemente grande tal que np y n(1 − p) es mayor que 5, X1 + · · · + Xn = Bi(n, p) ∼ N(np, np(1 − p). I Si p es desconocido, podemos estimar p con la media muestral: p̂ = X (n) I y Var(p̂) = p̂(1 − p̂) . n Intervalos de confianza del 100(1 − α)%: ! r r p̂(1 − p̂) p̂(1 − p̂) , p̂ + zα/2 p̂ − zα/2 n n Longitud del intervalo de confianza I Estimación de la media: s(n): valor observado de la varianza muestral. zα/2 σ zα/2 s(n) 2 √ o 2 √ . n n I Estimación de la proporción: r 2zα/2 I p̂(1 − p̂) n La longitud del intervalo de confianza al 100(1 − α)% depende del tamaño de la muestra. Cuando parar una simulación para estimar la media I Definir α y d, para el nivel de confianza y el del error. I Generar al menos 30 datos. I Continuar generado datos hasta que k , el número de datos generados produzca zα/2 σ 2 √ ≤d n I si σ es desconocido S(k ) debe ser calculado a cada paso 2 zα/2 s(k ) √ ≤d n