M. Iniesta Universidad de Murcia INFERENCIA ESTADÍSTICA Tema 3.1: Muestreo Ob jetivos Tratar con muestras aleatorias y su distribución muestral en ejemplos de tamaño reducido. Tratar con la distribución de la media muestral a partir de muestras normales y binomiales y a partir de muestras no normales pero de tamaño grande. Calcular probabilidades asociadas a los estadísticos más importantes. 1. Inferencia Estadística Los procedimientos de Inferencia Estadística permiten establecer conclusiones acerca de una población, a partir de las propiedades estudiadas en una muestra de ella. Además, como dichas conclusiones dependen de sucesos aleatorios, se les asociará un nivel de conanza o de verosimilitud. Respecto del objetivo que resuelve, las técnicas de Inferencia Estadística se clasican en: Técnicas de Inferencia Paramétrica Resuelve objetivos relacionados con paráme- tros de la población (media, varianzas, proporciones, etc.,) es decir, se conoce el tipo de distribución de probabilidad asociado a dicha población aunque se desconoce algún parámetro de dicho modelo. Por ejemplo, podemos suponer que los pesos de los recién nacidos de madres diabéticas son normales, pero de media y/o varianza desconocidas. O podemos suponer que el tiempo de vida de cierto componente es exponencial de media desconocida. Técnicas de Inferencia No Paramétrica Resuelve objetivos relacionados con el ti- po de distribución de probabilidad asociado a la población u otros objetivos no relacionados directamente con parámetros. Estos procedimientos no se estudiarán. Para resolver un problema de Inferencia Paramétrica se usan tres tipos de procedimientos: Estimación Puntual Obtenemos valores aproximados del parámetro desconocido y una medida del error asociado. Estimación por Intervalos Obtenemos un intervalo de valores, que contiene al verdadero valor del parámetro con probabilidad prejada por nosotros. Test de Hipótesis Obtenemos la aceptación o el rechazo de una hipótesis relacionada con el parámetro desconocido, con niveles de error controlados. Página: 1 M. Iniesta Universidad de Murcia 2. Muestras aleatorias Denición de Muestra Aleatoria Simple. Decimos que la variable aleatoria n−dimensional (X1 , ...., Xn ) es una muestra aleatoria simple (m.a.s.) de tamaño n procedente de la v.a. X si son idénticamente distribuidas como X e independientes, es decir, si se cumplen las dos siguientes condiciones: 1. f1 (x) = ..... = fn (x) = f (x), donde fi es la función puntual de probabilidad (caso discreto) o la función de densidad (caso continuo) de Xi y f es la función puntual de probabilidad (caso discreto) o la función de densidad (caso continuo) de X 2. g(x1 , ..., xn ) = f1 (x1 ).....fn (xn ) = f (x1 ).....f (xn ), donde g(x1 , ..., xn ) es la función puntual de probabilidad (caso discreto) o la función de densidad (caso continuo) de la variable aleatoria n−dimensional (X1 , ...., Xn ) Ejemplo Si en una urna tenemos 50 bolas blancas, 30 rojas y 20 verdes, las posibles muestras aleatorias simples de tamaño dos (X1 , X2 ), (muestras de tamaño 2 con reemplazamiento), y sus probabilidades asociadas aparecen en la siguiente tabla. 2 blancas (0.25) 1 blanca y 1 roja (0.30) 2 rojas (0.09) 1 blanca y 1 verde (0.20) 1 verde y 1 roja (0.12) 2 verdes (0.04) Nota En poblaciones nitas y muestreo sin reemplazamiento, las muestras resultantes no cumplen los requisitos de la denición anterior, por lo que siempre se supondrá muestreo con reemplazamiento. 3. Estadísticos y Distribución en el muestreo Si (X1 , ...., Xn ) es una m.a.s. procedente de X , cualquier función real de la muestra H(X1 , ...., Xn ) = H se denomina estadístico. Un estadístico es por tanto una variable aleatoria y como tal posee su distribución de probabilidad. Ésta se denomina Distribución en el muestreo del estadístico H . Ejemplo Si del ejemplo anterior, las bolas blancas llevan un 1, las rojas un 2 y las verdes un 3, 2 es un estadístico llamado media muestral, cuya la función de la muestra X = X1 +X 2 distribución de probabilidad en el muestreo es la siguiente: x p(X = x) 1 1.5 2 2.5 3 0.25 0.30 0.29 0.12 0.04 Página: 2 M. Iniesta Universidad de Murcia 4. Algunos Estadísticos importantes Supongamos que (X1 , ...., Xn ) es una muestra aleatoria simple de tamaño n procedente de X con E(X) = µ y D(X) = σ . Algunos estadísticos importantes son los siguientes: Suma Sn = Pn i=1 Xi , cumple las siguiente propiedades: E(Sn ) = nµ, para todo n. √ D(Sn ) = nσ . √ Si X ∼ N (µ, σ), entonces Sn ∼ N (nµ, nσ) Si la distribución de X no es normal, pero n es grande (n > 20) podemos √ aproximar la distribución de Sn a una normal, es decir, Sn ∼aprox N (nµ, nσ) Media Muestral X n = X = Pn i=1 n Xi , cumple las siguiente propiedades: E(X) = µ, para todo n. D(X) = √σ n . Si X ∼ N (µ, σ), entonces X ∼ N (µ, √σn ) Si la distribución de X no es normal, pero n es grande (n > 20) podemos aproximar la distribución de X a una normal, por el teorema central del límite. Es decir, X ∼aprox N (µ, √σn ) Varianza y Cuasivarianza Muestral 2 s = y 2 S = Pn i=1 (Xi − X)2 n Pn − X)2 n−1 i=1 (Xi entonces se tiene: E(S 2 ) = σ 2 La propiedad anterior hace más apropiado a S 2 en problemas de inferencia. Para tamaños muestrales grandes ambas medidas son muy aproximadas y en n cualquier caso S 2 = n−1 s2 √ √ Desviación y Cuasidesviación típica s = s2 y S = S 2 , respectivamente. 5. Distribuciones Asociadas a la Distribución Normal Supongamos que {Z1 , ...., Zn } es una muestra aleatoria simple procedente de una distribución normal de media cero y desviación típica uno, es decir, Zj ∼ N (0, 1), ∀j . Vamos a construir unos estadísticos que serán habituales en los procedimientos de inferencia estadística. Página: 3 M. Iniesta Universidad de Murcia 1. La variable U = Z12 + .... + Zn2 sigue una distribución llamada Chi-cuadrado de Pearson, con n grados de libertad, que lo indicaremos poniendo U ∼ χ2n 2. La variable F = U n V m donde U ∼ χ2n , V ∼ χ2m e independientes, sigue una distribución llamada F de Snedecor con n grados de libertad en el numerador y m grados de libertad en el denominador. Lo indicaremos poniendo F ∼ Fn,m 3. Si ahora U ∼ χ2n y Z ∼ N (0, 1) y Z y U son independientes, la variable Z t= q U n sigue una distribución llamada t de Student con n grados de libertad y lo indicaremos poniendo t ∼ tn 6. Ejemplos de Estadísticos útiles para inferencia En los ejemplos siguientes se supone una muestra aleatoria simple (X1 , ...., Xn ) de tamaño n procedente de X para denir los estadísticos siguientes: Si X ∼ N (µ, σ): X̄ ∼ N S2 = q Pn σ µ, √ n i=1 X̄−µ √ σ n (n−1)S 2 (n−1)σ 2 ; Z= (Xi − X̄)2 ; n−1 = X̄ − µ √S n X̄ − µ √σ n ∼ N (0, 1) (n − 1)S 2 ∼ χ2n−1 σ2 ∼ tn−1 Si la distribución de X no es normal pero n es grande, aproximadamente. X̄ − µ √S n ∼ N (0, 1) Si X ∼ B(p) (Bernoulli), donde p = P (A) X̄ − p Si n ≥ 30, q ∼ N (0, 1) aproximadamente. p(1−p) n En esta situación X̄ indica la frecuencia relativa del suceso A, es decir, la proporción del número de veces que sucede A en n pruebas independientes y que denotaremos por pb. Página: 4 M. Iniesta Universidad de Murcia Si X ∼ P(λ) X −λ ∼ N (0, 1) aproximadamente. Si n ≥ 30, p λ/n 7. Actividades 1. Calcular la distribución de probabilidad de la media muestral a partir de muestras aleatorias simples de tamaños 3 de la variable aleatoria X =número de caras al tirar dos monedas al aire. Calcular la media y la varianza de la media muestral. 2. Continuando con el mismo ejercicio, calcular la distribución de probabilidad de la varianza muestral, así como la del mínimo y el máximo de la muestra. 3. Si X1 , X2 , ..., Xn es una muestra aleatoria simple procedente de una variable aleatoria X con función de densidad dada por f (x) = 3x2 /θ3 , con 0 ≤ x ≤ θ, calcula la distribución de probabilidad de M = máx{X1 , X2 , ..., Xn }. 4. De una variable aleatoria X ∼ N (−1, σ) se extrae una muestra aleatoria simple de tamaño 10, cuyo resultado es: {1.03, −1.079, 1.45, −2.54, 0.37, −0.60, 0.53, 0.28, −2.21, −2.66}, calcular P (X > 1.2), donde X es la variable media muestral, a partir de muestras aleatorias de tamaño 10. Página: 5