Estadística inferencial 2 - Matemáticas en el IES Valle del Oja

Tema 6: ESTADÍSTICA INFERENCIAL. MUESTREO Profesor: Francisco J. Agudo Garcı́a Curso 2009 - 2010 Índice 1. Introducción 2 2. Muestreo 3 3. Distribución Normal 5 3.1. Tipificación de la variable . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 3.2. La distribución Binomial se aproxima a la normal . . . . . . . . . . . 7 4. Estimación de Parámetros 8 5. Distribuciones muestrales 8 5.1. Distribución muestral de medias . . . . . . . . . . . . . . . . . . . . . . . 8 5.2. Distribución muestral de proporciones . . . . . . . . . . . . . . . . . . . 10 6. Estimación Puntual 11 7. Intervalos de Probabilidad 12 7.1. Intervalo de probabilidad para la media muestral X . . . . . . . . . 13 7.2. Intervalo de probabilidad para la proporción muestral p̂ . . . . . . 15 8. Estimación por intervalos 15 8.1. Estimación de la media de una población µ . . . . . . . . . . . . . . . . 16 8.2. Estimación de una proporción p . . . . . . . . . . . . . . . . . . . . . . . . 17 8.3. Error máximo admisible . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 8.4. Tamaño de las muestras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 1 Matemáticas Aplicadas a las C.S. II Estadı́stica inferencial 9. Actividades Finales 19 10.Anexo I: Tabla de la Distribución Normal Estandar 21 11.Anexo II 22 12.Anexo III: La Distribución Binomial 23 1. Introducción La palabra Inferir signica: Sacar una consecuencia de una cosa. Sacar consecuencia o deducir una cosa de otra. La estadı́stica es la ciencia o rama de las Matemáticas que se ocupa de recoger datos, analizarlos y organizarlos, y también de realizar las predicciones que sobre esos datos puedan deducirse, tiene dos vertientes básicas: Estadı́stica descriptiva: Básicamente se ocupa de la 1a parte, es decir, a partir de ciertos datos, analizarlos y organizarlos. Es aquı́ donde tiene sentido calcular la media, mediana, moda, varianza, desviación tı́pica, etc. Es la parte que estudiamos el año pasado. Estadı́stica inferencial: Se ocupa de predecir y sacar conclusiones para una población, tomando como base una muestra (es decir , una parte ) de dicha población. Teniendo en cuenta que cualquier predicción siempre ha de hacerse bajo un cierto grado de fiabilidad o confianza. Esta vertiente de la estadı́stica es la que estudiaremos en esta unidad didáctica y en la siguiente. En ocasiones el tamaño de la población es muy grande y frecuentemente no es posible estudiar todos sus elementos (por razones de tiempo, economı́a, etc). Por eso lo que nos interesa es estudiar una muestra y deducir o inferir las caracterı́sticas de la población a partir de las caracterı́sticas de la muestra: La estadı́stica Inferencial se ocupa de deducir o inferir las caracterı́sticas de la población a partir de las de la muestra. Podemos dividir la estadı́stica inferencial en: Estadı́stiva Inductiva, cuyo objetivo es estimar los parámetros de una población • mediante un único valor: estimación puntual • mediante un intervalo: estimación por intervalos Estadı́stica Deductiva, cuyo objetivo es comprobar si la información que nos proporciona la muestra permite afirmar o no, una suposición previa (hipótesis) formulada sobre la población, mediante el contraste de hipótesis que trataremos en la siguiente unidad. Recordamos algunos términos estadı́sticos: Población: es el conjunto de elementos objeto del estudio estadı́stico. Individuo: es cada elemento de la población. Muestra: es el subconjunto o parte de la muestra que tomamos para hacer el estudio. IES Mar Serena 2 Curso 09/10 Matemáticas Aplicadas a las C.S. II Estadı́stica inferencial Tamaño de la muestra: es el número de individuos que la componen. Es muy importante distinguir entre los parámetros poblacionales o simplemente parámetros, que son los ı́ndices centrales, de dispersión , etc, de TODA la población y que en la práctica no son calculables. Y los parámetros muestrales o estadı́sticos, que son los ı́ndices centrales, de dispersión, etc de la muestra, que son los que se calculan para estimar los parámetros. Los estadı́sticos que más vamos a utilizar son: La media muestral: x La desviación tı́pica muestral: s 2. Muestreo Ya sabemos que una población es el conjunto de individuos sobre los que hacemos cierto estudio, y que una muestra es un subconjunto de la población. Es evidente que los resultados de una determinada encuesta tendrán un mayor grado de fiabilidad si dicha encuesta se realiza sobre la población completa. Sin embargo, en la mayorı́a de las ocasiones esto no es posible, debido a múltiples razones, como por ejemplo: Imposibilidad material Hacer una encuesta a los casi 41 millones de españoles es imposible, o hacer un estudio sobre la fecha de caducidad de un producto. Si lo hacemos con todos los productos ¿qué vendemos luego? Imposibilidad temporal Hacer un estudio sobre la duración de una bombilla. ¿Cuánto debemos esperar para saberlo?. Por tanto, es habitual que tengamos que manejarnos con muestras, de modo que es importante saber elegir bien una muestra de la población, una muestra que represente bien a dicha población y que nos permita con un alto grado de fiabilidad inferir o predecir las caracterı́sticas de la población. Hay muchas maneras de elegir una muestra de una población, Pero antes de pasar a analizar dichas formas de extracción de muestras, lo que si hemos de dejar claro es que todas las muestras han de cumplir varias condiciones indispensables. Es evidente que para que el estudio a realizar sea fiable, hay que cuidar mucho la elección de la muestra, para que represente en la medida de lo posible a la poblacion de la que se extrae. Si la muestra está mal elegida, diremos que no es representativa. En este caso, se pueden producir errores imprevistos e incontrolados. Dichos errores se denominan sesgos y diremos que la muestra está sesgada. Una de las condiciones para que una muestra sea representativa es que el sistema que se utilize para elegirla sea aleatorio, es decir, que todos los individuos de la población tengan las mismas posibilidades de ser elegidos, mientras que si la elección de la muestra es subjetiva, es probable que resulte sesgada. Las distintas maneras de elegir una muestra de una población se denominan muestreos y básicamente hay dos tipos de muestreos: IES Mar Serena 3 Curso 09/10 Matemáticas Aplicadas a las C.S. II Estadı́stica inferencial 1. Muestreo no probabilı́stico: El investigador no elige la muestra al azar, sino mediante determinados criterios subjetivos. Los individuos de la población no tienen la misma probabilidad de ser incluidos en la muestra. En este tipo de muestreo suele ser muy escasa la representatividad y por tanto, poco válidas las inferencias que pueden hacerse. 2. Muestreo probabilı́stico o aleatorio: Es el que se realiza teniendo en cuenta que cada miembro de la población tiene la misma probabilidad de ser elegido en la muestra. Con este tipo de muestreo, las muestras suelen ser más representativas, es posible conocer los errores cometidos y pueden hacerse inferencias estadı́sticas. En este caso podemos distinguir varios tipos: Muestreo aleatorio simple: Aquel en el que cada individuo de la población tiene las mismas posibilidades de salir en la muestra. Muestreo sistemático: En el que se elige un individuo al azar y a partir de él, a intervalos constantes, se eligen los demás hasta completar la muestra. Muestreo estratificado: Se divide la población en clases o estratos y se escoge, aleatoriamente, un número de individuos de cada estrato proporcional al número de componentes de cada estrato. Muestreo por conglomerados: Si no disponemos de la relación de los elementos de la población, o de los posibles estratos, no podemos aplicar los muestreos anteriores. Aquı́ entra el llamado muestreo por conglomerados, donde en lugar de elegir individuos directamente, se eligen unidades más amplias donde se clasifican los elementos de la población, llamados conglomerados. En cada etapa del muestreo en lugar de seleccionar elementos al azar seleccionamos conglomerados. Los conglomerados deben ser tan heterogéneos como la población a estudiar, para que la represente bien. Luego se elegirı́an algunos de los conglomerados al azar, y dentro de éstos, analizar todos sus elementos o tomar una muestra aleatoria simple. No debemos confundir estrato y conglomerado. Un estrato es homogéneo (sus elementos tienen las mismas caracterı́sticas), mientras que un conglomeardo es heterogéneo (debe representar bien a la población). En cualquier caso hemos de asumir que un error en el muestreo ocasionará que los resultados que proporcione la muestra no coincidan o estén alejados de los valores reales de la población. Pueden darse dos tipos de errores: Error aleatorio muestral. Para reducir este error hay que aumentar el tamaño de la muestra. Error sistemático o Sesgo. Va asociado al proceso de selección de la muestra y se reduce mejorando esta selección. Veamos la diferencia de estos muestreos mediante el siguiente ejemplo: Imaginemos que hemos de recoger una muestra de 20 alumnos de entre los de un 600 instituto. 1 Muestreo aleatorio simple: Elegirı́amos un alumno al azar (probabilidad de elegirlo 600 ). 1 Lo devolvemos a la población y se elige otro (probabilidad de elegirlo 600 ), y ası́ hasta 20. Observa que si no devolviésemos al alumno, entonces, la probabilidad de escoger al 1 2o alumno serı́a 599 , y ya no todos tendrı́an la misma probabilidad de ser elegidos. 1 El problema es que entonces permitimos que se puedan repetir individuos. 1 Recuerda las extracciones con y sin reemplazamiento IES Mar Serena 4 Curso 09/10 Matemáticas Aplicadas a las C.S. II Estadı́stica inferencial Muestreo sistemático: Como hemos de elegir 20 alumnos de 600, es decir, 1 de cada 30, se procede ası́: Se ordenan los alumnos y se numeran, se elige uno al azar, por ejemplo el alumno 27, y luego los demás se eligen a partir de este a intervalos de 30 alumnos. Escogerı́amos por tanto a los alumnos: 27,57,87,117,147,177,207,237,267,297,327,357,387,417,447,477,507,537,567,597 Muestreo estratificado: Como queremos que la muestra sea representativa, lo mejor será conocer cuántos alumnos de cada curso hay, es decir, si hay 200 alumnos de 3o ESO, 150 de 4o ESO, 150 de 1o Bachillerato y 100 de 2o Bachillerato, procederı́amos ası́: Como de 600 en total hemos de elegir a 20, de 200 de 3o de ESO hemos de elegir x 20 600 = x 200 −→ x = 4000 600 = 6, 6 ≈ 7 alumnos de 3o ESO De igual manera, utilizando una regla de tres, podemos calcular los alumnos correspondientes a los demás cursos: 7 alumnos son de 3o , 5 alumnos de 4o , 5 alumnos de 1o y 3 alumnos de 2o . Por último, para la elección de cada alumno dentro de cada curso utilizamos el muestreo aleatorio simple. Muestreo por conglomerados: Para ver este muestreo, hemos de cambiar el ejemplo. Supongamos que queremos extraer una muestra aleatoria de los estudiantes universitarios del paı́s. Necesitariamos una lista con todos ellos para poder realizar algún muestreo del tipo de los 3 anteriores, lo cuál es muy difı́cil de conseguir. Sin embargo, los estudiantes estan clasificados por Universidades, Facultades y Clases. Podemos seleccionar en una primera etapa algunas Universidades, después algunas facultades al azar, dentro de las facultades algunas clases y dentro de las clases, algunos estudiantes por muestreo aleatorio simple. Los conglomerados en cada etapa serı́an las diferentes Universidades, las diferentes facultades y las diferentes clases. Como vemos los conglomerados son unidades amplias y heterogéneas. Ejercicio 1: En una población de 1500 jóvenes, 7500 adultos y 1000 ancianos, se hace una encuesta a 200 personas para conocer sus actividades de ocio preferidas. Si se utiliza un muestreo estratificado, ¿qué tamaño muestral corresponde a cada estrato?. 3. Distribución Normal En este punto vamos a recordar la distribución de probabilidad normal que es fundamental para comprender los puntos siguientes. La campana de Gauss, curva de Gauss o curva normal es una función de probabilidad continua y simétrica, cuyo máximo coincide con la media µ. Esta curva fue descrita por el matemático alemán Carl F. Gauss, que llegó a ella estudiando los errores que se cometen al medir reiteradamente una cierta magnitud2 . 2 Al efectuar una misma observación astronómica o geodésica repetidas veces, obtenı́a valores diferentes debido a errores humanos y a errores de los aparatos de medida. Para resolver este problema formuló la teorı́a de mı́nimos cuadrados, de gran utilidad práctica. IES Mar Serena 5 Curso 09/10 Matemáticas Aplicadas a las C.S. II Estadı́stica inferencial La gran importancia de esta distribución se debe a la enorme frecuencia con que aparece en las situaciones más variadas, entre las muchas variables que se distribuyen normalmente podemos citar: Caracteres morfológicos como peso, talla, etc Caracteres fisiológicos, como por ejemplo el efecto de una misma dosis de un fármaco. Caracteres sociológicos, como por ejemplo el consumo de ciertos productos por individuos de un mismo grupo humano. Caracteres fı́sicos, como por ejemplo la resistencia a la rotura de piezas aparentemente idénticas. Y en general cualquier caracterı́stica que se obtenga como suma de muchos factores Figura 1: Distribución Normal µ es la media, σ es la desviación tı́pica Si X es una variable aleatoria que sigue la Distribución Normal, entonces es suficiente con conocer su media µ y su desviación tı́pica σ para que quede completamente determinada. Se dice entonces que X = N (µ, σ). La distribución Z = N (0, 1) se conoce como normal estandar( µ = 0 y σ = 1 ). Se encuentra tabulada y resulta sencillo calcular probabilidades que se corresponden con las áreas encerradas bajo la curva. La tabla la tienes en el epı́grafe Anexo I. 3.1. Tipificación de la variable Cuando una variable normal X no sigue la distribución estandar N (0, 1) sino una N (µ, σ) entonces hay que tipificar la variable, es decir, transformarla en una variable estandar. Para ello se hace el cambio de variable: X −µ Z= σ Con lo que el cálculo de probabilidades se reduce a: P (X ≤ a) = P IES Mar Serena X −µ a−µ a−µ ≤ =P Z≤ σ σ σ 6 Curso 09/10 Matemáticas Aplicadas a las C.S. II Estadı́stica inferencial y éstas se encuentran en la tabla. Por ejemplo, en una distribución X = N (14, 4) hallar P (X ≤ 20) 20 − 14 X − 14 ≤ = P (Z ≤ 1, 5) = 0, 9332 P (X ≤ 20) = P 4 4 Como ya habrás observado (y recordarás del curso pasado), en la tabla sólo encontramos los valores correspondientes a P (Z ≤ a) con a ≥ 0. En los demás casos hemos de usar propiedades de la curva normal, como la simetrı́a, para llegar al resultado. En el epı́grafe Anexo II tienes ejemplos de todos los casos posibles. 3.2. La distribución Binomial se aproxima a la normal En el curso anterior estudiamos las distribuciones binomiales B(n, p) anexo III. Son distribuciones de probabilidad discretas3 , que responden a la función de probabilidad: n r P (X = k) = siendo la media µ = n · p y la desviación tı́pica σ = El cálculo de expresiones de la forma n r ! pk q n−k √ n · p · q. ! pk q n−k , resulta muy laborioso y complicado sobre todo cuando n es grande. El matemático Abraham de Moivre (1667-1754) demostró el siguiente resultado que, bajo ciertas condiciones, permite aproximar la distribución binomial por una distribución normal: Teorema 1 Si X es una variable discreta que sigue la distribución binomial X = B(n, p), √ entonces la variable X se aproxima a una variable normal Y = N (n · p, n · p · q) √ B(n, p) ≈ N (n · p, n · p · q) La bondad de la aproximación4 es mayor cuanto mayor es n y cuanto más próximo está p a 0,5. Ejercicio 2: Se efectúan 15 lanzamientos de una moneda. Calcula la probabilidad de que: a)Salgan exactamente 9 caras. b)Salgan entre 8 y 12 caras, ambas inclusive. Nota a tener en cuenta: Corrección de Yates Cuando aproximamos una distribución Binomial mediante una Normal, estamos convirtiendo una variable discreta en variable continua. Para variables continuas la probabilidad de que la variable tome un valor fijo es nula, P (X = a) = 0. Para evitar este problema, en la aproximación de los valores fijos, estos se corrigen sustituyéndolos por un intervalo centrado en el valor y de amplitud la unidad. Ası́ para X = a se considera a − 0, 5 ≤ X ≤ a + 0, 5. Utiliza la corrección de Yates para resolver el ejercicio propuesto. 3 Son aquellas en las que la variable sólo toma un número finito o numerable de valores Esta aproximación está especialmente indicada cuando n es mayor que 10, ya que las tablas binomiales ofrecen valores hasta n=10 4 IES Mar Serena 7 Curso 09/10 Matemáticas Aplicadas a las C.S. II 4. Estadı́stica inferencial Estimación de Parámetros Como el objetivo principal de la estadı́stica inferencial es el estudio de la población y realizar predicciones acerca de ella (pero a partir de una muestra de ella, no de la población entera), en principio tendremos que estimar los ı́ndices de la población a partir de los ı́ndices correspondientes para la muestra. En una primera aproximación, parece lógico pensar que si por ejemplo, queremos determinar la media de una cierta población, si hemos cogido una muestra representativa la media de la muestra (que es fácilmente calculable porque tenemos los datos) será muy parecida a la de la población y por tanto nos sirva para estimarla. Por tanto debemos distinguir entre: 1. Parámetros poblacionales: Que son los ı́ndices centrales y de dispersión que definen a una población. Representaremos la media poblacional µ y la desviación tı́pica poblacional σ. En el caso de proporciones, la proporción de población que tiene una determinada caracterı́stica la denotaremos por p y la proporción que no la cumple por q = 1 − p (como en la Distribución Binomial) 2. Estadı́sticos poblacionales: Son los ı́ndices centrales y de dispersión que definen a una muestra. Representaremos la media muestral por x̄ y la desviación tı́pica muestral por s. En el caso de proporciones, la proporción de muestra que tiene una determinada caracterı́stica la denotaremos por p̂ y la proporción que no la cumple por q̂ = 1 − p̂. ¿Cuál es el problema de la estimación entonces?. Como vamos a disponer de una muestra, lo que podemos calcular es x̄ y s (o bien p̂ y q̂), y a partir de estos intentar estimar quienes tienen que ser µ y σ (o bien p y q), los reales para la población. Para ello hemos de conocer cuál es la relación entre un estadı́stico y el correspondiente parámetro. Es necesario conocer la distribución muestral de estos estadı́sticos. 5. 5.1. Distribuciones muestrales Distribución muestral de medias Comenzamos por la situación de obtener conclusiones sobre la media de la población a partir del estudio de medias obtenidas de las muestras. Si tenemos una población de parámetros desconocidos µ y σ, y tomamos una muestra, podemos calcular la media muestral, x¯1 , que tendrá cierta relación con µ. Podrı́amos tomar otra muestra, de igual tamaño n, y calcular de nuevo su media muestral x¯2 , que también estará relacionada con µ. Ası́ sucesivamente, podemos considerar una variable aleatoria X̄n , que asigna a cada muestra su media y podemos estudiar entonces su distribución denominada distribución muestral de medias. IES Mar Serena 8 Curso 09/10 Matemáticas Aplicadas a las C.S. II Estadı́stica inferencial Teorema 2 Si la población sigue una distribución normal N (µ, σ), donde µ y σ son desconocidos, si elegimos todas las muestras de cierto tamaño (n), de forma que sean representativas, entonces: La media de las medias muestrales de todas las muestras posibles, es igual a la media poblacional, es decir: x¯1 + x¯2 + · · · + x¯k x̄ = =µ k La desviación tı́pica de las medias muestrales posibles es: σ sx̄ = √ n Conclusión: Las medias de las muestras de tamaño n extraı́das de una población de parámetros µ y σ , se aproximan por una distribución: σ X −→ N µ, √ n ! siempre que n sea suficientemente grande. En la práctica se considera que n es suficientemente grande si n ≥ 30. Notas importantes a tener en cuenta: 1. Este resultado se conoce como Teorema central del lı́mite 2. Si la población es normal, el resultado se cumple para muestras de CUALQUIER tamaño (incluso menor que 30). 3. En la práctica suele ocurrir que σ es desconocida. En estos casos el resultado sigue siendo válido aproximando σ por la desviación tı́pica muestral s, siempre que n sea suficientemente grande (n ≥ 100) . Ejercicio 3: La altura de los estudiantes de cierta población se distribuye según una normal de media 167 y desviación tı́pica 3,2. a) Calcula la probabilidad de que un estudiante mida menos de 165 cm. b) Se toma una muestra de 10 estudiantes. Calcula la probabilidad de que la media muestral sea menor que 165 cm. Ejercicio 4: Los pesos de los tornillos que fabrica cierta máquina se distribuyen según una N (142, 32 , 8, 5) (medidas en gramos). Se toman muestras de 25 tornillos. Calcular: a) Distribución que siguen las medias de esas muestras. b) Probabilidad de que una muestra elegida al azar de 25 tornillos tenga un peso medio superior a 144,6 gramos. c) La misma pregunta si la muestra es de 100 tornillos. Ejercicio 5: Una máquina ha fabricado piezas de precisión con un peso medio de 150 gr. y una desviación tı́pica de 20 gr. Calcular la probabilidad de que una muestra de 80 piezas tenga un peso medio de más de 155 gr. (Solución: 0’0129) IES Mar Serena 9 Curso 09/10 Matemáticas Aplicadas a las C.S. II Estadı́stica inferencial Ejercicio 6: Sabemos que el gasto mensual en electricidad (por familia) se distribuye normalmente con media 142,32 e y desviación tı́pica 8,5 e. a) Halla la probabilidad de que una muestra de 25 familias elegidas al azar, tenga un gasto medio superior a 144,6 e. b) Realiza el mismo cálculo si la muestra que se toma es de 100 familias. 5.2. Distribución muestral de proporciones Cuando en una población estudiamos cierta caracterı́stica que sólo puede tomar dos valores: sı́ (éxito) o no (fracaso) nos encontramos con la distribución binomial. Nos planteamos ahora determinar qué proporción de una población posee un cierto atributo, por ejemplo si es fumador o no fumador, si tiene ordenador o no, si tiene alergia o no,etc... El estudio de este tipo de proporciones es equiparable al de una distribución binomial (donde sólo hay dos posibilidades). Cada una de las muestras que extraigamos tendrá un porcentaje de individuos con esa misma caracterı́stica. Llamamos p al parámetro poblacional, que es la proporción de uno de los valores que presenta la variable aleatoria en la población y q al parámetro poblacional para el otro valor (q = 1 − p). Si extraemos muestras de tamaño n, para cada muestra tendremos un estadı́stico proporción muestral que llamamos p̂ . La distribución que asocia a cada muestra su proporción es la distribución muestral de proporciones. Como para poblaciones grandes sabemos que la binomial se aproxima a una normal, aplicando razonamientos similares a los del apartado anterior se tiene el siguiente: Teorema 3 Las proporciones muestrales de tamaño n ≥ 30, extraı́das de una población en la que la probabilidad de éxito es p, se ajustan a una normal r N p, p·q n En la práctica se considera que la aproximación es buena para n ≥ 30, n · p ≥ 5 y n · q ≥ 5. En la práctica habitualmente ocurre que las proporciones poblacionales p y q son desconocidas. En estos casos se aproximan por las respectivas de una muestra p̂. Esto se puede hacer por ser p̂ un estimador insesgado, como veremos en el epı́grafe siguiente. Ejercicio 7: Una fábrica de pasteles fabrica, en su producción habitual, un 3 % de pasteles defectuosos. Un cliente recibe un pedido de 500 pasteles de la fábrica. a) Probabilidad de que encuentre más del 5 % de pasteles defectuosos. b) Probabilidad de que encuentre menos de un 1 % de pasteles defectuosos. Ejercicio 8: De una población de 120 alumnos, hay 48 que tienen 2 o más hermanos. Si de dicha población se toman muestras de tamaño 40. a) ¿Qué distribución siguen las proporciones muestrales?. b) ¿Cuál es la probabilidad de que se encuentre en dicha muestra una proporción de más del IES Mar Serena 10 Curso 09/10 Matemáticas Aplicadas a las C.S. II Estadı́stica inferencial 55 % de alumnos con 2 o más hermanos?. Ejercicio 9: En un saco mezclamos judı́as blancas y pintas en la relación de 14 blancas por cada pinta. Extraemos un puñado de 100 judı́as. Calcula la probabilidad de que la proporción de judı́as pintas esté comprendida entre 0,05 y 0,1. Ejercicio 10: Una población está formada por los elementos 1, 2, 4 y 6 a) Obtén todas las muestras con reemplazamiento de tamaño 2 y calcula la proporción de cifras pares de cada muestra. b) Calcula la media y la desviación tı́pica de la distribución muestral de proporciones. c) Compara los resultados con los que conocemos teóricamente (Teorema 3). 6. Estimación Puntual Comenzamos este tema estudiando la teorı́a de muestras y hemos visto cómo la estadı́stica inferencial trata de inferir información sobre una población, utilizando muestras extraidas aleatoriamente de esa población. Dentro de la estadı́stica inferencial está la estadı́stica inductiva, que trata de estimar parámetros poblacionales a partir de sus correspondientes estadı́sticos muestrales. Esta estimación puede hacerse de dos formas: Estimación puntual Estimación por intervalos Por ejemplo si decimos que la estatura media de los españoles es de 1,75 m. estamos haciendo una estimación puntual, mientras que si decimos que la estatura media está entre 1,72 y 1,78 m. estamos haciendo una estimación por intervalos. Por tanto la estimación puntual consiste en estimar mediante un único valor el parámetro poblacional desconocido. Las estimaciones puntuales son más precisas que las estimaciones por intervalos, que veremos en el epı́grafe 8, sin embargo, son menos fiables. En la estimación puntual el estadı́stico que usamos para la estimación se llama estimador puntual. Éstos pueden ser: Insesgados: Si la media de la distribución muestral del estadı́stico coincide con su correspondiente parámetro poblacional. Según hemos visto en el punto anterior: • La media muestral x̂ es un estimador insesgado de la media poblacional µ • La proporción muestral p̂ es un estimador insesgado de la proporción poblacional p Sesgados: Si la media de la distribución muestral del estadı́stico NO coincide con su correspondiente parámetro poblacional. En general siempre debemos escoger estimadores insesgados 5 5 Si hay más de un estimador insesgado para un mismo parámetro, se escoge el más eficiente, en el sentido de que su distribución muestral tenga menos dispersión IES Mar Serena 11 Curso 09/10 Matemáticas Aplicadas a las C.S. II 7. Estadı́stica inferencial Intervalos de Probabilidad En una variable normal cualquiera N (µ, σ), se verifica que: 1. En el intervalo (µ − σ, µ + σ) está el 68’26 % de la población. 2. En el intervalo (µ − 2 · σ, µ + 2 · σ) está el 95’44 % de la población. 3. En el intervalo (µ − 3 · σ, µ + 3 · σ) está el 99’74 % de la población. Figura 2: Porcentajes de población en los diferentes intervalos simétricos de la normal estandar N (0, 1). Es evidente que a medida que el intervalo se amplı́a, hay mayor porcentaje de la población en él. En general, dado un porcentaje del N % , siempre es posible encontrar un intervalo simétrico respecto de la media de forma que dicho intervalo contenga a dicho porcentaje de población. Más explicitamente, se denomina intervalo de probabilidad a aquel intervalo para el cuál se sabe que hay una seguridad del N % de que los parámetros muestrales (x̄ o p̂) se encuentren en dicho intervalo. La seguridad N viene fijada previamente. Se denomina Nivel de confianza al número: 1−α= N 100 y llamaremos Nivel de significación al valor α. Nota: El nivel de confianza vendrá explicitado en las condiciones del problema, por ejemplo: Si queremos que el 85 % de la población esté en el intervalo, el nivel de confianza será 1 − α = 85 = 0, 85 mientras que el nivel de significación será α = 0,15. 100 IES Mar Serena 12 Curso 09/10 Matemáticas Aplicadas a las C.S. II 7.1. Estadı́stica inferencial Intervalo de probabilidad para la media muestral X Si la población sigue una distribución de parámetros µ y σ, y las muestras son de tamaño n ≥ 30 (o bien la población es normal y las muestras pueden ser de cualquier tamaño), sabemos que la media muestral x̄ sigue una distribución:   σ X −→ N µ, √  n Se trata de encontrar el valor de k como en la figura: Figura 3: Buscamos el valor de k que deje en el intervalo (µ − k, µ + k) al (1 − α) · 100 % de la población. Razonemos ahora sobre la normal Z −→ N (0, 1) que es la que se encuentra tabulada: Si queremos que el intervalo buscado contenga a la media muestral con una confianza de 1 − α, entonces fuera del intervalo el área tiene que ser de α, y como la curva es simétrica, en α cada una de las ramas fuera de la región sombreada tenemos un área de 2 . Llamaremos z α2 al punto situado en eje x que separa la región sombreada de la otra. Figura 4: En la tabla de la N (0, 1) buscamos el valor z α2 de modo que en el intervalo (−z α2 , z α2 ) esté el (1 − α) % de la población. IES Mar Serena 13 Curso 09/10 Matemáticas Aplicadas a las C.S. II N Ahora bien, este valor corresponde µ , √σn debemos tipificar: Estadı́stica inferencial a una Normal N (0, 1), como nosotros manejamos una k−µ √σ n = z α2 Y despejando encontramos el valor buscado: σ k = µ + √ · z α2 n De modo que, dado el nivel de significación α o el de confianza 1 − α, podemos determinar el intervalo de probabilidad para la media muestral, que será:   σ σ µ − √ · z α , µ + √ · z α  n 2 n 2 Veamos algún ejemplo: Sabiendo que la población de recién nacidos sigue una normal de media µ=3100 gr. y desviación tipica σ=150 gr.Calcular el intervalo de probabilidad con un nivel de confianza del 95 % para la media de una muestra de 100 recién nacidos. Solución: Para un nivel de confianza del 95 %, el nivel de significación es α = 0.05 y en cada zona fuera de la región queda α2 = 0.025 Debemos buscar en la tabla de la N (0, 1) el valor z0,025 , es decir, el valor que deja a su derecha un área de 0.025 P (Z ≥ z0,025 ) = 0,025 =⇒ P (Z ≤ z0,025 ) = 0,975 =⇒ z0,025 = 1,96 | {z mira en la tabla } Figura 5: Obtención del valor z para un nivel de confianza del 95 % Sabemos que la media muestral sigue una distribución: 150 N 3100 , √ 100 ! Por tanto el intervalo buscado es : 150 150 3100 − 1,96 · √ , 3100 + 1,96 · √ 100 100 IES Mar Serena 14 ! = (3070,6 , 3129,4) Curso 09/10 Matemáticas Aplicadas a las C.S. II Estadı́stica inferencial Esto significa que el 95 % de las muestras de tamaño 100 tendrá su media comprendida entre estos dos valores: (3070,6 , 3129,4). Nota: Como n es 100 ≥ 30 el resultado también serı́a cierto incluso si el peso de los recien nacidos fuera una variable que no siguiera una distribución normal. Ejercicio 11: Las notas de una población de 150 alumnos siguen una distribución de media 5,5 y varianza σ 2 = 4,1616. Extraemos muestras de tamaño 36. Calcula el intervalo de probabilidad para un nivel de confianza del: a)75 % b) 86’64 %, e interpreta los resultados. 7.2. Intervalo de probabilidad para la proporción muestral p̂ Razonando de manera análoga podemos llegar a obtener un intervalo para la proporción muestral p̂ con un nivel de significación α. p·q p·q , p + z α2 · p − z α2 · n n s s ! donde p y q son las proporciones poblacionales y n ≥ 30. Ejercicio 12: Sabiendo que la proporción de alumnos con teléfono móvil de una población de 120 alumnos es de p = 0, 7. Halla el intervalo de probabilidad para la proporción de: a) las muestras de tamaño 30 con una confianza del 75 %. b) las muestras de tamaño 49 con una confianza del 90 %. c) las muestras de tamaño 49 con una confianza del 99 %. 8. Estimación por intervalos Si queremos estimar la estatura de un jugador de baloncesto y decimos “1,85 metros” estamos haciendo una estimación puntual que no dice nada sobre la seguridad o duda de que esto sea cierto, sin embargo si decimos: “estoy casi seguro que mide entre 1,80 y 1,90”, entonces tenemos un cierto grado de confianza de que eso sea cierto. Es por esto que la estimación puntual se utiliza poco, pues no tenemos datos suficientes que nos indiquen el grado de fiabilidad del dato muestral que hemos tomado. Lo que tiene más sentido plantearse es cúal es la probabilidad de que la media o proporción poblacional pertenezcan a un intervalo determinado. Logicaménte cuanto mayor sea el intervalo mayor será el grado de confianza que podamos tener, aunque tambien será mayor el error que cometamos al hacer la estimación. IES Mar Serena 15 Curso 09/10 Matemáticas Aplicadas a las C.S. II 8.1. Estadı́stica inferencial Estimación de la media de una población µ La media µ de una población es desconocida y deseamos conocerla. Para ello, basándonos en los intervalos de probabilidad, sabemos que si la población tiene parámetros µ y σ, la media muestral x̄ sigue una distribución:   σ X −→ N µ, √  n siendo n el tamaño de la muestra. Sabemos también que el intervalo de probabilidad para x̄ con un nivel de confianza (1 − α) es:   σ σ µ − √ · z α , µ + √ · z α  n 2 n 2 De donde se tiene que: σ σ µ − √ · z α2 ≤ x̄ ≤ µ + √ · z α2 n n Ahora despejando µ en la primera desigualdad: σ µ ≤ x̄ + √ · z α2 n y despejando en la segunda desigualdad: σ µ ≥ x̄ − √ · z α2 n Por lo que: σ σ x̄ − √ · z α2 ≤ µ ≤ x̄ + √ · z α2 n n Conclusión: El intervalo de confianza para la media µ desconocida es:   σ σ x̄ − √ · z α , x̄ + √ · z α  n 2 n 2 Notas: Este resultado es cierto siempre que tengamos la certeza de que la población objeto de estudio sigue la distribución normal, o bien, que el tamaño de las muestras sea suficientemente grande (n ≥ 30). Recuerda el teorema2. Cuando la desviación tı́pica poblacional σ es desconocida, en su lugar se usa la desviación tı́pica muestral s, con lo que el intervalo queda:   s s x̄ − √ · z α , x̄ + √ · z α  n 2 n 2 σ Al valor √n se le llama Error tı́pico IES Mar Serena 16 Curso 09/10 Matemáticas Aplicadas a las C.S. II Estadı́stica inferencial Ejercicio 13: Para estimar la media de los resultados que obtendrı́an al resolver un cierto test los alumnos de 4o de E.S.O. de la Comunidad de Andalucı́a, se les pasa el test a 400 alumnos escogidos al azar, con los resultados de la siguiente tabla: Puntuación 1 2 3 4 5 Número de alumnos 24 80 132 101 163 Estima con un nivel de confianza del 95 % el valor de la media poblacional. Ejercicio 14: De una variable estadı́stica conocemos la desviación tı́pica 8, pero desconocemos la media. Para estimarla, extraemos una muestra de tamaño 60 cuya media es 37. Estimar la media poblacional con una confianza del 99 %. 8.2. Estimación de una proporción p Si para una poblacion se desconoce la proporción p de individuos que poseen cierta propiedad, y deseamos dar un intervalo de confianza para el valor de p, como el intervalo de probabilidad para la proporción muestral, p̂ , para el nivel de confianza 1 − α en una muestra de tamaño n es: s s ! p·q p·q , p + z α2 · n n p − z α2 · Razonando igual que en el caso anterior encontramos que el intervalo de confianza para p con un nivel de significación α es: p·q p·q p̂ − z α2 · , p̂ + z α2 · n n s s ! Y como además no se conocen ni p ni q se utilizan en su lugar p̂ y q̂, quedando:   p̂ − z α2 · v u u p̂ t · q̂ , p̂ + z α2 · n v u u p̂ t  · q̂   n Notas: Para poder aplicar este resultado es necesario que n ≥ 30 Habitualmente en las encuestas se suele utilizar esta fórmula con el valor p = q = 0, 50 porque es la situación más desfavorable. Ejercicio 15: Determina el intervalo de confianza, con una significación del 0,05 para la proporción poblacional de fumadores entre los jóvenes menores de 18 años, a partir de una muestra de tamaño 900, cuando no se conocen valores de p anteriores. Considera los dos casos anteriores (usando p̂ y usando p = q = 0, 5). La proporción de fumadores en la encuesta ha sido de p̂ = 0, 3. IES Mar Serena 17 Curso 09/10 Matemáticas Aplicadas a las C.S. II 8.3. Estadı́stica inferencial Error máximo admisible Al estudiar los intervalos de confianza hemos visto que su amplitud depende del factor: σ z ·√ n α 2 r z · o α 2 En el caso de la media se tiene: | µ − x̄ |= z α2 · √σ n En el caso de la proporción: | p − p̂ |= z α2 · q p·q n p·q n Se llama Error máximo admisible para la estimación de medias o de proporciones, respectivamente a: r σ p·q α α E = z2 · √ o E = z2 · n n Observamos que: El error es mayor al aumentar el nivel de confianza, ya que el valor z α2 aumenta como podemos observar en la tabla: Confianza = 1 − α 0,90 0,95 0,99 z α2 1,645 1,960 2,575 Al aumentar el tamaño muestral n disminuimos el error porque dividimos por un número √ mayor: n Por tanto: Para reducir el error no hay que aumentar la confianza, sino el tamaño de la muestra elegida. 8.4. Tamaño de las muestras Hemos visto que el tamaño de las muestras n es inversamente proporcional al error admisible E. A partir de la expresión del error admisible podemos despejar el valor del tamaño de la muestra n: Para la estimación de medias: n = Zα · σ 2 2 E n = Para la estimación de proporciones: Z 2α · p · q 2 E2 Ejercicio 16: Al medir un tiempo de reacción, un psicólogo sabe que la desviación tı́pica del mismo es 0,5 segundos. ¿Cuál es el número de medidas que deberá realizar para que con una confianza del 99 %, el error de estimación no exceda de 0,1 segundos?. IES Mar Serena 18 Curso 09/10 Matemáticas Aplicadas a las C.S. II Estadı́stica inferencial Ejercicio 17: Se sabe que el tiempo de dedicación de los jóvenes al ocio sigue una distribución normal de media 400 minutos y desviación tı́pica 63 minutos. Halla el tamaño mı́nimo de la muestra de jóvenes que garantiza con una probabilidad de 0,95 que el tiempo medio de ocio está entre 382 y 418 minutos. Ejercicio 18: Para 96 familias españolas elegidas al azar se ha determinado que la TV permanece encendida en la casa una media de 217 minutos diarios, la desviación tı́pica de la muestra fue de 40 minutos. a) Para una fiabilidad del 95 % ¿qué error se asume cuando se da por bueno ese dato para el total de las familias españolas?. b) ¿Qué tamaño muestral serı́a necesario para reducir ese error a la mitad?. NOTA IMPORTANTE Diferencia entre intervalos de probabilidad y de confianza En un intervalo de probabilidad lo que conocemos es la media y desviación tı́pica poblacionales, y damos el intervalo donde se encontrará (para un cierto nivel de confianza) la media muestral o la proporción muestral. Sin embargo, en un intervalo de confianza entramos ya en el terreno de la estimación, es decir: NO conocemos la media poblacional (y en ocasiones tampoco la desviación tı́pica poblacional) ni la proporción poblacional , sino que sólo conocemos, o podemos calcular, la media muestral o la proporción muestral, y de lo que se trata es de dar un intervalo en el que se encuentre la media poblacional (o la proporción poblacional). 9. Actividades Finales 1. Supongamos que una población se compone de niños de edades 2, 3, 6, 8 y 11 años. Considera todas las muestras posibles de 3 niños (con reemplazamiento) que pueden formarse. Halla: a) La media y la desviación tı́pica de la población. b) La media y la desviación tı́pica de la distribución muestral de medias. c) ¿Qué relación hay entre los resultados obtenidos en a) y b) ? 2. Suponiendo que las puntuaciones de un test de inteligencia se distribuyen según una Normal N(100,15). a) Calcula la probabilidad de que una muestra de tamaño 49, extraida de esa población, tenga una media inferior a 98. b) Calcula la probabilidad de que una muestra de tamaño 81, extraida de esa población, tenga una media superior a 105. IES Mar Serena 19 Curso 09/10 Matemáticas Aplicadas a las C.S. II Estadı́stica inferencial 3. Se supone que la estatura de los jóvenes de 18 años de cierta población sigue una distribución normal de media 162 cm y desviación tı́pica 12 cm. En una muestra tomada al azar de 100 de esos jóvenes: a) ¿Cuál es la probabilidad de que la media esté entre 159 y 165 cm?. b) ¿Cuántos de esos jóvenes tienen su estatura entre esos valores?. 4. En una determinada población se sabe que el 20 % de las personas usan gafas graduadas y el resto no. Tomamos una muestra de 256 personas. ¿Cuál es la probabilidad de que el porcentaje de personas encuestadas que usan gafas esté entre el 15 % y el 25 %? 5. En una muestra aleatoria de 1000 personas, están a favor de que el ministerio de economı́a mantenga la presión fiscal el 65 %. Halla el intervalo de confianza del 99 % para la proporción. En una encuesta realizada un año antes habı́a resultado un 68 % favorable al mantenimiento de la presión fiscal, ¿cae este valor dentro del margen de confianza de la nueva encuesta?.¿Qué podemos decir sobre el cambio de opinión de la población de un año a otro? 6. Se sabe que la desviación tı́pica del peso de los individuos de cierta población es 6 kg. Calcula el tamaño de la muestra que se ha de considerar para, con un nivel de confianza del 95 %, estimar el peso medio con un error inferior a 1 kg. 7. En una encuesta de opinión, durante una campaña electoral en una ciudad, se preguntó a una muestra aleatoria de 400 personas a cuál de los dos candidatos pensaban votar. Declararon 160 que votarı́an a un determinado partido. Obtén un estimador puntual y un intervalo de confianza del 95 % para la proporción de ciudadanos que votará a ese partido en las elecciones. 8. La edad media de esperanza de vida de una población es 50 años, con una desviación tı́pica de 10 años. Una compañı́a de seguros quiere determinar el tamaño de una muestra para que la estimación difiera del valor 50 en al menos 2 % de este valor, tomando como nivel de confianza el 95 %. Calcula el tamaño de dicha muestra. 9. Deseamos conocer el número de personas mayores de edad, que serı́a necesario incluir en una muestra nacional, para estimar su proporción con un error de E=0,04 y un nivel de confianza del 99,73 %. Se dispone de un valor p = 0, 45 del último censo. 10. La desviación tı́pica de los habitantes de cierto paı́s es 10 cm. Calcula el tamaño mı́nimo que ha de tener una muestra de habitantes de dicho paı́s para que el error cometido al estimar la altura media sea inferior a 1 cm con un nivel de significación α = 1 %. 11. La estatura media de los niños de 10 años en España es de 135 cm, con una varianza de 64 cm2 . Calcula el tamaño de muestra necesario para que el intervalo de confianza al 95 % de la media muestral tenga una amplitud de 2 cm. 12. Según una encuesta electoral, la intención de voto a cierto partido polı́tico está entre el 42 % y el 48 %. Se trata de un intervalo de confianza, pero en la ficha técnica no aparece el nivel de confianza, sólo aparece el tamaño de la muestra n = 1056 individuos. Obtén el nivel de confianza. IES Mar Serena 20 Curso 09/10 Matemáticas Aplicadas a las C.S. II 10. Estadı́stica inferencial Anexo I: Tabla de la Distribución Normal Estandar IES Mar Serena 21 Curso 09/10 Matemáticas Aplicadas a las C.S. II 11. Estadı́stica inferencial Anexo II IES Mar Serena 22 Curso 09/10 Matemáticas Aplicadas a las C.S. II 12. Estadı́stica inferencial Anexo III: La Distribución Binomial Se conoce como experimento de Bernouilli a un experimento aleatorio que sólo tiene dos resultados posibles, que son complementarios entre sı́ y se denominan: éxito y fracaso. Consideramos un experimento aleatorio con las siguientes caracterı́sticas: 1. Cada prueba del experimento es una prueba de Bernouilli, es decir, sólo son posibles dos resultados: el suceso A (éxito) y su contrario A (fracaso). 2. El resultado obtenido en cada prueba es independiente de los resultados obtenidos en las pruebas anteriores. 3. La probabilidad del suceso A es siempre constante y no varı́a de una prueba a otra. P (A) = p y P (A) = q = 1 − p. Definimos la variable aleatoria X como el número de éxitos obtenidos en n pruebas. Entonces X es una variable aleatoria discreta que sigue la denominada como distribución de probabilidad binomial. Una distribución binomial queda caracterizada por dos parámetros: El número de pruebas realizadas n y la probabilidad del suceso éxito p y se representa por B(n,p). IES Mar Serena 23 Curso 09/10

Estadística inferencial 2 - Matemáticas en el IES Valle del Oja

Documentos relacionados

Productos

Apoyo

Estadística inferencial 2 - Matemáticas en el IES Valle del Oja

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib