Tema 6: ESTADÍSTICA INFERENCIAL. MUESTREO Profesor: Francisco J. Agudo Garcı́a Curso 2009 - 2010 Índice 1. Introducción 2 2. Muestreo 3 3. Distribución Normal 5 3.1. Tipificación de la variable . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 3.2. La distribución Binomial se aproxima a la normal . . . . . . . . . . . 7 4. Estimación de Parámetros 8 5. Distribuciones muestrales 8 5.1. Distribución muestral de medias . . . . . . . . . . . . . . . . . . . . . . . 8 5.2. Distribución muestral de proporciones . . . . . . . . . . . . . . . . . . . 10 6. Estimación Puntual 11 7. Intervalos de Probabilidad 12 7.1. Intervalo de probabilidad para la media muestral X . . . . . . . . . 13 7.2. Intervalo de probabilidad para la proporción muestral p̂ . . . . . . 15 8. Estimación por intervalos 15 8.1. Estimación de la media de una población µ . . . . . . . . . . . . . . . . 16 8.2. Estimación de una proporción p . . . . . . . . . . . . . . . . . . . . . . . . 17 8.3. Error máximo admisible . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 8.4. Tamaño de las muestras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 1 Matemáticas Aplicadas a las C.S. II Estadı́stica inferencial 9. Actividades Finales 19 10.Anexo I: Tabla de la Distribución Normal Estandar 21 11.Anexo II 22 12.Anexo III: La Distribución Binomial 23 1. Introducción La palabra Inferir signica: Sacar una consecuencia de una cosa. Sacar consecuencia o deducir una cosa de otra. La estadı́stica es la ciencia o rama de las Matemáticas que se ocupa de recoger datos, analizarlos y organizarlos, y también de realizar las predicciones que sobre esos datos puedan deducirse, tiene dos vertientes básicas: Estadı́stica descriptiva: Básicamente se ocupa de la 1a parte, es decir, a partir de ciertos datos, analizarlos y organizarlos. Es aquı́ donde tiene sentido calcular la media, mediana, moda, varianza, desviación tı́pica, etc. Es la parte que estudiamos el año pasado. Estadı́stica inferencial: Se ocupa de predecir y sacar conclusiones para una población, tomando como base una muestra (es decir , una parte ) de dicha población. Teniendo en cuenta que cualquier predicción siempre ha de hacerse bajo un cierto grado de fiabilidad o confianza. Esta vertiente de la estadı́stica es la que estudiaremos en esta unidad didáctica y en la siguiente. En ocasiones el tamaño de la población es muy grande y frecuentemente no es posible estudiar todos sus elementos (por razones de tiempo, economı́a, etc). Por eso lo que nos interesa es estudiar una muestra y deducir o inferir las caracterı́sticas de la población a partir de las caracterı́sticas de la muestra: La estadı́stica Inferencial se ocupa de deducir o inferir las caracterı́sticas de la población a partir de las de la muestra. Podemos dividir la estadı́stica inferencial en: Estadı́stiva Inductiva, cuyo objetivo es estimar los parámetros de una población • mediante un único valor: estimación puntual • mediante un intervalo: estimación por intervalos Estadı́stica Deductiva, cuyo objetivo es comprobar si la información que nos proporciona la muestra permite afirmar o no, una suposición previa (hipótesis) formulada sobre la población, mediante el contraste de hipótesis que trataremos en la siguiente unidad. Recordamos algunos términos estadı́sticos: Población: es el conjunto de elementos objeto del estudio estadı́stico. Individuo: es cada elemento de la población. Muestra: es el subconjunto o parte de la muestra que tomamos para hacer el estudio. IES Mar Serena 2 Curso 09/10 Matemáticas Aplicadas a las C.S. II Estadı́stica inferencial Tamaño de la muestra: es el número de individuos que la componen. Es muy importante distinguir entre los parámetros poblacionales o simplemente parámetros, que son los ı́ndices centrales, de dispersión , etc, de TODA la población y que en la práctica no son calculables. Y los parámetros muestrales o estadı́sticos, que son los ı́ndices centrales, de dispersión, etc de la muestra, que son los que se calculan para estimar los parámetros. Los estadı́sticos que más vamos a utilizar son: La media muestral: x La desviación tı́pica muestral: s 2. Muestreo Ya sabemos que una población es el conjunto de individuos sobre los que hacemos cierto estudio, y que una muestra es un subconjunto de la población. Es evidente que los resultados de una determinada encuesta tendrán un mayor grado de fiabilidad si dicha encuesta se realiza sobre la población completa. Sin embargo, en la mayorı́a de las ocasiones esto no es posible, debido a múltiples razones, como por ejemplo: Imposibilidad material Hacer una encuesta a los casi 41 millones de españoles es imposible, o hacer un estudio sobre la fecha de caducidad de un producto. Si lo hacemos con todos los productos ¿qué vendemos luego? Imposibilidad temporal Hacer un estudio sobre la duración de una bombilla. ¿Cuánto debemos esperar para saberlo?. Por tanto, es habitual que tengamos que manejarnos con muestras, de modo que es importante saber elegir bien una muestra de la población, una muestra que represente bien a dicha población y que nos permita con un alto grado de fiabilidad inferir o predecir las caracterı́sticas de la población. Hay muchas maneras de elegir una muestra de una población, Pero antes de pasar a analizar dichas formas de extracción de muestras, lo que si hemos de dejar claro es que todas las muestras han de cumplir varias condiciones indispensables. Es evidente que para que el estudio a realizar sea fiable, hay que cuidar mucho la elección de la muestra, para que represente en la medida de lo posible a la poblacion de la que se extrae. Si la muestra está mal elegida, diremos que no es representativa. En este caso, se pueden producir errores imprevistos e incontrolados. Dichos errores se denominan sesgos y diremos que la muestra está sesgada. Una de las condiciones para que una muestra sea representativa es que el sistema que se utilize para elegirla sea aleatorio, es decir, que todos los individuos de la población tengan las mismas posibilidades de ser elegidos, mientras que si la elección de la muestra es subjetiva, es probable que resulte sesgada. Las distintas maneras de elegir una muestra de una población se denominan muestreos y básicamente hay dos tipos de muestreos: IES Mar Serena 3 Curso 09/10 Matemáticas Aplicadas a las C.S. II Estadı́stica inferencial 1. Muestreo no probabilı́stico: El investigador no elige la muestra al azar, sino mediante determinados criterios subjetivos. Los individuos de la población no tienen la misma probabilidad de ser incluidos en la muestra. En este tipo de muestreo suele ser muy escasa la representatividad y por tanto, poco válidas las inferencias que pueden hacerse. 2. Muestreo probabilı́stico o aleatorio: Es el que se realiza teniendo en cuenta que cada miembro de la población tiene la misma probabilidad de ser elegido en la muestra. Con este tipo de muestreo, las muestras suelen ser más representativas, es posible conocer los errores cometidos y pueden hacerse inferencias estadı́sticas. En este caso podemos distinguir varios tipos: Muestreo aleatorio simple: Aquel en el que cada individuo de la población tiene las mismas posibilidades de salir en la muestra. Muestreo sistemático: En el que se elige un individuo al azar y a partir de él, a intervalos constantes, se eligen los demás hasta completar la muestra. Muestreo estratificado: Se divide la población en clases o estratos y se escoge, aleatoriamente, un número de individuos de cada estrato proporcional al número de componentes de cada estrato. Muestreo por conglomerados: Si no disponemos de la relación de los elementos de la población, o de los posibles estratos, no podemos aplicar los muestreos anteriores. Aquı́ entra el llamado muestreo por conglomerados, donde en lugar de elegir individuos directamente, se eligen unidades más amplias donde se clasifican los elementos de la población, llamados conglomerados. En cada etapa del muestreo en lugar de seleccionar elementos al azar seleccionamos conglomerados. Los conglomerados deben ser tan heterogéneos como la población a estudiar, para que la represente bien. Luego se elegirı́an algunos de los conglomerados al azar, y dentro de éstos, analizar todos sus elementos o tomar una muestra aleatoria simple. No debemos confundir estrato y conglomerado. Un estrato es homogéneo (sus elementos tienen las mismas caracterı́sticas), mientras que un conglomeardo es heterogéneo (debe representar bien a la población). En cualquier caso hemos de asumir que un error en el muestreo ocasionará que los resultados que proporcione la muestra no coincidan o estén alejados de los valores reales de la población. Pueden darse dos tipos de errores: Error aleatorio muestral. Para reducir este error hay que aumentar el tamaño de la muestra. Error sistemático o Sesgo. Va asociado al proceso de selección de la muestra y se reduce mejorando esta selección. Veamos la diferencia de estos muestreos mediante el siguiente ejemplo: Imaginemos que hemos de recoger una muestra de 20 alumnos de entre los de un 600 instituto. 1 Muestreo aleatorio simple: Elegirı́amos un alumno al azar (probabilidad de elegirlo 600 ). 1 Lo devolvemos a la población y se elige otro (probabilidad de elegirlo 600 ), y ası́ hasta 20. Observa que si no devolviésemos al alumno, entonces, la probabilidad de escoger al 1 2o alumno serı́a 599 , y ya no todos tendrı́an la misma probabilidad de ser elegidos. 1 El problema es que entonces permitimos que se puedan repetir individuos. 1 Recuerda las extracciones con y sin reemplazamiento IES Mar Serena 4 Curso 09/10 Matemáticas Aplicadas a las C.S. II Estadı́stica inferencial Muestreo sistemático: Como hemos de elegir 20 alumnos de 600, es decir, 1 de cada 30, se procede ası́: Se ordenan los alumnos y se numeran, se elige uno al azar, por ejemplo el alumno 27, y luego los demás se eligen a partir de este a intervalos de 30 alumnos. Escogerı́amos por tanto a los alumnos: 27,57,87,117,147,177,207,237,267,297,327,357,387,417,447,477,507,537,567,597 Muestreo estratificado: Como queremos que la muestra sea representativa, lo mejor será conocer cuántos alumnos de cada curso hay, es decir, si hay 200 alumnos de 3o ESO, 150 de 4o ESO, 150 de 1o Bachillerato y 100 de 2o Bachillerato, procederı́amos ası́: Como de 600 en total hemos de elegir a 20, de 200 de 3o de ESO hemos de elegir x 20 600 = x 200 −→ x = 4000 600 = 6, 6 ≈ 7 alumnos de 3o ESO De igual manera, utilizando una regla de tres, podemos calcular los alumnos correspondientes a los demás cursos: 7 alumnos son de 3o , 5 alumnos de 4o , 5 alumnos de 1o y 3 alumnos de 2o . Por último, para la elección de cada alumno dentro de cada curso utilizamos el muestreo aleatorio simple. Muestreo por conglomerados: Para ver este muestreo, hemos de cambiar el ejemplo. Supongamos que queremos extraer una muestra aleatoria de los estudiantes universitarios del paı́s. Necesitariamos una lista con todos ellos para poder realizar algún muestreo del tipo de los 3 anteriores, lo cuál es muy difı́cil de conseguir. Sin embargo, los estudiantes estan clasificados por Universidades, Facultades y Clases. Podemos seleccionar en una primera etapa algunas Universidades, después algunas facultades al azar, dentro de las facultades algunas clases y dentro de las clases, algunos estudiantes por muestreo aleatorio simple. Los conglomerados en cada etapa serı́an las diferentes Universidades, las diferentes facultades y las diferentes clases. Como vemos los conglomerados son unidades amplias y heterogéneas. Ejercicio 1: En una población de 1500 jóvenes, 7500 adultos y 1000 ancianos, se hace una encuesta a 200 personas para conocer sus actividades de ocio preferidas. Si se utiliza un muestreo estratificado, ¿qué tamaño muestral corresponde a cada estrato?. 3. Distribución Normal En este punto vamos a recordar la distribución de probabilidad normal que es fundamental para comprender los puntos siguientes. La campana de Gauss, curva de Gauss o curva normal es una función de probabilidad continua y simétrica, cuyo máximo coincide con la media µ. Esta curva fue descrita por el matemático alemán Carl F. Gauss, que llegó a ella estudiando los errores que se cometen al medir reiteradamente una cierta magnitud2 . 2 Al efectuar una misma observación astronómica o geodésica repetidas veces, obtenı́a valores diferentes debido a errores humanos y a errores de los aparatos de medida. Para resolver este problema formuló la teorı́a de mı́nimos cuadrados, de gran utilidad práctica. IES Mar Serena 5 Curso 09/10 Matemáticas Aplicadas a las C.S. II Estadı́stica inferencial La gran importancia de esta distribución se debe a la enorme frecuencia con que aparece en las situaciones más variadas, entre las muchas variables que se distribuyen normalmente podemos citar: Caracteres morfológicos como peso, talla, etc Caracteres fisiológicos, como por ejemplo el efecto de una misma dosis de un fármaco. Caracteres sociológicos, como por ejemplo el consumo de ciertos productos por individuos de un mismo grupo humano. Caracteres fı́sicos, como por ejemplo la resistencia a la rotura de piezas aparentemente idénticas. Y en general cualquier caracterı́stica que se obtenga como suma de muchos factores Figura 1: Distribución Normal µ es la media, σ es la desviación tı́pica Si X es una variable aleatoria que sigue la Distribución Normal, entonces es suficiente con conocer su media µ y su desviación tı́pica σ para que quede completamente determinada. Se dice entonces que X = N (µ, σ). La distribución Z = N (0, 1) se conoce como normal estandar( µ = 0 y σ = 1 ). Se encuentra tabulada y resulta sencillo calcular probabilidades que se corresponden con las áreas encerradas bajo la curva. La tabla la tienes en el epı́grafe Anexo I. 3.1. Tipificación de la variable Cuando una variable normal X no sigue la distribución estandar N (0, 1) sino una N (µ, σ) entonces hay que tipificar la variable, es decir, transformarla en una variable estandar. Para ello se hace el cambio de variable: X −µ Z= σ Con lo que el cálculo de probabilidades se reduce a: P (X ≤ a) = P IES Mar Serena X −µ a−µ a−µ ≤ =P Z≤ σ σ σ 6 Curso 09/10 Matemáticas Aplicadas a las C.S. II Estadı́stica inferencial y éstas se encuentran en la tabla. Por ejemplo, en una distribución X = N (14, 4) hallar P (X ≤ 20) 20 − 14 X − 14 ≤ = P (Z ≤ 1, 5) = 0, 9332 P (X ≤ 20) = P 4 4 Como ya habrás observado (y recordarás del curso pasado), en la tabla sólo encontramos los valores correspondientes a P (Z ≤ a) con a ≥ 0. En los demás casos hemos de usar propiedades de la curva normal, como la simetrı́a, para llegar al resultado. En el epı́grafe Anexo II tienes ejemplos de todos los casos posibles. 3.2. La distribución Binomial se aproxima a la normal En el curso anterior estudiamos las distribuciones binomiales B(n, p) anexo III. Son distribuciones de probabilidad discretas3 , que responden a la función de probabilidad: n r P (X = k) = siendo la media µ = n · p y la desviación tı́pica σ = El cálculo de expresiones de la forma n r ! pk q n−k √ n · p · q. ! pk q n−k , resulta muy laborioso y complicado sobre todo cuando n es grande. El matemático Abraham de Moivre (1667-1754) demostró el siguiente resultado que, bajo ciertas condiciones, permite aproximar la distribución binomial por una distribución normal: Teorema 1 Si X es una variable discreta que sigue la distribución binomial X = B(n, p), √ entonces la variable X se aproxima a una variable normal Y = N (n · p, n · p · q) √ B(n, p) ≈ N (n · p, n · p · q) La bondad de la aproximación4 es mayor cuanto mayor es n y cuanto más próximo está p a 0,5. Ejercicio 2: Se efectúan 15 lanzamientos de una moneda. Calcula la probabilidad de que: a)Salgan exactamente 9 caras. b)Salgan entre 8 y 12 caras, ambas inclusive. Nota a tener en cuenta: Corrección de Yates Cuando aproximamos una distribución Binomial mediante una Normal, estamos convirtiendo una variable discreta en variable continua. Para variables continuas la probabilidad de que la variable tome un valor fijo es nula, P (X = a) = 0. Para evitar este problema, en la aproximación de los valores fijos, estos se corrigen sustituyéndolos por un intervalo centrado en el valor y de amplitud la unidad. Ası́ para X = a se considera a − 0, 5 ≤ X ≤ a + 0, 5. Utiliza la corrección de Yates para resolver el ejercicio propuesto. 3 Son aquellas en las que la variable sólo toma un número finito o numerable de valores Esta aproximación está especialmente indicada cuando n es mayor que 10, ya que las tablas binomiales ofrecen valores hasta n=10 4 IES Mar Serena 7 Curso 09/10 Matemáticas Aplicadas a las C.S. II 4. Estadı́stica inferencial Estimación de Parámetros Como el objetivo principal de la estadı́stica inferencial es el estudio de la población y realizar predicciones acerca de ella (pero a partir de una muestra de ella, no de la población entera), en principio tendremos que estimar los ı́ndices de la población a partir de los ı́ndices correspondientes para la muestra. En una primera aproximación, parece lógico pensar que si por ejemplo, queremos determinar la media de una cierta población, si hemos cogido una muestra representativa la media de la muestra (que es fácilmente calculable porque tenemos los datos) será muy parecida a la de la población y por tanto nos sirva para estimarla. Por tanto debemos distinguir entre: 1. Parámetros poblacionales: Que son los ı́ndices centrales y de dispersión que definen a una población. Representaremos la media poblacional µ y la desviación tı́pica poblacional σ. En el caso de proporciones, la proporción de población que tiene una determinada caracterı́stica la denotaremos por p y la proporción que no la cumple por q = 1 − p (como en la Distribución Binomial) 2. Estadı́sticos poblacionales: Son los ı́ndices centrales y de dispersión que definen a una muestra. Representaremos la media muestral por x̄ y la desviación tı́pica muestral por s. En el caso de proporciones, la proporción de muestra que tiene una determinada caracterı́stica la denotaremos por p̂ y la proporción que no la cumple por q̂ = 1 − p̂. ¿Cuál es el problema de la estimación entonces?. Como vamos a disponer de una muestra, lo que podemos calcular es x̄ y s (o bien p̂ y q̂), y a partir de estos intentar estimar quienes tienen que ser µ y σ (o bien p y q), los reales para la población. Para ello hemos de conocer cuál es la relación entre un estadı́stico y el correspondiente parámetro. Es necesario conocer la distribución muestral de estos estadı́sticos. 5. 5.1. Distribuciones muestrales Distribución muestral de medias Comenzamos por la situación de obtener conclusiones sobre la media de la población a partir del estudio de medias obtenidas de las muestras. Si tenemos una población de parámetros desconocidos µ y σ, y tomamos una muestra, podemos calcular la media muestral, x¯1 , que tendrá cierta relación con µ. Podrı́amos tomar otra muestra, de igual tamaño n, y calcular de nuevo su media muestral x¯2 , que también estará relacionada con µ. Ası́ sucesivamente, podemos considerar una variable aleatoria X̄n , que asigna a cada muestra su media y podemos estudiar entonces su distribución denominada distribución muestral de medias. IES Mar Serena 8 Curso 09/10 Matemáticas Aplicadas a las C.S. II Estadı́stica inferencial Teorema 2 Si la población sigue una distribución normal N (µ, σ), donde µ y σ son desconocidos, si elegimos todas las muestras de cierto tamaño (n), de forma que sean representativas, entonces: La media de las medias muestrales de todas las muestras posibles, es igual a la media poblacional, es decir: x¯1 + x¯2 + · · · + x¯k x̄ = =µ k La desviación tı́pica de las medias muestrales posibles es: σ sx̄ = √ n Conclusión: Las medias de las muestras de tamaño n extraı́das de una población de parámetros µ y σ , se aproximan por una distribución: σ X −→ N µ, √ n ! siempre que n sea suficientemente grande. En la práctica se considera que n es suficientemente grande si n ≥ 30. Notas importantes a tener en cuenta: 1. Este resultado se conoce como Teorema central del lı́mite 2. Si la población es normal, el resultado se cumple para muestras de CUALQUIER tamaño (incluso menor que 30). 3. En la práctica suele ocurrir que σ es desconocida. En estos casos el resultado sigue siendo válido aproximando σ por la desviación tı́pica muestral s, siempre que n sea suficientemente grande (n ≥ 100) . Ejercicio 3: La altura de los estudiantes de cierta población se distribuye según una normal de media 167 y desviación tı́pica 3,2. a) Calcula la probabilidad de que un estudiante mida menos de 165 cm. b) Se toma una muestra de 10 estudiantes. Calcula la probabilidad de que la media muestral sea menor que 165 cm. Ejercicio 4: Los pesos de los tornillos que fabrica cierta máquina se distribuyen según una N (142, 32 , 8, 5) (medidas en gramos). Se toman muestras de 25 tornillos. Calcular: a) Distribución que siguen las medias de esas muestras. b) Probabilidad de que una muestra elegida al azar de 25 tornillos tenga un peso medio superior a 144,6 gramos. c) La misma pregunta si la muestra es de 100 tornillos. Ejercicio 5: Una máquina ha fabricado piezas de precisión con un peso medio de 150 gr. y una desviación tı́pica de 20 gr. Calcular la probabilidad de que una muestra de 80 piezas tenga un peso medio de más de 155 gr. (Solución: 0’0129) IES Mar Serena 9 Curso 09/10 Matemáticas Aplicadas a las C.S. II Estadı́stica inferencial Ejercicio 6: Sabemos que el gasto mensual en electricidad (por familia) se distribuye normalmente con media 142,32 e y desviación tı́pica 8,5 e. a) Halla la probabilidad de que una muestra de 25 familias elegidas al azar, tenga un gasto medio superior a 144,6 e. b) Realiza el mismo cálculo si la muestra que se toma es de 100 familias. 5.2. Distribución muestral de proporciones Cuando en una población estudiamos cierta caracterı́stica que sólo puede tomar dos valores: sı́ (éxito) o no (fracaso) nos encontramos con la distribución binomial. Nos planteamos ahora determinar qué proporción de una población posee un cierto atributo, por ejemplo si es fumador o no fumador, si tiene ordenador o no, si tiene alergia o no,etc... El estudio de este tipo de proporciones es equiparable al de una distribución binomial (donde sólo hay dos posibilidades). Cada una de las muestras que extraigamos tendrá un porcentaje de individuos con esa misma caracterı́stica. Llamamos p al parámetro poblacional, que es la proporción de uno de los valores que presenta la variable aleatoria en la población y q al parámetro poblacional para el otro valor (q = 1 − p). Si extraemos muestras de tamaño n, para cada muestra tendremos un estadı́stico proporción muestral que llamamos p̂ . La distribución que asocia a cada muestra su proporción es la distribución muestral de proporciones. Como para poblaciones grandes sabemos que la binomial se aproxima a una normal, aplicando razonamientos similares a los del apartado anterior se tiene el siguiente: Teorema 3 Las proporciones muestrales de tamaño n ≥ 30, extraı́das de una población en la que la probabilidad de éxito es p, se ajustan a una normal r N p, p·q n En la práctica se considera que la aproximación es buena para n ≥ 30, n · p ≥ 5 y n · q ≥ 5. En la práctica habitualmente ocurre que las proporciones poblacionales p y q son desconocidas. En estos casos se aproximan por las respectivas de una muestra p̂. Esto se puede hacer por ser p̂ un estimador insesgado, como veremos en el epı́grafe siguiente. Ejercicio 7: Una fábrica de pasteles fabrica, en su producción habitual, un 3 % de pasteles defectuosos. Un cliente recibe un pedido de 500 pasteles de la fábrica. a) Probabilidad de que encuentre más del 5 % de pasteles defectuosos. b) Probabilidad de que encuentre menos de un 1 % de pasteles defectuosos. Ejercicio 8: De una población de 120 alumnos, hay 48 que tienen 2 o más hermanos. Si de dicha población se toman muestras de tamaño 40. a) ¿Qué distribución siguen las proporciones muestrales?. b) ¿Cuál es la probabilidad de que se encuentre en dicha muestra una proporción de más del IES Mar Serena 10 Curso 09/10 Matemáticas Aplicadas a las C.S. II Estadı́stica inferencial 55 % de alumnos con 2 o más hermanos?. Ejercicio 9: En un saco mezclamos judı́as blancas y pintas en la relación de 14 blancas por cada pinta. Extraemos un puñado de 100 judı́as. Calcula la probabilidad de que la proporción de judı́as pintas esté comprendida entre 0,05 y 0,1. Ejercicio 10: Una población está formada por los elementos 1, 2, 4 y 6 a) Obtén todas las muestras con reemplazamiento de tamaño 2 y calcula la proporción de cifras pares de cada muestra. b) Calcula la media y la desviación tı́pica de la distribución muestral de proporciones. c) Compara los resultados con los que conocemos teóricamente (Teorema 3). 6. Estimación Puntual Comenzamos este tema estudiando la teorı́a de muestras y hemos visto cómo la estadı́stica inferencial trata de inferir información sobre una población, utilizando muestras extraidas aleatoriamente de esa población. Dentro de la estadı́stica inferencial está la estadı́stica inductiva, que trata de estimar parámetros poblacionales a partir de sus correspondientes estadı́sticos muestrales. Esta estimación puede hacerse de dos formas: Estimación puntual Estimación por intervalos Por ejemplo si decimos que la estatura media de los españoles es de 1,75 m. estamos haciendo una estimación puntual, mientras que si decimos que la estatura media está entre 1,72 y 1,78 m. estamos haciendo una estimación por intervalos. Por tanto la estimación puntual consiste en estimar mediante un único valor el parámetro poblacional desconocido. Las estimaciones puntuales son más precisas que las estimaciones por intervalos, que veremos en el epı́grafe 8, sin embargo, son menos fiables. En la estimación puntual el estadı́stico que usamos para la estimación se llama estimador puntual. Éstos pueden ser: Insesgados: Si la media de la distribución muestral del estadı́stico coincide con su correspondiente parámetro poblacional. Según hemos visto en el punto anterior: • La media muestral x̂ es un estimador insesgado de la media poblacional µ • La proporción muestral p̂ es un estimador insesgado de la proporción poblacional p Sesgados: Si la media de la distribución muestral del estadı́stico NO coincide con su correspondiente parámetro poblacional. En general siempre debemos escoger estimadores insesgados 5 5 Si hay más de un estimador insesgado para un mismo parámetro, se escoge el más eficiente, en el sentido de que su distribución muestral tenga menos dispersión IES Mar Serena 11 Curso 09/10 Matemáticas Aplicadas a las C.S. II 7. Estadı́stica inferencial Intervalos de Probabilidad En una variable normal cualquiera N (µ, σ), se verifica que: 1. En el intervalo (µ − σ, µ + σ) está el 68’26 % de la población. 2. En el intervalo (µ − 2 · σ, µ + 2 · σ) está el 95’44 % de la población. 3. En el intervalo (µ − 3 · σ, µ + 3 · σ) está el 99’74 % de la población. Figura 2: Porcentajes de población en los diferentes intervalos simétricos de la normal estandar N (0, 1). Es evidente que a medida que el intervalo se amplı́a, hay mayor porcentaje de la población en él. En general, dado un porcentaje del N % , siempre es posible encontrar un intervalo simétrico respecto de la media de forma que dicho intervalo contenga a dicho porcentaje de población. Más explicitamente, se denomina intervalo de probabilidad a aquel intervalo para el cuál se sabe que hay una seguridad del N % de que los parámetros muestrales (x̄ o p̂) se encuentren en dicho intervalo. La seguridad N viene fijada previamente. Se denomina Nivel de confianza al número: 1−α= N 100 y llamaremos Nivel de significación al valor α. Nota: El nivel de confianza vendrá explicitado en las condiciones del problema, por ejemplo: Si queremos que el 85 % de la población esté en el intervalo, el nivel de confianza será 1 − α = 85 = 0, 85 mientras que el nivel de significación será α = 0,15. 100 IES Mar Serena 12 Curso 09/10 Matemáticas Aplicadas a las C.S. II 7.1. Estadı́stica inferencial Intervalo de probabilidad para la media muestral X Si la población sigue una distribución de parámetros µ y σ, y las muestras son de tamaño n ≥ 30 (o bien la población es normal y las muestras pueden ser de cualquier tamaño), sabemos que la media muestral x̄ sigue una distribución: σ X −→ N µ, √ n Se trata de encontrar el valor de k como en la figura: Figura 3: Buscamos el valor de k que deje en el intervalo (µ − k, µ + k) al (1 − α) · 100 % de la población. Razonemos ahora sobre la normal Z −→ N (0, 1) que es la que se encuentra tabulada: Si queremos que el intervalo buscado contenga a la media muestral con una confianza de 1 − α, entonces fuera del intervalo el área tiene que ser de α, y como la curva es simétrica, en α cada una de las ramas fuera de la región sombreada tenemos un área de 2 . Llamaremos z α2 al punto situado en eje x que separa la región sombreada de la otra. Figura 4: En la tabla de la N (0, 1) buscamos el valor z α2 de modo que en el intervalo (−z α2 , z α2 ) esté el (1 − α) % de la población. IES Mar Serena 13 Curso 09/10 Matemáticas Aplicadas a las C.S. II N Ahora bien, este valor corresponde µ , √σn debemos tipificar: Estadı́stica inferencial a una Normal N (0, 1), como nosotros manejamos una k−µ √σ n = z α2 Y despejando encontramos el valor buscado: σ k = µ + √ · z α2 n De modo que, dado el nivel de significación α o el de confianza 1 − α, podemos determinar el intervalo de probabilidad para la media muestral, que será: σ σ µ − √ · z α , µ + √ · z α n 2 n 2 Veamos algún ejemplo: Sabiendo que la población de recién nacidos sigue una normal de media µ=3100 gr. y desviación tipica σ=150 gr.Calcular el intervalo de probabilidad con un nivel de confianza del 95 % para la media de una muestra de 100 recién nacidos. Solución: Para un nivel de confianza del 95 %, el nivel de significación es α = 0.05 y en cada zona fuera de la región queda α2 = 0.025 Debemos buscar en la tabla de la N (0, 1) el valor z0,025 , es decir, el valor que deja a su derecha un área de 0.025 P (Z ≥ z0,025 ) = 0,025 =⇒ P (Z ≤ z0,025 ) = 0,975 =⇒ z0,025 = 1,96 | {z mira en la tabla } Figura 5: Obtención del valor z para un nivel de confianza del 95 % Sabemos que la media muestral sigue una distribución: 150 N 3100 , √ 100 ! Por tanto el intervalo buscado es : 150 150 3100 − 1,96 · √ , 3100 + 1,96 · √ 100 100 IES Mar Serena 14 ! = (3070,6 , 3129,4) Curso 09/10 Matemáticas Aplicadas a las C.S. II Estadı́stica inferencial Esto significa que el 95 % de las muestras de tamaño 100 tendrá su media comprendida entre estos dos valores: (3070,6 , 3129,4). Nota: Como n es 100 ≥ 30 el resultado también serı́a cierto incluso si el peso de los recien nacidos fuera una variable que no siguiera una distribución normal. Ejercicio 11: Las notas de una población de 150 alumnos siguen una distribución de media 5,5 y varianza σ 2 = 4,1616. Extraemos muestras de tamaño 36. Calcula el intervalo de probabilidad para un nivel de confianza del: a)75 % b) 86’64 %, e interpreta los resultados. 7.2. Intervalo de probabilidad para la proporción muestral p̂ Razonando de manera análoga podemos llegar a obtener un intervalo para la proporción muestral p̂ con un nivel de significación α. p·q p·q , p + z α2 · p − z α2 · n n s s ! donde p y q son las proporciones poblacionales y n ≥ 30. Ejercicio 12: Sabiendo que la proporción de alumnos con teléfono móvil de una población de 120 alumnos es de p = 0, 7. Halla el intervalo de probabilidad para la proporción de: a) las muestras de tamaño 30 con una confianza del 75 %. b) las muestras de tamaño 49 con una confianza del 90 %. c) las muestras de tamaño 49 con una confianza del 99 %. 8. Estimación por intervalos Si queremos estimar la estatura de un jugador de baloncesto y decimos “1,85 metros” estamos haciendo una estimación puntual que no dice nada sobre la seguridad o duda de que esto sea cierto, sin embargo si decimos: “estoy casi seguro que mide entre 1,80 y 1,90”, entonces tenemos un cierto grado de confianza de que eso sea cierto. Es por esto que la estimación puntual se utiliza poco, pues no tenemos datos suficientes que nos indiquen el grado de fiabilidad del dato muestral que hemos tomado. Lo que tiene más sentido plantearse es cúal es la probabilidad de que la media o proporción poblacional pertenezcan a un intervalo determinado. Logicaménte cuanto mayor sea el intervalo mayor será el grado de confianza que podamos tener, aunque tambien será mayor el error que cometamos al hacer la estimación. IES Mar Serena 15 Curso 09/10 Matemáticas Aplicadas a las C.S. II 8.1. Estadı́stica inferencial Estimación de la media de una población µ La media µ de una población es desconocida y deseamos conocerla. Para ello, basándonos en los intervalos de probabilidad, sabemos que si la población tiene parámetros µ y σ, la media muestral x̄ sigue una distribución: σ X −→ N µ, √ n siendo n el tamaño de la muestra. Sabemos también que el intervalo de probabilidad para x̄ con un nivel de confianza (1 − α) es: σ σ µ − √ · z α , µ + √ · z α n 2 n 2 De donde se tiene que: σ σ µ − √ · z α2 ≤ x̄ ≤ µ + √ · z α2 n n Ahora despejando µ en la primera desigualdad: σ µ ≤ x̄ + √ · z α2 n y despejando en la segunda desigualdad: σ µ ≥ x̄ − √ · z α2 n Por lo que: σ σ x̄ − √ · z α2 ≤ µ ≤ x̄ + √ · z α2 n n Conclusión: El intervalo de confianza para la media µ desconocida es: σ σ x̄ − √ · z α , x̄ + √ · z α n 2 n 2 Notas: Este resultado es cierto siempre que tengamos la certeza de que la población objeto de estudio sigue la distribución normal, o bien, que el tamaño de las muestras sea suficientemente grande (n ≥ 30). Recuerda el teorema2. Cuando la desviación tı́pica poblacional σ es desconocida, en su lugar se usa la desviación tı́pica muestral s, con lo que el intervalo queda: s s x̄ − √ · z α , x̄ + √ · z α n 2 n 2 σ Al valor √n se le llama Error tı́pico IES Mar Serena 16 Curso 09/10 Matemáticas Aplicadas a las C.S. II Estadı́stica inferencial Ejercicio 13: Para estimar la media de los resultados que obtendrı́an al resolver un cierto test los alumnos de 4o de E.S.O. de la Comunidad de Andalucı́a, se les pasa el test a 400 alumnos escogidos al azar, con los resultados de la siguiente tabla: Puntuación 1 2 3 4 5 Número de alumnos 24 80 132 101 163 Estima con un nivel de confianza del 95 % el valor de la media poblacional. Ejercicio 14: De una variable estadı́stica conocemos la desviación tı́pica 8, pero desconocemos la media. Para estimarla, extraemos una muestra de tamaño 60 cuya media es 37. Estimar la media poblacional con una confianza del 99 %. 8.2. Estimación de una proporción p Si para una poblacion se desconoce la proporción p de individuos que poseen cierta propiedad, y deseamos dar un intervalo de confianza para el valor de p, como el intervalo de probabilidad para la proporción muestral, p̂ , para el nivel de confianza 1 − α en una muestra de tamaño n es: s s ! p·q p·q , p + z α2 · n n p − z α2 · Razonando igual que en el caso anterior encontramos que el intervalo de confianza para p con un nivel de significación α es: p·q p·q p̂ − z α2 · , p̂ + z α2 · n n s s ! Y como además no se conocen ni p ni q se utilizan en su lugar p̂ y q̂, quedando: p̂ − z α2 · v u u p̂ t · q̂ , p̂ + z α2 · n v u u p̂ t · q̂ n Notas: Para poder aplicar este resultado es necesario que n ≥ 30 Habitualmente en las encuestas se suele utilizar esta fórmula con el valor p = q = 0, 50 porque es la situación más desfavorable. Ejercicio 15: Determina el intervalo de confianza, con una significación del 0,05 para la proporción poblacional de fumadores entre los jóvenes menores de 18 años, a partir de una muestra de tamaño 900, cuando no se conocen valores de p anteriores. Considera los dos casos anteriores (usando p̂ y usando p = q = 0, 5). La proporción de fumadores en la encuesta ha sido de p̂ = 0, 3. IES Mar Serena 17 Curso 09/10 Matemáticas Aplicadas a las C.S. II 8.3. Estadı́stica inferencial Error máximo admisible Al estudiar los intervalos de confianza hemos visto que su amplitud depende del factor: σ z ·√ n α 2 r z · o α 2 En el caso de la media se tiene: | µ − x̄ |= z α2 · √σ n En el caso de la proporción: | p − p̂ |= z α2 · q p·q n p·q n Se llama Error máximo admisible para la estimación de medias o de proporciones, respectivamente a: r σ p·q α α E = z2 · √ o E = z2 · n n Observamos que: El error es mayor al aumentar el nivel de confianza, ya que el valor z α2 aumenta como podemos observar en la tabla: Confianza = 1 − α 0,90 0,95 0,99 z α2 1,645 1,960 2,575 Al aumentar el tamaño muestral n disminuimos el error porque dividimos por un número √ mayor: n Por tanto: Para reducir el error no hay que aumentar la confianza, sino el tamaño de la muestra elegida. 8.4. Tamaño de las muestras Hemos visto que el tamaño de las muestras n es inversamente proporcional al error admisible E. A partir de la expresión del error admisible podemos despejar el valor del tamaño de la muestra n: Para la estimación de medias: n = Zα · σ 2 2 E n = Para la estimación de proporciones: Z 2α · p · q 2 E2 Ejercicio 16: Al medir un tiempo de reacción, un psicólogo sabe que la desviación tı́pica del mismo es 0,5 segundos. ¿Cuál es el número de medidas que deberá realizar para que con una confianza del 99 %, el error de estimación no exceda de 0,1 segundos?. IES Mar Serena 18 Curso 09/10 Matemáticas Aplicadas a las C.S. II Estadı́stica inferencial Ejercicio 17: Se sabe que el tiempo de dedicación de los jóvenes al ocio sigue una distribución normal de media 400 minutos y desviación tı́pica 63 minutos. Halla el tamaño mı́nimo de la muestra de jóvenes que garantiza con una probabilidad de 0,95 que el tiempo medio de ocio está entre 382 y 418 minutos. Ejercicio 18: Para 96 familias españolas elegidas al azar se ha determinado que la TV permanece encendida en la casa una media de 217 minutos diarios, la desviación tı́pica de la muestra fue de 40 minutos. a) Para una fiabilidad del 95 % ¿qué error se asume cuando se da por bueno ese dato para el total de las familias españolas?. b) ¿Qué tamaño muestral serı́a necesario para reducir ese error a la mitad?. NOTA IMPORTANTE Diferencia entre intervalos de probabilidad y de confianza En un intervalo de probabilidad lo que conocemos es la media y desviación tı́pica poblacionales, y damos el intervalo donde se encontrará (para un cierto nivel de confianza) la media muestral o la proporción muestral. Sin embargo, en un intervalo de confianza entramos ya en el terreno de la estimación, es decir: NO conocemos la media poblacional (y en ocasiones tampoco la desviación tı́pica poblacional) ni la proporción poblacional , sino que sólo conocemos, o podemos calcular, la media muestral o la proporción muestral, y de lo que se trata es de dar un intervalo en el que se encuentre la media poblacional (o la proporción poblacional). 9. Actividades Finales 1. Supongamos que una población se compone de niños de edades 2, 3, 6, 8 y 11 años. Considera todas las muestras posibles de 3 niños (con reemplazamiento) que pueden formarse. Halla: a) La media y la desviación tı́pica de la población. b) La media y la desviación tı́pica de la distribución muestral de medias. c) ¿Qué relación hay entre los resultados obtenidos en a) y b) ? 2. Suponiendo que las puntuaciones de un test de inteligencia se distribuyen según una Normal N(100,15). a) Calcula la probabilidad de que una muestra de tamaño 49, extraida de esa población, tenga una media inferior a 98. b) Calcula la probabilidad de que una muestra de tamaño 81, extraida de esa población, tenga una media superior a 105. IES Mar Serena 19 Curso 09/10 Matemáticas Aplicadas a las C.S. II Estadı́stica inferencial 3. Se supone que la estatura de los jóvenes de 18 años de cierta población sigue una distribución normal de media 162 cm y desviación tı́pica 12 cm. En una muestra tomada al azar de 100 de esos jóvenes: a) ¿Cuál es la probabilidad de que la media esté entre 159 y 165 cm?. b) ¿Cuántos de esos jóvenes tienen su estatura entre esos valores?. 4. En una determinada población se sabe que el 20 % de las personas usan gafas graduadas y el resto no. Tomamos una muestra de 256 personas. ¿Cuál es la probabilidad de que el porcentaje de personas encuestadas que usan gafas esté entre el 15 % y el 25 %? 5. En una muestra aleatoria de 1000 personas, están a favor de que el ministerio de economı́a mantenga la presión fiscal el 65 %. Halla el intervalo de confianza del 99 % para la proporción. En una encuesta realizada un año antes habı́a resultado un 68 % favorable al mantenimiento de la presión fiscal, ¿cae este valor dentro del margen de confianza de la nueva encuesta?.¿Qué podemos decir sobre el cambio de opinión de la población de un año a otro? 6. Se sabe que la desviación tı́pica del peso de los individuos de cierta población es 6 kg. Calcula el tamaño de la muestra que se ha de considerar para, con un nivel de confianza del 95 %, estimar el peso medio con un error inferior a 1 kg. 7. En una encuesta de opinión, durante una campaña electoral en una ciudad, se preguntó a una muestra aleatoria de 400 personas a cuál de los dos candidatos pensaban votar. Declararon 160 que votarı́an a un determinado partido. Obtén un estimador puntual y un intervalo de confianza del 95 % para la proporción de ciudadanos que votará a ese partido en las elecciones. 8. La edad media de esperanza de vida de una población es 50 años, con una desviación tı́pica de 10 años. Una compañı́a de seguros quiere determinar el tamaño de una muestra para que la estimación difiera del valor 50 en al menos 2 % de este valor, tomando como nivel de confianza el 95 %. Calcula el tamaño de dicha muestra. 9. Deseamos conocer el número de personas mayores de edad, que serı́a necesario incluir en una muestra nacional, para estimar su proporción con un error de E=0,04 y un nivel de confianza del 99,73 %. Se dispone de un valor p = 0, 45 del último censo. 10. La desviación tı́pica de los habitantes de cierto paı́s es 10 cm. Calcula el tamaño mı́nimo que ha de tener una muestra de habitantes de dicho paı́s para que el error cometido al estimar la altura media sea inferior a 1 cm con un nivel de significación α = 1 %. 11. La estatura media de los niños de 10 años en España es de 135 cm, con una varianza de 64 cm2 . Calcula el tamaño de muestra necesario para que el intervalo de confianza al 95 % de la media muestral tenga una amplitud de 2 cm. 12. Según una encuesta electoral, la intención de voto a cierto partido polı́tico está entre el 42 % y el 48 %. Se trata de un intervalo de confianza, pero en la ficha técnica no aparece el nivel de confianza, sólo aparece el tamaño de la muestra n = 1056 individuos. Obtén el nivel de confianza. IES Mar Serena 20 Curso 09/10 Matemáticas Aplicadas a las C.S. II 10. Estadı́stica inferencial Anexo I: Tabla de la Distribución Normal Estandar IES Mar Serena 21 Curso 09/10 Matemáticas Aplicadas a las C.S. II 11. Estadı́stica inferencial Anexo II IES Mar Serena 22 Curso 09/10 Matemáticas Aplicadas a las C.S. II 12. Estadı́stica inferencial Anexo III: La Distribución Binomial Se conoce como experimento de Bernouilli a un experimento aleatorio que sólo tiene dos resultados posibles, que son complementarios entre sı́ y se denominan: éxito y fracaso. Consideramos un experimento aleatorio con las siguientes caracterı́sticas: 1. Cada prueba del experimento es una prueba de Bernouilli, es decir, sólo son posibles dos resultados: el suceso A (éxito) y su contrario A (fracaso). 2. El resultado obtenido en cada prueba es independiente de los resultados obtenidos en las pruebas anteriores. 3. La probabilidad del suceso A es siempre constante y no varı́a de una prueba a otra. P (A) = p y P (A) = q = 1 − p. Definimos la variable aleatoria X como el número de éxitos obtenidos en n pruebas. Entonces X es una variable aleatoria discreta que sigue la denominada como distribución de probabilidad binomial. Una distribución binomial queda caracterizada por dos parámetros: El número de pruebas realizadas n y la probabilidad del suceso éxito p y se representa por B(n,p). IES Mar Serena 23 Curso 09/10