DOCUMENTO DE TRABAJO Nº.14 ASIGNATURA CÓDIGO REQUISITO(S) OBLIGATORIA/LECTIVA ANUAL/SEMESTRAL DIURNA/VESPERTINA TEÓRICO-PRÁCTICA/PRÁCTICA CARÁCTER PLAN DE ESTUDIO HORAS SEMANALES II. Aprendizajes Esperados: Definir la inferencia estadística. Definir e Identificar los tipos de muestreos Definir identificar elementos de una distribución muestral de media. Cálculo e interpretación de la media y la varianza de la distribución muestral de media III. Síntesis esquemática de Contenidos 1. Introducción a la inferencia estadística. 2. Definir distribuciones en el muestreo 3. Clasificación de los muestreo 4. Definir la distribución muestral de media 5. Cálculo del valor esperado y varianza de la distribución de media, ejemplos. IV. Actividades ( individuales o grupales) 1) Una población se compone de 3 datos 2,4,5 considerar todas las muestras posibles de tamaño 2 que puedan extraerse con reemplazamiento de esta población. Se pide encontrar: a) La media de la población b) La desviación típica de la población 2) La media de edad del consumo de leche en litros es de 28,1 litros, y la desviación típica 0,8 años. Se elige, al azar, una muestra de 200. Determine la probabilidad que: a) La media del consumo de leche de la muestra esté comprendida entre 10,9 y 14,2 litros. b) Sea mayor que 30 litros c) Sea menor que 27 litros 3) Una urna contiene 80 bolas de las que 60% son rojas y 40% blancas. De un total de 50 muestras de 20 bolas cada una, sacadas de la urna con reemplazo, ¿en cuántas cabe esperar a) Igual número de bolas rojas y blancas? b) 12 bolas rojas y 8 blancas? c) 8 bolas rojas y 12 blancas? d) 10 ó mas bolas blancas? V. Evaluación de la actividades VI. Síntesis de los contenidos : Introducción a la infercncia estadística: Es la parte de la estadística matemática que se encarga del estudio de los métodos para la obtención del modelo de probabilidad (forma funcional y parámetros que determinan la función de distribución) que sigue una variable aleatoria de una determinada población, a través de una muestra (parte de la población) obtenida de la misma. Los dos problemas fundamentales que estudia la inferencia estadística son el "Problema de la estimación" y el "Problema del contraste de hipótesis" Teoría del Muestreo: Consideremos la población compuesta por los niños de todo Chile al nacer. Una característica medible de los individuos de esta población es su peso; esta característica depende de múltiples factores y se puede considerar una variable aleatoria. La distribución que sigue esta variable aleatoria es normal, pero, ¿cuál es su media? y ¿cuál es su desviación típica?. Como es imposible estudiar el peso de todos los niños recién nacidos, tenemos que recurrir a la toma de muestras La teoría de muestreo estudia las técnicas y procedimientos que debemos emplear para que las muestras sean representativas de la población que pretendemos estudiar, de forma que los errores en la determinación de los parámetros de la población objeto de estudio sean mínimos. Para conseguirlo, la muestra tiene que ser representativa de la población. Para que la extracción de la muestra sea representativa se deben cumplir dos principios básicos: a) Independencia en la selección de los individuos que forman la muestra b) Todos los individuos tengan la misma probabilidad de ser incluidos en la muestra Para conseguir estos objetivos se emplean distintas técnicas de muestreo. Vamos a describir dos de las más utilizadas: Clasificación de Muestreo: Muestreo Aleatorio Simple: Para efectuar este tipo de muestreo en una población con N individuos: Numeramos de 1 a N los N individuos de la población. Mediante un programa de ordenador o una tabla de generación de números aleatorios, seleccionamos a los n individuos que formarán la muestra. Después de cada extracción el individuo seleccionado se devuelve a la población para que pueda volver a ser elegido. Muestreo Aleatorio Estratificado: Cuando la población no es homogenea respecto a la variable aleatoria objeto de estudio, para mejorar las estimaciones, conviene distinguir en ella, clases o estratos, y proceder a lo que se llama un muestreo aleatorio estratificado. En este tipo de muestreo los estratos se deben elegir de manera que sean lo más homogéneos posible respecto a la variable aleatoria a estudiar y que entre ellos exista la mayor diferencia posible. Afijación: Es el reparto del tamaño de la muestra entre los diferentes estratos en que hemos dividido la población. Afijación Uniforne : Consiste en tomar para la muestra el mismo número de individuos por cada estrato. Afijación Proporcional : Consiste en distribuir los individuos que forman la muestra proporcionalmente al número de individuos de cada estrato. Una vez determinado el número de individuos que deben pertenecer a cada estrato, se procede a la selección de individuos de cada estrato por muestreo aleatorio simple. Ejemplo. 1) En un instituto de enseñanza secundaria en que se ofertan los siguientes tipos de enseñanza : Ciclos de grado superior : 110 alumnos. Bachillerato : 162 alumnos. Ciclos de grado medio : 210 alumnos 2º ciclo de enseñanza secundaria obligatoria : 338 alumnos. Se pretende valorar las faltas de ortografía que cometen los alumnos del centro mediante una prueba-dictado de un texto de 20 líneas; la prueba se pasará a una muestra de 50 alumnos, para minimizar el costo en tiempo y medios. En esta situación parece conveniente utilizar para la extracción de la muestra el muestreo aleatorio estratificado con afijación proporcional. Dividimos la población en cuatro estratos : ciclos de grado superior, ciclos de grado medio, bachillerato y 2º ciclo de enseñanza secundaria obligatoria. Como el número total de alumnos son 820 y la muestra debe estar formada por 50 alumnos, el cálculo del número de alumnos que se han de tomar de cada estrato es: Ciclos de grado superior : Bachillerato : Ciclos de grado medio : 2º ciclo de Enseñanza Secundaria Obligatoria Recuerdo de conceptos importantes: Muestra: es parte de una población de objetos, personas, empresas o cosas que es representativa del total de elementos que conforma el universo. Población: es la totalidad de las posibles observaciones o medidas que se estén considerando en alguna investigación de cuyo conjunto, se toma una muestra. Parámetro: es una medida que describe alguna característica de la población. Estadístico: es una medida que describe alguna característica de la muestra. Símbolos más usuales Población Parámetro Muestra Estadistico Tamaño de la muestra N n Media aritmética x Varianza ² V(x) Desviación estándar s Proporción P p Errores en datos estadísticos. La precisión de los datos estadísticos es un requisito importante para su uso efectivo en el análisis de los problemas de negocios y económicos. Se pueden distinguir 2 tipos de errores en los datos provenientes de una encuesta. Error de muestreo: es la diferencia obtenida entre los resultados de una encuesta por muestreo y los que se hubiesen obtenido de un censo de la población, conducido bajos los mismos procedimientos. 17 Promed=142.4 / 17 = 8.4 5 Promed= 40.8 / 5 = 8.1 Cuando se hace una investigación en lugar de encuestar a todo el universo o la población, se toma una muestra que sea representativa del universo. Se supone que la distribución de la población puede aproximarse de manera considerable siempre y cuando la muestra sea lo suficiente grande, siendo por lo tanto la distribución de frecuencias de la muestra satisfactoriamente representativa de la población muestreada. Con respecto a la teoría de muestreo se conocen 2 teoremas para 2 casos diferentes de la distribución de la media muestral. Distribución de la media muestral para una población normal: Si X posee una distribución normal cuya media es y cuya desviación estándar es 2, entonces la media de la muestra X basado en muestras aleatorias en n poseerá también una distribución normal cuya media será y cuya desviación estándar será: x n Distribución de la media al muestrear una población que no es normal: si X posee una distribución con media y desviación estándar, entonces la media de la muestra basada en un muestreo de tamaño n tendrá una distribución que se aproximará a la distribución de una variable normal cada media y desviación estándar . n En cuanto a n tienda a infinito. Ejemplo: 1) Una población se compone de 5 números: 2,3,6,8 y 11 considerar todas las muestras posibles de tamaño 2 que puedan extraerse con reemplazamiento de esta población. Se pide encontrar: la media de la población x 2 3 6 8 11 30 6 5 5 la desviación típica de la población 2 ( x ) 2 (2 6) 2 (3 6) 2 (6 6) 2 (8 6) 2 (11 6) 2 n 5 16 9 0 4 25 54 10.8 5 5 3.2 la media de la distribución de medias. (2,2) (2,3) (2,6) (2,8) (2,11) (3,2) (3,3) (3,6) (3,8) (3,11) (6,2) (6,3) (6,6) (6,8) (6,11) (8,2) (8,3) (8,6) (8,8) (8,11) (11,2) (11,3) (11,6) (11,8) (11,11) 2 2.5 4 5 6.5 2.5 3 4.5 5.5 7 4 4.5 6 7 8.5 5 5.5 7 8 9.5 6.5 7 8.5 9.5 11 = 20 22.5 30 35 42.5 150 / 25 = 6 Desviación típica de la distribución muestral de medias ( error típico de medias). (2 6) 2 (2.5 6) 2 (4 6) 2 (5 6) 2 (6.5 6) 2 (2.5 6) 2 (3 6) 2 (4.5 6) 2 (55 . 6) 2 (7 6) 2 (4 6) 2 (4.5 6) 2 (6 6) 2 (7 6) 2 (8.5 6) 2 (5 6) 2 (55 . 6) 2 (7 6) 2 (8 6) 2 (9.5 6) 2 (6.5 6) 2 (7 6) 2 (8.5 6) 2 (9.5 6) 2 (11 6) 2 25 16 12.25 4 1 0.25 12.25 9 2.25 0.25 1 4 2.25 6 1 6.25 1 0.25 1 4 12.25 0.25 1 6.25 12.25 25 25 135 5.4 25 2.32 3) Consideremos el universo de dígitos pares, {0, 2, 4, 6, 8}, y todas las muestras posibles de tamaño 2; además, se tomara en cuenta dos distribuciones muéstrales diferentes que pueden formarse con: 1) las medias y 2) los rangos muéstrales Primero, se requiere enumerar todas las muestras posibles de tamaño 2; hay 25 muestras posibles: {0, 0} {2, 0} {4, 0} {6, 0} {8, 0} {0, 2} {2, 2} {4, 2} {6, 2} {8, 2} {0, 4} {2, 4} {4, 4} {6, 4} {8, 4} {0, 6} {2, 6} {4, 6} {6, 6} {8, 6} {0, 8} {2, 8} {4, 8} {6, 8} {8, 8} Cada una de las muestras tiene una media x. Estas medias son, respectivamente: 0 1 2 3 4 1 2 3 4 5 2 3 4 5 6 3 4 5 6 7 4 5 6 7 8 Cada una de las muestras es igualmente probable, por lo que cada una de las 25 medias muéstrales se le puede asignar una probabilidad de 1/25 = 0.004. La distribución muestral de las medias muéstrales se presenta en la tabla 7.1 como una distribución de probabilidad y en la figura 7.1, como un histograma. DISTRIBUCIÓN MUESTRAL DE MEDIAS MUESTRALES x p( x ) 0 0.04 1 0.08 2 0.12 3 0.16 4 0.20 5 0.16 6 0.12 7 0.08 8 0.04 3) La media de edad de los alumnos que se presentan a pruebas de acceso a la Universidad es de 18,1 años, y la desviación típica 0,6 años. Se elige, al azar, una muestra de 100. ¿ Cuál es la probabilidad de que la media de la edad de la muestra esté comprendida entre 17,9 y 18,2 años?. Se tienen lo siguientes parámetros: x 18,1 x 0,6 0,06 100 Se pide que P(17,9 X 18,2) P( X 18,2) P( X 17,9) P( X x x X x 17,9 18,1 18,2 18,1 ) P( ) 0,06 x 0,06 P( Z 1,666) P( Z 3,33) 0,9525 0,0004 0,9521 Distribución muestral de proporción: Existen ocasiones en las cuales no estamos interesados en la media de la muestra, sino que queremos investigar la proporción o parte de un total de sucesos en un experimento. La distribución muestral de proporciones es la adecuada para dar respuesta a estas situaciones. Esta distribución se genera de igual manera que la distribución muestral de medias, a excepción de que al extraer las muestras de la población se calcula el estadístico proporción (p=x/n en donde "x" es el número de éxitos u observaciones de interés y "n" el tamaño de la muestra) en lugar del estadístico media. Una población binomial está estrechamente relacionada con la distribución muestral de proporciones; una población binomial es una colección de éxitos y fracasos, mientras que una distribución muestral de proporciones contiene las posibilidades o proporciones de todos los números posibles de éxitos en un experimento binomial, y como consecuencia de esta relación, las afirmaciones probabilísticas referentes a la proporción muestral pueden evaluarse usando la aproximación n(1-p) normal a la binomial, siempre que np 5 y 5. Cualquier evento se puede convertir en una proporción si se divide el número obtenido entre el número de intentos. Al parámetro que estima el valor real o poblacional de la proporción lo llamaremos p Luego deberemos estandarizar a través de : Z p p p Donde p : el valor estimado de la proporción p p q : Desviación estándar de la distribución de proporción n q 1 p : probabilidad proporción de fracaso n : tamaño de muestra Ejemplo: 1) Se ha determinado que 60% de los estudiantes de una universidad grande fuman cigarrillos. Se toma una muestra aleatoria de 800 estudiantes. Calcule la probabilidad de que la proporción de la muestra de la gente que fuma cigarrillos sea menor que 0.55. Datos: n=800 estudiantes p =0.60 p= 0.55 P(p< 0.55) = ? P( p 0,55) P( p p p 0,55 0,6 ) P( Z 2,2887) 0,0017 0,6 (1 0,6) 800 Buscando en la tabla de "z" nos da la probabilidad de 0.0017. La interpretación en esta solución, estaría enfocada a la proporción de la muestra, por lo que diríamos que la probabilidad de que al extraer una muestra de 800 estudiantes de esa universidad, la proporción de estudiantes que fuman cigarrillos sea menor al 55% es del 0.17%. 2) Un medicamento para malestar estomacal tiene la advertencia de que algunos usuarios pueden presentar una reacción adversa a él, más aún, se piensa que alrededor del 3% de los usuarios tienen tal reacción. Si una muestra aleatoria de 150 personas con malestar estomacal usa el medicamento, encuentre la probabilidad de que la proporción de la muestra de los usuarios que realmente presentan una reacción adversa, exceda el 4%. Datos: n=150 personas p =0.03 p= 0.04 P(p>0.04) = ? P( p 0,04) P( p p p 0,04 0,03 ) P( Z 0,718) 0,1685 0,03 (1 0,03) 150 Existe una probabilidad del 17% de que al tomar una muestra de 150 personas se tenga una proporción mayor de 0.04 presentando una reacción adversa. 3) Se sabe que la verdadera proporción de los componentes defectuosos fabricadas por una firma es de 4%, y encuentre la probabilidad de que una muestra aleatoria de tamaño 60 tenga: a) Menos del 3% de los componentes defectuosos. b) Más del 1% pero menos del 5% de partes defectuosas. a) Datos: n= 60 artículos p =0.04 p= 0.03 p(p<0.03) = ? P( p 0,03) P( p p p 0,03 0,04 ) P( Z 0,395) 0,2327 0,04 (1 0,04) 60 La probabilidad de que en una muestra de 60 artículos exista una proporción menor de 0.03 artículos defectuosos es de 0.2327. b) Datos: n= 60 artículos p =0.04 p= 0.01 y 0.05 p(0.01<p<0.05) = ? P(0,01 p 0,05) P( p 0,05) P( p 0,01) P( p p p 0,05 0,04 p p ) P( p 0,04(1 0,4) 60 0,329 VII. Glosario Links de interés 0,01 0,04 ) P( z 0,395) P( Z 1,186) 0,04 (1 0,04) 60