7. Muestras aleatorias y estimaciones Matemáticas aplicadas a las Ciencias Sociales II 286 1. Variables aleatorias continuas 2. Distribución normal 3. Números aleatorios 4. Muestras aleatorias 5. Distribuciones muestrales 6. Estimación de la media 7. Error máximo admisible. Tamaño de una muestra Muestras aleatorias y Estimaciones 1.- VARIABLES ALEATORIAS CONTÍNUAS VARIABLES ALEATORIAS CONTINUAS Una variable aleatoria es continua si puede tomar todos los valores de un intervalo (comprendidos entre otros dos). Por ejemplo: la talla, el peso, la longitud de una determinada marca de tornillos, etc. Al aproximar un histograma (variable discreta) por medio de una curva, observa que: 1) Todas las ordenadas de las curvas son positivas: f(x) 0. 2) El área bajo la curva comprendida entre ella y el eje de abcisas debe ser 1. Ya que: 1) Todos los rectangulos del histograma estan situados por encima del eje OX. 2) La suma de las areas de todos los rectangulos del histograma es igual a 1. En un histograma, la altura de cada rectángulo se llama densidad de frecuencia y el área de los rectángulos coincide con las frecuencias (probabilidades) de cada intervalo. Por analogía, definimos: FUNCIÓN DE DENSIDAD de una variable aleatoria contínua X a una función f(x) que cumple: 1) f(x) 0, para todo número real x. 2) + f(x) 1 La aproximación de un histograma por medio de una función de densidad se hace con la condición de que el área encerrada en un intervalo [a, b] del histograma coincida con dicha área en [a, b] bajo la curva de densidad. El cálculo de probabilidades en un histograma es cálculo de áreas de rectángulos. De la misma forma, en una variable continua, el cálculo de probabilidades se reduce al cálculo de áreas bajo la curva de densidad para lo que hay que recurrir al cálculo integral. Es decir: p(a X b)= + f(x) Para una variable aleatoria continua no tiene sentido calcular probabilidades puntuales del tipo p(X =a), ya que, la probabilidad es área bajo una curva en un intervalo y para X=a el intervalo es de longitud 0. 287 Matemáticas aplicadas a las Ciencias Sociales II En este caso se suele tomar: p(X = a) = p(a0’5 X a+0’5) FUNCIÓN DE DISTRIBUCIÓN de una variable aleatoria continua X es la función F(x) definida por: a f(x) F(a) = p(X a)= Es equivalente a la función de distribución de una variable discreta, ya que representa la probabilidad acumulada de la variable hasta el valor X=a. n Teniendo en cuenta que la media de una variable discreta se define por X definimos MEDIA de una variable aleatoria continua X a la expresión : X xk pk , k=0 + x f(x) (también llamada ESPERANZA MATEMÁTICA). Teniendo en cuenta que la varianza de una variable discreta se define por n V= xk x 2 pk , definimos VARIANZA de una variable aleatoria continua X a la k=0 expresión: V= x x + 2 f(x) La desviación típica es la raíz de la varianza V . DENSIDAD 1 La función de densidad de cierta variable aleatoria X se define así: 0, f(x)= k x 2 , 0, 1 Halla la constante k, calcula p x < 2 288 si x 0 si 0 < x 2 si x > 2 3 y halla la media, la varianza y la desviación típica. 2 Muestras aleatorias y Estimaciones Teniendo en cuenta que + f(x) 1 , debe ser 2 0 k x Resolviendo la integral por la regla de Barrow, obtenemos: De donde: 1k 2 0 x 2 2 2 0 x 1 2 2 0 x 1 . k 8 3 8 1 3 k= 3 k 8 32 323 2 3 13 1 p x < f(x) x 12 8 2 1 2 32 2 Media: x 2 + 2 x f(x) 0 Varianza: V = (Por la regla de Barrow). 3 3 3 x 1,5 8 2 (Por la regla de Barrow). 2 2 3 x x f(x) 0 x 2 + 2 3 2 3 2 4 3 3 9 2 x 0,15 x 3x x 8 0 4 8 20 Desviación típica : V 0,15 0,3872983 DENSIDAD 2 si x < -2 0, si - 2 x < 3 Dada la función de densidad f(x)= , 0, si x 3 calcula la media, varianza y desviación típica. halla el valor de la constante y DENSIDAD 3 si x 0 0, La función de densidad de una variable aleatoria X es f(x)= k x, si 0 < x < 4 . Halla el valor de 0, si x 4 k y calcula la media, varianza y desviación típica. Calcula las siguientes probabilidades : p(X0), p(X1), p(X>4), p(X3), p(2<X<3) y p(0<X<4) DENSIDAD 4 Dada la variable aleatoria X de función de densidad 1 si x 0, 2 1 1 f(x)= k x 2 , si x 2 2 1 si x > 0, 2 determina el valor de k y halla su media y su varianza. 289 Matemáticas aplicadas a las Ciencias Sociales II DECLARACIÓN DE LA RENTA La distribución de los ingresos de las familias de cierta población, en decenas de miles de euros, es una variable aleatoria continua X con función de densidad: 6 2 8000 20x x , f(x) 0, si 0 x 20 en otro caso Si sólo realizan la declaración de la renta las familias con ingresos superiores a 30000 euros, ¿qué porcentaje de familias quedarán exentas de realizar la declaración?. BENEFICIOS El número de kilogramos diarios de cierto producto que se vende por kilos es una variable aleatoria continua con función de densidad: 1 9000 x 2 f(x) 0 si 0 x 30 en otro caso Si compramos el kilo a 60 euros y lo vendemos a 100 euros: a) ¿Qué porcentaje de días ganaremos más de 400 euros?. b) ¿Qué media diaria de beneficios se espera obtener?. 2.- DISTRIBUCIÓN NORMAL LA CURVA NORMAL Muchos histogramas pueden ajustarse por una curva que tiene la forma de una campana invertida : Esta curva es conocida como CURVA NORMAL o CURVA DE GAUSS. Es simétrica respecto de la vertical que pasa por la media y presenta un máximo para dicho valor medio, x. Además, la desviación típica es la distancia del eje de simetría a cualquiera de los dos puntos de inflexión de la curva normal. En el punto de inflexión, la campana cambia de mirar hacia abajo a mirar hacia arriba (o viceversa). Existen multitud de fenómenos de azar o procesos aleatorios que pueden representarse por la curva normal (por eso, precisamente, se llama normal). De manera que, para esos fenómenos, la campana de Gauss cumple el mismo papel que el histograma. 290 Muestras aleatorias y Estimaciones Para calcular probabilidades a partir de un histograma, entre dos valores dados, basta sumar áreas de rectángulos. Para calcular probabilidades a partir de la curva normal, hay que recurrir al cálculo de primitivas. La función que representa a la curva normal, llamada función de densidad normal viene dada por la fórmula: F(x) = 1 2 1 x x 2 e 2 La dificultad reside en que esta función no tiene primitivas expresables mediante funciones elementales. Por esta razón, se han construido tablas como la que tienes al final del tema. Se han confeccionado utilizando métodos de aproximación de áreas (rectángulos, trapecios, etc). En dichas tablas se recogen los valores que puede tomar el área bajo la curva normal, de media x 0 y desviación típica = 1, cuya fórmula es : F(z) = 1 2 z2 e 2 La función de distribución normal es la función cuyo valor en cada punto a es F(a) = p(x < a) = p(x a) y verifica la propiedad : p(a < x < b) = F(b) - F(a) Si X es una variable aleatoria continua que sigue una distribución normal de media x y desviación típica , escribimos: XN( x , ) Si Z es una variable aleatoria continua que sigue una distribución normal de media 0 y desviación típica 1, decimos que es una variable normal típica y la representamos así : ZN(0, 1). Como puedes observar, en la tabla tienes las probabilidades de que la variable Z tome valores menores o iguales que uno z p fijado de antemano, p(Z z p ) desde z p =0.00 hasta z p =3.49. La primera columna da la parte entera y la primera cifra decimal, mientras que la segunda cifra decimal la dan las siguientes columnas. Así : p(Z0,50)=0,6915 p(Z1,17)=0,8790 ¿Cómo calcularías en la tabla p(Z1) ?. Ten en cuenta que en la tabla sólo aparecen los valores positivos de z p . Para superar esta dificultad, recuerda que la suma de las áreas de los rectángulos que componen un histograma es igual a 1. Puesto que la curva normal es una aproximación del histograma, esta propiedad también la verifica la campana de Gauss, es decir : EL ÁREA BAJO LA CURVA NORMAL EN LA TOTALIDAD DE SU DOMINIO ES IGUAL A 1. + - F(z) 1 291 Matemáticas aplicadas a las Ciencias Sociales II Utilizando esta propiedad y el hecho de que la curva es simétrica respecto del eje de ordenadas, tenemos : p(Z1) = p(Z1) = 1 p(Z1) = 1 0,8413 = 0,1587 Así pues, la probabilidad pedida es p(Z1)=0,1587=15,87 %. a) Utilizando las propiedades de la curva de Gauss, calcula a partir de la tabla de la función de distribución normal, las siguientes probabilidades : p(Z2) ; p(Z>2) ; p(Z>2) ; p(Z<2) ; p(0,5<Z<1,5) ; p(0,5Z0,5) ¿ Puedes usar este procedimiento para calcular p(Z=1,5) ?. En general, podemos hacer la aproximación : p(Z = a) = p(a 0,5 < Z a + 0,5) La curva que acabamos de estudiar se llama NORMAL TIPIFICADA y se caracteriza por tener media x 0 y desviación típica = 1. Pero obviamente, no todos los fenómenos de azar poseen media 0 y desviación típica 1. ¿Cómo podemos entonces utilizar la tabla de la normal tipificada cuando la media y la desviación típica son diferentes ?. Si X es la variable de un fenómeno aleatorio representado por una curva normal de media x y desviación típica , entonces la variable Z= X X es una normal tipificada, es decir, de media 0 y desviación típica 1. Es decir : Si X N( X , ) entonces Z= X X N(0, 1) b) Una variable X está representada por una curva normal de media X 2 y desviación típica = 0,5. ¿Qué posibilidades tenemos de que dicha variable X tome valores comprendidos entre 1,8 y 2,2 ?. ¿Y de que la variable X tome valores inferiores a 1,8 o superiores a 2,2 ?. VENTAS La media de ventas diarias de un vendedor de unos grandes almacenes es de 950 euros y la desviación típica es 200 euros. Suponiendo que la distribución de ventas es normal, ¿cuál es la probabilidad de vender más de 1250 euros en un día?. 292 Muestras aleatorias y Estimaciones BATERÍAS Cierto tipo de batería dura un promedio de 3 años, con una desviación típica de 0,5 años. Suponiendo que la duración de las baterías es una variable normal: a) ¿Qué porcentaje de baterías se espera que duren entre 2 y 4 años?. b) Si una batería lleva funcionando 3 años, ¿cuál es la probabilidad de que dure menos de 4,5 años?. CULTURA GENERAL Tras realizar un test de cultura general entre los habitantes de cierta población, se observa que las puntuaciones siguen una distribución normal, de media 68 y desviación típica 18. Se desea clasificar a los habitantes en tres grupos (de baja cultura general, de cultura general aceptable, de cultura general excelente), de manera que el primer grupo abarque un 20% de la población, el segundo un 65% y el tercero el 15% restante. ¿Cuáles son las puntuaciones que marcan el paso de un grupo a otro?. ELECTRODOMÉSTICO Se sabe que la vida media de un electrodoméstico es de 10 años con una desviación típica de 0,7 años. Suponiendo que dicha vida media sigue una distribución normal, calcula: a) La probabilidad de que el electrodoméstico dure más de 9 años. b) La probabilidad de que dure entre 9 y 11 años. BATAS Una gran empresa debe reponer las batas de sus 1000 operarios. Se sabe que la talla media es de 170 cm, con una desviación típica de 3 cm. Las batas se confeccionan en tres tallas válidas para estaturas entre 155 y 165 cm, 165 y 175 cm y, finalmente, entre 175 y 185 cm. ¿Cuántas batas de cada talla ha de adquirir?. 293 Matemáticas aplicadas a las Ciencias Sociales II EDADES En la ciudad A, la edad de sus 400000 habitantes sigue una distribución normal de media 41 años y desviación típica 12 años. En la ciudad B, con el doble de habitantes, la edad se distribuye normalmente con media 47 años y desviación típica 8 años. ¿En cuál de las dos ciudades es mayor la proporción de habitantes mayores de 65 años?. ¿Cuál de las dos ciudades tiene mayor número de habitantes con edad superior a 65 años?. FERRETERÍA En una ferretería venden cajas de clavos; el número de clavos de cada caja sigue una distribución normal de parámetros N(200;10) . a) ¿Qué porcentaje de cajas contienen entre 180 y 220 clavos?. b) Si se devuelve el importe de las cajas que contienen menos de 180 clavos y compramos 2 cajas, ¿cuál es la probabilidad de que tengan que devolvernos el importe de las dos cajas?. Aproximación de la distribución binomial por la distribución normal. Toda distribución binomial puede ajustarse por una distribución normal con la misma media, X n p y la misma desviación típica = n pq . El sentido de la palabra “ajustar” es que las áreas encerradas por la curva normal en cada intervalo y el área de los rectángulos del histograma que corresponden al mismo intervalo son “casi” iguales. En general se demuestra que el ajuste es bueno siempre que se cumplan las condiciones : n p q 9, n p 5, n q 5 . PSICOTERAPIA Se sabe, tras varios sondeos, que en una determinada población únicamente el 15% es favorable a los tratamientos de psicoterapia. Elegida al azar una muestra de 50 personas, calcula: a) La probabilidad de que haya, exactamente, una persona favorable a dichos tratamientos. b) La probabilidad de que haya más de 5 personas favorables a los tratamientos. PREDICCIÓN Tiramos una moneda perfecta cien veces. Hacemos la predicción de que saldrá un número de caras comprendido entre 44 y 56. Calcula la probabilidad de no acertar. 294 Muestras aleatorias y Estimaciones VACACIONES EN LA PLAYA El 90% de los miembros de un club pasan sus vacaciones en la playa. Calcula una aproximación, obtenida utilizando las tablas de la normal, de la probabilidad de que, de un grupo de 60 miembros del club, 50 o menos vayan a ir a la playa a pasar sus vacaciones. VACUNA Se conoce, por estudios previos, que la proporción de reses que enfermarán después de suministrarles una determinada vacuna es del 2%. Una granja tiene 600 reses que son vacunadas. a) Determina el número esperado de reses que no enfermarán. b) Halla la probabilidad de que el número de reses que enferman sea, como máximo, 20. c) Determina la probabilidad de que el número de reses que no enferman sea, como mínimo, 590. MICROCIRCUITOS En una empresa que fabrica microcircuitos se ha comprobado que el 4% de estos son defectuosos. Un cliente compra un paquete de 500 microcircuitos procedentes de la fábrica. Determina: a) Número esperado de microcircuitos no defectuosos. b) Probabilidad de que se encuentre más del 5% de microcircuitos defectuosos. c) Probabilidad de que el número de microcircuitos defectuosos esté entre 20 y 30. DADO TRUCADO En un dado trucado, la probabilidad de sacar un 6 es doble que la de cualquiera de los restantes valores. Se lanza dicho dado 20 veces. ¿Cuál es la probabilidad de que salga 6 más de 15 veces?. 295 Matemáticas aplicadas a las Ciencias Sociales II FLUIDEZ VERBAL Se ha aplicado un test de fluidez verbal a 500 alumnos de primero de ESO de un centro de secundaria. Se supone que las puntuaciones obtenidas se distribuyen según una normal de media 80 y desviación típica 12. Se pide: a) ¿Qué puntuación separa el 25% de los alumnos con menos fluidez verbal?. b) ¿A partir de qué puntuación se encuentra el 25% de los alumnos con mayor fluidez verbal?. YOGURS Una normativa europea obliga a que en los envases de yogur no debe haber menos de 120 gramos. La máquina dosificadora de una empresa láctea hace los envases de yogur según una ley normal de desviación estándar de 2 gramos y media 122 gramos. a) ¿Qué tanto por ciento de los envases de yogur de esta empresa cumplirá la normativa?. b) ¿Cuál deberá ser la media de la ley normal con la cual la máquina dosificadora hace los envases para que el 98% de la producción de yogures de esta empresa cumpla la normativa?. (La desviación típica se mantiene igual a 2). UN PROBLEMA DE ALTURAS Un país está habitado por dos grupos étnicos, M y N, que se encuentran en las proporciones 75% y 25%, respectivamente. Se conoce que la talla de los individuos adultos varones es N(, ), con = 170 y = 5 cm para el grupo M, = 175 y = 5 cm para el grupo N. Se conviene en que un individuo es alto si tu talla es superior a 180 cm. Se pide: a) Porcentaje de individuos altos en el grupo M. b) Porcentaje de altos en el grupo N. c) Porcentaje de altos en el país. d) Si un individuo es alto, ¿cuál es la probabilidad de que pertenezca al grupo N?. 296 Muestras aleatorias y Estimaciones COCIENTE INTELECTUAL Los cocientes intelectuales de una población de individuos siguen una distribución normal de media 100 y desviación típica 15. a) Utiliza la calculadora gráfica para obtener una muestra aleatoria de tamaño 100. b) Utiliza la calculadora gráfica para representar diversas curvas de Gauss. c) ¿Cuál es la probabilidad de que una persona elegida al azar tenga un cociente intelectual comprendido entre 90 y 115 ?. La función randNorm( de la calculadora TI83 genera un número real aleatorio de una distribución normal especificada. Su sintaxis es: randNorm( media, desviación típica, número de pruebas ) Para obtener una lista con una muestra de tamaño 100 utilizaremos esta función, pulsando: MATH [6] 100 , 15 , 100 ) L1 Comprueba que la media y la desviación típica de la lista L1 son las esperadas. La función normalpdf( situada en el menú DISTR de la TI83 permite obtener la función de densidad de una variable normal. Su sintaxis es la siguiente: normalpdf( valor, media, desviación típica ) Si no se indican la media y la desviación típica, se sobreentiende 0 y 1, es decir una normal tipificada. Podemos dibujar las gráficas de diversas curvas normales, utilizando esta función. Así, en el menú Y= introducimos las funciones Y1 = normalpdf(X), Y2 = normalpdf(X, 0, 2), Y3 = normalpdf(X, 2, 0.5). Extrae conclusiones. La función normalcdf( situada en el menú DISTR de la TI83 calcula la distribución de probabilidad normal acumulada entre la cota inferior y la cota superior. Su sintaxis es la siguiente: normalcdf( cota inferior, cota superior, media, desviación típica ) Si no se especifican la media y desviación típica, se sobreentiende 0 y 1, es decir, una normal tipificada. Para hallar la probabilidad de que una persona elegida al azar tenga un cociente intelectual nd entre 90 y 115 utilizamos la función normalcdf(90, 115, 100, 15), pulsando [2 ] [VARS] eligiendo la función en la lista de opciones, introduciendo los parámetros y pulsando ENTER. También podemos calcular cuantiles correspondientes a la distribución normal estándard, es decir valores k de la variable para los que la probabilidad p(Zk) toma un determinado valor fijado de antemano. Esto se puede hacer mediante la función invNorm( de la TI83, cuya sintaxis es la siguiente: invNorm( probabilidad) Por ejemplo, si queremos hallar k con la condición de que p(Z k)=0.95, utilizamos la nd función invNorm(0,95), para lo que hay que pulsar [2 ] DISTR [3] 0.95 ) ENTER. En pantalla aparece el resultado, k = 1.644853626. 297 Matemáticas aplicadas a las Ciencias Sociales II Si queremos hallar el cociente intelectual que supera al 95 % de la población, suponiendo que la distribución es normal de media 100 y desviación típica 15, basta tener en cuenta la tipificación. Así: X 100 N (0, 1) . Como el valor k=1.644853626 es tal que p(Z k)=0.95, el valor del 15 X 100 cociente intelectual X buscado debe cumplir: 1.64485 . Por tanto, X = 1.64485 15 15 + 100 = 124.6728 125. Z En general, si XN(, ), el valor del cuantil k, tal que p(X k)=, se obtiene así: k = invNorm( ) + 3.- NÚMEROS ALEATORIOS NÚMEROS ALEATORIOS Al aumentar el número de repeticiones de un experimento, obtenemos una información mayor y más precisa sobre él. Pero no siempre es posible efectuar un elevado número de pruebas, por razones de tiempo y dinero. En estos casos se recurre al llamado método de Monte Carlo con el que se puede efectuar cualquier experiencia aleatoria. Con un dispositivo electrónico parecido a una ruleta de diez sectores se generaron hasta un millón de cifras que aparecieron en 1955 en un libro titulado “Un millón de dígitos al azar”. Una tabla de números aleatorios es una colección de dígitos que se han obtenido por este procedimiento (o por otros equivalentes, como por ejemplo, a través de bombos de lotería, o urnas y bolas, etc ). Para facilitar su lectura, los dígitos se suelen organizar en columnas de cinco cifras. Para usar la tabla hay que elegir un dígito de partida y leer los números a partir de él. La lectura puede hacerse en cualquier orden : verticalmente, horizontalmente, en diagonal, en zig-zag, etc. 298 Muestras aleatorias y Estimaciones Con la tabla de números aleatorios podemos simular cualquier sorteo. Por ejemplo, el lanzamiento de una moneda es equivalente a leer los dígitos de la tabla ; si sale cifra par convenimos que ha salido cara ; si sale impar, cruz. Así, si leemos la tabla desde el principio, en dirección horizontal, obtenemos : 5 9 3 9 1 5 8 0 3 0 ... que equivale a X X X X X X C C X C ... siendo C=cara y X=cruz. Estos resultados cambian si leemos la tabla de otra forma. Otro ejemplo : para sortear 5 premios entre 50 personas, asignamos un número a cada una de las 50 personas y, a continuación, tomamos tiras de dos cifras de la tabla (hasta obtener en total cinco tiras válidas), admitiendo como válidos los números 01, 02, 03, 04,..., 50 y rechazando los números que pasan de 50. Así, si leemos la tabla desde el principio, en dirección vertical, obtenemos : 59 18 19 51 91 91 91 74 27 86 57 27 18 Las personas afortunadas son las que tienen por números de orden 18, 19 y 27. Las que tienen números de orden 18 y 27 reciben dos premios cada una. Lógicamente el sorteo podría haber tenido otro resultado si hubiésemos leído la tabla de una manera diferente. a) Simula con la tabla de números aleatorios 12 lanzamientos de un dado cúbico. b) Simula con la tabla de números aleatorios 15 lanzamientos de un dado para hacer quinielas (dado cúbico que tiene tres caras marcadas con 1, dos caras marcadas con X y una marcada con 2). c) Simula un sorteo de 10 premios entre 150 personas. d) Simula 10 repeticiones del experimento consistente en lanzar simultáneamente tres dados cúbicos y construye la correspondiente tabla de frecuencias, anotando el número de “seises” obtenido en cada lanzamiento. GENERACIÓN DE NÚMEROS ALEATORIOS Las calculadoras y los ordenadores permiten obtener de forma rápida y sencilla series de números aleatorios. Para ello, los ordenadores disponen de la función RND (del inglés RANDOM, que significa AZAR). Cuando se activa esta función, el ordenador genera un número aleatorio comprendido entre 0 y 1, de manera uniforme (sin preferencia por alguno de los números del intervalo). Con esta función es posible simular cualquier situación aleatoria. En efecto, el ordenador también dispone de la función INT, que aplicada a un número real cualquiera lo transforma en la parte entera de dicho número. Así : INT(0,345)=0 INT(0,0231)=0 INT(1,892)=1 Si queremos que el ordenador genere sólo 0 y 1, para imitar el lanzamiento de una moneda, basta tomar los números X generados por la función X=INT(2RND) Si queremos simular el lanzamiento de un dado, se tomarán los valores generados por la función X=INT(6RND)+1 299 Matemáticas aplicadas a las Ciencias Sociales II ¿Cómo obtener números aleatorios con una calculadora científica? La mayoría de calculadoras científicas ofrecen la posibilidad de generar números aleatorios. Para ello disponen de la función RAN#, que se suele activar con la combinación de teclas SHIFT . Cada vez que se activa esta función aparece en pantalla un número aleatorio entre 0 y 1 con un número predeterminado de cifras decimales (generalmente tres decimales). Ignorando el cero inicial y la coma decimal, consideramos los dígitos restantes como una secuencia de números aleatorios que podemos usar de la misma forma que la tabla de números aleatorios. Cada vez que necesitemos más dígitos volveremos a activar la función RAN#, hasta obtener la cantidad deseada de cifras. Si necesitamos trabajar con números de una cifra, leemos los dígitos de uno en uno, si necesitamos números aleatorios de dos cifras, los leemos de dos en dos, etc. Ejemplo.- ¿Cómo simular con la calculadora un juego con tres resultados posibles, 0, 1 y 2, que tienen como probabilidades respectivas 0.2, 0.5 y 0.3 ?. Simula en total 20 partidas. Utilizaremos la función RAN# para obtener en total 20 dígitos aleatorios. Teniendo en cuenta que los resultados del juego y sus probabilidades respectivas son : Resultados Probabilidad convenimos que : 0 0,2 1 0,5 2 0,3 si leemos 0, 1 el resultado del juego es 0, si leemos 2, 3, 4, 5, 6, el resultado del juego es 1, si leemos 7, 8, 9, el resultado del juego es 2. Activando sucesivas veces la función RAN# de la calculadora hemos obtenido : 9 8 6 7 9 2 1 9 2 6 7 9 4 6 9 1 7 9 7 7 lo que indica que los resultados de las 20 partidas del juego son : 2 2 1 2 2 1 0 2 1 1 2 2 1 1 2 0 2 2 2 2 ¿Cómo obtener números aleatorios con una calculadora gráfica? Pulsando MATH en la TI83, obtenemos en pantalla el menú PRB, cuya primera función es rand. Esta función devuelve un número aleatorio comprendido entre 0 y 1. Ejemplo.- ¿Cómo simular con la calculadora gráfica una serie de 5 lanzamientos de un dado octaédrico?. Como hay ocho resultados posibles (1, 2, 3, 4, 5, 6, 7, 8) en cada lanzamiento, debemos utilizar la función int(8*rand)+1. Para que aparezca en pantalla el resultado de uno de los lanzamientos, pulsamos MATH [4] ( MATH [1] 8 ) + 1 ENTER. Como se trata de cinco lanzamientos, repetiremos el proceso cuatro veces más. Pero también podemos obtener directamente una lista con los cinco lanzamientos utilizando la función randInt( del menú MATH PRB. Su sintaxis es: randInt( mínimo, máximo, número de pruebas) En nuestro caso, pulsamos: MATH [5] 1 , 8 , 5 ) para obtener en pantalla randInt(1, 8, 5). Al pulsar ENTER obtenemos los cinco lanzamientos. 300 Muestras aleatorias y Estimaciones Una ruleta está dividida en 37 sectores iguales. Considera tres sectores de tal ruleta : El A, que incluye los sectores numerados del 1 al 21 ; el B, los numerados del 22 al 35 ; el C, los numerados 0 y 36. Si el resultado del juego es un número del sector A, pagas 50 cents ; si es del B, ganas 50 y si el del C, ganas 150. ¿Te conviene jugar ?. ¿Cuánto esperas ganar o perder en 60 jugadas ?. Resuelve el problema por simulación con una calculadora científica o gráfica. a) Con la calculadora científica, usamos la función RAN# para generar una tabla de 60 números aleatorios de dos cifras comprendidos entre 00, 01, 02, ..., 36 rechazando aquellos números de dos cifras que no estén entre los anteriores. Si el número está entre 01 y 21, ha salido el sector A ; si el número está entre 22 y 35, ha salido el sector B y si sale el 00 o el 36, ha salido el sector C. b) Con la calculadora gráfica TI83, utilizamos la función randInt(1, 36, 60). Si el número obtenido está entre 01 y 21, sale el sector A; si el resultado está entre 22 y 35, sale B y si se obtiene 0 ó 36, sale el sector C. Posteriormente construimos una tabla de frecuencias y hallamos la esperanza (o media) de la variable. Teniendo en cuenta que p(A)=21 / 37, p(B)=14 / 37, p(C)=2 / 37, la ganancia teórica media por partida es : Gm = 50 21 14 2 50 50 150 1,3513514 37 37 37 37 céntimos. Luego en 60 partidas debemos perder, por término medio 81,081081 81 céntimos. No parece conveniente jugar. PRUEBAS DE ALEATORIEDAD Estudiemos algunas propiedades de la tabla de números aleatorios : La probabilidad de obtener cada cifra es 0,10. Cada cifra debe aparecer con una frecuencia relativa aproximada de 0,1. Los números pueden leerse agrupados por parejas : 59 39 15 ... Cada uno de los 100 posibles números de 2 cifras tiene una probabilidad de 0,01. Cada pareja debe aparecer en la tabla con una frecuencia relativa próxima a 0,01. Se toman números de cuatro cifras : 5939 1580 ... Cada uno de los 10000 posibles números tiene la probabilidad de 0,0001. Cada número de cuatro cifras debe aparecer en la tabla con una frecuencia relativa cercana a 0,0001. 301 Matemáticas aplicadas a las Ciencias Sociales II a) Selecciona una serie de 150 dígitos de la tabla de números aleatorios y comprueba si cada dígito sale la décima parte de las veces. Compara la frecuencia relativa de cada dígito con su probabilidad. Verificación de los números aleatorios No hay ningún método verdaderamente seguro para construir números aleatorios. Por ello, se necesita verificar el carácter aleatorio de una sucesión de números una vez obtenidos. Una verificación rigurosa la proporciona el llamado TEST DE POKER. Consiste en clasificar los números aleatorios en grupos de cinco cifras, agrupándolos en siete clases. Se calculan sus probabilidades y después se comparan con sus frecuencias relativas. Las clases son las siguientes : CLASE DESCRIPCIÓN DE LA CLASE EJEMPLO PROBABILIDAD DE LA CLASE abcde Todas las cifras distintas 34961 0,3024 aabcd Dos cifras iguales 29512 0,5040 aabbc Dos pares de cifras iguales 44533 0,1080 aaabc Tres cifras iguales 60366 0,0720 aaabb Tres cifras y un par iguales 23223 0,0090 aaaab Cuatro cifras iguales 29222 0,0045 aaaaa Cinco cifras iguales 55555 0,0001 b) Selecciona 50 series de 5 dígitos de la tabla de números aleatorios y cuenta los números de la forma abcde y aabcd. Compara la frecuencia relativa con la probabilidad (dada en la tabla anterior) 302 Muestras aleatorias y Estimaciones 4.- MUESTRAS ALEATORIAS MUESTRAS ALEATORIAS Población es el conjunto de individuos, cuyas características se pretenden estudiar. Muestra es un subconjunto de la población. En Estadística se necesita obtener una muestra de n elementos de una población de N individuos con el propósito de extraer conclusiones sobre la población a través de la muestra. Si la población es muy numerosa no tiene sentido obtener información de todos sus individuos, por razones de tiempo y dinero. Para recoger información acerca de la población se selecciona una muestra, es decir un subconjunto de la población y se efectúa con sus individuos una encuesta. Algunas preguntas de interés : ¿Cómo seleccionar la muestra para que sea representativa de la población y no esté sesgada ?. ¿Cuál es el tamaño idóneo de la muestra ?. Si la muestra es demasiado pequeña puede que la información obtenida no sea representativa de la población. Al aumentar el tamaño de la muestra se obtiene una mejor información, pero el tamaño no puede ser excesivo, por razones económicas. ¿Es fiable la información obtenida en la muestra ?. ¿Hasta qué punto es representativa de la población la información contenida en la muestra ?. Estas cuestiones sobre tamaño y nivel de confianza de una muestra se estudian en INFERENCIA ESTADÍSTICA. ¿Cómo se selecciona una muestra ? Para que la muestra sea representativa, debe ser una imagen miniaturizada de la población. Los caracteres interesantes en la muestra deben aparecer en la muestra con la misma proporción que en la población. Para que esto ocurra y la información no presente sesgos, seleccionamos los individuos que componen la muestra al azar, mediante un sorteo. La muestra obtenida por este procedimiento se conoce con el nombre de muestra aleatoria. En el caso de muestra aleatoria, todos los elementos de la población tienen la misma probabilidad n / N de formar parte de ella. Para obtener una muestra aleatoria se numeran los elementos de la población de forma que todos los números identificativos tengan la misma cantidad de dígitos. A continuación se eligen n elementos con ayuda de la tabla de números aleatorios, para lo que basta leer números de la tabla de números aleatorios (o de la calculadora), rechazando aquellos que no correspondan a ninguno de los números identificativos de la población. La muestra estará formada por aquellos individuos de la población cuyos números de orden coincidan con los n números aleatorios seleccionados. 303 Matemáticas aplicadas a las Ciencias Sociales II Ejemplo 1.Para extraer una muestra de 400 individuos de una población de tamaño 10000 numeramos sus elementos y escogemos 400 números diferentes de cuatro cifras de la tabla de números aleatorios (el 0000 será el 10000). Durante el proceso de selección de estos 400 números eliminaríamos los que aparezcan repetidos. A continuación realizaríamos una encuesta, preguntando a los 400 individuos que componen la muestra. Ejemplo 2.Se desea confeccionar una apuesta de la lotería primitiva, en la que se señalan 6 números de 49. Para ello utilizamos la función randInt(1, 49, 6) de la calculadora gráfica TI83. Así, pulsamos: MATH [5] 1 , 49 , 6 ) ENTER La apuesta estaría formada por los elementos de esta lista, siempre que no hayan repeticiones. a) En una escuela hay 743 estudiantes. Se debe elegir 20 alumnos al azar. Explica el procedimiento más adecuado para efectuar la selección. b) De una población de 1800 individuos queremos extraer una muestra cuyo tamaño sea el 1,5 % del tamaño de la población. Halla el tamaño de la muestra y explica el procedimiento de selección. SOLUCIÓN: a) Se numeran los alumnos del 001 al 743 y se leen los números aleatorios en grupos de tres cifras. Se suprimen los números 000, 744, 745, ... , 999 y las repeticiones. Por ejemplo, empezando por el principio y en dirección horizontal obtenemos : 593 490 214 915 464 391 803 290 801 052 659 896 098 956 839 827 776 915 188 364 114 702 772 482 040 848 041 909 657 461 527 062 966 b) El tamaño de la muestra es 1,5% de 1800 = 1,5 x 1800 /100 = 1,5 x 18 = 27. Para extraer la muestra, utilizamos la función randInt(1, 1800, 27) de la calculadora gráfica TI 83. Para ello pulsamos: MATH [5] 1 , 1800 , 27 ) ENTER La muestra está formada por los individuos de la población cuyos números de orden sean los de la lista obtenida, siempre que no hayan repeticiones. TIPOS DE MUESTREO MUESTREO ALEATORIO SIMPLE El muestreo aleatorio simple es un procedimiento para seleccionar una muestra de una población que consiste en un sorteo en el que: a) Todos los elementos de la población tienen las mismas posibilidades de ser elegidos, y b) Los elementos de la muestra se eligen independientemente unos de otros, es decir, las posibilidades de cada elemento no dependen de cuáles son los otros elementos seleccionados. Podemos elegir los elementos de la muestra de uno en uno, o seleccionarlos todos al mismo tiempo. 304 Muestras aleatorias y Estimaciones Si el sorteo de los elementos se hace de uno en uno, es necesario que en cada etapa los elementos de la población que no han sido seleccionados anteriormente tengan las mismas probabilidades de ser elegidos en la siguiente etapa. Esto se puede conseguir de dos formas : 1) Muestreo aleatorio simple con reemplazamiento : en cada etapa se devuelve a la población el elemento elegido de forma que pueda participar también en la siguiente etapa. Cada etapa es idéntica a la anterior y un mismo elemento puede ser elegido muchas veces. Se pueden obtener así muestras con elementos repetidos. 2) Muestreo aleatorio simple sin reemplazamiento : en cada etapa se separa el elemento seleccionado y no vuelve a participar en las siguientes etapas del sorteo. Cada etapa es diferente a la anterior porque la población a sortear va disminuyendo. En este caso, ya no se pueden producir repeticiones en la muestra. Estos dos procedimientos se diferencian si la población de la que extraemos la muestra es pequeña. En cambio, cuando es muy grande, pueden considerarse prácticamente iguales ya que las repeticiones son muy improbables. En la práctica los dos procedimientos utilizan la tabla de números aleatorios o un generador aleatorio adecuado (ordenador, calculadora) para seleccionar los elementos que componen la muestra. En el caso (1) se admiten números repetidos y en el caso (2) se rechazan las repeticiones. Si seleccionamos todos los elementos de la muestra al mismo tiempo, debemos buscar un procedimiento que asegure que todas las muestras del mismo tamaño tengan las mismas probabilidades de ser elegidas. a) El centro Ximo Trinquet tiene un equipo de fútbol sala y un equipo de baloncesto. Los integrantes de cada uno de los equipos son : Fútbol sala : Baloncesto : Pepe, Juana, Ana, Javi, Ximo, Juanjo, Vicente, Marta y Daniel. Jordi, Antonio, Asun, Enrique, Mario, Ramón, Isabel y Maite. El programa deportivo de Canal 9 Avall la bola invita a tres estudiantes del equipo de fútbol sala y a dos del equipo de baloncesto a participar en uno de sus programas. Utiliza el muestreo aleatorio simple para seleccionar a los cinco estudiantes invitados. Explica detalladamente el procedimiento que sigues para realizar dicha selección. 305 Matemáticas aplicadas a las Ciencias Sociales II SOLUCIÓN: Efectuamos dos sorteos independientes : uno para seleccionar los tres elementos del equipo de fútbol sala y otro para elegir los dos jugadores del equipo de baloncesto. En los dos sorteos utilizamos el muestreo aleatorio simple sin reemplazamiento. Numeramos los componentes del equipo de fútbol sala. Así : 1 2 3 Pepe Juana Ana 4 Javi 5 Ximo 6 7 Juanjo Vicente 8 Marta 9 Daniel A continuación elegimos tres dígitos de la tabla de números aleatorios, rechazando el 0. Así, empezando por el principio y en horizontal, tenemos : 5 9 3, lo que equivale a decir que los seleccionados son Ximo, Daniel y Ana. Numeramos los componentes del equipo de baloncesto. Así : 1 Jordi 2 3 4 Antonio Asun Enrique 5 Mario 6 7 Ramón Isabel 8 Maite A continuación elegimos dos dígitos de la tabla de números aleatorios, rechazando el 0 y el 9. Así, empezando por la octava fila en horizontal, tenemos : 1 6, lo que equivale a decir que los seleccionados son Jordi y Ramón. MUESTREO ALEATORIO SISTEMÁTICO N . A continuación n elegimos un número aleatorio de la tabla, A. Sumando y restando x a este número A, obtenemos los elementos de la muestra : Dividimos el tamaño de la población entre el tamaño de la muestra : x= A3x A2x Ax A A+x A+2x A+3x Por ejemplo, para seleccionar una muestra de 400 individuos de una población de 10000 personas, dividimos el tamaño de la población entre el tamaño de la muestra : 10000 / 400 = 25. Elegimos un número aleatorio de la tabla que tenga cuatro cifras (el 0000 corresponde al 10000), por ejemplo, el 2427. Sumando y restando 25 a este número obtenemos los elementos de la muestra : 2352 2377 2402 2427 2452 2477 2502 MUESTREO ALEATORIO ESTRATIFICADO Cuando la población está dividida en grupos que son significativos para los datos estadísticos que se están estudiando, es conveniente que la muestra refleje la composición de la población. Cada grupo de la población proporciona aleatoriamente una parte de la muestra (cada parte proporcional al tamaño del grupo de procedencia). Así, si queremos extraer una muestra de tamaño 400 de una población de 10000 individuos en la que hay 6000 de estudios primarios, 3000 de estudios medios y 1000 de estudios superiores, elegimos al azar a, b y c personas de cada grupo tales que : a b c 400 6000 3000 1000 10000 de manera que 306 a = 240 b = 120 c = 40 Muestras aleatorias y Estimaciones MUESTREO ALEATORIO POR CONGLOMERADOS Se eligen aleatoriamente unos grupos, cuyos elementos constituyen la muestra. Así, podemos elegir fincas y formar la muestra con los habitantes de esas fincas (sin excluir a ninguno). MUESTREO ALEATORIO POR ETAPAS Se eligen aleatoriamente ciertos grupos y en cada uno se toman aleatoriamente ciertos elementos que componen la muestra. Así, podemos elegir aleatoriamente calles ; en ellas seleccionar fincas al azar y en éstas obtener también aleatoriamente individuos de la muestra. b) En cierto barrio se quiere hacer un estudio para conocer mejor el tipo de actividades de ocio que gustan más a sus habitantes. Para ello, van a ser encuestados 100 individuos elegidos al azar. 1) Explica qué procedimiento de selección sería más adecuado utilizar : muestreo con o sin reemplazamiento. ¿Por qué ?. 2) Como los gustos cambian con la edad y se sabe que en el barrio viven 2500 niños, 7000 adultos y 500 ancianos, posteriormente se decide elegir la muestra anterior utilizando muestreo estratificado. 2.1) Define los estratos. 2.2) Determina el tamaño muestral correspondiente a cada estrato. SOLUCIÓN: a) Si el barrio es poco numeroso, es más adecuado utilizar muestreo aleatorio simple sin reemplazamiento, para lo que previamente hay que disponer del censo del barrio. No tiene sentido usar el muestreo con reemplazamiento porque podríamos preguntar varias veces a la misma persona. Si el barrio es muy numeroso, sería indiferente usar muestreo con o sin reemplazamiento, ya que la probabilidad de obtener repeticiones es pequeña. También se podría usar un muestreo por etapas (sin reemplazamiento, en caso de un barrio con pocos habitantes). b) Los estratos son : niños, adultos y ancianos. El tamaño de cada estrato es : a = niños b = adultos c = ancianos ; de forma que a b c 100 2500 7000 500 10000 de donde : a = 25 b = 70 c=5 307 Matemáticas aplicadas a las Ciencias Sociales II BIBLIOTECA Una biblioteca pública está organizada en cinco secciones (en el cuadro adjunto se indica el número de libros existentes en cada sección). Sección 1 Sección 2 Sección 3 Sección 4 Sección 5 500 860 1200 700 740 Con objeto de estimar el porcentaje de libros de edición española, se quiere seleccionar una muestra de un 5% del número total de libros, a través de muestreo aleatorio estratificado, considerando como estratos las secciones. Determina el número de libros que habría que seleccionar en cada sección si: a) Seleccionamos el mismo número de libros de cada sección. b) Utilizamos muestreo proporcional. INSPECCIÓN FISCAL En un determinado país, el porcentaje de declaraciones fiscales que son correctas es del 60%, 40% y 80% según se trate de industriales, profesionales liberales o asalariados. Se sabe que del total de las declaraciones, el 10% son de industriales y el 20% de profesionales liberales. Se van a realizar 1500 inspecciones. a) ¿Cuántos industriales, profesionales liberales y asalariados han de ser inspeccionados si se desea que la inspección sea proporcional a la probabilidad de declaración incorrecta en cada categoría socioprofesional?. b) Compara esta distribución de las 1500 inspecciones con la que se tendría en el caso de hacerla proporcional al número de declaraciones de cada categoría. 5.- DISTRIBUCIONES MUESTRALES DISTRIBUCIÓN MUESTRAL DE MEDIAS El estudio de las propiedades de una población se efectúa a través de diversas muestras extraídas de la población. Los estadísticos (media, mediana, desviación típica, proporción,…) obtenidos en la muestra permiten decidir sobre los correspondientes parámetros en la población. Para ello necesitamos saber cómo se distribuyen dichos estadísticos en el conjunto de las posibles muestras. Supongamos que en una población la variable aleatoria X tiene media y desviación típica . Extraemos una muestra de tamaño n y hallamos la media de la variable X en la muestra, X . Repetimos el proceso con otras muestras de tamaño n, hallando la media, X , en cada una de ellas. Entonces, se cumple que la media de todas las medias muestrales coincide con la media de la población. Además, la desviación típica de todas las medias muestrales es igual a 308 n . Muestras aleatorias y Estimaciones Si la distribución de la variable X en la población es normal, entonces la distribución de las medias muestrales también es normal. Es decir: Si en una población la variable X es normal de media y desviación típica , entonces las medias muestrales X siguen una distribución normal de la misma media y desviación típica n . Si X N(, ) entonces X N , n Si la variable X en la población no sigue una distribución normal, pero se toman muestras de tamaño n > 30, entonces también se cumple que las medias muestrales siguen una distribución normal de media y desviación típica n . Este resultado se conoce como teorema central del límite. Si la desviación típica poblacional, , es desconocida, puede sustituirse por la desviación s . típica muestral, s, cumpliéndose, en ese caso, que: X N , n Ejemplo.- La estatura media de la población de cierto barrio es de 176 cm, con una desviación típica de 10 cm. a) Calcula la media y la desviación típica de la distribución de las medias de las muestras de tamaño 36. b) Halla la probabilidad de que una muestra de 36 personas tenga una estatura media de 176 cm o más. a) La distribución de las medias muestrales es normal de media 176 cm y desviación 10 10 1,67 cm. típica 6 n 36 b) Si X es la estatura media de las muestras de tamaño 36, entonces se cumple X N(176, X 176 N (0,1) . Por tanto: 1,67). Tipificando: Z= 1,67 176 176 p( X 176 ) p Z p( Z 0) p( Z 0) 0,5 1,67 RECIÉN NACIDOS En una ciudad, el peso de los recién nacidos se ha distribuido según la ley normal de media = 3100 gramos y desviación típica = 150 gramos. Halla los parámetros de la distribución que siguen las medias de las muestras de tamaño 100. 309 Matemáticas aplicadas a las Ciencias Sociales II ESTATURAS Se supone que la estatura de los chicos de 18 años de cierta población sigue una distribución normal de media 162 cm y desviación típica 12 cm. Se toma una muestra al azar de 100 de estos chicos encuestados y se calcula la media. ¿Cuál es la probabilidad de que esta media esté entre 159 y 165 cm?. SELECTIVIDAD La media de edad de los alumnos que se presentan a la prueba de acceso a la Universidad es 18,1 años, y la desviación típica 0,6 años. De los alumnos anteriores se elige, al azar, una muestra de 100. ¿Cuál es la probabilidad de que la media de la edad de la muestra esté comprendida entre 17,9 y 18,2 años?. COCIENTE INTELECTUAL Se sabe que el cociente intelectual de los alumnos de una universidad se distribuye según una ley normal de media 100 y varianza 729. a) Halla la probabilidad de que una muestra de 81 alumnos tenga un cociente intelectual medio inferior a 109. b) Halla la probabilidad de que una muestra de 36 alumnos tenga un cociente intelectual medio superior a 109. Nota: En la N(0, 1) se tienen las siguientes probabilidades: p(z 1) 0,1587; p(z 2) 0,228; p(z 3) 0,00135. ALTURAS La variable altura de las alumnas que estudian en una escuela de idiomas sigue una distribución normal de media 1,62 m y desviación típica 0,12 m. ¿Cuál es la probabilidad de que la media de una muestra aleatoria de 100 alumnas sea mayor que 1,60 m?. 310 Muestras aleatorias y Estimaciones 6.- ESTIMACIÓN DE LA MEDIA ESTIMACIÓN PUNTUAL Generalmente no se suelen conocer exactamente las características de una población. Normalmente utilizamos muestras para describirlas, de manera que las características muestrales serán una estimación de las correspondientes características poblacionales. Para describir una población compuesta por diversas categorías utilizamos las proporciones o frecuencias relativas de cada categoría. La proporción exacta de una categoría en la población, P, no es conocida y usamos la correspondiente proporción muestral, P , como estimador. Para describir una variable continua en la población es usual recurrir a la media y a la desviación típica. Normalmente la media, , y la desviación típica, , poblacionales son desconocidas y utilizamos la media muestral, x , y la desviación típica muestral, s, como estimadores. Ejemplo 1.- Un investigador mide la longitud total del tallo de 13 plantas de soja de una determinada especie a los 16 días de crecimiento, obteniendo los siguientes resultados: 20.2 22.9 23.3 20.0 19.4 22.0 22.1 22.0 21.9 21.5 19.7 21.5 20.9 ¿Cuál es la longitud media del tallo de las plantas de soja de esa especie?. ¿Cuál es la desviación típica en esta clase de plantas?. Evidentemente, no podemos saber con certeza cuál es la longitud media poblacional de esta especie de plantas, ni tampoco cuál es su desviación típica. Sin embargo, podemos dar como estimadores puntuales la media y la desviación típica muestral: x 21.3385 21.34 cm. es una estimación puntual de . s = 1.2190 1.22 cm. es una estimación puntual de . Ejemplo 2.- En una encuesta aleatoria de 265 personas de una población se encontraron 194 personas favorables a una determinada política. ¿Qué proporción de ciudadanos de la población son favorables a dicha política?. Evidentemente, no podemos saber con certeza cuál es la proporción de individuos favorables en la población, pero podemos dar como estimación puntual la proporción muestral: P 194 0.732 73.2 % es una estimación puntual de P. 265 ESTIMACIÓN POR INTERVALOS DE CONFIANZA Como es lógico, resulta muy arriesgado trasladar mecánicamente a la población los parámetros obtenidos en la muestra. Lo normal es que hayan desviaciones entre los parámetros muestrales y los poblacionales. Parece más acertado dar como estimación del parámetro un intervalo y no un único valor. La estimación por intervalos de confianza consiste en hacer razonamientos del siguiente tipo: 311 Matemáticas aplicadas a las Ciencias Sociales II “No sabemos cuál es el valor buscado del parámetro w, pero la información contenida en la muestra indica que ese número está entre los valores a y b casi con seguridad”. Los extremos del intervalo [a, b] serán funciones de la muestra y se trata de determinarlos con un cierto nivel de seguridad o NIVEL DE CONFIANZA. El nivel de confianza mide el grado de seguridad que tenemos al afirmar que el valor del parámetro se encuentra en el intervalo [a, b]. Se expresa así: p(a w b) 1 = nivel de confianza Donde se llama nivel de error o nivel de significación. Por ejemplo, determinar un intervalo de confianza con un nivel de significación del 5% es equivalente a obtener un intervalo con un nivel de confianza del 95%. Esto significa que si extraemos una muestra de la población y obtenemos un intervalo de confianza para el parámetro buscado y volvemos a repetir el proceso de extraer muestras y obtener los correspondientes intervalos de confianza, 95 de cada 100 de estos intervalos contendrán al verdadero valor de parámetro. Para determinar un intervalo de confianza para un parámetro w necesitamos conocer la distribución muestral del correspondiente parámetro muestral w . Por ejemplo, si w sigue una distribución normal de media w y desviación típica ES w, una medida de la discrepancia entre el estimador w y el parámetro w es ESw, que se llama ERROR TÍPICO DE MUESTREO. Si w N(w, ESw) entonces Z= (tipificando): w w N (0, 1) . Para un nivel de significación , se cumple ES w 1 =p(w kESw w w+ kESw) =p(kZk)=2p(Zk)1. De donde: 1=2p(Zk)1 2p(Zk)=2 p(Zk)=1 normal estándar N(0, 1). Es decir: k = Z 1 . Por lo tanto, k es el cuantil 1 de la 2 2 2 w k ES w w w k ES w w Ahora bien, Por tanto, se cumple: w w k ES w k ES w w w 1= p(w kESw w w+ kESw) = p( w kESww w + kESw). Luego: 1 = p( w kESww w + kESw) para k = Z 1 . Es decir: 2 El intervalo w Z ES w , w Z ES w es un intervalo de confianza para el 1 1 2 2 parámetro w con un nivel de confianza 1. 312 Muestras aleatorias y Estimaciones INTERVALO DE CONFIANZA PARA LA MEDIA Si la población tiene media desconocida y desviación típica conocida, y extraemos una muestra de tamaño n con media x y desviación típica s, para n suficientemente grande se . Por lo tanto, el error típico de muestreo es, en este caso, cumple que x N , n ES x n . Entonces, aplicando lo visto en el apartado anterior, se cumple que: El intervalo x Z es un intervalo de confianza para la media , xZ 1 1 n n 2 2 con un nivel de confianza 1. Lo habitual es que la desviación típica poblacional sea desconocida, en cuyo caso la media muestral x no sigue una distribución normal y entonces no se puede utilizar ni el de la N(0, 1) para hallar el intervalo de confianza. Si es desconocida, la 2 media muestral x sigue una distribución T de Student, que para valores de n grandes se puede aproximar por una distribución normal. En este caso se puede utilizar la desviación típica muestral s en lugar de , de forma que el intervalo de confianza para la media viene dado por: cuantil 1 s s x Z para un nivel de significación . , x Z 1 1 n n 2 2 Ejemplo.- Se ha medido la longitud de 13 plantas de una especie de soja, obteniendo los siguientes resultados: 20.2 22.9 23.3 20.0 19.4 22.0 22.1 22.0 21.9 21.5 19.7 21.5 20.9 Halla un intervalo de confianza para la longitud media de esta especie de plantas, con un nivel de significación del 5%. Para =0.05, el nivel de confianza es 1=0.95. El cuantil correspondiente de la N(0, 1) es Z = Z 0.975 1.96 , como puedes comprobar en la tabla de la distribución normal estándar 1 2 nd o con la función invNorm(0.975) de la calculadora gráfica, pulsando [2 ] DISTR [3] 0.975 ) ENTER. Además, sabemos que la media y la desviación típica muestrales son: x 21.3385 21.34 cm. y s = 1.2190 1.22 cm. Por lo tanto, el intervalo de confianza buscado es: 1.22 1.22 , 21.34 1.96 21.34 1.96 20.6768, 22.0032 20.68, 22 13 13 Tenemos una confianza del 95 % de que el intervalo [20.68, 22] contenga al verdadero valor de la media poblacional. 313 Matemáticas aplicadas a las Ciencias Sociales II SELECTIVIDAD Una muestra aleatoria de 100 alumnos que se presenta a las pruebas de Selectividad, revela que la media de edad es de 18,1 años. Halla un intervalo de confianza de 90% para la edad media de todos los estudiantes que se presentan a las pruebas, sabiendo que la desviación típica de la población es de 0,4. OCIO En una muestra de 50 jóvenes encontramos que la dedicación media diaria de ocio es de 400 minutos y su desviación típica de 63 minutos. Calcula el intervalo de confianza de la media de la población al 95% de nivel de confianza. PRECIOS Se ha tomado una muestra de los precios de un mismo producto alimenticio en 16 comercios, elegidos al azar en un barrio de una ciudad, y se han encontrado los siguientes precios: 95 108 97 112 99 106 105 100 99 98 104 110 107 111 103 110 Suponiendo que los precios de este producto se distribuyen según una ley normal de varianza 25 y media desconocida: a) ¿Cuál es la distribución de la media muestral?. b) Determina el intervalo de confianza, al 95%, para la media poblacional. INTERVALOS DE CONFIANZA CON LA CALCULADORA GRÁFICA Podemos obtener intervalos de confianza con ayuda de la calculadora gráfica TI 83. Para ello usaremos el menú TESTS que aparece al pulsar la tecla STAT. ESTIMACIÓN DE UNA MEDIA Para obtener un intervalo de confianza para la media utilizaremos la función Zinterval del menú TESTS. Este menú se obtiene pulsando la tecla STAT. Al activar esta función aparece una pantalla que propone dos métodos de trabajo diferentes: Data y Stats. En el primero (Data) hay que almacenar todos los valores de la muestra en una lista y especificar el nombre de la lista que contiene los datos. En el segundo (Stats) basta dar un resumen de los estadísticos de la muestra, como la media muestral y n. En cada ocasión usaremos la parte del menú que nos interese. A continuación hay que indicar el nivel de confianza (CLevel) y finalmente, desplazar el cursor a la opción Calculate y pulsar ENTER. El resultado es una pantalla donde se indican el intervalo de confianza, la media, la desviación típica y el tamaño de la muestra. 314 Muestras aleatorias y Estimaciones Ejemplo.- Hemos pesado 28 corderos de una misma especie criados en idénticas condiciones ambientales, obteniendo los siguientes resultados (en kg): 4.3 5.4 5.2 5.5 6.2 3.6 6.7 5.8 5.3 5.6 4.9 5.0 4.7 5.2 5.5 5.8 5.3 6.1 4.0 4.9 4.9 4.5 5.2 4.8 4.9 5.4 5.3 4.7 Calcula un intervalo de confianza para la media de los pesos de los corderos de esa especie, con un nivel de confianza del 90%. Introducimos los datos en la lista L1 y a continuación pulsamos STAT [1] L1 para seleccionar la función 1Var Stats del menú CALC. De esta forma obtenemos los estadísticos muestrales, concretamente: x 5.167857143 y S x 0.6543606274 . Podemos suponer que la desviación típica poblacional coincide con la muestral, osea =Sx=0.65. Entonces, activando el menú Zinterval, situaremos en cursor en Data y pulsaremos ENTER; introduciremos como lista de datos L1, con frecuencias iguales a 1 y un CLevel igual a 0.90. Situando el cursor sobre Calculate y pulsando ENTER, obtenemos el intervalo de confianza, junto con la media, desviación típica y tamaño muestral. Haz este mismo ejercicio usando el menú Tinterval, en lugar de Zinterval y compara los resultados obtenidos. El menú Tinterval se basa en usar la distribución T de Student, en vez de la distribución normal. LIBROS CIENTÍFICOS Se desea hacer un estudio de mercado para conocer el precio medio de los libros científicos. Para ello, se elige una muestra aleatoria formada por 34 libros y se determina que la media muestral es de 34,90 euros con una desviación típica de 4,50 euros. Halla el intervalo de confianza para el precio medio de los libros científicos al nivel del 99%. COJINETES DE BOLAS Las medidas de los diámetros de una muestra al azar de 200 cojinetes de bolas, hechos por una determinada máquina, dieron una media de 2 cm y una desviación típica de 0,1 cm. Halla los intervalos de confianza del: a) 68,26%. b) 95,44%. c) 99,73%. para el diámetro medio de todos los cojinetes. 315 Matemáticas aplicadas a las Ciencias Sociales II RODAMIENTOS La media de las medidas de los diámetros de una muestra aleatoria de 200 bolas de rodamiento fabricadas por cierta máquina fue de 0,824 cm y la desviación típica fue de 0,024 cm. Halla los límites de confianza al 95% para el diámetro medio de las bolas fabricadas por esa máquina. ALTURAS En una gran ciudad, la altura media de sus habitantes tiene una desviación típica de 8 cm. Se pide: a) Si la altura media de dichos habitantes fuera de 175 cm, ¿cuál sería la probabilidad de que la altura media de una muestra de 100 individuos tomada al azar fuera superior a 176 cm?. Explica los pasos seguidos para obtener la respuesta. b) Si se considera una muestra aleatoria de 100 individuos de esta ciudad, se obtiene una altura media de 178 cm. Determina un intervalo de confianza del 95% para la altura media de los habitantes de esta ciudad. Indica los pasos seguidos para obtener la respuesta. 7.- ERROR MÁXIMO ADMISIBLE. TAMAÑO DE UNA MUESTRA ERROR MÁXIMO ADMISIBLE w Z ES w , w Z ES w es un intervalo de confianza para el 1 1 2 2 parámetro w con un nivel de confianza 1. Esto indica que tenemos una confianza del 1 % de que el parámetro w pertenezca a dicho intervalo. Entonces, con ese nivel de certeza, la distancia entre w y su estimador w será inferior a la mitad de la longitud del intervalo, Z ES w . Sabemos que 1 2 Llamamos error máximo admisible a la expresión E = Z estándar de muestreo. 316 1 ES w , siendo ESw el error 2 Muestras aleatorias y Estimaciones ERROR MÁXIMO ADMISIBLE PARA UNA MEDIA Si se trata de estimar una media poblacional, el error típico de muestreo viene dado por ES x n . Por tanto, el error máximo admisible será E= Z 1 2 n , siendo la desviación típica poblacional (que se supone conocida) y n el tamaño muestral. Si es desconocida, se puede sustituir por la desviación típica muestral, s, siempre que n sea suficientemente grande. TAMAÑO DE UNA MUESTRA PARA UNA MEDIA Sabemos que el error máximo admisible para una media es E = Z Z elevando al cuadrado: E 2 Z 2 1 2 2 n . De donde: n 2 1 2 E2 1 2 n . Entonces, 2 . Por tanto, cuando estimamos una media poblacional con un nivel de significación , el tamaño idóneo de la muestra es 2 Z 1 2 . n E BOMBILLAS Un fabricante de bombillas sabe que la desviación típica de la duración de las bombillas es de 100 horas. Calcula el tamaño de la muestra que se ha de someter a prueba para tener una confianza del 95% de que el error de la duración media que se calcule sea menor que 10 horas. MÁS BOMBILLAS La duración de unas bombillas sigue una distribución normal de media desconocida y desviación típica de 50 horas. Para estimar la duración media, se experimenta con una muestra de tamaño n. Calcula el valor de n para que, con un nivel de confianza del 95%, se haya conseguido un error en la estimación inferior a 5 horas. 317 Matemáticas aplicadas a las Ciencias Sociales II PESOS 1 El peso de los niños varones a las 10 semanas de vida se distribuye según una normal con desviación típica de 87 gramos. ¿Cuántos datos son suficientes para estimar, con una confianza del 95%, el peso medio de esa población con un error no superior a 15 gramos?. PSICOLOGÍA Al medir el tiempo de reacción, un psicólogo estima que la desviación típica del mismo es de 0,5 segundos. ¿Cuál será el número de medidas que deberá hacer para que sea del 99% la confianza de que el error de su estimación no excederá de 0,1 segundos?. TAMAÑO MUESTRAL Supongamos una población N( , 8) . Se extrae de ella una muestra aleatoria simple. Si se sabe que la probabilidad de cometer un error de 3,92 o más al estimar la media mediante la media muestral es de 0,05, ¿qué tamaño ha de tener la muestra?. PESOS 2 Se sabe que la desviación típica del peso de los individuos de una cierta población es 6 kg. Calcula el tamaño de la muestra que se ha de considerar para, con un nivel de confianza del 95%, estimar el peso medio de los individuos de la población con un error inferior a 1 kg. Explica los pasos seguidos para obtener la respuesta. ALTURAS La desviación típica de la altura de los habitantes de un país es de 10 cm. Calcula el tamaño mínimo que ha de tener una muestra de habitantes de dicho país para que el error cometido al estimar la altura media sea inferior a 1 cm con un nivel de confianza del 99%. ¿Y si el nivel de confianza es del 95%?. Explica los pasos seguidos para obtener las respuestas. 318 Muestras aleatorias y Estimaciones AVIONES COMERCIALES Una encuesta realizada sobre 40 aviones comerciales revela que la antigüedad media de éstos es de 13,41 años con una desviación típica muestral de 8,28 años. Se pide: a) ¿Entre qué valores, con un 90% de confianza, se encuentra la antigüedad media de la flota comercial?. b) Si se quisiera obtener un nivel de confianza del 95% cometiendo el mismo error de estimación que en el apartado anterior y suponiendo también que = 8,28 años, ¿cuántos elementos deberían componer la muestra?. ELECTRODOMÉSTICOS Un fabricante de electrodomésticos sabe que la vida media de éstos sigue una distribución normal con media = 100 meses y desviación típica = 12 meses. Determina el mínimo tamaño muestral que garantiza, con una probabilidad de 0,98 que la vida media de los electrodomésticos en dicha muestra se encuentra entre 90 y 110 meses. GLUCOSA Se ha tomado una muestra aleatoria de 100 individuos a los que se ha medido el nivel de glucosa en sangre, obteniéndose una media muestral de 110 mg/cc. Se sabe que la desviación típica de la población es de 20 mg/cc. a) Obtén un intervalo de confianza, al 90%, para el nivel de glucosa en sangre en la población. b) ¿Qué error máximo se comete con la estimación anterior?. SELECTIVO La media de edad de los alumnos que se presentan a las pruebas de acceso a la Universidad es 18,1 años, y la desviación típica 0,6 años. ¿Qué tamaño debe tener una muestra de dicha población para que su media esté comprendida entre 17,9 y 18,3 años, con una confianza del 99,5% ?. 319 Matemáticas aplicadas a las Ciencias Sociales II FRUCTOSA Se sabe que el contenido en fructosa de cierto alimento sigue una distribución normal cuya varianza es conocida teniendo un valor de 0,25. Se desea estimar el valor de la media poblacional mediante el valor de la media de una muestra, admitiéndose un error máximo de 0,2 con una confianza del 95%. ¿Cuál ha de ser el tamaño de la muestra?. INGRESOS MENSUALES En un determinado barrio se seleccionó al azar una muestra de 100 personas cuya media de ingresos mensuales resultaba igual a 1060 euros, con una desviación típica de 200 euros. a) Si se toma un nivel de confianza del 95%, ¿cuál es el intervalo de confianza para la media de los ingresos mensuales de toda la población?. b) Si se toma un nivel de significación igual a 0,01, ¿cuál es el tamaño muestral necesario para estimar la media de ingresos mensuales con un error menor de 30 euros?. AMPLITUD Supongamos que, a partir de una muestra aleatoria de tamaño n = 25, se ha calculado el intervalo de confianza para la media de una población normal, obteniéndose una amplitud igual a 4. Si el tamaño de la muestra hubiera sido n = 100, permaneciendo invariables todos los demás valores que intervienen en el cálculo, ¿cuál habría sido la amplitud del intervalo?. FOTOCOPIAS Se desea estudiar el gasto semanal de fotocopias, en céntimos, de los estudiantes de bachillerato de Valencia. Para ello, se ha elegido una muestra aleatoria de 9 de estos estudiantes, resultando los valores siguientes para estos gastos: 100 150 90 70 75 105 200 120 80 Se supone que la variable aleatoria objeto de estudio sigue una distribución normal de media desconocida y de desviación típica igual a 12. Determina un intervalo de confianza del 95% para la media del gasto semanal en fotocopias por estudiante. 320 Muestras aleatorias y Estimaciones ANEXO I 69934 76466 62502 39780 23916 27100 36698 89673 23794 93362 94904 26513 62514 48978 16704 11832 61199 95860 12133 79159 21291 54188 46650 12871 32167 62071 38480 48427 37281 78621 TABLA DE NÚMEROS ALEATORIOS 89472 22419 29786 26817 42656 34619 07043 21903 28597 11140 84347 16340 43241 17441 72299 01511 87950 72762 35323 10689 04282 50658 39767 62422 40603 35930 97760 30799 61413 90517 41360 46848 38863 16719 14997 32506 92762 69796 79965 57120 37607 95744 45978 72058 96422 ANEXO II 84715 12384 87256 73582 42997 76959 42824 52732 48856 33686 73312 26683 03838 63025 52496 49120 85396 65570 72136 53668 48755 54967 30596 55044 18430 66060 94210 02899 77411 61349 26790 16741 66671 39386 66937 11211 39945 18211 10516 01785 37601 82632 37884 73785 64901 08559 94095 13341 50498 61441 35296 76269 27795 05622 77646 61282 40915 74207 91949 02285 VARIABLE NORMAL ESTÁNDAR 25160 91090 82826 36051 86665 62519 60619 37744 56047 72759 30725 24823 12162 45462 14210 18426 75959 79686 55362 90654 22719 39031 26273 21499 50659 95880 74507 03876 74826 02898 P(ZZP) ZP .00 .01 .02 .03 .04 .05 .06 .07 .08 .09 .0 .1 .2 .3 .4 .5000 .5398 .5793 .6179 .6554 .5040 .5438 .5832 .6217 .6591 .5080 .5478 .5871 .6255 .6628 .5120 .5517 .5910 .6293 .6664 .5160 .5557 .5948 .6331 .6700 .5199 .5596 .5987 .6368 .6736 .5239 .5636 .6026 .6406 .6772 .5279 .5675 .6064 .6443 .6808 .5319 .5714 .6103 .6480 .6844 .5359 .5753 .6141 .6517 .6879 .5 .6 .7 .8 .9 .6915 .7257 .7580 .7881 .8159 .6950 .7291 .7611 .7910 .8186 .6985 .7324 .7642 .7939 .8212 .7019 .7357 .7673 .7967 .8238 .7054 .7389 .7704 .7995 .8264 .7088 .7422 .7734 .8023 .8289 .7123 .7454 .7764 .8051 .8315 .7155 .7486 .7794 .8078 .8340 .7190 .7517 .7823 .8106 .8365 .7224 .7549 .7852 .8133 .8389 1.0 1.1 1.2 1.3 1.4 .8413 .8643 .8849 .9032 .9192 .8438 .8665 .8869 .9049 .9207 .8461 .8686 .8888 .9066 .9222 .8485 .8708 .8907 .9082 .9236 .8508 .8729 .8925 .9099 .9251 .8531 .8749 .8944 .9115 .9265 .8554 .8770 .8962 .9131 .9279 .8577 .8790 .8980 .9147 .9292 .8599 .8810 .8997 .9162 .9306 .8621 .8830 .9015 .9177 .9319 1.5 1.6 1.7 1.8 1.9 .9332 .9452 .9554 .9641 .9713 .9345 .9463 .9564 .9649 .9719 .9357 .9474 .9573 .9656 .9726 .9370 .9484 .9582 .9664 .9732 .9382 .9495 .9591 .9671 .9738 .9394 .9505 .9599 .9678 .9744 .9406 .9515 .9608 .9686 .9750 .9418 .9525 .9616 .9693 .9756 .9429 .9535 .9625 .9699 .9761 .9441 .9545 .9633 .9706 .9767 2.0 2.1 2.2 2.3 2.4 .9772 .9821 .9861 .9893 .9918 .9778 .9826 .9864 .9896 .9920 .9783 .9830 .9868 .9898 .9922 .9788 .9834 .9871 .9901 .9925 .9793 .9838 .9875 .9904 .9927 .9798 .9842 .9878 .9906 .9929 .9803 .9846 .9881 .9909 .9931 .9808 .9850 .9884 .9911 .9932 .9812 .9854 .9887 .9913 .9934 .9817 .9867 .9890 .9916 .9936 2.5 2.6 2.7 2.8 2.9 .9938 .9953 .9965 .9974 .9981 .9940 .9955 .9966 .9975 .9982 .9941 .9956 .9967 .9976 .9982 .9943 .9957 .9968 .9977 .9983 .9945 .9959 .9969 .9977 .9984 .9946 .9960 .9970 .9978 .9984 .9948 .9961 .9971 .9979 .9985 .9949 .9962 .9972 .9979 .9985 .9951 .9963 .9973 .9980 .9986 .9952 .9964 .9974 .9981 .9986 3.0 3.1 3.2 3.3 3.4 .9987 .9990 .9993 .9995 .9997 .9987 .9991 .9993 .9995 .9997 .9987 .9991 .9994 .9995 .9997 .9988 .9991 .9994 .9996 .9997 .9988 .9992 .9994 .9996 .9997 .9989 .9992 .9994 .9996 .9997 .9989 .9992 .9994 .9996 .9997 .9989 .9992 .9995 .9996 .9997 .9990 .9993 .9995 .9996 .9997 .9990 .9993 .9995 .9997 .9998 321 Matemáticas aplicadas a las Ciencias Sociales II 322