MATEMÁTICAS Y TECNOLOGÍA CON CALCULADORA GRÁFICA 5. ESTADÍSTICA Y PROBABILIDAD CON LA FX−9860G SLIM DIVISIÓN DIDÁCTICA MAURICIO CONTRERAS MATEMÁTICAS Y TECNOLOGÍA CON CALCULADORA GRÁFICA Enero/Febrero 2008 ESTADÍSTICA DESCRIPTIVA Y REGRESIÓN CON LA FX−9860G SLIM Introducción Vamos a estudiar a continuación las utilidades estadísticas de la calculadora FX−9860G SLIM que incorpora una hoja de cálculo especialmente adecuada para el trabajo en Estadística. 1.- Estadística descriptiva 1. MEDIA Y DESVIACIÓN TÍPICA • En un estudio genético, la comida regular se coloca en cada uno de 20 frascos y se anota el número de moscas de un genotipo particular que comen de cada frasco. Se cuenta también el número de moscas para otro conjunto de 20 frascos que contienen zumo de vino. Los datos recogidos son los siguientes: 15 25 Número de moscas (comida regular) 20 31 16 22 22 23 33 38 20 21 23 29 26 40 20 19 28 31 6 2 Número de moscas (Zumo de vino) 19 0 2 11 12 13 12 5 7 13 20 18 19 19 9 9 16 9 a. Haz una comparación visual de las dispersiones respecto a sus centros de las dos distribuciones. b. Calcula la media y la desviación típica para cada conjunto de datos. a) Abrimos el Editor de Hoja de calculo S−SHT. Introducimos la primera lista de datos en la columna A y la segunda lista en la columna B de la siguiente forma: Para representar los datos gráficamente, accedemos al menú GRAPH. Asignamos el primer gráfico, GPH1 a la columna A y el segundo gráfico, GPH2 a la columna B y seleccionamos el diagrama de cajas [MedBox] como tipo de gráfico. Los diagramas de caja para cada conjunto de datos son los siguientes: CEFIRE DE GODELLA / CASIO Pág. 1 MATEMÁTICAS Y TECNOLOGÍA CON CALCULADORA GRÁFICA comida regular Enero/Febrero 2008 zumo de vino Una comparación gráfica puede obtenerse al dibujar ambos gráficos en la misma pantalla. Elegimos SEL para seleccionar los dos gráficos, tal como sigue: Observa que los centros de las medianas de ambas distribuciones son diferentes (están representadas por lineas verticales en el centro de las cajas). Los datos de las moscas asociadas al zumo de vino (gráfico de abajo) representa un conjunto más simétrico, ya que la línea que representa a la mediana está exactamente en el centro de la caja. Ambos conjuntos de datos parecen estar dispersos de la misma forma. Pulsando [SHIFT] [F1] (TRACE] podemos recorrer los diagramas de caja y ver las diferencias entre los parámetros. Un diagrama de cajas es una representación gráfica de los datos que usa cinco medidas, la media, el primer y el tercer cuartil y el máximo y el mínimo de los datos. Los cuartiles dividen el conjunto de datos en cuatro partes iguales. El segundo cuartil es la mediana. Un diagrama de caja ayuda a visualizar el centro, la dispersión y la simetría del conjunto de datos. En este ejemplo, la construcción de los diagramas de caja permite comparar las dispersiones respecto al centro de las dos distribuciones. Observa que en el conjunto de moscas que comen la comida regular, el mínimo es 15 y el máximo es 40. La mediana es 23 moscas. Por otra parte, para el conjunto de moscas que toman zumo de vino, el mínimo es 0 y el máximo es 20. La mediana es 11,5 moscas. Q1 y Q3 son los cuartiles. CEFIRE DE GODELLA / CASIO Pág. 2 MATEMÁTICAS Y TECNOLOGÍA CON CALCULADORA GRÁFICA Enero/Febrero 2008 b) Pulsando [1Var] después de dibujar los diagramas de caja correspondientes a cada conjunto de datos, podemos ver los estadísticos univariantes asociados a los datos elegidos. Obtenemos los siguientes parámetros estadísticos correspondientes a cada conjunto de datos: comida regular zumo de vino Observa que en el conjunto de moscas que comen comida regular, la media x es 25.1 y la desviación típica xσ n −1 es 6.8433602. En el conjunto de moscas que toman zumo de vino, la media x es 11.05 y la desviación típica xσ n −1 es 6.19401238. Una observación que podemos hacer es que las desviaciones típicas de ambos conjuntos de datos difieren tan solo en 0.65. Una perspectiva gráfica puede ayudar también a hacer esta observación. En los diagramas de caja vemos que la dispersión de cada conjunto de datos es aproximadamente la misma. Observamos también que la media del número de moscas que comen comida regular es mayor que la media del número de moscas que toman zumo de vino. Esta observación es también consistente con los diagramas de caja obtenidos. • María inspecciona los precios para un cuarto de cierta marca de aceite de motor. Los datos, en dólares por cuarto, se resumen en la siguiente tabla: Precio por cuarto FRECUENCIA 0.99 2 1.09 3 1.19 7 1.29 10 1.39 14 1.49 4 a. Representa los datos gráficamente. b. ¿Cuál es la media y la desviación típica de los precios? a) En este ejemplo, nuestros datos incluyen información del precio y frecuencia. Un histograma es un gráfico que puede resumir esta información. Los precios por cuarto se señalan en el eje horizontal y las frecuencias en el eje vertical. En el editor de Hoja de cálculo, introducimos los precios en la columna A y las correspondientes frecuencias en la columna B. Para el gráfico de los datos, seleccionamos “histograma” [HIST]. En la siguiente pantalla indicamos el inicio del histograma y la anchura de cada intervalo de datos: Si recorremos mediante [TRACE] el histograma de izquierda a derecha, para cada intervalo, la calculadora muestra el extremo de la izquierda como x y la frecuencia del intervalo como f, tal como se muestra en la siguiente pantalla: CEFIRE DE GODELLA / CASIO Pág. 3 MATEMÁTICAS Y TECNOLOGÍA CON CALCULADORA GRÁFICA Enero/Febrero 2008 b) La media de los precios x es aproximadamente $1.2975 y la desviación típica de los precios xσ n −1 es aproximadamente 0.13085027. La baja desviación típica nos dice que el precio no está demasiano disperso y se acerca a la media. Tenemos la siguiente pantalla: • Para estudiar la composición de las familias de Winslow, Arizona, se seleccionaron al azar 40 matrimonios anotándose el número de niños por familia. Los datos obtenidos son los siguientes: 3 4 1 1 3 2 0 1 3 4 1 0 1 3 0 3 4 1 2 2 2 2 1 3 0 3 1 2 0 2 0 1 0 2 0 2 2 2 1 5 a. Construye un histograma para representar los datos. b. Calcula la media de niños por familia. c. Calcula la desviación típica del número de niños por familia. a) La frecuencia de cada uno de los datos es 1, porque cada dato representa el número de niños en una sola familia. Como los datos son enteros, ajustamos la configuración del histograma de forma que la anchura de cada barra sea 1. El histograma obtenido es el siguiente: b) El número medio de niños por familia es, aproximadamente, 1’75 o redondeando, 2 por familia. c) La desviación típica del número de niños por familia es alrededor de 1,32. Tenemos la siguiente pantalla de parámetros estadísticos: Nota: Las respuestas a los tres ejercicios anteriores se pueden obtener también introduciendo los datos en el menú STAT. Los gráficos y cálculos se obtienen usando comandos similares. CEFIRE DE GODELLA / CASIO Pág. 4 MATEMÁTICAS Y TECNOLOGÍA CON CALCULADORA GRÁFICA Enero/Febrero 2008 ACTIVIDADES: 1. Considera los siguientes datos: JAN 5.4 FEB 4.0 MAR 3.8 JAN 0.7 FEB 0.7 MAR 0.9 LLUVIA MENSUAL EN SEATTLE, WASHINGTON APR MAY JUNE JULY AUG SEPT OCT 2.5 1.8 1.6 0.9 1.2 1.9 3.3 LLUVIA MENSUAL EN PHEONIX, ARIZONA APR MAY JUNE JULY AUG SEPT 0.2 0.1 0.1 0.8 1.0 0.9 OCT 0.7 NOV 5.7 DEC 6.0 NOV 0.7 DEC 1.0 a. Haz una comparación visual de las dispersiones respecto al centro de las dos distribuciones. b. Calcula la media y la desviación típica para cada conjunto de datos. 2. Los siguientes datos son los resultados de un examen en una clase de Estadística: PUNTUACIONES EN EL TEST ( en %) NÚMERO DE ESTUDIANTES 99 2 74 3 85 7 93 10 80 14 70 4 ¿Cuál es la media y la desviación típica de las puntuaciones del test? SOLUCIONES: Actividad 1. a) Los diagramas de caja son los de la siguiente figura. Elige SEL para que se muestren simultáneamente los dos gráficos en la pantalla: El diagrama de caja de arriba corresponde a la lluvia en Seattle. El mínimo y máximo valor son 0.9 y 6 respectivamente, con mediana 2.9. Por otra parte, el diagrama de caja de abajo corresponde a la lluvia en Arizona. Observa que el mínimo y el máximo valor son pequeños en comparación con los de Seattle, 0.1 y 1 respectivamente, con mediana 0.7. CEFIRE DE GODELLA / CASIO Pág. 5 MATEMÁTICAS Y TECNOLOGÍA CON CALCULADORA GRÁFICA Enero/Febrero 2008 b) Para los datos de lluvia en Seattle, la media x es 3.175 y la desviación típica xσ n −1 es 1.80711975. Por otro lado, para los datos de Arizona, la media x es 0.65 y la desviación típica xσ n −1 es 0.33. La lluvia en Seattle es más dispersa, tiene mayor desviación típica. Estos resultados se confirman por la forma de los diagramas de caja. Seattle Arizona Actividad 2. a) Tenemos la siguiente configuración para dibujar el histograma: El histograma de las puntuaciones del test es el siguiente: b) La media de las puntuaciones del test es aproximadamente 83.625, mientras que la desviación típica es aproximadamente 8.11673642. 2. USANDO LA HOJA DE CÁLCULO PARA HALLAR MEDIA Y DESVIACIÓN TÍPICA • La media con la hoja de cálculo ¿Cómo se calcula la media? La media de un conjunto de datos se obtiene mediante la fórmula: n µ= ∑x i =1 i n es decir, se suman todos los datos y el valor resultante se divide entre el número de datos. CEFIRE DE GODELLA / CASIO Pág. 6 MATEMÁTICAS Y TECNOLOGÍA CON CALCULADORA GRÁFICA Enero/Febrero 2008 a) Cinco estudiantes miden el tiempo que utilizan en ir a la escuela por la mañana. Sus datos se muestran en la siguiente tabla, en la que se indican sus nombres (en la columna A) y sus tiempos (en la columna B). Para calcular la media, mueve el cursor hasta la celda C1. Pulsa = para introducir la fórmula de la función. Al hacerlo se muestra una barra de menús como la siguiente: Pulsa ahora (CEL) para abrir un menú con seis funciones de hoja de cálculo: Pulsa (Mean). Teclea el rango de valores – B1 a B5 en nuestro caso – y pulsa l. Aparece el resultado. Observa que tecleando el nombre de la función y los parámetros “=CellMean(B1:B5)” obtienes una resultado idéntico, pero acabas con un mensaje de error. La función media debe ser seleccionada desde el menú. b) Incrementa uno de los valores con 1 unidad. ¿Qué le ocurre a la media? Cambiando diferentes valores en la columna B, ¿se obtienen diferentes efectos? c) Incrementa todos los valores 1 unidad. ¿Qué le ocurre a la media? d) La media de un conjunto de valores es 63. Incrementa un valor en 5. Disminuye otro valor en 5. Predice el valor de la media. e) Pregunta el número de calzado de los alumnos de tu clase. Teclea sus respuestas en una hoja de cálculo. Calcula el número medio de calzado de tu clase. f) Usando una balanza, pesa a los estudiantes de tu clase. Puedes introducir sus pesos en una hoja de cálculo. Calcula la media. g) Selecciona todos los estudiantes con los zapatos del mismo número de calzado. Pesa sus zapatos. Calcula su media. Comprueba que si el tamaño de los zapatos es exactamente igual a la media de los tamaños, su peso medio es exactamente igual a la media de los pesos de todos los zapatos. Si la diferencia de tamaños respecto a la media es la más grande, cabe esperar que también lo sea la diferencia en pesos. CEFIRE DE GODELLA / CASIO Pág. 7 MATEMÁTICAS Y TECNOLOGÍA CON CALCULADORA GRÁFICA • Enero/Febrero 2008 La desviación típica con la hoja de cálculo Observa la siguiente figura. Los dos conjuntos de datos tienen la misma media. Sin embargo, los valores de la columna A a la izquierda son más dispersos respecto de la media que los de la derecha. Expresamos este hecho mediante la desviación típica que mide la dispersión de los datos respecto de la media. Se calcula con la fórmula: n σ= ∑ (x i =1 i − µ)2 n a) Para calcular la desviación típica del conjunto de datos de la derecha con la hoja de cálculo, sigue los siguientes pasos: 1. Calcula la media en la celda B1. 2. Calcula la diferencia entre los valores y la media (en la celda C1). Después copia la fórmula de C1 a la columna C, tomando la referencia a B1 como referencia absoluta $B$1 3. Calcula los cuadrados de los valores de la columna C en la columna D. 4. Suma los cuadrados (pon el resultado en la celda E1). 5. Divide el resultado por el número de elementos (en la celda F1). 6. Calcula la raíz cuadrado del resultado anterior (en la celda G1). La desviación típica de dicho conjunto de datos es 1.4142. b) Calcula la media y la desviación típica para los datos de la izquierda. Observa que, aunque la media es la misma, la desviación típica es diferente: La desviación típica, 8.3666, es ahora mucho mayor, porque los datos están más dispersos. c) Los cálculos anteriores muestran el algoritmo completo para obtener la desviación típica. Pero no necesitamos realizarlos con tanto detalle. La hoja de cálculo dispone de una función que permite el cálculo directo. Por ejemplo, supongamos que hemos introducido los datos en la columna A. CEFIRE DE GODELLA / CASIO Pág. 8 MATEMÁTICAS Y TECNOLOGÍA CON CALCULADORA GRÁFICA Enero/Febrero 2008 Pulsa [F6] (para que aparezca más opciones del menú desplegable). En dicho menú, pulsa CALC para mostrar su submenú. En el submenú selecciona 1VAR. La nueva ventana obtenida es la siguiente: En ella podemos observar los valores de los distintos parámetros estadísticos. d) Halla la desviación típica del conjunto anterior en la celda G1. Selecciona al azar dos celdas en la columna A. Aumenta un valor en 7 unidades. Disminuye el otro valor en 7 unidades. La media queda igual. ¿Qué ocurre con la desviación típica? e) Se divide la clase en cuatro grupos de estudiantes. Cada grupo puede cambiar una par diferente de celdas: 1. Aumenta A1 en 4 unidades; disminuye A4 en 4 unidades. 2. Disminuye A1 en 4 unidades; aumenta A4 en 4 unidades. 3. Aumenta A2 en 6 unidades; disminuye A3 en 6 unidades. 4. Disminuye A2 en 6 unidades; aumenta A3 en 6 unidades. Observa que todos los pares de operaciones preservan la media. Cada grupo referirá a los otros lo que ocurre con la desviación típica: ¿Aumenta? ¿Disminuye? Cuando los valores cambiados están cerca de la media, la desviación típica disminuye. Cuando los valores están lejos de la media, la desviación típica aumenta. CEFIRE DE GODELLA / CASIO Pág. 9 MATEMÁTICAS Y TECNOLOGÍA CON CALCULADORA GRÁFICA Enero/Febrero 2008 2.− Análisis de regresión 1. REGRESIÓN LINEAL I Considera los datos de la siguiente tabla que representan los valores de las acciones de la compañía Vanguard Index Trust desde 1987 a 1997. a) Llamamos x=años e y=valor de las acciones de Vanguar Index Trust. Dibuja un diagrama de dispersión para estos datos. b) Calcula la pendiente de la recta que pasa por los dos puntos que representan el valor de la acción en 1987 y en 1991. Haz lo mismo para los puntos que representan los datos en 1991 y en 1995. c) ¿Cuál de las pendientes calculadas en (b) es mayor en valor absoluto? ¿Qué significa esto? d) Halla la recta que mejor se ajusta a los datos. ¿Cuál es esta recta? Interpreta la pendiente de esta recta. e) Si tu fueras un dirigente de esta empresa, ¿cuál de las tres pendientes que has calculado utilizarías para convencer a alguien para invertir? f) ¿Cuál es la tendencia en los datos? g) Suponiendo que la tendencia continua, ¿cuál será el valor de la acción en 2006? AÑO 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 Valor (dólares) 54.26 63.07 82.81 80.08 103.27 113.20 123.11 130.29 170.32 185.81 201.40 Solución: Abrimos el Editor de Hoja de cálculo e introducimos los datos. Introducimos los años en la primera columna y los valores de las acciones en la segunda columna, tal como se indica en la figura: a) Pulsamos GRPH y SET para configurar los rangos de celdas del diagrama de puntos: CEFIRE DE GODELLA / CASIO Pág. 10 MATEMÁTICAS Y TECNOLOGÍA CON CALCULADORA GRÁFICA Enero/Febrero 2008 b) Calculamos las pendientes de las rectas en el Editor RUN. La pendiente de la recta que une los puntos (1987,54.26) y (1991,103.27) se calculan así: La pendiente de la recta es 12.2525. Por otro lado, la recta que une los puntos (1991, 103.27) y (1995,170.32) tiene pendiente 16.7625 y se calcula así: c) La pendiente de la recta que une los puntos (1991, 103.27) y (1995,170.32) es mayor en valor absoluto que la pendiente de la recta que une (1987,54.26) y (1991,103.27). Esto significa que entre los años 1991 y 1995, el valor de cada una de las acciones aumentó alrededor de 16.7625 dólares por término medio. Este valor es superior en 4.51 al comprendido entre los años 1987 y 1991, en los cuales el valor de cada acción aumentó alrededor de 12.2525 dólares por término medio). d) Para hacer la recta de mejor ajuste, introducimos el comando Linear regression mientras el gráfico de dispersión se muestra en pantalla: La recta de mejor ajuste es y = 14.6313636x−29026.801. La recta se dibuja en el diagrama de puntos, tal como vemos en la siguiente figura: La pendiente de la recta de mejor ajuste puede interpretarse como el incremento medio del valor de la acción para un año; en nuestro caso este incremento es de 14.6313636 dollars, aproximadamente. ¿Cuál es la bondad del ajuste? La respuesta se puede obtener calculando el coeficiente de correlación r que es la medida de la intensidad de la relación lineal que existe entre dos variables. Cuanto más próximo a 1 sea el valor de r más perfecta es la relación lineal entre las variables. En la pantalla obtenida anteriormente, hemos visto que r es 0.98126479, lo que indica que el ajuste lineal entre las dos variables es bueno. e) Puede ser más razonable usar la pendiente 14.6313636 de la recta de mejor ajuste, la cual indica el crecimiento en el valor de la acción para un incremento de x de un año y muestra la tendencia de los datos. f) La tendencia de los datos es que el valor de la acción aumenta cuando x aumenta. CEFIRE DE GODELLA / CASIO Pág. 11 MATEMÁTICAS Y TECNOLOGÍA CON CALCULADORA GRÁFICA Enero/Febrero 2008 g) Suponiendo que la tendencia continua, podemos usar la recta de mejor ajuste para determinar el valor de la acción en 2006. Primero, copiamos los cálculos que hemos obtenido respecto de la recta de mejor ajuste en el menú gráfico con el Editor de Hoja de cálculo. A continuación dibujamos el gráfico (en la pantalla de la izquierda en la siguiente figura). Después, pulsamos [SHIFT] (G-Solv) y [Y-CAL], lo que nos permite aproximar el valor de la acción sustituyendo el año 1997 usando la recta de mejor ajuste (pantalla de la derecha en la figura). Podemos indicar el valor de x, por ejemplo, x=2006, y la calculadora muestra el correspondiente valor de en el gráfico. En el año 2006, el valor aproximado de la acción es de $323.71. El valor de y correspondiente a x = 2006 usando la recta de mejor ajuste puede también obtenerse en el Editor RUN, usando el comando OPTN STAT como se muestra a continuación: En el Editor RUN, también puede obtener el valor de x correspondiente a un valor dado de y. Por ejemplo, el apartado (g) que hemos visto puede sustituirse por el siguiente: h) Suponiendo que la tendencia continua, ¿cuando el valor de la acción valdrá aproximadamente $500? En el Editor RUN, obtenemos el siguiente cálculo: Usando la recta de regresión, estimamos que el valor de la acción puede valer alrededor de $500 en el año 2018. CEFIRE DE GODELLA / CASIO Pág. 12 MATEMÁTICAS Y TECNOLOGÍA CON CALCULADORA GRÁFICA Enero/Febrero 2008 Observaciones: Observa que los cálculos en el Editor RUN pertenecen a los datos guardados en el Editor de Hoja de cálculo (como los cálculos que hemos visto en las dos pantallas anteriores), pero no puede ser utilizado en el modo e−activity. Este puede ser utilizado solamente cuando usamos el Editor de Hoja de cálculo del menú principal. ACTIVIDAD Los siguientes datos indican el número de personas muertas a causa del SIDA en Estados Unidos desde 1982 hasta 1992. años Muertos 1982 843 1983 1651 1985 6681 1986 11535 1987 15451 1988 19656 1989 26151 1990 28053 1991 30579 1992 22660 a) Basándote en estos datos, compara el número de muertos interpolado en 1990 con el dato real 28053. b) Usa el modelo de regresión lineal para estimar el número de muertos a causa del SIDA en el año 2006. c) Si la tendencia continua, ¿es posible que los muertos a causa del SIDA lleguen a 200000? ¿En qué año? Solución: a) En el Editor de Hoja de cálculo, introducimos los datos y dibujamos el diagrama de dispersión. Entonces la recta de mejor ajuste es la siguiente, dibujada sobre el diagrama de dispersión: La recta de regresión es y = 3067.32267x− 6079000. Usando la recta de regresión, el número interpolado de muertos en 1990 es 24,607.77. El número real de muertos es 28053. Una diferencia de aproximadamente 3445. Observa que la recta que hemos obtenido tiene coeficiente de correlación, r = 0.94, lo que sugiere una correlación positiva alta; no es perfecta, esperamos que exista alguna diferencia entre los datos interpolados y los valores reales. b) El número estimado de muertos en 2006 es alrededor de 73,685. CEFIRE DE GODELLA / CASIO Pág. 13 MATEMÁTICAS Y TECNOLOGÍA CON CALCULADORA GRÁFICA Enero/Febrero 2008 c) En el Editor RUN, obtenemos aproximadamente que en 2047, los muertos serán alrededor de 200,000. 2. REGRESIÓN LINEAL II • Las pepitas de oro Hay un rio cerca del campus. La mina de oro cercana está agotada desde hace algunos años, pero algunos buscadores de oro ocasionales refinan el agua del rio para buscar pepitas de oro. Los estudiantes han creado un Club de Buscadores de Oro como una especie de entretenimiento que puede también ayudarles a recoger fondos para la fiesta de Navidad. Van en fines de semana, refinan la arena del rio y consiguen records en sus hazañas (ver la tabla de la hoja de cálculo). Como vemos en la tabla, no todos los miembros del club son igual de activos. Fiona – la presidenta del club – opina que hay una relación entre el número de visitas al río y la cantidad de oro recolectado por cada persona. Quiere demostrarlo a los otros. Ha estudiado un curso de Estadística y quiere aprovechar su conocimiento del método denominado Regresión Lineal. a) Fiona introduce los datos en una hoja de calculo de su calculadora. Primero muestra a los otros que los datos pueden representarse en forma de nube de puntos. Para hacerlo, selecciona [GRAPH]. Del submenú selecciona [SET]. Los días consumidos en el río forman la variable independiente x (las celdas B2 a B11), la cuenta de pepitas de oro forma la variable dependiente y (las celdas C2 a C11). Regresando al submenú gráfico y seleccionado q – el gráfico aparece en pantalla. CEFIRE DE GODELLA / CASIO Pág. 14 MATEMÁTICAS Y TECNOLOGÍA CON CALCULADORA GRÁFICA Enero/Febrero 2008 La gráfica consiste en puntos aislados, uno por cada buscador de oro. Si la forma de la nube no es complicada, tiene una tendencia: para valores muy grandes de x, los valores de y tienden a ser muy grandes. Esta tendencia puede expresarse por una recta de regresión, cuya ecuación general es y = ax + b donde y representa la cuenta aproximada de pepitas encontradas en x días. Los parámetros a y b se calculan desde la tabla de valores usando las fórmulas: ⎛ n ⎞ ⎛ n ⎞⎛ n ⎞ n⎜ ∑ xi y i ⎟ − ⎜ ∑ xi ⎟.⎜ ∑ y i ⎟ i ⎠ ⎝ i =1 ⎠ ⎝ i =1 ⎠ a = ⎝ =1 2 n ⎛ ⎞ ⎛ n ⎞ n⎜ ∑ xi2 ⎟ − ⎜ ∑ xi ⎟ ⎝ i =1 ⎠ ⎝ i =1 ⎠ n b= ∑ yi i =1 n n −a ∑x i =1 i n En general, hemos de considerar todos los n pares de elementos de los dos conjuntos x1, x2, x3, …, xn (número de visitas al río por persona) y y1, y2, y3, …, yn (número de pepitas de oro encontradas por cada individuo). Combinando los números y usando las fórmulas, obtenemos el resultado. Fiona no se asusta de estas espantosas fórmulas, porque sabe que la calculadora puede obtener a y b directamente. Para hacerlo, pulsa [CALC]. El nuevo menú aparece en la parte inferior de la pantalla: Después pulsa w (x), la calculadora muestra el siguiente resultado: La función que permite aproximar el número de pepitas de oro después de x días está definida como y = 2.13871549x – 1.7604383. Para ver su gráfica, pulsa [DRAW]. ACTIVIDAD ¿Cuántas pepitas podemos esperar encontrar después de 30 días de búsqueda? Solución: Como hemos hecho una estimación, no necesitamos cálculos muy exactos. Dos cifras decimales son suficientes: (2.14 x 30)- 1.76 = 62.4 Esperamos encontrar alrededor de 62 pepitas. CEFIRE DE GODELLA / CASIO Pág. 15 MATEMÁTICAS Y TECNOLOGÍA CON CALCULADORA GRÁFICA • Enero/Febrero 2008 El fertilizante Durante los últimos años, un granjero está utilizando un fertilizante en sus campos. Mantiene registros de la cantidad de fertilizante usado (en toneladas) y producción (en toneladas de cosecha). La tabla muestra estos registros. a) Usando regresión lineal, muestra la dependencia entre las cantidades de fertilizante y las cosechas. Dibuja el diagrama de puntos. b) Haz el cálculo correspondiente. Registra los parámetros a y b. c) Dibuja la recta de regresión. d) El granjero ha aceptado una oferta de un comprador a granel de 80 toneladas de productos de la última cosecha. ¿Cuántas toneladas de fertilizante es recomendable que compre el granjero? Solución: El parámetro a vale 21.2, b vale 19.6. Hemos de resolver la ecuación 80 = 21.2x + 19.6. El resultado es 2.84 (aproximadamente 3 toneladas). • Resistencia deportiva En un acontecimiento deportivo, un médico del equipo mide el tiempo empleado por los deportistas de diferente edad en una carrera. Todos los deportistas empiezan en el mismo momento. El médico del equipo anota el tiempo que tarda cada persona en pararse por estar exhausto. Los registros son los de la siguiente hoja de cálculo. a) Dibuja un diagrama de dispersión basado en estos datos. Haz el cálculo de los parámetros de la recta de regresión y dibújala. b) ¿Cuánto tiempo cabe esperar que resista una persona de 40 años? c) ¿Qué edad aproximada corresponde a un tiempo de resistencia de 19 minutos? d) ¿Por qué la recta de regresión es decreciente? Solución: a) El parámetro a es aproximadamente igual a -0.32; b es aproximadamente igual a 28.15: y = -0.32x +28.15 y = 15.35 b) La persona de 40 años puede resistir alrededor de 15 minutos. c) Como a = -0.32 y b = 28.15, hemos de resolver la ecuación: 19 = -0.32x + 28.15, cuya solución es x = 28.125. La persona capaz de resistir 19 minutos tiene, aproximadamente, 28 años de edad. d) La duración de la carrera decrece con la edad. Por ello, la recta de regresión es decreciente. CEFIRE DE GODELLA / CASIO Pág. 16 MATEMÁTICAS Y TECNOLOGÍA CON CALCULADORA GRÁFICA Enero/Febrero 2008 3. COEFICIENTE DE CORRELACIÓN I Las pepitas de oro 2 Recuerda los datos del problema “Las pepitas de oro" ¿Por qué Fiona confía en la existencia de una relación entre las dos variables? Porque conoce la forma de obtener el coeficiente de correlación con su calculadora. Para ver la relación entre dos conjuntos de números, los datos deben ser introducidos en una tabla de hoja de cálculo de la calculadora. Para ello, selecciona [CALC]. En el submenú CALC, primero selecciona [SET] para especificar el rango de valores Selecciona el rango B2 a B11 para la x; y el rango C2 a C11 para la y. Sin especificar ambos rangos, la calculadora mostraría un mensaje de error o produciría resultados incorrectos. Regresa a la hoja seleccionando [EXE]. Selecciona [CALC] [REG]. El siguiente submenú ofrece una variedad de métodos de regresión. Elegimos el más sencillo, la regresión lineal pulsando [x]. El cálculo es ejecutado. Observa el valor de r obtenido. Este valor se llama coeficiente de correlación y su fórmula es verdaderamente compleja: r= CEFIRE DE GODELLA / CASIO ⎞ ⎞ ⎛ n ⎞⎛ n ⎛ n n⎜ ∑ xi y i ⎟ − ⎜ ∑ xi ⎟.⎜ ∑ y i ⎟ ⎠ ⎝ i =1 ⎠ ⎝ i =1 ⎠ ⎝ i =1 2 ⎡ ⎛ n 2 ⎞ ⎛ n ⎞2 ⎤⎡ ⎛ n 2 ⎞ ⎛ n ⎞ ⎤ ⎢n⎜ ∑ xi ⎟ − ⎜ ∑ xi ⎟ ⎥ ⎢n⎜ ∑ y i ⎟ − ⎜ ∑ y i ⎟ ⎥ ⎢⎣ ⎝ i =1 ⎠ ⎝ i =1 ⎠ ⎥⎦ ⎢⎣ ⎝ i =1 ⎠ ⎝ i =1 ⎠ ⎥⎦ Pág. 17 MATEMÁTICAS Y TECNOLOGÍA CON CALCULADORA GRÁFICA Enero/Febrero 2008 Por tanto, hemos de considerar todos los n pares de elementos de los dos conjuntos x1, x2, x3, …, xn (el número de visitas al río por persona) y y1, y2, y3, …, yn (el número de pepitas de oro encontradas por cada individuo). Sustituyendo los datos en la fórmula anterior obtenemos el resultado. Afortunadamente, la calculadora permite su obtención, siempre que especifiquemos los rangos de x y de y. El resultado es siempre un número real entre −1 y +1 (0.92383508 en nuestro caso). Los valores −1 y +1 (y valores cercanos a los extremos del intervalo) indican una relación entre los conjuntos de datos comparados. Los valores del centro del intervalo indican que no hay una relación (con valores 0 o cercanos a 0). • El fertilizante 2 Recuerda los datos del problema “El fertilizante”. Se muestran en la siguiente tabla. Calcula el coeficiente de correlación y utiliza el resultado para extraer una conclusión sobre la fiabilidad de la estimación para el presente año (evaluando los parámetros a y b de la recta de regresión). Observa que la especificación del rango es fundamental porque tenemos tres columnas de números. Nuestros rangos a seleccionar son la cantidad de fertilizante (B2 a B6) y la cosecha (C2 a C6). • Resistencia deportiva 2 Recuerda los datos del problema “Resistencia deportiva” Calcula el coeficiente de correlación entre los dos conjuntos de datos. ¿Podemos utilizar lar regresión lineal para hacer estimaciones en este caso? • Estatura y televisión Un grupo de estudiantes recoge datos sobre su estatura (en metros) y la cantidad de horas de ven la televisión diariamente. Están interesados en ver si hay una relación entre estos dos conjuntos de datos. El coeficiente de correlación r = –0.2367005 indica que no hay una relación importante. Lo mismo podemos observar en el diagrama de dispersión. CEFIRE DE GODELLA / CASIO Pág. 18 MATEMÁTICAS Y TECNOLOGÍA CON CALCULADORA GRÁFICA Enero/Febrero 2008 En este caso se dice que no hay correlación entre las variables. En general esto ocurre cuando el coeficiente de correlación r toma valores cercanos a 0. 4. COEFICIENTE DE CORRELACIÓN II • Las granjas en EEUU Los siguientes datos indican el número de granjas en los Estados Unidos durante los años 1910 a 1999: Años Número de granjas (en millones) 1910 6.4 1920 6.5 1930 6.3 1940 6.1 1950 5.4 1959 3.7 1969 2.7 1978 2.3 1987 2.1 1999 1.9 a. Dibuja un diagrama de dispersión de los datos. b. Determina la función que mejor se ajusta a los datos. c. Usa la respuesta del apartado (b) para estimar el número de granjas en 1900 y en 1975. Solución: a) Accedemos al Editor de Hoja de cálculo. Tomamos como coordenada x de cada punto el número de años transcurridos desde 1900 y como coordenada y el número de granjas. Los años los introducimos en la columna A (1910 se introduce como 10, 1920 como 20 y así sucesivamente) y el número de granjas en millones lo introducimos en la columna B: Para dibujar el diagrama de dispersión, accedemos al menú GRPH. Asignamos el primer gráfico, GPH1 y especificamos las columnas que representan la x y la y, seleccionamos [Scatter] como tipo de gráfico. Observa que el gráfico de puntos puede recorrerse con las teclas de cursor, lo que es una buena forma de consultar los datos introducidos. CEFIRE DE GODELLA / CASIO Pág. 19 MATEMÁTICAS Y TECNOLOGÍA CON CALCULADORA GRÁFICA Enero/Febrero 2008 b) Una vez dibujado el gráfico, el siguiente paso consiste en explorar la relación entre x e y buscando funciones que ajusten los datos aproximadamente. Pulsamos [CALC] y elegimos el tipo de función. Por ejemplo, supongamos que seleccionamos el modelo lineal. Los coeficientes de regresión se calculan de la siguiente forma: El modelo lineal obtenido es y =-0.0640032x + 7.80897744. Observa que el coeficiente de correlación r es aproximadamente -0.9538903. El coeficiente de correlación mide el grado de bondad del ajuste por una función lineal. En principio, observamos que el valor r ≈ 0.95 indica una muy buena regresión; pero es posible que los datos se puedan ajustar por otro modelo funcional. De hecho, si dibujamos la recta sobre la nube de puntos, podemos observar que la recta no parece ajustarse del todo bien. Algunos puntos no están en la recta; de hecho, la nube de puntos no se parece mucho a una recta. Así, un ajuste mejor se puede obtener mediante una curva. Experimentamos otros tipos de funciones (cuadráticas, exponenciales, cúbicas, cuárticas) y observamos la calidad del ajuste. En las siguientes pantallas se muestran los modelos de regresión exponencial y cuadrático: Como en el modelo lineal, observamos que algunos puntos no están cerca de las curvas exponencial y cuadrática. Los coeficientes de correlación correspondientes a los modelos exponencial y cuadrático son aproximadamente −0.9532007 y −0.9560633 (alrededor de -0.95, la misma aproximación que la obtenida con el modelo lineal) Otra exploración produce los siguientes resultados: con la curva cúbica se obtiene r ≈ - 0.9911923 y con la curva cuártica r ≈ - 0.9955864101. En ambos casos se obtiene un coeficiente de regresión: r ≈ 0.99, que es muy cercano a 1. Sin embargo, el valor de r para la curva cuártica es más cercano a 1 que el de la curva cúbica. ¡Por tanto, el mejor ajuste es aparentemente la curva cuártica! La función cuártica de ajuste óptimo viene dada por la expresión: 0.000000089162x4 + 0.000009047x3- 0.003424x2+ 0.13022957x + 5.33504058 CEFIRE DE GODELLA / CASIO Pág. 20 MATEMÁTICAS Y TECNOLOGÍA CON CALCULADORA GRÁFICA Enero/Febrero 2008 Los valores negativos de r indican que la relación entre x e y es inversa. Así, cuando x crece, la y decrece. Esta relación puede visualizarse en el diagrama de puntos. Observa que el valor de r no aparece en estas pantallas. En realidad, no es necesario conocerlo. Basta saber el valor de r2, para conocer la calidad del ajuste. Como el valor de r2 es cercano a 1, el ajuste es bueno. Una buena forma de visualizar el ajuste por la curva es dibujarla sobre la nube de puntos. Esto es especialmente útil para comparar los gráficos de los diferentes modelos funcionales respecto de los datos. Una vez obtenido y guardado en memoria el diagrama de dispersión con el nombre Pict1, pulsamos [OPTN]: El diagrama se puede usar ahora como dibujo [SHIFT SET UP] de la siguiente forma: Los modelos funcionales obtenidos por regresión se pueden copiar a la lista de funciones gráficas y se pueden guardar como pantallas de dibujo. Por ejemplo, copiamos las funciones cúbica y cuártica obtenidas por regresión al Editor de Gráficos. Asignamos los trazos “----” para la función cúbica y “__” para la función cuártica. Pulsamos [DefG] para dibujar ambos gráficos con el diagrama de puntos como dibujo: Podemos visualizar que ambas curvas de ajuste pasan muy cerca de los puntos y confirma esto que las dos podrían usarse como curvas de ajuste. Es difícil averiguar, en algunos casos, qué modelo es mejor usar, fijándose solamente en los gráficos o en la forma de las nubes de puntos. Para decidir, por ejemplo, cuál de los dos modelos anteriores (cúbico o cuártico) es mejor, hemos de referirnos al valor del coeficiente de correlación para determinar la función de mejor ajuste. CEFIRE DE GODELLA / CASIO Pág. 21 MATEMÁTICAS Y TECNOLOGÍA CON CALCULADORA GRÁFICA Enero/Febrero 2008 c) Usamos la función cuártica obtenida en (b) para estimar el número de granjas en 1900 y en 1975. Después de pulsar [DefG], pulsamos [DRAW], después [SHIFT G-Solv Y-Cal]. Especificamos el valor de x para obtener el correspondiente valor de y. En el año 1900, habrán alrededor de 5.335 millones de granjas, y en 1975, alrededor de 2.477 millones de granjas. • El Índice de Precios al Consumo Los siguiente datos indican los niveles del Índice de Precios al Consumo (IPC) en Diciembre de distintos años: Año IPC 1995 121.2 1996 128.0 1997 134.8 1998 137.2 1999 139.0 2000 143.0 2001 147.1 2002 150.2 2003 156.5 2004 158.9 a. Dibuja un diagrama de puntos de los datos. b. Determina el modelo (exponencial, logarítmico, potencial o lineal) que mejor describe la relación entre los años y el IPC. c. Usa el modelo obtenido en (b) para predecir el IPC para Diciembre de 2006. Solución: a) Accedemos al Editor de Hoja de cálculo, e introducimos los años en la primera columna y los niveles del IPC en la segunda columna. Aplicamos la siguiente fórmula de sucesión para generar los años, pulsando [EDIT] y después [SEQ]. El diagrama de puntos es el siguiente: b) Los coeficientes de regresión para varios tipos de regresión son los siguientes: CEFIRE DE GODELLA / CASIO Pág. 22 MATEMÁTICAS Y TECNOLOGÍA CON CALCULADORA GRÁFICA Enero/Febrero 2008 Resumimos los resultados obtenidos en la siguiente tabla: Tipo de curva Potencial Exponencial Logarítmica Lineal COEFICIENTE DE CORRELACIÓN 0.98788553 0.98783476 0.99129492 0.99127019 Los cuatro tipos de curvas dan una buena correlación. El hecho de que r sea positiva indica que la relación entre x e y es directa. Cuando x crece, y crece. El valor de r para todas las curvas es cercano a 1; sin embargo, el mejor ajuste es aparentemente la curva logarítmica. El modelo logarítmico es: −59682.713 + 7870.94425 ln x. El gráfico de la curva logarítmica superpuesto en el diagrama de dispersión es el siguiente: c) Usamos el modelo logarítmico para determinar el nivel del IPC en 2006. Obtenemos aproximadamente 167.1435873. Observaciones: Los cálculos y gráficos de regresión obtenidos en el Editor de Hoja de cálculo se pueden obtener también en el Editor STAT usando los mismos comandos. Además, cuando trabajamos fuera de una hoja de e−activity, es posible usar el modelo funcional para hacer cálculos a través de los editores GRAPH, TABLE y RUN. Para hacer esto, la función debe copiarse primero en el Editor de Gráficos. Por ejemplo, en el apartado (c) del problema anterior, calculamos el valor de y para x=2006 en el Editor RUN, de la siguiente forma: Trabajando en el Editor GRAPH o RUN podemos no sólo hayar la y, sino también la x. Por ejemplo, supongamos que queremos determinar aproximadamente en qué año el IPC será 180. Usando el Editor RUN, la respuesta es el año 2009: En el Editor GRAPH obtenemos una respuesta similar usando una ventana apropiada: CEFIRE DE GODELLA / CASIO Pág. 23 MATEMÁTICAS Y TECNOLOGÍA CON CALCULADORA GRÁFICA Enero/Febrero 2008 DISTRIBUCIONES DE PROBABILIDAD CON LA FX−9860G SLIM Introducción La palabra “azar” también puede significar una cierta desviación respecto de la uniformidad. Cuando vemos un grupo de cinco personas, registramos diferencias en sus estaturas y pesos bastantes fuertes. Al mismo tiempo, un grupo de cinco niños es aparentemente más pequeño que un grupo de cinco adultos. La distribución de estaturas de cinco personas se puede caracterizar como una distribución de probabilidad. Vamos a estudiar a continuación las utilidades de la nueva calculadora FX−9860G SLIM para el análisis de distribuciones de probabilidad. 1.- Distribuciones de probabilidad I 1. MEDIA Y DESVIACIÓN TÍPICA. DISTRIBUCIÓN NORMAL Recoge información sobre las estaturas de los compañeros de tu clase. Crea 10 grupos de estaturas, cada uno de 5 cm de anchura, centrados en la media (por ejemplo, si la media es 170 cm, los grupos van desde “menos de 150” hasta “más de 190”). Para cada grupo, cuenta el número de personas que tienen esa estatura. Escribe los resultados en una tabla de hoja de cálculo (también llamada tabla de frecuencias, que muestra las frecuencias de los estudiantes que tienen la misma estatura). Representa gráficamente los resultados. La forma real del gráfico depende de las personas que hay en cada clase, pero, en general, los valores cercanos a la media son los más frecuentes y los valores alejados de la media tienen un carácter más excepcional. Por tanto, el gráfico obtenido puede ser diferente al siguiente, pero tendrá una forma bastante similar: los resultados más frecuentes en el centro y los menos frecuentes en los extremos. Fija el rango de las celdas de tu gráfico (graph1) de forma que sea similar al anterior. Dependiendo de las medidas reales de tu clase, los valores de Ymin e Ymax serán diferentes. La forma ideal de la distribución de un conjunto de datos está expresada por una función llamada distribución normal. Pulsa [DIST] y después [NORM]. De nuevo pulsa [Npd] para la distribución de probabilidad normal. La pantalla muestra ahora el significado de cada ítem. La variable x representa los datos, σ la desviación típica, µ la media. Mueve el cursor hacia abajo para seleccionar Execute y pulsa [DRAW]. Para σ =1 y µ = 0, el gráfico de la función es el siguiente: CEFIRE DE GODELLA / CASIO Pág. 24 MATEMÁTICAS Y TECNOLOGÍA CON CALCULADORA GRÁFICA Enero/Febrero 2008 Cambiando σ y µ resultan diferentes formas de la función de distribución normal. Su fórmula es: f ( x) = 1 2πσ − e ( x− µ )2 2σ 2 Observa que la curva es simétrica respecto de la media µ. Como representa una distribución de probabilidad, la media y valores cercanos son más probables. Los valores más alejados de la media son menos probables. Esto se corresponde con la experiencia: los valores extremos son más raros. • ACTIVIDADES 1) Calcula la desviación típica σ y la media µ para los datos de tu clase. Dibuja el gráfico con una configuracion apropiada para tus valores, usando la herramienta STAT. 2) Cambia el valor de µ. ¿Qué efectos tienen los cambios? 3) De la misma forma, cambia el valor de σ. ¿Qué efectos tienen los cambios? Soluciones a. Selecciona STAT de la pantalla de menús. Después pulsa F5, después F1 y de nuevo F1. Asigna tus valores para la media y desviación típica. Mueve el cursor para ejecutar y después selecciona F6 (DRAW). No olvides configurar las dimensiones de la pantalla con los valores apropiados usando VWindow. En general, el intervalo de valores de x será simétrico entorno a la media µ. Los valores recomendados de x están en el intervalo (µ–3σ, µ + 3σ). b. Cada cambio de µ mueve los valores más probables hacia la izquierda o hacia la derecha, de forma que la media siempre se mantiene como el valor más probable. c. El crecimiento de σ incrementa el intervalo de valores probables y la curva se vuelve aplastada. El decrecimiento de σ hace que la curva se haga más estrecha, porque el intervalo de valores con alta probabilidad se encoge. 2. DISTRIBUCIÓN DE POISSON La distribución normal no es la única. Hay otra muy frecuente que es la distribución de Poisson. Por ejemplo, el número de niños en las familias sigue esta distribución. Intenta llamar a todas las familias que conoces, averigua si tienen niños o no y forma una tabla con los datos. Dibuja un diagrama de dispersión con los datos. Las figuras reales varían según países (y según regiones), pero siempre aparece una forma similar. La curva crece cerca de la media porque las familias con un número de niños medio son más frecuentes. En la figura, las familias con 1-2 niños son más frecuentes. Después la curva cae constantemente. La probabilidad de valores muy altos es muy pequeña, pero nunca cero. (Alguna vez se han publicado noticias de familias con 18 o 23 niños) CEFIRE DE GODELLA / CASIO Pág. 25 MATEMÁTICAS Y TECNOLOGÍA CON CALCULADORA GRÁFICA Enero/Febrero 2008 La función de la distribución de Poisson se expresa por la fórmula: P ( x) = µ x e −µ x! donde x es el conjunto de números naturales (0, 1, 2, 3, …) y µ es la media (un número no negativo, posiblemente con una cierta cantidad de decimales). La gráfica para µ=1.5 es la siguiente: Las diferentes distribuciones de probabilidad de Poisson dependen del valor de su media µ. Para ver esta influencia inicia la aplicación STAT en la pantalla de menús. En la columna List1 introduce los valores 0, 1, 2, 3, 4, 5, 6, que son los posibles hijos de las familias. Pulsa [DIST] [POISN] [Ppd]. En la siguiente pantalla, en la línea µ introduce el valor 1,5. Mueve el cursor hasta la línea Execute y pulsa [F1] (CALC). Aparece una pantalla en la que se indica que si la media fuera µ=1.5, entonces la probabilidad de que una familia tenga 1 niño es 0.3346 (aproximadamente 1/3); la probabilidad de que una familia tenga 3 niños es 0.1255 (aproximadamente 1/8). Pulsa [EXIT] y en la pantalla de la distribución de Poisson, cambia el valor de µ por 2 y activa la opción Execute moviendo el cursor y presionando [F1] (CALC). La columna que aparece recalcula las probabilidades. Para dibujar el gráfico, copia la nueva lista de probabilidades a la List2 de la ventana STAT. Después, pulsa [GRPH] [SEL] [DRAW]. El nuevo gráfico aparece en pantalla. • ACTIVIDADES 1) Cambia el valor de la media µ a 1.5, 2.3, 3, 4, 5. Dibuja los gráficos correspondientes. ¿Qué conclusiones puedes hacer acerca de la distribución de probabilidad de Poisson? 2) Pregunta a tus compañeros de clase sobre el número de coches en sus familias. Haz una tabla de frecuencias para “ningún coche”, “un coche”, “dos coches”, etc. Dibuja un diagrama de dispersión usando la tabla de la hoja de cálculo. ¿Cuál es vuestra estimación de la media de coches por familia? 3) Vigila durante una hora un semáforo cercano. Cuenta el número de coches lo cruzan en verde en una dirección particular. Registra los datos en una tabla. Después de dejar el cruce, calcula las frecuencias para cada número de coches que han pasado (0, 1, 2, 3, ...). Dibuja un diagrama de dispersión usando una hoja de cálculo. ¿Qué puedes decir sobre la distribución de probabilidad? CEFIRE DE GODELLA / CASIO Pág. 26 MATEMÁTICAS Y TECNOLOGÍA CON CALCULADORA GRÁFICA • Enero/Febrero 2008 Soluciones 1) Con el crecimiento de la media, la probabilidad de que ocurran números altos crece (con el máximo cerca de la media). En general, conforme la curva que conecta los puntos del diagrama de dispersión se hace cada vez más achatada, su “pico” se hace más y más bajo. 3) Con tus resultados, podemos estimar el número de coches que atraviesan el cruce a la misma hora el dia siguiente. 2.- Distribuciones de probabilidad II 1. MEDIA Y DESVIACIÓN TÍPICA. DISTRIBUCIÓN NORMAL Una agencia de consumidores preguntó a 2750 familias que vivían en una pequeña población sobre el número de aparatos de televisión que poseían. La siguiente tabla muestra la distribución de frecuencias de los datos recogidos por la agencia. Número de aparatos de TV propios Número de familias 0 120 1 970 2 730 3 410 4 270 5 150 6 75 7 25 a. Construye una tabla de distribución de probabilidad para el número de aparatos de TV propios de estas familias. b. Haz una representación gráfica de la distribución de probabilidad. c. Si x representa el número de aparatos de TV propios para una familia seleccionada al azar entre las de la población, halla las siguientes probabilidades: 1. P(x=1) 2. P(x>2) 3. P(x ≤ 1) 4. P(1 ≤ x ≤ 3) d. Calcula la media y la desviación típica para la distribución de probabilidad. • Solución: a) Abrimos el Editor de Hoja de cálculo. Sea x el número de aparatos de TV propios de una familia seleccionada al azar entre las de esta población. Introducimos los valores de x en la columna A y el número de familias (que es la frecuencia de cada grupo de televisiones) en la columna B, tal como sigue: Primero convertimos las frecuencias de la columna B en frecuencias relativas y las guardamos en la columna C. Dividimos cada celda de la columna B por 1750, el número total de familias que participan en el estudio. Introducimos [= $B1 ÷ 2750] y situamos el cursor en la tercera columna primera fila, es decir en la celda C1. El resultado correspondiente aparece en la posición indicada y la fórmula introducida también aparece (en la parte inferior derecha de la pantalla). Copiamos esta fórmula a las sucesivas filas de la tercera columna. Haciendo esto obtenemos las frecuencias relativas correspondientes a todas las entradas de la columna B: CEFIRE DE GODELLA / CASIO Pág. 27 MATEMÁTICAS Y TECNOLOGÍA CON CALCULADORA GRÁFICA Enero/Febrero 2008 Construyendo la distribución de probabilidad con el Editor de Hoja de cálculo, descubrimos, exploramos y verificamos fácilmente las características de la distribución de probabilidad de una variable aleatoria discreta. Por ejemplo, las frecuencias relativas o probabilidades aproximadas obtenidas de la muestra están comprendidas entre 0 y 1. Así mismo, la suma de las probabilidades asignadas a todos los posibles valores es igual a 1. La suma de celdas en la hoja de cálculo se puede obtener usando el comando [= Cel Sum]. Las referencias de las celdas a sumar (consistentes en la letra de la columna y el número de la fila) deben especificarse. En la pantalla de la derecha de la figura anterior vemos que la suma de las probabilidades de una distribución de probabilidad es igual a 1. b) La distribución de probabilidad de una variable aleatoria discreta se puede representar gráficamente usando un histograma. Para dibujar el histograma a partir de los datos, accedemos al menú GRPH. Asignamos a los datos el primer gráfico, GPH1. Especificamos las columnas que representan los valores de x y las frecuencias relativas, después seleccionamos “histograma” [Hist] como el tipo de gráfico: El histograma se muestra en pantalla. Usamos una anchura de 1 para cada barra del gráfico. c) 1. P(x=1) La probabilidad de que una familia tenga exactamente un aparato de televisión se puede obtener directamente de la hoja de cálculo. Esto también se puede obtener recorriendo el histograma mediante [Trace]. En el histograma podemos ver que hay más familias que tienen un sólo aparato de TV. CEFIRE DE GODELLA / CASIO Pág. 28 MATEMÁTICAS Y TECNOLOGÍA CON CALCULADORA GRÁFICA Enero/Febrero 2008 2. P(x>2) La probabilidad de que una familia tenga más de dos aparatos de TV se obtiene sumando las probabilidades de que tenga tres, cuatro, cinco, seis y siete aparatos de televisión. Así, P(x>2) = P(x=3) + P(x=4) + P(x=5) + P(x=6) + P(x=7) Usando la calculadora, sumamos las filas 4 a 8 de la columna C de la hoja de cálculo, de acuerdo con la fórmula: P(x=3) + P(x=4) + P(x=5) + P(x=6) + P(x=7). Guardamos la suma en una posición libre de la hoja de cálculo: El resultado es P(x>2) = 0.3381. 3. P(x ≤ 1) La probabilidd de que una familia tenga menos de un aparato de televisión se calcula así: P(x ≤ 1) = P(x=0) + P(x= 1). Usando la calculadora, sumamos las filas 1 y 2 de la columna C de la hoja de cálculo, de acuerdo con la fórmula P(x=0) + P(x=1). El resultado es P(x ≤ 1) = 0.3963. 4. P(1 ≤ x ≤ 3) La probabilidad de que una familia tenga entre uno y tres aparatos de TV se obtiene sumando las probabilidades de que tenga uno, dos y tres aparatos. P(1 ≤ x ≤ 3) = P(x=1) + P(x=2) + P(x=3) Sumamos las filas 2, 3 y 4 de la columna C de la hoja de cálculo, de acuerdo con la fórmula P(x=1) + P(x=2) + P(x=3): El resultado obtenido es P(1 ≤ x ≤ 3) = 0.7672. d) Los cálculos 1Var se pueden usar para determinar alguna información sobre la distribución de probabilidad. Pulsamos [CALC 1Var] después de ajustar las preferencias de cálculo (pantalla de la izquierda en la siguiente figura). El número medio de televisiones por familia es 2,2 aproximadamente. Este también es el valor esperado de x, es decir E(x) = 2.2. La desviación típica es 1.47. Observaciones: En el estudio de distribuciones de frecuencia, es de gran ayuda obtener la distribución de probabilidades acumuladas. Veamos un ejemplo en el Editor de Hoja de cálculo. CEFIRE DE GODELLA / CASIO Pág. 29 MATEMÁTICAS Y TECNOLOGÍA CON CALCULADORA GRÁFICA Enero/Febrero 2008 Primero copiamos la primera entrada de la columna de las frecuencias relativas, en este caso C1, en la primera fila de la cuarta columna, D1, en la cual almacenamos las frecuencias acumuladas relativas. Usando [= GRAB] introducimos la fórmula de la suma para la primera y segunda frecuencias relativas, D1 + C2 y almacenamos el resultado en D2: Repetimos esta fórmula a lo largo de la cuarta columna, con los comandos Copiar y Pegar. En la tercera fila de la cuarta columna, tenemos la suma de la primera y tercera frecuencias relativas, D2+C3; en la cuarta fila, D3+C4 y así sucesivamente. En la última entrada tenemos que la suma de todas las frecuencias relativas es igual a 1. El gráfico de la distribución de probabilidad acumulada es como sigue: Podemos responder la pregunta del ítem c del apartado 3, P(x ≤ 1) = 0.3963636364 usando la opción [Trace] para recorrer el gráfico de la distribución de probabilidad acumulada: Observación: Después de introducir los datos, podemos guardar toda la información en el menú de hoja de cálculo. Llamamos al archivo “TVSETS’’. De la misma forma, llamamos al archivo de la siguiente actividad “Machines”. CEFIRE DE GODELLA / CASIO Pág. 30 MATEMÁTICAS Y TECNOLOGÍA CON CALCULADORA GRÁFICA • Enero/Febrero 2008 ACTIVIDAD Deportes Elmo vende máquinas de ejercicio. En días diferentes, venden diferentes cantidades de estas máquinas. La tabla que sigue recoge la información del número de máquinas vendidas por día y las probabilidades correspondientes. Máquinas vendidas por dia Probabilidad 4 0.08 5 0.11 6 0.14 7 0.19 8 0.20 9 0.16 10 0.12 a. Haz una representación gráfica de la distribución de probabilidad. b. Determina la probabilidad de que el número de máquinas vendidas por día sea 1. exactamente 6 2. menor que 7 3. entre 5 y 8 4. a lo sumo 6 c. Calcula la media y desviación típica de la distribución de probabilidad Solución: a) Sea x el número de máquinas vendidas por día. Abrimos el Editor de Hoja de cálculo e introducimos los valores de x en la primera columna y las probabilidades en la segunda columna. b) El histograma es el siguiente: La configuración utilizada es la siguiente: c) 1. La probabilidad de que el número de máquinas de ejercicio vendidas por dia sea exactamente 6 es 0.14. Este valor se puede obtener directamente de la hoja de cálculo. El valor también aparece cuando recorremos el histograma mediante la opción [Trace]. CEFIRE DE GODELLA / CASIO Pág. 31 MATEMÁTICAS Y TECNOLOGÍA CON CALCULADORA GRÁFICA Enero/Febrero 2008 2. La probabilidad de que el número de máquinas de ejercicio vendidas por día sea menor que 7 viene dada por P(x<7) = P(x=6) + P(x=5) + P(x=4) = 0.33, ya que P(x=3) = P(x=2) = P(x=1)= 0. Como se ve en la pantalla anterior, sumamos desde la primera hasta la tercera filas de la columna B. 3. La probabilidad de que el número de máquinas de ejercicio vendidas por día esté entre 5 y 8 viene dada por P(5 ≤ x ≤ 8) = P(x=5) + P(x=6) + P(x=7)+ P(x=8) El resultado se obtiene sumando desde la segunda fila hasta la quinta fila de la columna B. 4. La probabilidad de que el número de máquinas vendidas por día sea como mucho 6 se obtiene a través de la fórmula P(x ≤ 6) = P(x=4) + P(x=5) + P(x=6) = 0.33 que se ha calculado en el apartado (2). c) La media y desviación típica se obtiene de la pantalla 1VAR como se muestra a continuación: La media es 7.28 y la desviación típica es 1.77245592. Observaciones: Los cálculos estadísticos y gráficos relativos a las distribuciones de probabilidad obtenidas en el Editor de Hoja de cálculo también se pueden obtener en el Editor STAT usando los mismos pasos, aunque hay algunos cambios en los comandos: Los valores de x se almacenan en la List1 y las frecuencias en la List2. Considera por ejemplo, la actividad inicial (aparatos de televisión). Los datos se introducen así: Las frecuencias se convierten en frecuencias relativas y se almacenan en la List3, usando el comando: CEFIRE DE GODELLA / CASIO Pág. 32 MATEMÁTICAS Y TECNOLOGÍA CON CALCULADORA GRÁFICA Enero/Febrero 2008 El comando acumulativo [CUML] produce la distribución de probabilidad de la List4. Observa que la suma de todas las frecuencias relativas es igual a 1. MUESTRAS ALEATORIAS CON LA FX−9860G SLIM Introducción En las siguientes actividades, veremos como utilizar la calculadora FX−9860G SLIM para generar números aleatorios, efectuar simulaciones y resolver problemas de probabilidad mediante simulaciones. 1.- Muestras aleatorias I 1. NÚMEROS ALEATORIOS La palabra “azar” es bastante popular y su significado en la vida real difiere parcialmente del que tiene en Estadística. Cuando alguien dice: “paseando por la calle me he encontrado por azar con Juliana”, no menciona las docenas (posiblemente centenares) de personas conocidas que han pasado también por la calle. Todas estas personas también podrían haber tenido un encuentro al azar. En la estadística no matemática, la estadística de la calle, todos los encuentros se producen por azar. Para simular la realidad, podemos utilizar los números aleatorios. a) Para generar un número aleatorio, pulsa [OPTN] y selecciona el menú [PROB]. Pulsa [F4] (Ran#) y [EXE]. Aparece en pantalla un número entre 0 y 1. Observa que los valores 0 y 1 nunca aparecen. Solo se generan valores interiores del intervalo [0, 1]. • Recoge los resultados de tu clase. ¿Habéis obtenido el mismo número? Es posible obtener el mismo número, pero poco probable. El conjunto de números aleatorios de la calculadora es grande. Una misma aparición de un número no se excluye, pero su probabilidad es extremadamente baja. b) Todos los números aleatorios tienen la forma 0.xxxxxxxx. El primer dígito es siempre cero −pero los dígitos posteriores varían. Selecciona un dígito de 0 a 9. Genera números aleatorios hasta que el dígito que has elegido aparezca como primer decimal después del punto. Cuenta el número de pruebas necesario para que esto ocurra. Para generar el siguiente número aleatorio, simplemente basta que pulses [EXE]. CEFIRE DE GODELLA / CASIO Pág. 33 MATEMÁTICAS Y TECNOLOGÍA CON CALCULADORA GRÁFICA • Enero/Febrero 2008 Repite el experimento anterior 10 veces. Registra las longitudes de los intervalos entre dos apariciones consecutivas de números aleatorios con el mismo primer dígito decimal. ¿Observas una regularidad en la longitud de los intervalos? La ruptura entre dos primeros dígitos idénticos puede ser de cualquier longitud. Esta propiedad garantiza que los números son realmente aleatorios. c) Sitúa 10 valores aleatorios en una tabla de hoja de cálculo. Dibuja un diagrama de dispersión. Observa que sus puntos no crean ninguna forma regular. Esto es otra indicación de que los números son aleatorios. d) Calcula la media de los diez intervalos que has registrado. Compara tus resultados con los de tus compañeros de clase. La media no estará lejos de 0.5. Esto naturalmente sólo ocurre para grandes cantidades de números aleatorios. Entonces, la media de los diez números aleatorios es 0.496. El valor de la media puede variar en las cercanías de 0.5, pudiendo ser mayor o menor dependiendo de la combinación aleatoria. • Toma los dos últimos dígitos del año en que has nacido. (Si es 1987, usa 87). Genera números aleatorios hasta que aparezca el primero de los dos dígitos. Haz una conjetura: ¿cuántos números aleatorios (por término medio) tienes que seleccionar hasta que aparezca tu par de dígitos? Como hay 100 pares diferentes de dígitos (desde 00 hasta 99) escritos en orden aleatorio, tu par puede aparecer (en término medio) como el quincuagésimo. Si no has tenido suerte, repite la experiencia un número mayor de veces. • Generación de números aleatorios enteros Los números aleatorios entre 0 y 1 no son bonitos. Si necesitamos números aletorios, sus valores son bastante diferentes. Por ejemplo: • Lanzando una moneda generamos uno de dos resultados que denotamos como 0 y 1. • Lanzando un dado generamos un número aleatorio entre 1 y 6. • En la Loto los números dependen del pais en que se juega. CEFIRE DE GODELLA / CASIO Pág. 34 MATEMÁTICAS Y TECNOLOGÍA CON CALCULADORA GRÁFICA Enero/Febrero 2008 Así, preferimos tener la posibilidad de transformar los valores generados por la calculadora para nuestro intervalo. a) En principio expandimos el intervalo de números aleatorios desde 0 hasta 2. El método es simple: multiplicar por 2 los números aleatorios del intervalo [0, 1]. El valor puede ser desde 0 hasta 2, excluyendo los extremos del intervalo. Así, cada uno de ellos empieza por 0 o por 1 antes del punto decimal. b) El método anterior genera números aleatorios apropiados, pero su formato es bastante complejo. Son difíciles de leer. Buscamos resultados que contengan lo que necesitamos. Para ello, la parte decimal puede ser truncada, es decir, eliminada. El número entero (0 o 1) es el único que nos interesa. La función INT permite esto. Pertenece a las funciones numéricas. Cuando la ventana RUN-MATH está abierta, pulsa [F4] (NUM). Aparece el submenú numérico. Pulsa [F2] para seleccionar el segundo ítem (INT). A continuación escribe “(2x”. Después pulsa [EXIT] [F3] (PROB) y pulsa [F4] (Ran#). Cierra paréntesis y pulsa [EXE]. Un número aleatorio 0 o 1 aparece en pantalla. Pulsando [EXE] varias veces generas números aleatorios con el mismo formato. c) Primero necesitamos expandir el intervalo para tener 6 valores diferentes. Así, 6xRan# es la fórmula apropiada. El primer número generado por esta fórmula varía entre 0 y 5. Así, sumando uno al resultado podemos producir números entre 1 y 6. • ACTIVIDADES a) Truncando los números de la actividad anterior, genera números aleatorios enteros entre 1 y 6. b) En la Loto de Eslovaquia, la gente apuesta seis números entre 1 y 49. Busca una estrategia para generarlos, sabiendo que los 6 números deben ser diferentes. c) Usando tu generador de números aleatorios, selecciona al azar cinco estudiantes de tu clase. d) ¿Podemos saltar u omitir algún número generado por un generador de números aleatorios? CEFIRE DE GODELLA / CASIO Pág. 35 MATEMÁTICAS Y TECNOLOGÍA CON CALCULADORA GRÁFICA • Enero/Febrero 2008 Solución a) Usa la fórmula INT(6*Ran# + 1) b) El primer número es seleccionado al azar. El segundo es generado (y solamente elegido si difiere del primero). El tercero debe diferir de los dos seleccionados anteriormente. Esto se repite hasta que se generan seis dígitos diferentes. c) Asigna un número de orden a cada uno de tus compañeros de clase (por ejemplo, usando el orden alfabético). Construye un generador de números aleatorios. Genera cinco números aleatorios diferentes. d) No es recomendable. Puedes introducir elementos que eliminen la aleatoriedad. 2.- Muestras aleatorias II 1. MUESTREO CON LA CALCULADORA GRÁFICA Suponemos que una factoria de chocolate produce 5000 piezas de chocolate diarias. La división de control de calidad decide seleccionar al azar 50 piezas (el 1%) de chocolate para su inspección de calidad diaria (antes de analizar los datos estadísticamente). Como es usual, hoy el inspector de calidad ha numerado las piezas de chocolate de acuerdo con su orden de producción, es decir, la primera pieza de chocolate producida en el día tiene el número 1, la segunda el número 2 y así sucesivamente. Usando la calculadora gráfica, puede seleccionar 50 piezas de las 5000 usando la función [Ran#]. Abre el Editor RUN. Pulsa [OPTN] [F6] [Z] [F3] [PROB] [F4] [Ran#] y después pulsa [EXE]. Pulsando varias veces obtendrás una pantalla similar a esta: Observa que cada pulsación de [Ran#] produce diferentes dígitos decimales y siempre se cumple la desigualdad: 0 < Ran# < 1 Podemos ayudar al inspector para adaptar esta salida a sus necesidades de muestreo. Si multiplicamos [Ran#] por 5000 aseguramos que cada salida estará comprendida entre 0 y 5000. 0 < 5000×Ran# < 5000 Podemos ajustar la funición [Ran#] para ayudarle a seleccionar su muestra aleatoria. Pulsa [EXIT] [F4] [NUM] [F2] [Int], seguida de la expresión 5000×Ran#, y súmale 1. El inspector puede ahora generar 50 números aleatorios diferentes del 1 al 5000 en la ventana [Run] pulsando [EXE] 50 veces. Es mucho más ventajoso y eficiente usar una hoja de cálculo para introducir los datos del muestreo recordando los resultados del test de calidad del chocolate y además sirve para hacer un análisis estadístico. CEFIRE DE GODELLA / CASIO Pág. 36 MATEMÁTICAS Y TECNOLOGÍA CON CALCULADORA GRÁFICA • Enero/Febrero 2008 ACTIVIDAD 1 Usa el menú Hoja de cálculo de la calculadora gráfica para ayudar al inspector a seleccionar al azar 50 chocolates para su test de hoy. • Solución: a) Abre el menú Hoja de cálculo y guarda la hoja actual con el nombre “Act1A”. Para ello, pulsa [F1] [FILE] [F3] [SV−AS] y en la siguiente pantalla introduce el nombre Act1A. Usamos la columna A para generar números aleatorios y la llamaremos “Random”. También conseguiremos la muestra en la columna B y la llamaremos “Sample”. Para escribir el nombre de la columna, basta situar el cursor en la primera celda y con el teclado alfabético teclear el nombre entre comillas (“Random” o “Sample”). Después, mueve el cursor hasta la primera celda vacía de la columna “Random”. Introduce la fórmula “Int(5000Ran#)+1” en la celda seleccionada A2. Es similar a como la habíamos introducido antes. Cuando pulsamos [EXE] se genera un número aleatorio. b) Para esta actividad vamos a generar 49 números aleatorios más y de una forma rápida. Sitúa el cursor en la celda A3 y selecciona (EDIT) (FILL). Introduce la fórmula “=Int(5000Ran#)+1” (en la línea encabezada por [Formula]) y en el rango de celdas [Cell Range] escribe A3:A51. Pulsa [EXE] para generar los otros 49 números aleatorios. c) A continuación guardamos los números de la columna “Random” en una lista antes de renombrar el mismo conjunto de números para la columna “Sample”. Mueve el cursor a la primera celda, A2, de “Random” y pulsa [SHIFT] [8] (CLIP). Con la celda A2 seleccionada, mueve el cursor hacia abajo hasta el último número situado en la calda A51. En la parte inferior izquierda de la pantalla se muestra el rango de celdas seleccionadas: A2:A51. Para guardar estos números en una lista, pulsa [STO] [LIST] y en la siguiente pantalla guarda los números en la lista [List1]. CEFIRE DE GODELLA / CASIO Pág. 37 MATEMÁTICAS Y TECNOLOGÍA CON CALCULADORA GRÁFICA Enero/Febrero 2008 Ves a la primera celda vacía de la columna “Sample” y pulsa [RCL] [LIST]. En la siguiente pantalla introduce el nombre de la lista a recuperar [List1] y comprueba que en la línea 1st Cell pone B2. Pulsa [EXE] para obtener los valores de la columna “Sample”. d) Finalmente, ordenamos los números de la columna “Sample” en orden ascendente y observamos posibles repeticiones de números. Ves a la primera celda de la columna “Sample”, pulsa [SHIFT] [8] y mueve el cursor hasta la última celda no vacía, la celda B51. Para ordenar la columna, selecciona [EDIT] [SRT−A], después explora la columna y averigua si hay algún número repetido. Los números aleatorios obtenidos en nuestro caso no contienen repeticiones, pero si vemos números repetidos, volvemos a empezar por el apartado (C). Por lo tanto, conforme con los números aleatorios que hemos generado, el inspector de calidad puede inspeccionar los chocolates producidos de acuerdo con el orden mostrado en la columna “Sample” de la hoja de cálculo “Act1A”. El inspector de calidad puede usar siempre esta misma hoja para seleccionar una muestra aleatoria para su trabajo cada día y después estudiar los logros en calidad. • ACTIVIDAD 2 La factoría a veces produce entre 4000 y 4500 piezas de chocolate diarias, aparte de las usuales 5000. El tamaño de la muestra requerido para el test de calidad es siempre el 1% de la producción diaria. En el test, cada pieza de chocolate pasa el test (logra 1 punto) o no lo pasa (logra 0 puntos). No más de un 8% de la muestra falla el test de calidad diariamente. El siguiente es el plan diario de producción para los próximos 5 días. Día Producción de Chocolate 1 5000 2 4000 3 4500 4 5000 5 5000 Improvisa la hoja de cálculo para ayudar el inspector en su trabajo. • Solución: En resumen aquí están los tamaños necesarios de las muestras diarias y el 8% del tamaño de la muestra. Producción de Chocolate Tamaño de la muestra 8% del tamaño de la muestra Dia1 5000 50 4 Dia2 4000 40 3.2 Día3 4500 45 3.6 Dia4 5000 50 4 Dia5 5000 50 4 a) Abre el Editor de Hoja de cálculo y guarda la nueva hoja con el nombre “Act2A”. Consideramos la producicón diaria como parámetro en la generación del número aleatorio. La celda A2 la usamos para registrar la producción diaria. También usamos la columna B como una columna indexada para facilitar referencia a la producción y a los números aleatorios. Empezamos con la producción diaria de 5000 para el Dia1. CEFIRE DE GODELLA / CASIO Pág. 38 MATEMÁTICAS Y TECNOLOGÍA CON CALCULADORA GRÁFICA Enero/Febrero 2008 b) Las columna “Random” y “Sample” son colocadas en las columnas C y D respectivamente. Para generar 50 números aleatorios, sitúa el cursor en la celda C2, pulsa [EDIT] seguido de [FILL]. Esta vez introducimos la fórmula “=Int($A$2Ran#)+1” en la línea [Formula] y el rango de celdas C2:C51 en la línea [Cell Range]. c) Aquí hemos generado 50 números aleatorios para el Dia1. De nuevo guardamos los números de la columna “Random” en la lista [List1] antes de recolocar el mismo conjunto de números en la columna “Sample”, ordenar dichos números y chequearlos para ver si hay números repetidos. Primero regresa a la hoja de cálculo de trabajo: Sitúa el cursor en la celda C2 y pulsa [SHIFT] [8] (CLIP), después mueve el cursor hacia abajo hasta la celda C51. Con el rango de celdas C2:C51 seleccionado, pulsa [STO] [LIST] y guarda estos números en la lista [List1]. Pulsa [EXE] para regresar a la hoja de cálculo de trabajo. Ves a la primera celda vacía de la columna “Sample”, pulsa [RCL] [LIST] para recuperar las entradas de la lista [List1]. d) Ahora ordenados los números de la columna “Sample” en orden ascendente y chequeamos posibles repeticiones de números. De nuevo usa [SHIFT] [8] para seleccionar desde la celda D2 hasta la celda D51 y ordenar la columna con [EDIT] [SRT−A], después explora la lista para ver posibles repeticiones de números. e) Añadimos otras dos columnas llamadas “Test” para registrar el resultado del test de calidad, y otra llamada “#of 0” para calcular el número de 0 (fallos en el test.) La columna “#of 0” actual consta de la celda $A$2 F2 que cuenta el número de fallos con la fórmula “ -CellSum(E2:E51)”. Ahora el inspector puede usar 100 esta hoja de cálculo para su trabajo diario. CEFIRE DE GODELLA / CASIO Pág. 39 MATEMÁTICAS Y TECNOLOGÍA CON CALCULADORA GRÁFICA Enero/Febrero 2008 Dia1 Para la discusión de esta actividad, usamos los números aleatorios generados antes para el test de calidad del Dia1 y los resultados del test se supone que son los siguientes. La media de los resultados de los chocolates producidos el Dia1 que pasan la inspección de calidad es necesaria. Podemos guardar los números aleatorios y los resultados del test en las listas [List1] y [List2] usando [SHIFT] [8] (CLIP) y [STO]. También guardamos la muestra aleatoria del Dia1 y los resultados del test en las listas [List1] y [List2]. Dia2 Cambia la producción diaria en la celda A2 por 4000. Repite el proceso de los apartados C) y (D), pero considera solo los primeros 40 números en la columna “Random”. La muestra aleatoria no está afectada en este caso aunque generamos 50 números aleatorios. También, usa [List3] como lista de almacenamiento temporal. Cuando pegamos las entradas de la lista [List3] en la columna “Sample”, los contenidos de las celdas D2 a D41 son reemplazados con el nuevo conjunto de números aleatorios. Podemos usar la columna “Index” como guía para seleccionar la nueva generación de 40 números aleatorios, para ordenarlos y evitar seleccionar las celdas D42 a D51. Asumimos los resultados del test como los resultados actuales. Los contenidos de las celdas E42 a E51 deben ser eliminados para asegurar que se muestre el número correcto de 0. CEFIRE DE GODELLA / CASIO Pág. 40 MATEMÁTICAS Y TECNOLOGÍA CON CALCULADORA GRÁFICA Enero/Febrero 2008 El número de 0 registrado es 4, que indica los chocolates producidos el Dia2 que no pasan la inspección de calidad. Ahora guardamos los números aleatorios y el test en las listas [List3] y [List4]. Con similar aproximación, seleccionamos la muestra aleatoria apropiada para los dias Dia3, Dia4 y Dia5, guardamos los correspondientes números aleatorios y los resultados correspondientes en las listas [List5] y [List6] para Dia3, [List7] y [List8] para Dia4, y [List9] y [List10] para Dia5. El método de muestreo que hemos usado anteriormente se llama muestreo aleatorio simple. Otro método de muestreo aleatorio es el muestreo estratificado que se basa en identificar los estratos. Ejemplos de estratos son “hombres” y “mujeres”, o ‘obeso’ y ‘no-obeso’. Un muestreo estratificado se hace separando muestras aleatorias simples para cada uno de los estratos. Si conocemos las proporciones en la población de las distintas categorías, podemos asegurar que las proporciones se reproducirán para la muestra. • ACTIVIDAD 3 Supongamos que la población de estudiantes de tu instituto puede ser descrita como sigue: Estudiantes chicos 45% Estudiantes chicas 55% Usa muestreo estratificado para elegir una muestra aleatoria de 40 estudiantes. • Solución: En este caso, podemos elegir una muestra aleatoria simple de 40×45%=18 estudiantes chicos y otra muestra aleatoria simple de 40×55%=22 estudiantes chicas. • ACTIVIDAD 4 Suponiendo que la población de estudiantes de un instituto es 1750 y la composición chicos−chicas es como se describe a continuación Estudiantes chicos 38% Estudiantes chicas 62% Usa la hoja de cálculo para seleccionar una muestra estratificada de 50 estudiantes para medir la preferencia de los estudiantes entre chocolate con almendras y chocolate con leche. Diseña una hoja de cálculo para registrar las respuestas. • Solución Peimero seleccionamos la muestra estratificada y después usamos la técnica de la Actividad 2 en la muestra. En resumen, aquí está la informacion sobre las dos categorías. % of population Of 1750 population (%×1750) Stratified sample size (%×50) Male students 38% 665 19 Female students 62% 1085 31 Puedes usar el Editor RUN para calcular la información relevante que se muestra en la tabla anterior. CEFIRE DE GODELLA / CASIO Pág. 41 MATEMÁTICAS Y TECNOLOGÍA CON CALCULADORA GRÁFICA Enero/Febrero 2008 Una posible forma de diseñar la hoja de cálculo es la siguiente: • Abrimos la Hoja de cálculo. Usamos las columnas A y B para registrar la población y el tamaño en la muestra de cada estrato, también tenemos más control de los parámetros. • Utiliza la tercera columna para índice y la cuarta columna para generar números aleatorios. E primer lugar, selecciona la muestra aleatoria de estudiantes chicos con la fórmula “=Int($B$2Ran#)+1” para el rango D2 a D20 (tamaño de la muestra de 19.) • Crea dos columnas más denominadas “Chicos” y “Chicas”. Copia, pega y ordena los números de la columna “Chicos” con los métodos usados en la Actividad 2. Después selecciona la muestra aleatoria de chicas con la fórmula “=Int($B$3Ran#)+1” para el rango D2 a D32 (tamaño de la muestra de 31) de la columna “Random” y copia y ordena los números en la columna “Chicas”. • Usa la columna F para registrar las respuestas de los estudiantes chicos para el cuestionario y la columna H para las respuestas de las chicas. A continuación se muestran hojas de cálculo de posibles respuestas donde 1 indica estudiantes que prefieren chocolate con almendras y 2 estudiantes que prefieren chocolate con leche. CEFIRE DE GODELLA / CASIO Pág. 42 MATEMÁTICAS Y TECNOLOGÍA CON CALCULADORA GRÁFICA Enero/Febrero 2008 INFERENCIA ESTADÍSTICA CON LA FX−9860G SLIM Introducción A continuación estudiaremos algunas de las posibilidades de la calculadora gráfica FX−9860G SLIM para el estudio de la Inferencia Estadística en ESO y Bachillerato 1. ESTIMACIÓN ESTADÍSTICA La Estadística estudia situaciones y muestras de la vida real para extraer conclusiones relevantes basadas en los datos recogidos. Todos sabemos que los datos reales no son constantes. La gente nace, crece, se mueve de un lugar a otro, pero no se libera de su peso. Por esta razón una cuestión aparentemente trivial puede ser difícil de resolver completamente. Dice: “¿Cuál es el peso medio de la población?” Primero, pesando miles (posiblemente, centenares o miles de millones) de personas es una pérdida de tiempo. No podemos garantizar que algunos ciudadanos rehusen a hacerlo. Si todos aceptan, ¿cuál será la última medida? Hasta que el último valor no sea determinado, la primera persona puede haber engordado (o adelgazado) algunos kilos y tendríamos que volver a empezar. Si todos aceptan medir su peso el 17 de Septiembre a las 8:30, no estamos seguros de que su balanza esté asegurada. Por otra parte, debemos recoger y evaluar todos los datos. Para esto necesitamos bastante tiempo. Además, el valor que tomamos como correcto de un dato puede que en el momento del cálculo ya no sea correcto. Por esta razón, en Estadística simplificamos el trabajo. En vez de perseguir “soluciones ideales” e irreales, simplificamos los trabajos, buscamos hipótesis para sus respuestas e intentamos estimar un nivel de precisión en el que las respuestas puedan ser asumidas como suficientemente correctas. Vamos a resolver un problema similar: “¿Cuál es el numero total de mascotas de los estudiantes de este instituto?” Solución: El método más realista consiste en preguntar a todos los estudiantes sobre el número de mascotas que tienen. Como hemos dicho antes, esto es una pérdida de tiempo y no tenemos un 100% de garantías de que el resultado sea correcto. Un segundo método está basado en seleccionar una muestra apropiada. Nuestra clase puede serlo. Por las siguientes razones: • Tenemos una proporción bastante razonable del conjunto de estudiantes y, por tanto, los resultados pueden ser una buena imagen de la situación real. • No tenemos una especial preferencia. Es probable que no tengamos muchas mas ni muchas menos mascotas que los estudiantes de otras clases. Observa que la segunda suposición no siempre es verdadera. Si nuestra clase es especial (por ejemplo, orientada hacia la Biología) algunos estudiantes tendrán extremado interés en los animales y no formaremos una muestra correcta. O, si media clase está formada por un grupo de estudiantes con un inusual alto nivel de alergia a las pieles. En ambos casos, le evaluación será negativa por una mala selección de los individuos de la muestra. Es más apropiado encontrar otro grupo−muestra más similar a la media de los estudiantes. La clase de 30 estudiantes recoge el número de mascotas en una tabla de hoja de cálculo. Suponiendo que la clase es una “clase media”, ¿cuántas mascotas habrán entre todos los 480 estudiantes del instituto? La media es 2.6 mascotas por estudiante, lo que se recoge en la celda C2 como se muestra a continuación: CEFIRE DE GODELLA / CASIO Pág. 43 MATEMÁTICAS Y TECNOLOGÍA CON CALCULADORA GRÁFICA Enero/Febrero 2008 Con 480 estudiantes en el instituto, el resultado es 2.6 x 480 = 1248 animales. Otro valor que podemos hallar el la desviación típica. Este parámetros se calcula automáticamente pulsando [CALC] y después [1VAR]. En esta lista, el valor indicado de la desviación típica es xσn = 1.83666364. Es difícil confiar en el resultado (“1248 animales”) sin alguna reservas. ¿Podemos hacer una estimación del error? En Estadística, la estimación se deriva del denominado error estándar de la media σx que se define como: σx = σ n donde σ es la desviación típica y n es el tamaño de la muestra. Calcula el error estándar sabiendo que la desviación típica es 1.836 y que la muestra consta de 30 estudiantes: σx = 1.836 30 = 0.335 Uno puede difícilmente esperar que entre todos los estudiantes tengan exactamente 1248 mascotas. Al mismo tiempo, nos gustaría tener cierta confianza en el resultado. Podemos suponer que si no es exactamente 1248, entonces es un intervalo al cual pertenece el valor correcto. Ciertamente, podría ser entre 0 y 3 millones, pero esta es una estimación demasiado basta. Usando el error estándar, podemos calcular dos importantes valores: Intervalo de confianza del 95%: X ± 1.96 Intervalo de confianza del 99%: X ± 2.58 σ n σ n También, los intervalos son calculados sabiendo la media, la desviación típica y el tamaño de la muestra. Observa que, por consenso entre estadísticos, los cálculos se suponen aceptables cuando la muestra es bastante grande (por ejemplo, teniendo al menos 30 elementos). Esto ocurre en nuestra muestra. CEFIRE DE GODELLA / CASIO Pág. 44 MATEMÁTICAS Y TECNOLOGÍA CON CALCULADORA GRÁFICA Enero/Febrero 2008 Con un 95% de confianza, el número medio de mascotas por estudiante está comprendido entre 1.945 y 3.255. 1.836 ⎧ 2.6 − 1.96 ⎪ σ ⎪ 30 = ⎧1.945 X ± 1.96 =⎨ ⎨ n ⎪2.6 + 1.96 1.836 ⎩3.255 ⎪⎩ 30 Multiplicando estos límites del intervalo de confianza por 480 estudiantes, obtenemos 933 y 1562 mascotas como límites de nuestro intervalo de confianza. Los resultados son ahora 1.738 y 3.462. Esto implica que el número de mascotas está comprendido entre 834 y 1662. Como antes, los límites para el intervalo de confianza del 99% resultan de multiplicar los límites para la media por estudiante (que son 1.738 y 3.462) por 480. • ACTIVIDADES o Usando una hoja de cálculo, calcula la media de mascotas y la desviación típica para la muestra formada por tu grupo de clase. Forma un grupo de al menos 30 personas para hacer una muestra suficientemente grande para futuros cálculos. o Usando los datos del apartado anterior, calcula el error estándar. Estima el número de mascotas que tienen los estudiantes de tu instituto con un intervalo de confianza del 95%. o Un examen a 49 fumadores muestra que su gasto medio en cigarrillos es $20 por semana con una desviación típica de $5. Usando un nivel de confianza de 0.95, ¿cuál es el gasto individual en cigarrillos por semana? Soluciones: 3) Entre $18.60 y $21.40. 2. INTERVALO DE CONFIANZA PARA LA MEDIA • ACTIVIDAD 1 Supongamos que se selecciona una muestra aleatoria de 64 dulces y la media de masa de estos dulces es de 0.932 gramos y el valor de la desviación típica s es 0,1 gramos. Halla el intervalo de confianza del 95% para la media de masa de la población. Solución: La media de la muestra es x =0.932, la desviación típica de la muestra es s=0.1 y el tamaño de la muestra es n=64. Como la varianza de la población es conocida y el tamaño de la muestra es > 30, podemos sustituir la desviación típica de la población σ por s. Por lo tanto el intervalo de confianza del 95% puede calcularse como sigue, donde z 0.025 denota el valor tal que P( Z < z 0.025 ) =0.95 donde Z ~ N(0,1) . s s ⎞ ⎛ , x + z0.025 ⎜ x − z0.025 ⎟. n n⎠ ⎝ Podemos hallar el mismo intervalo de confianza con la calculadora gráfica. Abre el menú [STAT]. Aparece la siguiente pantalla: CEFIRE DE GODELLA / CASIO Pág. 45 MATEMÁTICAS Y TECNOLOGÍA CON CALCULADORA GRÁFICA Enero/Febrero 2008 Ahora pulsa [F4] [INTR] [F1] [Z] [F1] [1−S] para seleccionar el comando 1-sample Z interval. En la línea [Data] de la siguiente pantalla, seleciona Variable. Introduce los valores de los parámetros que se indican en la pantalla de la derecha de la siguiente figura y pulsa [EXE]. En la siguiente pantalla vemos que los extremos inferior (left) y superior (right) del intervalo de confianza son 0.9075 y 0.9565 con 4 decimales exactos. En resumen, el intervalo de confianza del 95% para la masa media de los dulces es, aproximadamente, (0.9075, 0.9565) , o 0.9075 < µ < 0.9565 . Frecuentemente el tamaño de la muestra se ve obligado por algunos factores y puede ser menor que 30. Cuando una muestra pequeña es elegida de una población normal con varianza desconocida, es más apropiado utilizar una distribución t de Student para hallar el intervalo de confianza. • ACTIVIDAD 2 Supongamos que debido a restricciones de tiempo, una muestra aleatoria de 16 dulces es elegida de entre los 64 de la actividad 1 anterior. Se mide la masa de cada dulce, x (gramos), y las medidas se resumen por los parámetros ∑ x =13.3 y ∑ x 2 =15.13. Suponiendo que la media de la masa sigue una distribución normal, halla el intervalo de confianza del 95% para la media de la población. Da el intervalo de confianza con 3 decimales exactos. Solución: Aunque la media y la varianza de la muestra no son conocidas, podemos calcularlas fácilmente en el Editor RUN de la calculadora. Del cálculo hallamos la media de la muestra x =0.83125 y la varianza de la muestra s 2 =0.271625 de donde obtenemos la desviación típica muestral s=0.52118, con 5 decimales exactos. [Nota] La varianza de la muestra se halla con la fórmula: CEFIRE DE GODELLA / CASIO Pág. 46 MATEMÁTICAS Y TECNOLOGÍA CON CALCULADORA GRÁFICA s = 2 n ∑ x 2 − (∑ x ) 2 n(n − 1) Enero/Febrero 2008 2 ( x ) ⎞⎟ 1 ⎛⎜ ∑ 2 = ∑x − n ⎟. n −1⎜ ⎠ ⎝ Este intervalo de confianza se basará en la distribución t15, y el intervalo de confianza del 95% se puede calcular usando la fórmula: ⎛ s ⎞ s ⎜x − c ⎟. , x +c ⎜ ⎟ n⎠ n ⎝ Donde c es el punto para el cual la probabilidad es p=0.975 en una distribución t de Student con 15 grados de libertad. La probabilidad es 0.975 porque la probabilidad de 1-0.95=0.05 en dos ramas de la distribución simétrica implica 0.025 en la rama superior y de aquí que p=0.975. Podemos hallar el mismo intervalo de confianza con la calculadora gráfica. Abre el menú [STAT]. Pulsa [F4] [INTR] [F2] [t] [F1] [1−S] para seleccionar el comando 1-sample t interval. En la línea [Data] de la siguiente pantalla selecciona Variable. Selecciona [C-Level] como 0.95. Teclea en x =0.83125 (valor que hemos obtenido ahora), y como es un intervalo de confianza basado en la distribución t de Student, introduce la desviación típica muestral s=0.52118 en lugar de la desconocida σ (aparece como xσ n − 1 en la calculadora.) Al pulsar [EXE] obtenemos que los extremos inferior y superior del intervalo de confianza son 0.554 y 1.109 respectivamente, con 3 decimales exactos. En resumen, el intervalo de confianza del 95% para la media de la masa en la población es 0.554 < µ < 1.109 . En la siguiente actividad veremos el uso de la hoja de cálculo para resolver este tipo de problemas. • ACTIVIDAD 3 Supongamos que una compañía que produce dulces necesita hallar la media de masa de los dulces que produce para poder imprimir este dato en la envoltura. Como la factoría produce 10000 piezas de dulces por día, elegir una muestra aleatoria es la aproximación más factible. Su jefe de marketing decide elegir una muestra aleatoria de 40 dulces para esta tarea. Usa la calculadora gráfica para: i. Seleccionar una muestra aleatoria de 40 piezas de dulces. ii. Registrar la masa de cada dulce y calcular el resumen de parámetros estadísticos de los datos. c) Hallar el intervalo de confianza del 99% para la media de la población. Después, discute con tus compañeros sobre la media de masa poblacional obtenida. CEFIRE DE GODELLA / CASIO Pág. 47 MATEMÁTICAS Y TECNOLOGÍA CON CALCULADORA GRÁFICA Enero/Febrero 2008 Solución: a. Empezamos seleccionando al azar 40 números usando la función [Ran#]. Observa que las salidas tienen diez dígitos decimales diferentes y que siempre se cumple esta desigualdad: 0 < Ran# < 1 Cuando multiplicamos [Ran#] por 10000, obtenemos 0<10000×Ran#<10000. Si utilizamos la función parte entera [Int] (que está localizable en la pantalla RUN), seguida de la expresión 10000×Ran#, y sumamos 1, obtenemos una expresión que produce valores enteros entre 1 y 10000, ambos inclusive. Esta expresión puede obtenerse también en la hoja de cálculo. Abrimos el Editor de Hoja de cálculo. Dejamos la columna A para ser usada después y nombramos la columna B como “Random”. Para generar en la columna “Random” 40 números enteros desde 1 hasta 10000, selecciona [EDIT] seguido de [FILL]. Después, en la línea Fórmula, introduce la fórmula “=Int(10000Ran#)+1” y en la línea [Cell Range] introduce el rango de celdas B2:B41. Habiendo generado los 40 números al azar, guardamos estos números en la lista [List1] antes de recuperar el mismo conjunto de números en la columna C. En la columna ordenaremos los números en orden ascendente y chequearemos alguna posible repetición de los números. Ves a la celda B2, pulsa [SHIFT] [8] (CLIP), después mueve el cursor hacia abajo hasta la celda B41. Con el rango de celdas B2:B41 seleccionado, pulsa [STO] [LIST] para guardar estos números en la lista [List1]. Pulsa [EXE] para regresar a la hoja de cálculo y llama “Sample” a la columna C; despué ves a la primera celda vacía en la columna “Sample” y pulsa [RCL] [LIST] para pegar los datos de la lista [List1]. CEFIRE DE GODELLA / CASIO Pág. 48 MATEMÁTICAS Y TECNOLOGÍA CON CALCULADORA GRÁFICA Enero/Febrero 2008 Para ordenar la columna “Sample”, usa también [SHIFT] [8] (CLIP) para seleccionar las celdas C2 a C41 y ordena la columna con [EDIT] [SRT−A]; después explora y localiza posibles repeticiones de números. La lista no tiene números repetidos y, por tanto, hemos seleccionado una muestra aleatoria de 40 dulces. Observamos que el primer dulce que ha sido pesado es el que se ha producido en el lugar 207, el segundo dulce ha sido el que ocupa el lugar de producción 268 y así sucesivamente (ver la columna “Sample”) b. Para empezar a registrar las masas de la muestra, cremos una columna denominada “Mass” para guardar los datos de las masas de los dulces. Después iniciamos la introducción de las masas de los dulces producidos en los lugares 207, 268, 341 …9437 y 9768. Supongamos que los datos parciales que se muestran en la figura, en gramos, son los datos recogidos actualmente (explora la columna ‘Mass’ ) . Para tener un significado de la muestra, calculamos el resumen de parámetros estadísticos. Mientras se visualiza la pantalla de hoja de cálculo, pulsa [CALC] [SET] para hallar el resumen de estadísticos de los datos registrados en las celdas D2 a D41. Después selecciona [1 VAR] y aparecerán en pantalla los estadísticos de la muestra. Observa que tenemos x =8.05125 y xσ n − 1 =0.03428294. c. Podemos improvisar una hoja de cálculo para halalr los extremos del intervalo de confianza para la media de la masa de los dulces. Para esta actividad usamos la columna A para los percentiles de las distribuciones normal y t de Student, como se muestra en la pantalla de la izquierda. También arreglamos la hoja de cálculo para usar el percentil apropiado (ver la celda F2) basado en el tamaño de la muestra introducido. La regla general es que si la muestra tiene más de 30 datos, los percentiles están basados en la distribución normal estándar. CEFIRE DE GODELLA / CASIO Pág. 49 MATEMÁTICAS Y TECNOLOGÍA CON CALCULADORA GRÁFICA Enero/Febrero 2008 En una situación de la vida real como en esta actividad, la varianza σ es raramente conocida. Cuando esto ocurre usamos la desviación típica muestral s para reemplazar a σ , independientemente del tamaño de la muestra. Después el intervalo de confianza se calcula como sigue, donde p es el percentil apropiado. s s ⎞ ⎛ , x+ p ⎜x − p ⎟ n n⎠ ⎝ Teniendo en cuenta esto, las expresiones para hallar los extremos inferior y superior del intervalo de confianza se introducen, en este caso, en las celdas E4 y F4 como sigue. Observa que actualmente x toma el valor 8.05125, y xσn − 1 es 0.03428294 cuando calculamos el resumen de estadísticos para la media de masa. También, introducimos ambos x y xσn − 1 en las celdas E4 y F4 con el CATÁLOG (pulsando [SHIFT] [4]. Para esta actividad el tamaño de la muestra (40) se considera grande y por tanto, la media de la muestra se calculará con una distribución normal. De la tabla de la distribución normal estándar obtenemos que el percentil que corresponde al intervalo de confianza del 99% es 2.576. Puesto que la media de la muestra se considera que sigue una distribución normal, introducimos el valor 2.576 en la celda A2, seguida por el tamaño de la muestra 40. Como observamos, los extremos inferior y superior del intervalo de confianza son 8.0372 y 8.0652 respectivamente, lo que dice que el intervalo de confianza del 99% para la masa media de la población es (8.0372, 8.0652) . Es decir, con una confianza del 99% la media de la masa de la población pertenecerá al intervalo anterior. La compañía podrá imprimir en el envoltorio que la masa media es 8.05g, con 2 decimales exactos. Aparentemente la forma rápida para encontrar el intervalo de confianza de la Actividad 3 es usando la función [INTR] en el modo [STAT], como vimos en la Actividad 1. En primer lugar, almacenamos los datos de las celdas D2 a D41 en la lista [List2]. Después, abrimos el menú [STAT] para iniciar el Editor de Listas. Pulsamos [INTR] [Z] [1-S] para introducir el comando 1-sample Z interval. En la línea Data selecciona List, en la línea C−Level introduce 0.99, en la línea σ introduce s=0.03428294 como aproximación de σ (ya que la desviación típica poblacional es desconocida), en la línea List introduce la lista List2, deja la frecuencia Freq=1 y pulsa [EXE]. El intervalo de confianza obtenido debe ser el mismo que el encontrado en la Actividad 3. CEFIRE DE GODELLA / CASIO Pág. 50 MATEMÁTICAS Y TECNOLOGÍA CON CALCULADORA GRÁFICA Enero/Febrero 2008 Hallar el intervalo de confianza usando el método anterior es más rápido, pero la creación de una hoja de cálculo es más interactivo, versátil y flexible. Por otra parte, los datos y cálculos están disponibles para revisarse en la misma ventana. • ACTIVIDADES 1) La variable aleatoria Y sigue una distribución normal con media µ y varianza desconocida. Una muestra de 200 observaciones de Y da como resultado ∑ y =541.2, ∑ y 2 =1831.42. Halla: a) Un intervalo de confianza del 90% para la media µ . b) Un intervalo de confianza del 98% para la media µ . 2) Haz de nuevo la Actividad 3, pero seleccionando una muestra aleatoria solamente de tamaño 18. Soluciones: a. La media de la muestra y s se pueden calcular fácilmente con el Editor RUN. Obtenemos que la media de la muestra es x ≈2.7060 y s≈1.3579. Usando la opción [INTR], obtenemos que el intervalo de confianza para la media µ del 90% es (2.548, 2.864) y el intervalo de confianza para la media µ del 98% es (2.483, 2.929), con 3 decimales exactos. b. Con la muestra de tamaño 18, es más apropiado el intervalo de confianza basado en la distribución t17 de Student. De la tabla obtenemos que el percentil para 17 grados de libertad y probabilidad de 0.995 es 2.898. Podemos crear una hoja de cálculo similar a la de la Actividad 3 para resolver el problema, pero para la discusión de esta solución usaremos la hoja de cálculo de la Actividad 3 en la que introduciremos el nuevo percentil y el nuevo tamaño de la muestra. CEFIRE DE GODELLA / CASIO Pág. 51 MATEMÁTICAS Y TECNOLOGÍA CON CALCULADORA GRÁFICA Enero/Febrero 2008 El intervalo de confianza del 99% para la media de la población resulta ser (8.0278, 8.0746). 3. TESTS DE HIPÓTESIS I • ACTIVIDAD 1 La estatura media de un equipo de hockey es 182 cm con una desviación típica de 4.1 cm; el peso medio es 77 kg con una desviación típica de 3.5 kg. Un equipo de hockey ha adquirido recientemente a 10 nuevos jugadores. Sus datos están en la siguiente tabla: El entrenador presume de que las presentes medias son óptimas para su estrategia de juego. Sabe que su asistente es hábil en Estadística y le pregunta sobre si las medias de los nuevos jugadores se ajustan o no a la situación actual del equipo. 1. Ayuda al asistente a formular la hipótesis nula sobre las estaturas de los jugadores. 2. ¿Es un test unilateral o bilateral? 3. El test es bilateral. Suponiendo el nivel de significación 0.05, ¿qué valor crítico debemos usar? Soluciones: 1. No hay diferencia significativa entre la estatura de los antiguos jugadores y de la de los nuevos. 2. El problema es bilateral. Estamos interesados en alguna diferencia (ambos lados) y se supone que una media de los jugadores más baja que la antigua causaría problemas. Los problemas unilaterales presuponen que es importante una cierta diferencia, pero no la otra. (Por ejemplo, el entrenador no debe tener jugadores peores de los que ya tiene, pero no debe preocuparse si los nuevos son mejores). 3. La región de no rechazo de la hipótesis nula es el intervalo desde −1.96 hasta +1.96. CEFIRE DE GODELLA / CASIO Pág. 52 MATEMÁTICAS Y TECNOLOGÍA CON CALCULADORA GRÁFICA • Enero/Febrero 2008 ACTIVIDAD 2 Una hipótesis nula correcta dice: “No hay diferencia significativa entre la estatura de la media de los jugadores y la de los nuevos jugadores”. Decidimos usar el nivel de significación 0.05 para aceptarla o rechazarla. Ahora calcularemos el estadístico z del test. Su formula es _ z= X−µ σ n _ donde X es la media de la muestra (por ejemplo la estatura media de los nuevos jugadores), µ es la media de la población (en nuestro caso 182 cm), σ es la desviación típica de la población (en nuestro caso 4.1), y n es el número de jugadores en nuestra muestra (en este caso, 10). Calcula el estadístico z en una hoja de cálculo, usando los datos introducidos. Primero, calcula la media de estaturas de los nuevos jugadores en la celda B12. Después con la celda seleccionada, pulsa [EDIT] [CELL] [CEL] [Mean] para que aparezca en pantalla el comando (CellMean). Introduce el rango B2:B11, cierra paréntesis y pulsa [EXE]. La media es 183.9. El valor de z puede calcularse en la celda B13. • ACTIVIDADES a) El valor de z es 1.4654. Interpreta el resultado. b) Formula la hipótesis nula para el peso de los jugadores. ¿Es un problema unilateral o bilateral? Soluciones: a. El valor de la variable Y está entre −1.96 y 1.96. La hipótesis nula se acepta. La diferencia en estaturas no es significativa. b. No hay una diferencia significativa entre el peso medio del equipo y el de los nuevos jugadores. • ACTIVIDAD 3 Usando los datos de la hoja de cálculo, calcula el estadístico del test para el peso de los jugadores. Como dijimos en una actividad anterior, el peso medio de los jugadores es 77 kg con una desviación típica de 3,5 kg. • ACTIVIDADES a) z = 2.7105. Interpreta el resultado. b) Oído el último resultado, el entrenador dice: “Necesito hombres duros. Si tengo en cuenta solamente estos, son débiles.” Interpreta sus palabras en términos estadísticos. CEFIRE DE GODELLA / CASIO Pág. 53 MATEMÁTICAS Y TECNOLOGÍA CON CALCULADORA GRÁFICA Enero/Febrero 2008 Soluciones: a) La hipótesis nula debe ser rechazada. Hay diferencias significativas entre el peso de los antiguos y nuevos jugadores. b) El problema está cambiado para un test unilateral. La hipótesis nula es ahora: “El peso medio de los nuevos jugadores no es significativamente inferior al de todos los jugadores”. El valor crítico para su rechazo es −1.645. • ACTIVIDAD 4 Un fabricante de teléfonos móviles anuncia que el 96% de sus teléfonos móviles (con un 5% de desviación típica) pueden funcionar regularmente tras caerse de una altura de 2 metros. Para demostrar esto, invita a los representantes de los comerciantes y selecciona al azar 100 nuevos teléfonos móviles de la línea de producción. Todos han sido lanzados de un armario de 2 metros de altura hasta el suelo. Cinco de ellos (es decir, el 5%) no funcionan después del lanzamiento. ¿Puede ser aceptado como correcto el anuncio del fabricante? a) Formula la hipótesis nula. b) ¿Es un test unilateral o bilateral? c) Indica los datos necesarios para calcular el estadístico z del test. Solución: a. El número de teléfonos móviles rotos no es significativamente diferente del 5%. b. El test es unilateral. Tenemos solamente interés en los peores resultados del test, no en los positivos. Así, su valor crítico es 1.645. _ c. Usando X = 95, µ = 96, σ = 5, y n = 100, calculamos el estadístico del test con la fórmula: _ z= X−µ σ n El anuncio debe ser rechazado. El valor crítico para el test unilateral es 1.645. El estadístico del test es z=2. El valor cae en la región de rechazo. 4. TESTS DE HIPÓTESIS II • EJEMPLO Un estudio indica que los adultos en América dedican una media de 18 horas por semana a actividades de tiempo libre. Un investigador busca el test de este anuncio. Toma una muestra de 10 adultos y les pregunta sobre el tiempo que dedican por semana a actividades de tiempo libre. Sus respuestas (en horas) son las siguientes: 14 25 22 38 16 26 19 23 41 33 Suponemos que el tiempo dedicado a actividades de tiempo libre por todos los adultos sigue una distribución normal. Usando el nivel de significación del 5%, ¿podemos concluir que el anuncio de este estudio es verdadero? CEFIRE DE GODELLA / CASIO Pág. 54 MATEMÁTICAS Y TECNOLOGÍA CON CALCULADORA GRÁFICA Enero/Febrero 2008 Solución: Sea µ = 18 horas la media de horas que los adultos de América dedican por semana a actividades de tiempo libre. Sea x la correspondiente media para la muestra. Vamos a poner a prueba si la media de horas que los adultos americanos dedican a actividades de tiempo libre es o no 18 horas. Nuestras hipótesis nula y alternativa son las siguientes: Hipótesis nula: H 0 : µ 0 = 18 (la media de horas que los adultos americanos dedican por semana a actividades de tiempo libre es 18 horas) Hipótesis alternativa: H1 : µ ≠ 18 (la media de horas que los adultos americanos dedican por semana a actividades de tiempo libre es diferente de 18 horas) En el Editor [STAT], introducimos los datos en la lista List 1 como sigue: En las pantallas de la figura, observa que uno de los ítems del menú es [TEST]. Seleccionando este menú podemos ver los procedimientos de test de hipótesis disponibles. Elegimos el test t de Student pulsando [t], en particular elegimos one-sample t test pulsando [1-S]: Usualmente, las condiciones bajo las cuales se usa la distribución t de Student para hacer tests de hipótesis sobre la media µ son las siguientes: 1. Si el tamaño de la muestra no es demasiado grande (la mayoría de las veces menor que 30), 2. La desviación típica de la población es desconocida y 3. La población de la que se extrae la muestra sigue una distribución normal. Introducimos el valor µ0 = 18 , la hipótesis alternativa µ ≠ µ0 e indicamos que nuestros datos aparecen en la lista List 1. Después situamos el cursor en la línea [Execute]: Cuando el test es ejecutado, podemos mostrar los cálculos (eligiendo [CALC]) o mostrar el gráfico (eligiendo [DRAW]). CEFIRE DE GODELLA / CASIO Pág. 55 MATEMÁTICAS Y TECNOLOGÍA CON CALCULADORA GRÁFICA Enero/Febrero 2008 La media para la muestra es x = 25.7, y la desviación típica de la población x σ n-1 es 9.0437. El valor del estadístico del test es t = 2.692. Ahora, determinamos las regiones de rechazo y no rechazo. El nivel de significación es 0.05. El signo ≠ en la hipótesis alternativa indica que el test es bilateral con dos regiones de rechazo, una en cada lado de la curva de la distribución t de Student para la media muestral x . Como el área total de ambas regiones de rechazo es 0.05, el área de la región de rechazo en cada lado es 0.025. El número de grados de libertad es n−1 = 9 , (donde n es el tamaño de la muestra). Hay dos puntos críticos que separan las regiones de rechazo y de no rechazo. De la tabla de la distribución t de Student obtenemos que los puntos críticos son 2.262 y −2.262. El valor del estadístico del test t = 2.692 cae en la rama de la derecha de la curva, después del valor crítico 2.262, lo que indica que pertenece a la región de rechazo. Consecuentemente, rechazamos H0. Concluimos que la media de horas que los adultos americanos dedican por semana a actividades de tiempo libre no es 18 horas. El gráfico muestra que es un test bilateral. Seleccionando [T] podemos visualizar el estadístico del test: • ACTIVIDADES 1) Una compañía anuncia que sus yogures bajos en calorías contienen, por término medio, a lo sumo 150 calorías por unidad. Una agencia de consumidores decide investigar si la afirmación de este anuncio es no cierta. Una muestra aleatoria de 10 yogures produce los siguientes datos de calorías. 147 159 153 146 144 161 163 153 143 158 Con un nivel de significación del 2.5% investiga si la afirmación de la compañía es cierta. Suponemos que el número de calorías para cada yogur producido por esta compañía sigue aproximadamente una distribución normal. 2) Registramos de un anuncio de un supermercado que sus consumidores gastan una media de $65 por compra. Recientemente, el jefe del almacén ha iniciado una promoción para animar a más consumidores a gastar más dinero en el supermercado: cada cliente recibirá puntos basados en el dinero total gastado en el supermercado, y estos puntos pueden ser canjeados por productos del almacén. Para averiguar si la promoción está funcionando, el jefe toma una muestra de 12 clientes. Los siguientes datos indican el dinero gastado, en dólares, por esos clientes en el supermercado durante sus compras: 90 67 150 27 102 41 34 55 74 58 120 82 Suponemos que el dinero gastado por todos los consumidores de este supermercado sigue una distribución normal. Usando un nivel de significación del 1%, ¿podemos concluir que la cantidad media de dinero gastado por todos los clientes de este supermercado después de la campaña iniciada es más de $65? CEFIRE DE GODELLA / CASIO Pág. 56 MATEMÁTICAS Y TECNOLOGÍA CON CALCULADORA GRÁFICA Enero/Febrero 2008 Soluciones: 1) Testearemos si los yogures bajos en calorías contienen, por término medio, a lo sumo 150 calorías por unidad. Nuestras hipótesis nula y alternativa son las siguientes: Hipótesis nula: H 0 : µ ≤ 150 (la media de calorías por yogur es como mucho 150 calorías) Hipótesis alternativa: H1 : µ > 150 (la media de calorías por yogur es mayor de 150 calorías) Tras introducir los datos en la lista List 1 del Editor [STAT], introducimos la siguiente información después de acceder al menú [TEST] (ignora los mensajes de error pulsando [EXIT]) Introducimos el valor µ0 = 150 , la hipótesis alternativa µ > 150 e indicamos que nuestros datos aparecen en la lista List 1. Nuestros cálculos dan los siguientes resultados: La media de la muestra es x = 152.7, y la desviación típica de la población x σ n-1 es 7.3794. El valor del estadístico del test es t = 1.1570248. En este problema, el nivel de significación es 0.025. El signo > en la hipótesis alternativa indica que el test es unilateral por la derecha y la región de rechazo queda en la reama de la derecha de la curva de la distribución t de Student. El área de la rama de la derecha es 0.025 y los grados de libertad son n -1 = 9. De la tabla de la distribución t de Student deducimos que el valor crítico de t para 9 grados de libertad y área 0.025 por la rama de la derecha es 2.262. El estadístico del test es 1.1570248 y es menor que el valor crítico 2.262, obtenido de la tabla de la distribución t de Student. Cae fuera de la región de rechazo. Consecuentemente, aceptamos H0. Así, concluimos que la media de calorías por yogur es como mucho de 150 calorías. A partir de la gráfica del test, vemos el valor del estadístico del test y el hecho de que es un test unilateral con cola a la derecha. CEFIRE DE GODELLA / CASIO Pág. 57 MATEMÁTICAS Y TECNOLOGÍA CON CALCULADORA GRÁFICA Enero/Febrero 2008 2) Para este problema, testearemos si la cantidad media de dinero gastado por todos los clientes del supermercado tras la campaña iniciada es más de $65. Nuestras hipótesis nula y alternativa son las siguientes: Hipótesis nula: H 0 : µ > 65 (la cantidad media de dinero es mayor que 65) Hipótesis alternativa: H1 : µ < 65 (la cantidad media de dinero es menor de 65) En el Editor [STAT], introducimos el valor µ 0 = 65 , la hipótesis alternativa µ < 65 e indicamos que nuestros datos aparecen en la lista List 1, tras acceder al menú [TEST]. Los cálculos son los siguientes: La media de la muestra es x = 75, y la desviación típica de la población x σ n-1 es 36.366818. El valor del estadístico del test es t = 0.9525446. El nivel de significación es 0.01. El signo < en la hipótesis alternativa indica que el test es unilateral con cola a la izquierda, con la región de rechazo en la cola de la izquierda de la curva de la distribución t de Student. Para hallar el valor crítico de t, necesitamos conocer el área en la cola de la izquierda y los grados de libertad. En nuestro caso, el área en la cola de la izquierda es 0.01, y los grados de libertad son n -1 =12-1 =11. De la tabla de la distribución t de Student, el valor crítico de t es −2.718. El valor de t es 0.9525446 mayor que 2.718 y cae fuera de la región de rechazo. Por tanto, aceptamos H0 y concluimos que la cantidad media de dinero gastado por todos los clientes de este supermercado tras la campaña publicitaria es mayor de $65. El gráfico del test muestra el estadístico del test y el hecho de que el test es unilateral con cola a la izquierda. CEFIRE DE GODELLA / CASIO Pág. 58