Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN SOLUCIONARIO LEY DE BENFORD DE LA PÁGINA 266 Páginas de Internet que tratan este tema: • Ley de Benford en Wikipedia • Ley de Benford en Estadística para todos. En 1881 el matemático y astrónomo Simón Newcomb llegó a la conclusión de que la probabilidad de que un número, elegido al azar dentro de un conjunto cualquiera, tenga como primera cifra significativa d (siendo d un número natural no nulo) viene dada por la expresión: 1 P (primera cifra significativa igual a d) = log10 1 + , con d = 1, 2,…, 9. d En la gráfica podemos ver que la cifra 1 aparece como primera cifra significativa aproximadamente la tercera parte de las veces. En cambio, la probabilidad de que la primera cifra significativa sea un 9 es sólo del 4,6%. El artículo de Newcomb paso inadvertido a la comunidad científica. Años más tarde, en 1938, Frank Benford, físico de la General Electric, hizó la misma observación y verificó su conjetura por medio de un gran número de datos. Un conjunto de números cumple la ley de Benford si, al escribir un número la primera cifra significativa es d con probabilidad: log10 1 + 1 d Entendemos por primera cifra significativa el primer dígito (más a la izquierda) distinto de 0. Así: en la gráfica podemos ver el diagrama de barras con los porcentajes de las primeras cifras significativas de todos los números que aparecieron en el periódico El País ee 09.04.12. Se ha considerado los promedios de las apariciones de cada una de las cifras significativas y se comparan 1 con los valores de la función f ( x) = log10 1 + (línea azul). x Hay numerosos conjuntos que siguen la ley de Benford, que debería ser llamada ley de Benford-Newcomb, datos relacionados con estadísticas en ciertos deportes, los pesos atómicos de los elementos químicos, números extraídos de periódicos o revistas, datos de los libros de contabilidad de las empresas, constantes físicas, indicadores bursátiles, cifras de los censos de población o número de habitantes de ciudades, longitudes de los ríos de un país, . En general, los datos extraídos de fenómenos naturales, sociales y económicos. Esta ley se aplica a la detección de fraudes (errores o falsificación de datos) Si los fraudes son deliberados, los datos falsificados raramente siguen la ley. Con la ley de Benford se han descubierto manipulaciones en 1 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN SOLUCIONARIO los balances económicos de algunas empresas, en fraudes electorales o en declaraciones de impuestos, así como en trabajos de investigación. También existen conjuntos numéricos que no siguen la ley de Benford como los números de teléfonos de una misma región, ya que suelen empezar por la misma cifra, las tallas de las personas en centímetros, los números de la lotería primitiva, los tiempos de las carreras atléticas, o el coeficiente de inteligencia de las personas que sigue una distribución normal de Gauss. En general, no siguen la ley, conjuntos de datos que provienen de algún procedimiento relacionado con el azar o que estén muy condicionados. 2. Busca los datos relativos al número de habitantes de todos los pueblos de la provincia de Burgos. Ese conjunto numérico, ¿cumple la ley de Benford? La primera cifra significativa del número de habitantes de los 371 pueblos de la provincia de Burgos da lugar a la siguiente tabla: Primera Frecuencia absoluta Porcentaje 1 122 32,88 30,10 2 52 14,02 17,61 3 41 11,05 12,49 4 36 9,70 9,69 5 33 8,89 7,92 6 31 8,36 6,69 7 28 7,55 5,80 8 14 3,77 5,12 9 14 3,77 4,58 Total 371 99,99 100,00 cifra Ley de Benford Observando los valores de las dos últimas columnas de la tabla, podemos ver que existe una «buena» aproximación a los valores teóricos que proporciona la ley de Benford. También aparece en el dibujo, donde la línea roja es la gráfica de la función f ( x) = 100 · log 10 1 + 1 y las barras azules los porcentajes de la x tabla. 2 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN SOLUCIONARIO 3. Puedes repetir lo que pide la actividad anterior para todas las poblaciones de tu Comunidad Autónoma. Intenta realizar esta actividad. CUESTIONES INICIALES de la página 268 1. Los jugadores de un determinado equipo de baloncesto se clasifican, por alturas, según la tabla siguiente: Altura [1,70; 1,75) [1,75; 1,80) [1,80; 1,85) [1,85; 1,90) [1,90; 1,95) [1,95; 2,00) Nº de jugadores 1 3 4 8 5 2 ¿Cuántos jugadores se encuentran por encima de la media más una desviación típica? La media y la desviación típica son: x = 1,866 y σ = 0,065. Los jugadores que se encuentran por encima de x + σ = 1,866 + 0,065 = 1,931 son 2 del intervalo [1,90; 1,95) y 2 del intervalo [1,95; 2,00); en total 4. 2. En la siguiente distribución de frecuencias: 3 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN SOLUCIONARIO X (60, 76] (76, 92] (92, 108] (108, 124] (124, 140] (140, 156] Frecuencia 12 13 18 19 11 7 ( ) ¿Cuántos valores hay en el intervalo x − σ , x + σ ? ¿Qué porcentaje del total representan? La media y la desviación típica son x = 105 y σ = 23,95 . El intervalo buscado es: (x − σ , x + σ ) = (105 − 23,95; 105 + 23,95) = (81,05; 128,95). En el intervalo anterior se encuentran 9 + 18 + 19 + 3 = 49 valores del total, que representan el 49 · 100 = 61,25% del total. 80 3. Diez alumnos han realizado el último mes dos ejercicios de matemáticas. Las notas son las de la tabla siguiente: Primer ejercicio 4 7 6 9 4 7 9 4 8 10 Segundo ejercicio 5 8 5 10 3 6 8 4 8 10 Dibuja la nube de puntos. Ajusta a ojo una recta a la nube de puntos, y estima el valor que tendrá la posible correlación. La nube de puntos parece en el gráfico. La recta ajustada a ojo puede ser la bisectriz del primer cuadrante, y = x. La correlación será positiva y fuerte, próxima a 1. Si calculamos el coeficiente de correlación lineal obtenemos r = 0,927. ACTIVIDADES de la página 273 4 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN SOLUCIONARIO 1. Determina todos los parámetros de centralización y de dispersión de la siguiente serie de datos: 2 6 7 5 4 6 7 5 0 1 7 4 3 4 5 1 3 6 5 9 9 7 8 4 3 8 1 3 8 4 8 9 7 5 8 2 8 6 9 4 5 6 4 7 6 0 7 4 2 5 Calcula los mismos parámetros para los mismos datos agrupados en intervalos de amplitud 2, comenzando en cero. ¿Obtienes los mismos resultados? ¿Por qué? A partir de los cálculos de la tabla, podemos obtener los parámetros buscados. Los parámetros de centralización son: 257 = 5,14 50 ● Media aritmética: x = ● Moda: Mo = 4 ● Mediana: Me = 5 Los parámetros de dispersión son: xi fi xi · fi x i2 · f i xi − x · f i 0 2 0 0 10,28 1 3 3 3 12,42 2 3 6 12 9,42 3 4 12 36 8,56 4 8 32 128 9,12 5 7 35 175 0,98 6 6 36 216 5,16 7 7 49 343 13,02 8 6 48 384 17,16 9 4 36 324 15,44 Sumas 50 257 1621 101,56 ● Rango: R = 9 ● Desviación media: DM = ● Desviación típica: σ = 101,56 = 2,03 50 6,00 = 2,45 ● Varianza: σ 2 = 1621 − 5,14 2 = 6,00 50 ● Coeficiente de variación: CV = 2,45 = 0,4767 5,14 Si agrupamos los datos en intervalos de amplitud 2 comenzando en cero, obtenemos la distribución: 5 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN Intervalos [0, 2) [2, 4) [4, 6) [6, 8) [8, 10) Frecuencias 5 7 15 13 10 Realizamos una nueva tabla y calculamos los parámetros pedidos. Los parámetros de centralización son: ● Media aritmética: x = ● Mo = 4 + 282 = 5,64 50 15 − 7 · 2 = 5,6 (15 − 7) + (15 − 13) Moda: SOLUCIONARIO xi fi xi · fi 1 5 5 5 23,20 3 7 21 63 18,48 5 15 75 375 9,60 7 13 91 637 17,68 9 10 90 810 33,60 Sumas 50 282 1890 102,56 x i2 · f i xi − x · f i 50 − 12 ● Mediana: Me = 4 + 2 · 2 = 5,76 15 Los parámetros de dispersión son: ● Rango: R = 8 ● Desviación media: DM = 102,56 = 2,05 50 ● Desviación típica: σ = 5,99 = 2,45 ● Varianza: σ 2 = 1890 − 5,64 2 = 5,99 50 ● Coeficiente de variación: CV = 2,45 = 0,4344 5,64 Los valores que obtenemos en esta segunda opción son ligeramente diferentes de los de al primera. Este hecho es debido a que se han cambiado los datos, al tomar las marcas de clase de los intervalos que, en algunos casos no se corresponden con los verdaderos datos. 2. Halla los parámetros de centralización y de dispersión de los datos que aparecen en la tabla, referidos a las puntuaciones obtenidas en un test de habilidad manual, realizado por los empleados de una fábrica. 6 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN SOLUCIONARIO X (38, 44] (44, 50] (50, 56] (56, 62] (62, 68] (68, 74] (74, 80] Nº de trabajadores 7 8 15 25 18 9 6 xi fi xi · fi x i2 · f i xi − x · f i 41 7 287 11 767 126,98 47 8 376 17 672 17,12 53 15 795 42 135 92,10 59 25 1475 87 025 3,50 65 18 1170 76 050 105,48 71 9 639 45 369 106,74 77 6 462 35 574 107,16 Sumas 88 5204 315 592 559,08 Nos ayudamos de la tabla para calcular los parámetros pedidos. Los parámetros de centralización son: ● Media aritmética: x = 5204 = 59,14 88 88 − 30 ● Mediana: Me = 56 + 2 · 6 = 59,36 25 ● Moda: Mo = 56 + 25 − 15 · 6 = 59,53 (25 − 15) + (25 − 18) Los parámetros de dispersión son: ● Rango: R = 36 ● Desviación media: DM = ● 559,08 = 6,35 88 ● Varianza: σ 2 = 315 592 − 59,14 2 = 88,73 88 1ª A 0 1 1 2 3 4 5 5 5 6 6 7 8 8 9 1º B 2 2 4 3 4 5 4 6 5 5 7 8 6 6 8 Desviación típica: σ = 88,73 = 9,42 ● Coeficiente de variación: CV = 9,42 = 0,1593 59,14 3. Los resultados de las calificaciones correspondientes a la evaluación de la asignatura de Lengua en dos grupos de 1º de Bachillerato de 15 alumnos son los siguientes: 7 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN SOLUCIONARIO ¿Qué grupo obtuvo mejores resultados? ¿Cuál es más homogéneo? Hallamos las medias aritméticas y las desviaciones típicas de ambas calificaciones y obtenemos: x A = 4,67 y σ A = 2,70 x B = 5 y σ B = 1,83 Obtuvo mejores resultados el grupo B ya que su media es mayor que la del grupo A. El grupo B es más homogéneo, al ser su desviación típica menor que la del grupo A. ACTIVIDADES de la página 275 4. En un hospital se quiere estimar el peso de las niñas recién nacidas. Para ello se seleccionan, de forma aleatoria, cien de estas, obteniéndose los siguientes resultados: Intervalos (kg) [1; 1,5) [1,5; 2) [2; 2,5) [2,5; 3) [3; 3,5) [3,5; 4) [4; 4,5) [4,5; 5) Nº de niñas 1 2 5 20 40 26 5 1 Calcula la media, la moda, la mediana y la desviación típica y el número de niñas que están en los intervalos x − σ , x + σ , x − 2σ , x + 2σ y x − 3σ , x + 3σ . Comenta la simetría de esta distribución. ( ) ( ) ( Nos ayudamos de la tabla para calcular los parámetros pedidos. Los parámetros pedidos son: ● Media aritmética: x = 324,50 = 3,25 100 100 − 28 ● Mediana: Me = 3 + 2 · 0,50 = 3,28 40 40 − 20 ● Moda: Mo = 3 + · 0,50 = 3,29 (40 − 20) + (40 − 26) ) xi fi xi · fi x i2 · f i 1,25 1 1,25 1,56 1,75 2 3,50 6,13 2,25 5 11,25 25,31 2,75 20 55,00 151,25 3,25 40 130,00 422,50 3,75 26 97,50 365,63 4,25 5 21,25 90,31 4,75 1 4,75 22,56 Sumas 100 324,50 1085,25 8 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN ● Desviación típica: σ = SOLUCIONARIO 1085,25 − (3,25) 2 = 0,54 100 Veamos el número de niñas que hay en cada uno de los intervalos: ( ) En x − σ , x + σ = (2,71; 3,79 ) hay 12 + 40 + 15 = 67 niñas. Se corresponde con el 67% del total. ( ) ( ) En x − 2σ , x + 2σ = (2,17; 4,33) hay 3 + 20 + 40 + 26 + 3 = 92 niñas. Se corresponde con el 92% del total. En x − 3σ , x + 3σ = (1,63; 4,87 ) hay 1 + 5 + 20 + 40 + 26 + 5 + 1 = 98 niñas. Se corresponde con el 98% del total. La distribución de datos presenta una buena simetría al agruparse la mayoría de los datos alrededor de los valores centrales. También presenta un comportamiento “normal” a la vista de los porcentajes obtenidos en los intervalos del enunciado. 5. Se desea comparar la duración de dos marcas de pilas A y B. Para ello elegimos una muestra de 10 pilas de cada marca. La duración en horas de cada una de ellas fue: Marca A 25 28 26 34 30 28 24 27 22 23 Marca B 24 31 26 29 32 31 27 29 24 32 a) Calcula la media y la desviación típica de las duraciones de cada marca. b) ¿Qué marca será aconsejable elegir? a) Las medias aritméticas de cada una de las distribuciones son: xA = 267 285 = 26,7 y x B = = 28,5 10 10 Las distribuciones típicas son: 9 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN σA = 7 243 − (26,7) 2 = 3,38 y σ B = 10 SOLUCIONARIO 8 209 − (28,5) 2 = 2,94 10 b) Es aconsejable utilizar la marca B, ya que dura más por término medio y posee menor dispersión respecto de la media. ACTIVIDADES de la página 277 6. Una empresa de trabajo temporal pasa una prueba a 20 aspirantes para varios puestos de trabajo. La prueba consiste en contabilizar el número de llamadas telefónicas, para captar clientes, que pueden hacer en función del tiempo que emplean. Se han obtenido los siguientes resultados: Tiempo (min) (x) 2 0 18 14 22 20 16 24 15 16 22 18 12 16 22 24 20 19 17 14 16 Nº llamadas (y) 5 4 3 4 5 4 6 4 3 5 4 4 5 4 5 3 3 2 2 3 a) Elabora las tablas marginales correspondientes y halla x; σ X ; y; σ Y . b) ¿Cuántos aspirantes tienen sus resultados en (x − 2σ , x + 2σ ) ? (y − σ , y + σ ) ? ¿Cuántos los tienen en 10 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN SOLUCIONARIO a) Las distribuciones marginales son: xi 12 14 15 16 17 18 19 20 22 24 Total fi 1 2 1 4 1 2 1 3 3 2 20 La media y la desviación típica de la variable X, «tiempo en minutos» son: x= 365 = 18,25 20 σX = 6887 − 18,25 2 = 3,36 20 yi 2 3 4 5 6 Total fi 2 5 7 5 1 20 La media y la desviación típica de la variable Y, «número de llamadas» son: y= 78 = 3,9 20 σY = 326 − 3,9 2 = 1,04 20 b) El número de aspirantes que tienen sus resultados en: (y − σ , y + σ ) = (3,9 − 1,04; 3,9 + 1,04) = (2,86; 4,94) son 5 + 7 = 12. El número de aspirantes que tiene sus resultados en (x − 2σ , x + 2σ ) = (18,25 − 2 · 3,36; 18,25 + 2 · 3,36) = (11,53; 24,95) son todos, es decir los 20. 11 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN SOLUCIONARIO ACTIVIDADES de la página 283 6. A los 18 alumnos de un aula de 2º de Bachillerato se les ha realizado una encuesta sobre su altura y su número de calzado. Se han recopilado los siguientes datos: Altura (cm) Nº calzado 165 180 175 174 175 168 180 182 174 170 166 174 176 165 174 172 166 172 38 44 40 39 41 39 45 45 40 39 38 40 41 38 39 41 a) Elabora el diagrama de dispersión. b) Halla la covarianza y el coeficiente de correlación lineal entre estas variables. Estudia el tipo de correlación que presentan. a) El diagrama de dispersión puede verse en la imagen. 12 38 40 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN b) Para calcular el coeficiente de correlación de Pearson r= SOLUCIONARIO σ xy , calculamos previamente la σ x ·σ y covarianza: σ xy = ∑f ij xi y j − x·y = N 125363 − 172,67 · 40,28 = 9,46 18 Con este valor obtenemos: r = σ xy 9,46 = = 0,85 σx ·σ y 5,06 · 2,21 La correlación es positiva y fuerte. ACTIVIDADES de la página 288 7. Con ayuda de la calculadora, halla todos los resultados que esta nos ofrece y que aparecen en esta página, para los siguientes datos: a) Las horas de estudio semanales de un grupo de 20 alumnos son: 10 18 12 13 16 7 5 6 14 17 8 15 9 19 20 11 4 10 12 9 b) Puntuaciones obtenidas en una prueba de habilidad manual: Puntuaciones [3,5; 6,5) [6,5; 9,5) [9,5; 12,5) [12,5; 15,5) [15,5; 18,5) Frecuencias 6 10 18 12 4 a) Siguiendo los pasos del texto obtenemos: ∑x 2 = 3181 ; ∑ x = 235 n = 20 ; x = 11,75 ; xσn = 4,58 13 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN SOLUCIONARIO minX = 4 ; maxX = 20 b) Procediendo de forma análoga al apartado anterior obtenemos: ∑x 2 = 6476 ; ∑ x = 544 n = 50; x = 10,88 ; xσn = 3,34 minX = 5 ; maxX = 17 ACTIVIDADES de la página 289 8. Con ayuda de la calculadora, halla todos los resultados que esta nos ofrece y que aparecen en esta página, para los siguientes datos: a) Las calificaciones obtenidas por un alumno de primero de bachillerato en Matemáticas y Física que están recogidas en la tabla: Matemáticas 5 6 10 4 3 8 7 8 5 5 Física 7 8 9 3 3 6 7 7 4 6 b) Los proporcionados por una empresa que fabrica piezas de precisión para balanzas, relativos a X = «número de horas trabajadas» e Y = «número de piezas fabricadas»: X (Nº de horas trabajadas) 50 75 100 135 145 160 170 Y (Nº de piezas fabricadas) 20 30 45 65 75 85 90 14 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN SOLUCIONARIO a) Siguiendo los pasos del texto obtenemos: ∑x 2 = 413 n = 10 minX = 3 ∑ x = 61 ∑y x = 6,1 xσn = 2,02 y=6 minY = 3 maxY = 9 r = 0,78 xˆ = − 0,78 maxX = 10 A = 1,38 B = 0,76 2 : ∑ xy = 397 ∑ y = 60 = 398 yσn = 1,95 yˆ = 0,79 b) Procediendo como en el apartado anterior obtenemos: ∑x 2 = 111875 ∑ x = 835 n=7 x = 119,29 minX =50 maxX = 170 A = -13,29 B = 0,60 ∑y 2 = 28500 ∑ y = 410 xσn = 41,87 y = 58,57 minY = 20 maxY = 90 r = 0,996 xˆ = 23,72 ∑ xy = 56300 yσn = 25,31 yˆ = − 12,69 ACTIVIDADES de la página 291 1. Triángulo equilátero. Se considera un triángulo equilátero de 3 m de lado. Un punto P, interior a dicho triángulo dista de los tres lados a, 2a y 3a respectivamente. Calcula el valor de a. FAMILIARIZACIÓN CON EL PROBLEMA El enunciado no presenta dificultad para entenderlo. Comenzamos dibujando aproximadamente la situación que se plantea. 15 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN SOLUCIONARIO BÚSQUEDA DE ESTRATEGIAS El problema es análogo a otro problema que dice: Triángulo. Se da un triángulo equilátero ABC de lado 2. Sea M un punto cualquiera interior del triángulo. Se trazan las distancias de M a los tres lados. Se pide: a) Prueba que la suma de las tres distancias es siempre la misma, cualquiera que sea la posición de M. b) Calcula dicha suma. También nos recuerda al teorema de Viviani: Sea P un punto interior de un triángulo equilátero. La suma de las distancias desde P hasta los lados del triángulo coincide con su altura. : LLEVAR ADELANTE LA ESTRATEGIA En la resolución de nuestro problema utilizaremos el mismo procedimiento que nos permitió resolver el problema denominado “Triángulo” o que permite demostrar el teorema de Viviani. Trazamos los segmentos que unen el punto P con los vértices A, B y C del triángulo. El triángulo ABC queda descompuesto en tres triángulos ABP, ACP y BCP, cuyas alturas son a, 2a y 3a respectivamente. El área de un triángulo equilátero de lado L es: Área = 3 2 L 4 16 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN SOLUCIONARIO En el triángulo ABC se cumple: Área del triángulo ABC = Área del triángulo ABP + Área del triángulo ACP + Área del triángulo BCP Expresando estas áreas, tenemos: 3 2 1 1 1 · 3 = · 3 · a + · 3 · 2a + · 3 · 3a 4 2 2 2 ⇔ 3 3 = 6a 2 ⇔ ⇔ 3 3 = a + 2a + 3a 2 a= ⇔ 3 4 REVISAR EL PROCESO Y SACAR CONSECUENCIAS DE ÉL Observamos que el proceso de resolución de este problema es análogo al de los dos resultados citados con anterioridad. 2. Cuadrados mágicos. El cuadrado de la imagen recibe el nombre de cuadrado mágico. Puedes observar que la suma de los números de cada una de las filas, de las columnas y de las diagonales vale los mismo, 15. Al número 15 se le llama constante mágica del cuadrado. a) Construye cuadrados mágicos como el anterior cuya constante mágica sea 27, 375 y – 210. b) Intenta construir un cuadrado en el que el producto de los números de una misma fila o columna o diagonal sea el mismo. a) Si en el cuadrado mágico del enunciado sumamos un mismo valor, a, en cada una de las casillas resulta otro nuevo cuadrado mágico. La constante mágica del nuevo cuadrado mágico es 15 + 3a, por tanto: 17 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN ● 15 + 3a = 27 ⇒ a=4 ● 15 + 3a = 375 ⇒ a = 120 ● 15 + 3a = - 210 ⇒ a = - 75 SOLUCIONARIO Los cuadrados mágicos con constantes mágicas 27, 375 y – 210 aparecen a continuación. b) Los cuadrados mágicos para el producto serán los formados por potencias con las bases iguales y exponentes los mismos del cuadrado aritmético del enunciado, es decir, los cuadrados de la forma: 18 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN SOLUCIONARIO 3. Diagonales. ¿Cuántas diagonales tiene un polígono convexo de 85 lados? Intentamos resolver una situación semejante más sencilla. Comenzamos con los polígonos convexos más sencillos y organizamos los resultados que obtenemos en una tabla. Número de lados 3 4 5 6 7 8 … n Número de diagonales 0 2 5 9 14 20 … Dn Buscamos la expresión del número de diagonales Dn, para cualquier polígono convexo de n lados. La sucesión del número de diagonales es una progresión aritmética de segundo orden, al cumplirse: Sucesión: 0 2 Primeras diferencias: 5 9 14 2 Segundas diferencias: 20 3 1 … 4 1 5 1 6 1 … … El número de diagonales, Dn será un polinomio de segundo grado en n, de la forma Dn = an2 + bn + c. Hallamos los coeficientes a, b y c: 19 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN Si n = 3, Si n = 4, Si n = 5, D3 = 0 = 9a + 3b + c 9a + 3b + c = 0 =2 ⇒ D4 = 2 = 16a + 4b + c ⇒ 7a + b =3 D5 = 5 = 25a + 5b + c 9a + b El número de diagonales de un polígono convexo de n lados es: Dn = SOLUCIONARIO 1 a = 2 9a + 3b + c = 0 3 = 2 ⇒ b = − 7a + b 2 2 a =1 c = 0 n 2 − 3n n · (n − 3) 1 2 3 n − n= = 2 2 2 2 Ahora podemos responder a la cuestión que se plantea en el enunciado. Para un polígono de n = 85 lados el número de diagonales será: D85 = 85 · (85 − 3) = 3485 . 2 4. Área de una región. Calcula el área encerrada por la gráfica de y3 – x · y2 – 3y2 = 4x2 · y – 4x3 – 12x2. La ecuación y3 – x · y2 – 3y2 = 4x2 · y – 4x3 – 12x2 la podemos escribir como: y2 · (y – x – 3) = 4x2 · (y – x – 3) ⇒ ⇒ (y – x – 3) · (y2 – 4x2) = 0 ⇒ (y – x – 3) · (y + 2x) · (y – 2x) = 0. La gráfica dada consiste en las tres rectas: y – x – 3 = 0, y + 2x = 0, y – 2x = 0. 20 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN SOLUCIONARIO Estas rectas se cortan dos a dos dando el triángulo del dibujo, de vértices: O (0, 0), A (- 1, 2) y B (3, 6). El área del citado triángulo la podemos calcular como: ● El área del trapecio ACDB: 6+2 · 4 = 16 u 2 . 2 ● Menos - ODB que es las áreas de los - ACO que es 1 ·1 · 2 = 1 u2 2 triángulos rectángulos: 1 · 3 · 6 = 9 u2 2 En definitiva, área encerrada por la gráfica = 16 – (1 + 9) = 6 u2. 5. Caníbales y vegetarianos. En la orilla de un río se encuentran dos caníbales y dos vegetarianos. Desean pasar a la orilla opuesta y solo disponen de una barca con capacidad para dos personas. ¿Cómo pasaran el río si los vegetarianos saben que su integridad física peligra en cuanto el número de caníbales los supere en cualquier orilla? La lectura del enunciado nos ha traído a la mente el problema clásico del pastor, el lobo, la oveja y la col. Esta semejanza entre ambos problemas nos sugiere la idea de resolverlo de forma análoga. Utilizamos la notación: Caníbal: C; Vegetariano: V; Barca: B y Separación de las dos orillas del río: / Lo resolvemos utilizando la estrategia de ensayo y error dirigido, para lo cual, tenemos en cuenta las situaciones o estados que están permitidos por el problema: CCVVB / CVVB / C 21 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN SOLUCIONARIO CVV / CB CVB / CV VVB / CC CCB / VV CB / CVV CV / CVB CC / VVB VV / CCB C / CVVB / CCVVB Observamos la simetría de los estados permitidos. Representamos los viajes por flechas, colocando encima de cada flecha a quien o quienes viajan en la barca. Los viajes permitidos son: Hemos utilizado todas las situaciones o estados posibles, pero dos de ellas, con sus respectivas simétricas, no nos conducen a ningún fin. ACTIVIDADES de la página 292 1. Se cree que el número de zorros de una finca está relacionado con el número de conejos. En los últimos años se han realizado ocho censos de ambos animales, resultando estos datos: Número de zorros (X) 20 32 16 18 25 30 14 15 Número de conejos (Y) 320 500 260 300 400 470 210 240 a) Determina las dos rectas de regresión. b) Estima la cantidad de conejos que habría si hubiera 10 zorros. c) ¿Cuántos zorros habría si hubiéramos contado 350 conejos? a) Utilizando la tecla STAT y procediendo como se explica en el texto, obtenemos los siguientes parámetros para los datos de la tabla del enunciado: 22 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN 2 – Var Stat SOLUCIONARIO 2 – Var Stat 2 – Var Stat x = 21.25 ↑ ∑ x = 170.00 y = 337.50 ∑ xy = 62600.00 ∑ y = 2700.00 ∑ x = 3950.00 2 mínX = 14.00 Par a calc ular el ∑ y = 992600.00 2 Sx = 6.94 Sy = 107.80 σx = 6.50 coeficiente σy = 100.84 σy = 100.84 de correlación máxX = 32.00 mínY = 210.00 á Y Pearson de 500 00 σ xy , calculamos r= σ x ·σ y previamente la covarianza: σ xy = Con este valor obtenemos: ∑f ij xi y j N − x·y= 62600 − 21,25 · 337,50 = 653,125 8 17 σ xy 653,125 r= = = 0,996 σ x · σ y 6,50 · 100,84 La recta de regresión del número de conejos (Y) sobre el número de zorros (X) es: y− y= σ xy σ 2 x ( x − x) ⇒ y − 337,50 = 635,125 ( x − 21, 25) 6,50 2 ⇒ y = 15,48 x + 8,52 La recta de regresión del número de zorros (X) sobre el número de conejos (Y) es: x−x= σ xy ( y − y) σ y2 ⇒ Con la calculadora se determinan así: x − 21,25 = 635,125 ( y − 337,50) 100,84 2 ⇒ x = 0,06 y − 0,43 LinReg y = ax + b a = 15.48 b = 8.52 23 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN SOLUCIONARIO ● Para la recta de regresión del número de conejos (Y) sobre el número de zorros (X), en el menú de tecla STAT, elegimos CALC seguido de la opción 4:LinReg(ax+b), tecleando posteriormente L1, L2 (teclas 2nd 1; tecla , teclas 2nd 2) y obtenemos, como vemos en la imagen, la recta de ecuación y = 15,48 x + 8,52 ● Para la recta de regresión del número de zorros (X) sobre el número de conejos (Y), en el menú de tecla STAT, elegimos CALC seguido de la opción 4:LinReg(ax+b), tecleando posteriormente L2, L1 (teclas 2nd 2; tecla , teclas 2nd 1) y obtenemos, como vemos en la imagen, la recta de ecuación x = 0,06 y – 0,43 LinReg y = ax + b a = .06 b = -.43 b) Estimamos la cantidad de conejos que habría si hubiera 10 zorros, calculando en la recta de regresión de Y sobre X, de ecuación y = 15,48x + 8,52, el valor que se obtiene al hacer x = 10. Operando, obtenemos: Si x = 10 ⇒ y = 15,48 · 10 + 8,52 ⇒ y = 163,32. Por tanto, si hubiera 10 zorros, la cantidad de conejos estimada sería 163. c) Estimamos la cantidad de zorros que habría si hubiéramos contado 350 conejos, calculando en la recta de regresión de X sobre Y, de ecuación x = 0,06y – 0,43, el valor que se obtiene al hacer y = 350. Operando, obtenemos: Si y = 350 ⇒ x = 0,06 · 350 – 0,43 ⇒ x = 20,57. Por tanto, si hubiera 350 conejos, la cantidad de zorros estimada sería 21. 24 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN SOLUCIONARIO ACTIVIDADES FINALES de la página 293 1. Calcula todos los parámetros de centralización y de dispersión que se describen en el texto para las siguientes distribuciones estadísticas: a) Calificaciones de 20 estudiantes: 6, 3, 2, 5, 7, 5, 9, 7, 6, 1, 4, 6, 6, 4, 2, 10, 8, 7, 5, 9 b) Goles por partido en la liga de fútbol 07-08: Nº de goles 0 1 2 3 4 5 6 7 8 Partidos 32 71 80 62 36 15 6 2 2 c) Prueba, con puntuación de 0 a 10, a 20 personas: Intervalos [0, 2) [2, 4) [4, 6) [6, 8) [8, 10) Nº de personas 2 4 8 5 1 a) Nos ayudamos de la tabla para calcular los parámetros pedidos. Los parámetros de centralización son: ● Media aritmética: x = 112 = 5,6 20 ● Mediana: Me = 6 ● Moda: Mo = 6 Los parámetros de dispersión son: xi fi xi · fi x i2 · f i xi − x · f i 1 1 1 1 4,6 2 2 4 8 7,2 3 1 3 9 2,6 4 2 8 32 3,2 5 3 15 75 1,8 6 4 24 144 1,6 7 3 21 147 4,2 8 1 8 64 2,4 9 2 18 162 6,8 10 1 10 100 4,4 Sumas 20 112 742 38,8 25 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN SOLUCIONARIO ● Rango: R = 9 ● Desviación media: DM = 38,8 = 3,88 10 ● Desviación típica: σ = 5,74 = 2,40 ● Varianza: σ 2 = 742 − 5,6 2 = 5,74 20 ● Coeficiente de variación: CV = 2,40 = 0,4286 5,6 b) Procediendo como en el apartado anterior, obtenemos: Los parámetros de centralización son: 702 = 2,29 306 ● Media aritmética: x = ● Mediana: Me = 2 ● Moda: Mo = 2 Los parámetros de dispersión son: ● Rango: R = 8 ● Desviación media: DM = ● Desviación típica: σ = 377,40 = 1,23 306 2,41 = 1,55 xi fi xi · fi 0 32 0 0 73,28 1 71 71 71 91,59 2 80 160 320 23,20 3 62 186 558 44,02 4 36 144 576 61,56 5 15 75 375 40,65 6 6 36 216 22,26 7 2 14 98 9,42 8 2 16 128 11,42 Sumas 306 702 2342 377,40 ● Varianza: σ 2 = x i2 · f i xi − x · f i 2342 − 2,29 2 = 2,41 306 ● Coeficiente de variación: CV = 1,55 = 0,6769 2,29 26 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN SOLUCIONARIO c) Procediendo como en los apartados anteriores, obtenemos: Los parámetros de centralización son: 98 = 4,9 20 ● Media aritmética: x = ● Mediana: Me = 4 + ● Moda: Mo = 4 + 10 − 6 · 2 =5 8 4 · 2 = 5,14 4+3 xi fi xi · fi x i2 · f i xi − x · f i 1 2 2 2 7,8 3 4 12 36 7,6 5 8 40 200 0,8 7 5 35 245 10,5 9 1 9 81 4,1 Sumas 20 98 564 30,8 Los parámetros de dispersión son: ● Rango: R = 8 ● Desviación media: DM = ● Desviación típica: σ = 30,8 = 1,54 20 ● Varianza: σ 2 = 564 − 4,9 2 = 4,19 20 ● Coeficiente de variación: CV = 12,05 = 0,4184 4,9 4,19 = 2,05 2. Una encuesta sobre el gasto que 200 países harán durante el próximo quinquenio para proteger la capa de ozono, ha dado los resultados de la tabla siguiente: Gasto (millones de dólares) [150155) [155160) [160165) [165170) [170175) [175180) [180185) [185190) [190195) xi 152,5 157,5 162,5 167,5 172,5 177,5 182,5 187,5 192,5 fi 7 14 24 37 42 35 23 13 5 27 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN SOLUCIONARIO Calcula la media, la desviación típica, así como el número de países que se encuentra en cada uno de los intervalos (x − σ , x + σ ) , x − 2σ , x + 2σ y x − 3σ , x + 3σ . ) ( ( ) Las soluciones son: La media: x = 172,5 . La desviación típica: σ = 12,91 El número de países en: (x − σ , x + σ ) = (159,59; 185,41) es 161. (x − 2σ , x + 2σ ) = (146,68; 198,32) es 200. (x − 3σ , x + 3σ ) = (133,77; 211,23) es 200. 3. En la tabla aparecen los resultados de las calificaciones correspondientes a un examen de Matemáticas para dos muestras de 10 alumnos y alumnas: Grupo A 0 1 1 3 5 5 6 8 8 9 Grupo B 2 2 4 4 4 5 5 6 6 8 ¿Qué grupo obtuvo mejores resultados? ¿Cuál es más homogéneo? Hallamos al media y la desviación típica de cada uno de los grupos. Obtenemos: - Grupo A: media aritmética x A = 4,6 y desviación típica: σA = 3,07. - Grupo B: media aritmética x B = 4,6 y desviación típica: σB = 1,74. Ambos grupos obtienen la misma media aritmética, no podemos decir que uno sea mejor que el otro. Como la desviación típica del grupo B es menor que la del grupo A, aquel es un grupo más homogéneo en cuanto a las calificaciones. 28 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN SOLUCIONARIO 4. Una máquina corta perfiles de hierro de 3 centímetros de longitud. En un control de calidad, las longitudes de diez perfiles de una muestra han sido: 3,11 3,12 3,09 2,98 3,03 3,09 2,97 3,20 3,15 3,07 a) Calcula la media y la desviación típica de las longitudes de las diez piezas. b) Teniendo en cuenta que una pieza no pasa el control de calidad si su longitud está fuera del intervalo x − 2 σ , x + 2 σ , ¿hay alguna pieza de la muestra que no supera el control de calidad? ( ) a) La media aritmética es x = 3,08 cm y la desviación típica σ = 0,07 cm. ( ) b) El intervalo x − 2 σ , x + 2 σ es (2,94; 3,22) y puede comprobarse que la longitud de todas las piezas de la muestra están dentro de dicho intervalo. Por tanto, todas las piezas superan el control de calidad. 5. Se ha preguntado a un grupo de estudiantes por el número de horas semanales dedicadas al estudio y sus respuestas se recogen en la tabla. Horas de estudio semanales 10 11 12 13 14 15 16 Frecuencias absolutas 1 2 4 8 5 3 2 Con ayuda de la calculadora, halla la media aritmética y la desviación típica de estos datos. Seguimos los pasos descritos en la página 288 del libro de texto. - Borramos los datos que pueda contener la calculadora de trabajos anteriores. - Entramos en el modo o editor STAT. 29 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN SOLUCIONARIO - Introducimos los datos en las columnas X, FREQ tal y como se indica en la siguiente tabla: X 10 11 12 13 14 15 16 FREQ 1 2 4 8 3 2 5 - Obtenemos los resultados: - media aritmética: x = 13,24 - desviación típica: σX = 1,48 ACTIVIDADES FINALES de la página 294 6. En las siguientes variables estadísticas bidimensionales, referidas los alumnos de una clase, estima si hay o no correlación y, en caso de existir, señala si esta es positiva o negativa, fuerte o débil: a) Estatura y calificación en Lengua. b) Número de horas diarias de estudio y número de asignaturas aprobadas en la última evaluación. c) Estatura y grado de concentración en el estudio. d) Peso y estatura. En cada caso queda: a) No existe correlación. c) No existe correlación. b) Existe correlación positiva y fuerte. d) Existe correlación positiva y fuerte. 30 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN SOLUCIONARIO 7. Se ha realizado una encuesta a 20 vecinos de una urbanización de las afueras de una gran ciudad obteniéndose los resultados mostrados a continuación, en los que el primer número se refiere al número de viajes realizados por los padres y el segundo al número de viajes realizado por los hijos: (4, 1) (3, 4) (2, 5) (1, 6) (3, 2) (2, 6) (2, 6) (4, 2) (4, 1) (4, 2) (1, 7) (1, 6) (4, 1) (1, 7) (2, 4) (2, 6) (3, 3) (4, 2) (1, 6) (2, 5) a) Construye la tabla de doble entrada correspondiente. b) Representa gráficamente los datos de esta tabla y, a la vista de la gráfica, estudia si existe correlación entre las variables y el tipo de la misma. a) La tabla de doble entrada es: Y X Viajes / hijos Viajes 1 2 3 4 TOTALES 3 3 3 4 padres 1 2 1 3 1 1 1 2 4 1 5 2 2 3 6 6 3 7 2 TOTALES 5 1 6 3 6 20 b) El diagrama de dispersión aparece en la imagen: Se observa una correlación negativa fuerte (puede calcularse el coeficiente de correlación r = - 0,944). 31 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN SOLUCIONARIO 8. En una muestra de 50 alumnos de Educación Primaria se han estudiado las habilidades numéricas (X) y verbal (Y). Los resultados han sido los siguientes: (4, 3) (3, 4) (4, 4) (5, 4) (4, 5) (5, 5) (6, 5) (5, 6) (6, 8) (7, 5) (8, 8) (8, 10) (9, 10) (10, 10) (10, 10) (4, 3) (9, 10) (4, 4) (8, 10) (5, 4) (8, 8) (4, 5) (7, 5) (4, 5) (6, 8) (5, 6) (6, 5) (5, 5) (10, 10) (5, 5) (9, 10) (5, 6) (8, 10) (6, 8) (8, 8) (7, 5) (10, 10) (6, 8) (7, 5) (8, 8) (6, 8) (8, 8) (8, 10) (9, 10) (8, 8) (8, 10) (9, 10) (7, 5) (9, 10) (9, 10) a) Construye la tabla estadística bidimensional de doble entrada. b) Construye la tabla estadística bidimensional simple. c) Escribe las tablas de las distribuciones marginales de de cada una de las variables. d) Construye la tabla correspondiente a la variable X condicionada a que Y tome el valor 5. a) La tabla bidimensional de doble entrada es: X 3 4 5 6 7 8 9 10 Totales Y 3 4 2 1 5 2 2 2 3 3 6 5 2 5 13 3 3 7 0 8 5 6 11 9 0 10 Totales 1 7 8 7 5 5 7 4 16 11 7 4 50 32 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN SOLUCIONARIO b) La tabla bidimensional simple es: xi 3 4 4 4 5 5 5 6 6 7 8 8 9 10 yi 4 3 4 5 4 5 6 5 8 5 8 10 10 10 fi 1 2 2 3 2 3 3 2 5 5 6 5 7 4 c) Las tablas de las distribuciones marginales son: xi 3 4 5 6 7 8 9 10 Total fi 1 7 8 7 5 11 7 4 50 yi 3 4 5 6 7 8 9 10 Total fi 2 5 13 3 0 11 0 16 50 d) La distribución correspondiente a la variable X condicionada a que Y tome el valor 5 es: xi / Y = 5 3 4 5 6 7 8 9 10 Total fi 0 3 3 2 5 0 0 0 13 e) La distribución correspondiente a la variable Y condicionada a que X tome el valor 5 es: yi / X = 5 3 4 5 6 7 8 9 10 Total fi 0 2 3 3 0 0 0 0 8 33 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN SOLUCIONARIO 9. Se han observado en una muestra de 60 individuos dos variables estadísticas X e Y, obteniéndose los datos que aparecen en la tabla. X 3 4 5 6 7 Totales Y 1 1 2 2 1 4 3 6 6 10 4 16 12 5 Totales 3 10 22 15 1 28 5 4 9 20 5 60 a) Construye la tabla bidimensional simple. b) Calcula la media aritmética y la desviación típica de las distribuciones marginales. c) Calcula los mismos parámetros para la distribución de la variable X condicionada a que Y valga 4. d) Calcula los parámetros anteriores para la distribución de la variable Y condicionada a que X valga 5. a) La tabla bidimensional simple es: xi 3 3 4 4 5 5 6 6 7 7 yi 1 2 2 3 3 4 4 5 4 5 fi 1 2 4 6 10 12 15 5 1 4 34 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN SOLUCIONARIO b) Los parámetros buscados son: xi fi f i · xi f i · xi2 3 3 9 27 4 10 40 160 5 22 110 550 6 20 120 720 7 5 35 245 Sumas 60 314 1702 x= 314 = 5,23 60 σx = 1702 − (5,23) 2 = 1,01 60 yi fi f i · yi f i · yxi2 1 1 1 1 2 6 12 24 3 16 48 144 4 28 112 448 5 9 345 225 Sumas 60 218 8402 y= 218 = 3,63 60 σy = 842 − (3,63) 2 = 0,93 60 35 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN SOLUCIONARIO c) La media aritmética y la desviación típica de la distribución de la variable X condicionada a que Y valga 4 es: xi / y = 4 fi f i · xi / y = 4 f i ·(xi / y = 4 ) 3 0 0 0 4 0 0 0 5 12 60 300 6 15 90 540 7 1 7 49 Sumas 28 157 889 x /Y = 4 = 157 = 5,607 28 2 σ x/ y =4 = 889 − (5,607) 2 = 0,56 28 d) La media aritmética y la desviación típica de la distribución de la variable Y condicionada a que X valga 5 es: yi / x = 5 fi f i · yi / x = 5 f i · (yi / x = 5 ) 1 0 0 0 2 0 0 0 3 10 30 90 4 12 48 192 5 0 0 0 Sumas 22 78 182 y/x = 5 = 282 = 3,55 22 σ y / x =5 = 2 282 − (3,55) 2 = 0,50 22 36 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN SOLUCIONARIO ACTIVIDADES FINALES de la página 295 10. En una muestra de 100 familias se han estudiado las variables estadísticas X (número de miembros en edad laboral) e Y (número de ellos se encuentran en activo). Los resultados obtenidos pueden ver en la tabla: que se a) Construye la tabla bidimensional simple correspondiente y obtén las distribuciones marginales de X e Y. b) Calcula la media y la desviación típica de las distribuciones marginales. a) La tabla bidimensional simple es: X 1 1 1 1 2 2 2 3 3 Y 1 2 3 4 2 3 4 3 4 fi 9 14 16 20 7 9 12 5 8 Las distribuciones marginales son: b) x = 3,01 xi fi 1 9 2 21 yi fi 3 30 1 59 4 40 2 28 3 13 σ X = 0,98 y = 1,54 σ Y = 0,71 11. Se ha solicitado a un grupo de 50 individuos información sobre el número de horas que dedica diariamente a dormir y a ver la televisión. La clasificación de las respuestas ha permitido elaborar la siguiente tabla: 37 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN Nº horas dormidas X 6 7 8 9 10 Nº horas televisión Y 4 3 3 2 1 Frecuencia absoluta 3 16 20 10 1 SOLUCIONARIO a) Realiza el diagrama de dispersión correspondiente. b) Calcula la media y la desviación típica de cada una de las variables. c) Halla el porcentaje de individuos que ven la televisión por encima de la media. d) Calcula el coeficiente de correlación lineal. a) El diagrama de dispersión podemos verlo en el dibujo. 38 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN SOLUCIONARIO b) Para ambas variables queda: x= 390 = 7,8 horas dormidas y σ X = 0,89 50 y= 141 = 2,82 horas televisión y σ Y = 0,55 50 c) El porcentaje de individuos por encima de la media es d) Para el cálculo de r = 20 + 10 + 1 = 0,62 , es decir, el 62%. 50 σ XY 1078 , calculamos la covarianza: σ XY = − 7,8 · 2,82 = − 0,436. σ X ·σY 50 El coeficiente de correlación es: r = − 0,436 = − 0,89 . 0,89 · 0,55 La correlación es muy fuerte y negativa. 12. En una clase compuesta por 30 alumnos se ha hecho un estudio sobre el número de horas diarias de estudio X y el número de suspensos Y, obteniéndose los datos que figuran en la tabla estadística bidimensional. Con ayuda de la calculadora, encuentra los parámetros de correspondientes a las distribuciones marginales, el valor del coeficiente de correlación de Pearson y la ecuación de la recta de regresión de Y sobre X. Seguimos los pasos descritos en la página 391 del libro de texto. X 0 1 2 3 4 Total 0 0 0 2 1 2 5 1 0 0 8 2 0 10 2 0 2 5 1 0 8 3 0 2 0 0 0 2 4 1 1 1 0 0 3 5 2 0 0 0 0 2 Total 3 5 16 4 2 30 Y - Borramos los datos que pueda contener la calculadora de trabajos anteriores. 39 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN SOLUCIONARIO - Entramos en el modo o editor STAT. - Introducimos los datos en las columnas X, Y y FREQ tal y como se indica en la siguiente tabla: X 0 0 1 1 1 2 2 2 2 3 3 3 4 Y 4 5 2 3 4 0 1 2 4 0 1 2 0 FREQ 1 2 2 2 1 2 8 5 1 1 2 1 2 - Obtenemos los resultados que siguen. Los parámetros de las distribuciones marginales son: σX = 0,98 x = 1,9 σY = 1,42 y = 1,8 El coeficiente de correlación de Pearson y la recta de regresión de Y sobre X son: r = - 0,78 y = - 1,13x + 3,96 13. Se han realizado dos pruebas de historia a un grupo de diez estudiantes de 3º de ESO. Los resultados obtenidos son: Alumno 1 2 3 4 5 6 7 8 9 10 A 14 12 15 12 13 12 17 7 9 14 B 14 13 17 15 16 12 12 10 14 20 Calcula la covarianza y el coeficiente de correlación. Existe dependencia entre ambas pruebas. La covarianza es σ AB = 1819 − 12,5 · 14,3 = 3,15 10 El coeficiente de correlación es: r = 3,15 = 0,42 . 2,73 · 2,72 La correlación es positiva y débil. 40 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN SOLUCIONARIO 14. En cinco estudios estadísticos se han obtenido los siguientes coeficientes de correlación lineal: r = - 0,98 r = 0,93 r = 0,05 r = 0,71 r = - 0,62 Identifica, justificando la respuesta, la nube de puntos correspondiente a cada uno. La correspondencia de cada gráfico con su coeficiente de correlación es: a) r = 0,05 b) r = 0,71 c) r = - 0,98 d) r = 0,93 e) r = - 0,62 ACTIVIDADES FINALES de la página 296 15. La estadística de ingresos de determinadas empresas (en miles de euros) y de empleados (en miles) es la siguiente: Ingresos 5,7 3,8 1,9 1 1 Empleados 16 29 17 6 9 Estudia la correlación existente entre ambas variables y determina la recta de regresión de ingresos en función del número de empleados. Los parámetros estadísticos son: x = 2,68; y = 15,4; σ X = 1,82; σ Y = 7,97; σ XY = 8,47 a) El coeficiente de correlación es: r = b) La recta de regresión es: y − 15,4 = 8,47 = 0,58 . 1,82 · 7,96 8,47 ( x − 2,68) , es decir, y = 2,56x + 8,54. 3,31 41 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN SOLUCIONARIO 16. Se quiere estudiar la posible relación entre el número de rapaces de una comarca y el número de conejos. En los últimos diez años se han realizado censos de ambos animales, resultando estos datos. Nº de aves rapaces 22 30 18 16 25 32 16 15 14 20 Nº de conejos 330 480 280 290 400 500 250 240 210 320 a) Dibuja el diagrama de dispersión y calcula el coeficiente de correlación lineal. b) Halla las dos rectas de regresión. c) Estima la cantidad de conejos que habría si hubiera 10 rapaces. d) ¿Cuántas rapaces serían si hubiéramos contado 350 conejos? ¿Cuál de las dos estimaciones es más fiable? a) El diagrama de dispersión puede verse en el dibujo. 42 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN SOLUCIONARIO Los parámetros que se obtienen en el cálculo del coeficiente de correlación lineal son: x = 20,8 σ X = 6,03 y = 330 σ Y = 94,55 σ XY = 564 El valor del coeficiente es: r= 564 = 0,9892 6,03 · 94,55 Observamos que el valor obtenido nos permite afirmar que existe un excelente grado de dependencia positiva, es decir, que a mayor número de conejos, existe mayor número de rapaces. b) Las rectas de regresión son: De Y sobre X es: y − 330 = 564 ( x − 20,8) 6,03 2 De X sobre Y: x − 20,8 = 564 2 ( y − 330) 94,55 ⇒ ⇒ y = 15,51x + 7,39 x = 0,06 y + 1 Sus gráficas pueden verse en el dibujo. 43 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN SOLUCIONARIO c) Estimamos la cantidad de conejos que habría si hubiera 10 rapaces: En la recta de regresión de Y sobre X: si x = 10, entonces y = 15,51 · 10 + 7,39 = 162,49 ≈ 162 conejos. En la recta de regresión de X sobre Y: si x = 10, entonces 10 = 0,06y + 1 ⇒ y = 150 conejos. d) Estimamos la cantidad de rapaces que habría si hubiera 350 conejos: En la recta de regresión de Y sobre X: si y = 350, entonces 350 = 15,51 · y + 7,39 ⇒ 22,09 ≈ 22 rapaces. En la recta de regresión de X sobre Y: si y = 350, entonces x = 350y + 1 = 22 rapaces. Es más fiable la segunda estimación, ya que el valor inicial de la primera se aleja bastante de la media de rapaces. 17. La estatura media de una muestra de padres es de 1,68 m con una desviación típica de 5 cm. En una muestra de sus hijos la estatura media es de 1,70 m con una desviación típica de 7,5 cm. El coeficiente de correlación entre las estaturas de padres e hijos es 0,7. Si un padre mide 1,80m, ¿qué estatura se estima que tendrá su hijo? Al ser el coeficiente de correlación r = 0,7; obtenemos: r= σ XY σ X ·σ Y ⇒ 0,7 = σ XY 5 · 7,5 = ⇒ σ XY = 26,25. La recta de regresión de Y (estatura de los hijos) sobre X (estatura de los padres) es: y − 170 = 26,25 ( x −168) 52 ⇒ y = 1,05 x − 6,4 Si un padre mide 180 cm, se estima que su hijo tendrá y = 1,05 · 180 – 6,4 = 182, 6 cm. Nota: Todos los datos se han convertido en centímetros. 44 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN SOLUCIONARIO 18. Los datos de la tabla corresponden a una variable bidimensional (X, Y): X 12 16 20 24 28 32 36 40 44 48 Y 10 15 18 25 28 30 35 38 40 42 Analiza lo que sucede con los parámetros de las distribuciones marginales, con la covarianza y el coeficiente de correlación, en cada caso. a) Si sumamos 8 a todos los valores de la variable X. b) Si sumamos 8 a todos los valores de las variables X e Y. c) Si multiplicamos por 4 a todos los valores de la variable X. d) Si multiplicamos por 4 a todos los valores de las variables X e Y. Los parámetros de las distribuciones marginales, la covarianza, el coeficiente de correlación para los datos de la tabla son, respectivamente: x = 30 y = 28,1 σ Y = 10,46 σ X = 11,49 σ XY = 119 r = 0,99 a) Si sumamos 8 a todos los valores de la variable X, la tabla y los resultados son: X 20 24 28 32 36 40 44 48 52 56 Y 10 15 18 25 28 30 35 38 40 42 x = 38 y = 28,1 σ Y = 10,46 σ X = 11,49 σ XY = 119 r = 0,99 Observamos que la media aritmética de la nueva variable X ha aumentado 8 unidades con respecto a la media aritmética de la anterior variable X. El resto de los resultados no ha variado. b) Si sumamos 8 a todos los valores de las variables X e Y, la tabla y los resultados son: X 20 24 28 32 36 40 44 48 52 56 Y 18 23 26 33 36 38 43 46 48 50 45 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN x = 38 σ Y = 10,46 σ X = 11,49 y = 36,1 SOLUCIONARIO r = 0,99 σ XY = 119 Observamos que la media aritmética de las nuevas variables X e Y han aumentado 8 unidades con respecto a la media aritmética de las anteriores variables X e Y. El resto de los resultados no ha variado. c) Si multiplicamos por 4 todos los valores de la variable X, la tabla y los resultados son: X 48 64 80 96 112 128 144 160 176 192 Y 10 15 18 25 28 30 35 38 40 42 σ X = 45,96 y = 28,1 x = 120 σ Y = 10,46 σ XY = 476 r = 0,99 Observamos que la media aritmética y la desviación típica de la nueva variable X es 4 veces mayor que la media aritmética y la desviación típica, respectivamente, de la anterior variable X. La covarianza también se ha multiplicado por 4. d) Si multiplicamos por 4 todos los valores de las variables X e Y, la tabla y los resultados son: X 48 64 80 96 112 128 144 160 176 192 Y 40 60 72 100 112 120 140 152 160 168 x = 120 y = 112,4 σ X = 45,96 σ Y = 41,85 σ XY = 1904 r = 0,99 Observamos que todos los resultados se han multiplicado por 4 excepto el coeficiente de correlación que no varía. 46 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN SOLUCIONARIO 19. En una distribución bidimensional (X, Y), la recta de regresión de Y sobre X es x + 5y = 2 y la de X sobre Y es x + 4y = 1. Encuentra el centro de gravedad x, y y el coeficiente de correlación. ( ) El centro de gravedad, (x, y ) , es el punto de corte de las dos rectas de regresión. Sus coordenadas son la solución del sistema siguiente: x + 5 y = 2 ⇒ x + 4 y = 1 ( x = − 3 y = 1 ) El centro de gravedad es x = − 3, y = 1 . La relación entre el coeficiente de correlación r y los coeficientes de regresión, m = asociados a las rectas de regresión es m · m´ = r2. σ XY σ y m ´ = XY2 , 2 σX σY Los coeficientes de regresión son: x + 5 y = 2 ⇒ x + 4 y = 1 5 y = − x + 2 x = − 4 y + 1 ⇒ 1 2 y = − x + 5 5 x = − 4 y + 1 ⇒ 1 m = − 5 m ´ = − 4 El coeficiente de correlación será: 4 1 r 2 = − · (− 4 ) = = 0,8 5 5 ⇒ r = 0,8 ⇒ r = 0,89 20. En una distribución bidimensional (X, Y) el coeficiente de correlación r vale 0, y el centro de gravedad está situado en el punto (5, 4). Determina la ecuación de las dos rectas de regresión y represéntalas gráficamente. σ XY = 0 , la σ X · σY covarianza σXY = 0 y los coeficientes de regresión σ σ m = XY y m ´ = XY2 también son nulos. 2 σX σY Al ser el coeficiente de correlación r = La recta de regresión de Y sobre X, de ecuación: 47 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN y − y = ( ) ( ) SOLUCIONARIO σ XY x − x , es y – 4 = 0. σ X2 La recta de regresión de X sobre Y, de ecuación: x− x= σ XY y − y , es x – 5 = 0. σ Y2 Ambas rectas son perpendiculares y pasan por el punto (5, 4) como puede verse en el dibujo. 21. En una distribución bidimensional (X, Y), el centro de gravedad está en (4, 4), el coeficiente de correlación r vale – 0,88, y la recta de regresión de Y sobre X es y = - 1,5x + 10. Halla la recta de regresión de X sobre Y. La relación entre el coeficiente de correlación r y los coeficientes de regresión, m = asociados a las rectas de regresión es m · m´ = r2. Conocemos r = - 0,88 y m = σ XY σ y m ´ = XY2 , 2 σX σY σ XY = − 1,5 . Sustituyendo en la relación anterior: σ X2 − 1,5 · m ´ = (− 0,88) 2 ⇒ m´= La recta de regresión de X sobre Y, de ecuación x − x = x − 4 = − 0,52 · ( y − 4 ) ⇒ (− 0,88)2 − 1,5 ( = − 0,52 ) σ XY y − y es: σ Y2 x = − 0,52 x + 6,08 48 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN SOLUCIONARIO ACTIVIDADES FINALES de la página 297 22. Los pediatras facilitan a las familias la siguiente tabla de los pesos de los niños según la edad: Edad (meses) 0 3 6 9 12 15 18 21 24 Peso (kg) 3,5 6,25 8 9,2 10,2 11 11,6 12,05 12,6 a) Halla el coeficiente de correlación y la recta de regresión, del peso en función de la edad y represéntala en el diagrama de dispersión. b) Calcula la varianza residual y el coeficiente de determinación. c) ¿Cuál es el incremento mensual de peso esperado? d) ¿Cuál es el peso esperado de un niño de 14 meses? ¿Y de un niño de dos años y medio? Calculamos previamente los parámetros correspondientes a las distribuciones marginales y la covarianza, obteniendo: x= 108 = 12 9 σx = 84,40 y= = 9,38 σ y = 9 1836 − 12 2 = 7,75 9 863,52 − (9,38) 2 = 2,83 9 1201,20 σ xy = − 12 · 9,38 = 20,93 9 a) El coeficiente de correlación lineal vale: xi yi xi2 y i2 xi · y i 0 3,50 0 12,25 0,00 3 6,25 9 39,06 18,75 6 8,00 36 64,00 48,00 9 9,20 81 84,64 82,80 12 10,20 144 104,04 122,40 15 11,00 225 121,00 165,00 18 11,60 324 134,56 208,80 21 12,05 441 145,20 253,05 24 12,60 576 158,76 302,40 108 84,40 1836 836,52 1201,20 49 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN r= SOLUCIONARIO 20,93 = 0,96 7,75 · 2,83 La recta de regresión del peso (Y) en función de la edad (X) es: y − 9,38 = 20,93 ( x − 12) 7,75 2 ⇒ y = 0,35 x + 5,19 En el dibujo puede verse la nube de puntos y la gráfica de la recta de regresión. 50 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN SOLUCIONARIO b) Los valores de la varianza residual y el coeficiente de determinación son: La varianza residual vale: σ e2 = 6,30 = 0,70 9 El coeficiente de determinación es: 0,70 R =1− = 0,91 8,00 2 xi yi yˆ i = 0,35 xi + 5,19 ei = yˆ i − y i ei2 0 3,50 5,19 - 1,69 2,86 3 6,25 6,24 0,01 0,00 6 8,00 7,29 0,71 0,50 9 9,20 8,34 0,86 0,74 12 10,20 9,39 0,81 0,66 15 11,00 10,44 0,56 0,31 18 11,60 11,49 0,11 0,01 21 12,05 12,54 - 0,49 0,24 24 12,60 13,59 - 0,99 0,98 6,30 c) El incremento del peso esperado en un mes, podemos calcularlo como la diferencia de los pesos esperados para dos meses consecutivos, por ejemplo para x = 1 y x = 2: Si x = 1, entonces yˆ (1) = 0,35 · 1 + 5,19 = 5,54 kg. Si x = 2, entonces yˆ (2) = 0,35 · 2 + 5,19 = 5,89 kg. La diferencia es yˆ (2) − yˆ (1) = 5,89 − 5,54 = 0,35 kg. Puede observarse que el peso esperado en un mes coincide con el coeficiente de regresión m= 20,93 = 0,35 . 7,75 2 d) El peso esperado para un niño de 14 meses es: yˆ (14) = 0,35 · 14 + 5,19 = 10,08 kg. El peso esperado para un niño de dos años y medio (30 meses) es: yˆ (30) = 0,35 · 30 + 5,19 = 15,66 kg. 51 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN SOLUCIONARIO 23. Se ha medido el contenido de oxígeno Y (en mg/L) de un embalse a una profundidad de X (en m). Se obtuvieron los siguientes datos: Profundidad (m) 10 20 30 40 50 60 70 80 Oxígeno (mg/L) 7,5 6 5,4 5,8 3,6 1,4 0,3 0,02 a) Dibuja el diagrama de dispersión. b) Calcula el coeficiente de correlación lineal y explica su significado. c) Calcula y dibuja la recta de regresión de Y sobre X. d) Para las profundidades de 25 m, 55 m y 85 m, ¿qué contenido de oxígeno se podría predecir? e) Halla el coeficiente de determinación. a) El diagrama de dispersión puede verse en el dibujo. 52 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN SOLUCIONARIO b) Los parámetros que se obtienen en el cálculo del coeficiente de correlación lineal son: x = 45 σ X = 22,91 y = 3,75 σ Y = 2,68 σ XY = − 59,41 El valor del coeficiente es: r= − 59,41 = − 0,968 22,91 · 2,68 Observamos que el valor obtenido nos permite afirmar que existe un excelente grado de dependencia negativa, es decir, que a mayor profundidad, existe menos oxígeno en el agua del embalse. c) La recta de regresión de Y sobre X es: y − 3,75 = − 59,41 ( x − 45) 22,912 ⇒ y = − 0,11x + 8,85 Su gráfica puede verse en el dibujo. 53 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN SOLUCIONARIO d) Calculamos las estimaciones de la cantidad de oxígeno en el agua a las distintas profundidades que se piden: Para x = 25 m, tenemos que y = - 0,11 · 25 + 8,85 = 6,1 mg/L. Para x = 55 m, tenemos que y = - 0,11 · 55 + 8,85 = 2,8 mg/L. Para x = 85 m, tenemos que y = - 0,11 · 85 + 8,85 = - 0,5 mg/L. Puede observarse que los dos primeros valores son razonables, pero el último carece de sentido. e) Nos ayudamos de los cálculos que aparecen en la tabla. yˆ i = − 0,11xi + 8,85 ei = yˆ i − y i xi yi 10 7,50 7,75 - 0,25 0,0625 20 6,00 6,65 - 0,65 0,4225 30 5,40 5,55 - 0,15 0,0225 40 5,80 4,45 1,35 1,8225 50 3,60 3,35 0,25 0,0625 60 1,40 2,25 - 0,85 0,7225 70 0,30 1,15 - 0,85 0,7225 80 0,02 0,05 - 0,03 0,0009 ei2 3,8384 La varianza residual vale: σ e2 = 3,84 = 0,48 8 El coeficiente de determinación es: R 2 = 1 − 0,48 = 0,93 7,18 54 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN SOLUCIONARIO 24. Un examen de cierta asignatura consta de dos partes: una teórica (X) y otra práctica (Y). El profesor de esta quiere ver si existe algún tipo de correlación entre las calificaciones de teoría y práctica. Obtiene que la recta de regresión de Y sobre X es 4x – 3y = 0 y que la de X sobre Y es 3x – 2y = 1. a) Calcula el coeficiente de correlación y estudia si las variables están o no correlacionadas. b) Calcula la media de las notas de teoría y prácticas. a) Como la recta de regresión de Y sobre X es 4x – 3y = 0, su pendiente es el coeficiente de regresión y vale: m= 4 σ xy = 3 σ x2 La pendiente de la recta de regresión de X sobre Y, 3x – 2y = 1, es: m´ = 2 σ xy = 3 σ y2 La relación entre el coeficiente de correlación lineal y los coeficientes de regresión nos permite calcular: r = m · m´ = 4 2 · = 3 3 8 = 0,94 9 El coeficiente de correlación es muy alto y nos permite afirmar que las variables están muy relacionadas. b) Sabemos que las dos rectas de regresión pasan por el punto puntos. (x, y ), centro de gravedad de la nube de Para calcular las medias de las variables, calculamos el punto de corte de las dos rectas. Resolviendo el sistema, obtenemos: 4 x − 3 y = 0 3 x − 2 y = 1 ⇒ x = 3 y = 4 La nota media en teoría es x = 3 y la nota media en práctica es y = 4. 55 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN SOLUCIONARIO 25. En una distribución bidimensional (X, Y), se sabe que la recta de regresión de Y sobre X es y = 0,85x – 13,24 y la recta de regresión de X sobre Y es x = 0,91y + 5,88. Represéntalas. Determina el centro de gravedad de la distribución y el coeficiente de correlación. La representación gráfica puede verse en el dibujo. El centro de gravedad de la distribución es el punto de corte de las rectas de regresión. Por tanto: y = 0,91x − 5,88 x = 0,85 y + 13,24 ⇒ El centro de gravedad G x = 36,39; y = 27,23 . ( ) x = 36,39 y = 27,23 es el punto El cuadrado del coeficiente de correlación lineal es igual al producto de los coeficientes de regresión. Sustituyendo, obtenemos: r 2 = m · m´ ⇒ r 2 = 0,91 · 0,85 ⇒ r = 0,7735 = 0,8795. 56 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN SOLUCIONARIO 26. Las rectas de regresión de cuatro distribuciones bidimensionales son las que aparecen representadas en los diagramas que siguen. Estudia en qué casos es significativa la correlación lineal. Observando los gráficos vemos que el ángulo formado por las rectas es más pequeño en las distribuciones II) y IV). Por tanto, en estos casos es más significativo. Analizando las ecuaciones de las rectas obtenemos los resultados que siguen. I) El coeficiente de regresión de la recta y = x + 2 vale m = 1, lo que significa que la covarianza σ xy es no nula. Por lo tanto, no puede ser el coeficiente de regresión de la otra recta m´ = 0, como ocurre con la recta x = 4. Es decir, esta situación carece de sentido, ya que no es posible que haya una distribución con estas dos rectas de regresión. II) En este caso, m = 4 5 , m ´= y r = 5 6 4 5 · = 5 6 2 = 0,82 . 3 III) Para esta distribución m = 0 , m ´= 0 y r = 0. IV) En esta distribución, m = 1 , m ´= 4 y r = 5 4 = 0,89 . 5 De nueve podemos ver que la correlación es significativa en los apartados II) y IV). 57 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN SOLUCIONARIO ACTIVIDADES FINALES de la página 298 27. El número de días de lluvia (X) y el número de días de sol (Y) registrados durante el año pasado en diez observatorios meteorológicos han sido: Días de lluvia 82 206 170 69 215 85 107 113 72 125 Días de sol 271 174 211 294 109 264 241 252 271 243 Representa los datos en un diagrama de dispersión. Halla el coeficiente de correlación lineal e interprétalo. Determina la recta de regresión de Y sobre X. ¿Puedes saber cuántas horas de sol se esperan en un observatorio que ha registrado 100 días de lluvia? El diagrama de dispersión puede verse en el dibujo. Los parámetros que se obtienen en el cálculo del coeficiente de correlación lineal son: x = 124,4 σ X = 51,52 El valor del coeficiente es: r = y = 233 σ Y = 52,38 σ XY = − 2560,5 − 2 560,5 = − 0,9488 51,52 · 52,38 58 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN SOLUCIONARIO Se trata de una correlación negativa, en los lugares con más días de lluvia hay menos horas de sol y recíprocamente. La recta de regresión de Y sobre X es: y − 233 = − 2 560,5 ( x − 124,4) 51,52 2 ⇒ ⇒ y = − 0,96 x + 352,42 Si se han registrado x = 100 días de lluvia se predicen: y = - 0,96 · 100 + 352,42 ≈ 256 horas de sol. 59 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN SOLUCIONARIO 28. La torre inclinada de Pisa es una maravilla arquitectónica. Su creciente inclinación ha generado numerosos estudios sobre su futura estabilidad. En la siguiente tabla se presentan las medidas de su inclinación durante los años 1978 -1987. Los datos de inclinación se han codificado como décimas de milímetro por exceso de 2,9000 m, de forma que la inclinación en el año 1978, que fue de 2,9667, aparece en la tabla con el valor 667. Año 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 Inclinación 667 673 688 696 698 713 717 725 742 757 a) Representa gráficamente estos datos. ¿Crees que la inclinación de la torre tiene una tendencia lineal que crece con el tiempo? b) Calcula la recta de regresión de la inclinación en función del tiempo. c) Calcula el coeficiente de determinación. d) En 1918 la inclinación de la torre fue 2,9071 m. ¿Cuál sería el valor ajustado según la recta que has obtenido con anterioridad? ¿Cuál crees que es la causa de la diferencia entre ambos valores? a) Tomando el año 1978 como año 1, la representación gráfica puede verse en el dibujo. 60 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN SOLUCIONARIO A la vista de la nube de puntos parece que tiene una tendencia lineal que crece con el tiempo. Para poder confirmarlo hallamos el coeficiente de correlación lineal. xi yi xi2 y i2 xi · y i 1 667 1 444889 667 2 673 4 452929 1346 3 688 9 473344 2064 4 696 16 484416 2784 5 698 25 487204 3490 6 713 36 508369 4278 7 717 49 514089 5019 8 725 64 525625 5800 9 742 81 550564 6678 10 757 100 573049 7570 55 7076 385 5014478 39696 x= 55 = 5,5 10 σx = y= 385 − 5,5 2 = 2,87 10 7076 = 707,6 10 σy = σ xy = 5014478 − (707,6) 2 = 27,39 10 39696 − 5,5 · 707,6 = 77,8 10 61 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN El coeficiente de correlación lineal vale r = SOLUCIONARIO 77,8 = 0,99 . 2,87 · 27,39 b) La ecuación de la recta de regresión de la inclinación (Y) en función del tiempo (X) es: y − 707,6 = 77,8 ( x − 5,5) 8,24 ⇒ y = 9,44 x + 655,68 c) Calculamos el coeficiente de determinación. xi yi yˆ i = 9,44 xi + 655,68 ei = yˆ i − y i ei2 1 667 665,12 -1,88 3,5344 2 673 674,56 1,56 2,4336 3 688 684 -4 16 4 696 693,44 -2,56 6,5536 5 698 702,88 4,88 23,8144 6 713 712,32 -0,68 0,4624 7 717 721,76 4,76 22,6576 8 725 731,2 6,20 38,44 9 742 740,64 1,36 1,8496 10 757 750,08 -6,92 47,8864 163,6322 La varianza residual vale: σ e2 = 163,6322 = 16,37 10 El coeficiente de determinación es: R 2 = 1 − 16,37 = 0,98 750,21 62 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN SOLUCIONARIO d) El valor ajustado para 1918 en la recta de regresión es: yˆ (− 59) = 9,47 ·(− 59) + 655,68 = 96,95 El valor obtenido es muy diferente de 71, esto es debido a que el año 1918 está muy alejado del intervalo de años que estamos considerando. 29. La tabla muestra el número de gérmenes patógenos (en miles por cm3 ) de un determinado cultivo, según el tiempo transcurrido. Nº HORAS 0 1 2 3 4 5 Nº DE GÉRMENES 20 26 33 41 47 53 a) Calcula la recta de regresión para predecir el número de gérmenes por cm3 en función del tiempo. b) Calcula el coeficiente de determinación. c) ¿Qué cantidad de gérmenes por cm3 es predecible encontrar cuando hayan transcurrido 6 horas? ¿Es buena esta predicción? Calculamos los parámetros de la distribución bidimensional considerando el número de horas como variable X y el número de gérmenes como la variable Y. 63 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN xi yi xi2 y i2 xi · y i 0 20 0 400 0 1 26 1 676 26 2 33 4 1089 66 3 41 9 1681 123 4 47 16 2209 188 5 53 25 2809 265 15 220 55 8864 668 σ xy = x= 15 = 2,5 6 σx = y= SOLUCIONARIO 55 − 2,5 2 = 1,71 6 220 = 36,67 5 σy = 8864 − (36,67) 2 = 11,53 6 668 − 2,5 · 36,67 = 19,67 6 a) La ecuación de la recta de regresión del número de gérmenes (Y), por centímetro cúbico, en función del tiempo (X) es: y − 36,67 = 19,67 ( x − 2,5) 1,712 ⇒ y = 6,73 x + 19,85 b) Calculamos el coeficiente de determinación. xi yi yˆ i = 6,73 xi + 19,85 ei = yˆ i − y i ei2 0 20 19,85 0,15 0,0225 1 267 26,58 - 0,58 0,3364 2 33 33,31 - 0,31 0,0961 3 41 40,04 0,96 0,9216 4 47 46,77 0,23 0,0529 5 53 53,50 - 0,50 0,2500 1,6795 64 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN La varianza residual vale: σ e2 = SOLUCIONARIO 1,6795 = 0,2799 6 El coeficiente de determinación vale R 2 = 1 − El coeficiente de correlación es r = 0,2799 = 0,9979 11,53 2 0,9979 = 0,9989 . c) Estimamos el número de gérmenes a las 6 horas: yˆ (6) = 6,73 · 6 + 19,85 = 60,26 Al cabo de 6 horas habrá uno 60 miles de gérmenes por centímetro cúbico. Esta estimación tiene una gran probabilidad de ser válida ya que el coeficiente de determinación es muy alto. 65 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN SOLUCIONARIO 30. Las ecuaciones que siguen representan las rectas de regresión lineal de una distribución estadística bidimensional. 2x + y + 1 = 0 5x + 3y + 4 = 0 Halla los coeficientes de determinación y correlación entre las correspondientes variables unidimensionales. De las rectas de regresión no podemos asegurar cuál es la de regresión de Y sobre X y cuál la de X sobre Y. Supongamos que la primera de ellas es la de regresión de Y sobre X, se tiene: y= - 2x – 1 y su coeficiente de regresión es m = - 2. La segunda corresponderá a la de regresión de X sobre Y, se tiene: x=− y su coeficiente de regresión es m ´ = − 3 4 y− 5 5 3 . 5 Con los datos anteriores se obtiene el coeficiente de determinación es: 3 6 R 2 = m · m ´ = (− 2 ) · − = > 1 5 5 lo cual carece de sentido. En consecuencia, es necesario elegir las rectas de la otra forma posible. La recta de regresión de Y sobre X es 5x + 3y + 4 = 0, se tiene: 66 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN y=− y su coeficiente de regresión es m = − SOLUCIONARIO 4 5 y− 3 3 5 . 3 La recta de regresión de X sobre Y es 2x + y + 1 = 0, se tiene: x=− y su coeficiente de regresión es m ´ = − 1 1 y− 2 2 1 . 2 El sigo negativo de m y m ´ nos indica que la dependencia lineal entre las variables es de tipo inverso, y el coeficiente de determinación es: 5 3 R 2 = m · m ´ = − · = = 0,83 6 5 Como el coeficiente de correlación es r = ± coeficiente vale: R 2 y estamos ante una dependencia de tipo inverso, este r = − 0,83 = − 0,91 . 67 Matemáticas Aplicadas a las CCSS I - UD 12: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN SOLUCIONARIO PROYECTO DE INVESTIGACIÓN de la página 299 Trabajos relacionados con la estadística A continuación se describen con brevedad algunos trabajos que pueden ser abordados desde la estadística. 1. La estadística en los medios de comunicación. Estudio crítico Describe los errores que habitualmente se cometen en estadística y como se utilizan para manipular la información. Las situaciones descritas, ilústralas con ejemplos actuales, sacados de los medios de comunicación. 2. El precio de la cesta de la compra. El IPC en tu lugar de residencia Conoce el Índice de precios al consumo (IPC). Diseña una aproximación al IPC para la alimentación en tu lugar de residencia. Obtén los datos a lo largo de varios meses y compáralos con los obtenidos en las estadísticas oficiales. 3. ¿Influye el mes de nacimiento en el rendimiento escolar? Investiga esta situación en tu centro de enseñanza y compara los resultados obtenidos con datos nacionales o europeos, si existen. Investiga como tratan este posible problema los distintos sistemas educativos. 4. Las redes sociales y los jóvenes Estudia la influencia de las redes sociales en los jóvenes: costumbres en el uso de Internet, redes sociales y opinión de los alumnos sobre las redes sociales 5. Estudio de la ley de Benford Describe la ley de Benford: historia, definición, aplicaciones. Busca conjuntos numéricos que sigan la ley de Benford: estadísticas en ciertos deportes, números extraídos de periódicos o revistas, indicadores bursátiles y censos de población. 68