Regresión y Correlación 1.- El número de turistas (en millones) entrados en España mensualmente durante los años 2001 y 2002 se expone en la siguiente estadística. Nº Turistas 2001 2,76 2,62 2,92 3,8 4,4 4,81 8,93 9,98 5,91 4,34 2,62 3,65 4,7283 5,4129 Nº Turistas 2002 2,89 2,63 3,2 3,19 4,52 4,77 8,91 9,99 5,95 4,35 2,87 3,7 4,7475 5,3203 a) Calcular en qué año hubo mayor dispersión de turistas por mes. b) Calcular la matriz de covarianzas. c) Calcular el coeficiente de correlación lineal entre los dos años e interpretarlo. 2.- Se ha tomado un grupo de parejas (con hijos) y se les ha preguntado a qué edad tuvieron su primer hijo. La información se recoge en la tabla adjunta (x = edad del padre, y = edad de la madre). Se pide: x\y 18-22 22-26 26-30 30-34 34-38 17-21 5 21-25 2 3 25-29 29-33 33-37 9 4 1 6 6 3 10 7 4 a) Estimar mediante la recta de regresión, la edad del padre, si la madre tuvo una edad de 25 años. b) Estimar mediante la recta de regresión la edad de la madre si el padre tuvo una edad de 25 años. c) Calcular e interpretar el coeficiente de correlación lineal (r) y el coeficiente de determinación (R2). d) Representar el polígono de frecuencias absoluta y el polígono de frecuencias absolutas acumuladas de la distribución marginal de los padres. e) Calcular la mediana y el percentil 90 de la distribución marginal de las madres. f) Qué media es más representativa. Justificar la respuesta. 3. La tabla siguiente muestra las respectivas estaturas x, y de una muestra de 12 padres y sus hijos mayores. Estatura x del padre 169 164 174 167 177 162 182 172 177 174 179 185 Estatura y del hijo 177 172 177 169 180 172 177 169 185 174 177 182 A) B) C) D) E) Calcular Q1, Q3 y la mediana de las estaturas “y” de los hijos. Explicar cuál de las dos estaturas es más dispersa. Hallar e interpretar el coeficiente de correlación lineal. Calcular la recta de regresión de x sobre y. Varianza explicada y residual. ¿Qué estatura tendrá el hijo mayor de un padre que mide 177 cm? U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 1 Regresión y Correlación 4.- La tabla siguiente muestra cómo se distribuye las notas en Matemáticas y Física de 25 estudiantes X\Y [20 a 26) [26 a 32) [32 a 38) [38 a 44) [44 a 50) [14 a 20) 1 [20 a 26) 3 1 [26 a 32) 2 5 2 [32 a 38) 1 4 1 [38 a 44) 1 3 [44 a 50) 1 Sobre la distribución marginal X (Matemáticas) calcular: a) La media, y la cuasivarianza. b) Representar un diagrama de cajas y estudiar si existen puntos atípicos. Sobre la distribución marginal Y (Física) calcular: c) La media, la varianza de la muestra. d) Representar el histograma de frecuencias absolutas y el polígono de frecuencias absolutas acumuladas. Respecto de ambas variables e) Hallar e interpretar el coeficiente de correlación lineal. f) Calcular el porcentaje de la variación total de la variable nota de física que se explica mediante la relación con la variable nota de matemáticas. g) Hallar la recta de regresión que permite estimar la nota de física conocida la nota de matemáticas. 5.- De una variable estadística bidimensional se conocen los siguientes datos: ∑ x= 140; ∑ y= 90; N= 12; σx= 3.5; σy= 2.2 y el coeficiente de correlación lineal r = 0.9. Calcular: A) La recta de regresión de y sobre x. B) La recta de regresión de x sobre y. C) El valor de x para un valor de y=7. D) El punto de intersección de las rectas de regresión. E) Varianza residual. F) Varianza explicada. G) Coeficiente de determinación. H) Matriz de covarianzas. 6.- De un cierto estudio estadístico se sabe, que las rectas de regresión de la variable 1 4x + 2y = 2 1. estadística (X,Y) son y que la varianza marginal de la variable Y es σ y = 1 5x + 3y = Hallar: a) El coeficiente de correlación lineal. b) Las medias marginales. c) La varianza marginal de X ( σ2x ).d) El valor estimado para y sabiendo que x=0. U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 2 Regresión y Correlación 7.-Se han realizado 10 mediciones de distintas distancias (x) y se ha estimado el correspondiente error (y), cuyos resultados vienen reflejados en la siguiente tabla de doble entrada: a) Hallar la distancia media, el error medio. y las varianzas de las variables distancias y errores. b) Hallar ambas rectas de regresión, los coeficientes de regresión, las pendientes de las rectas de regresión y el coeficiente de correlación lineal. Y 0.1 0.2 0.3 0.4 0.5 0.01 3 0 0 0 0 0.02 1 1 0 0 0 0.03 0 1 2 0 0 0.04 0 0 0 1 1 X 8.- Se han hallado la velocidad media y la distancia a la Tierra de 10 nebulosas, tal como se indica en la siguiente tabla: x 6 9 24 38 46 48 52 75 118 196 y 1,2 1,8 3,3 7,2 7 9,1 11 14,5 22,9 36,3 La variable x representa la velocidad media en cientos de km/s, y la variable y, la distancia a la Tierra en millones de parsecs. El parsec equivale a 3,6 años-luz, o sea, es la distancia a la cual se ve el diámetro de la órbita terrestre bajo un ángulo de 1’. Determinar el coeficiente de correlación lineal. 9.- Sea una parcela o porción de terreno, en la cual se han tomado las coordenadas relativas de los 12 puntos que se expresan en la tabla: Estaca X Y 1 37 64 2 39 71 3 29 53 4 42 67 5 31 55 6 30 58 7 35 77 8 28 57 9 32 56 10 22 51 11 41 76 12 37 68 a) Hallar el intervalo X ± σX . ¿Qué tanto por ciento de valores en la variable X quedan dentro de dicho intervalo? U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 3 Regresión y Correlación Siendo la distribución conjunta (X, Y) b) Calcular la matriz de covarianzas. c) El coeficiente correlación lineal. Interpretarlo d) La recta de regresión de Y sobre X. e) Varianza residual. f) El coeficiente de determinación. Interpretarlo. 10.- Se ha preguntado a 10 alumnos las horas de estudio (X) y la calificación obtenida en 1 − x + 2y = Estadística (Y) y como resultado obtenemos las rectas de regresión: y que 1 −5x + 3y = 1 . Se pide: la varianza marginal de la variable Y es σ 2y = a) El coeficiente de correlación lineal. b) Las medias marginales.c) La covarianza d) ¿Qué tiempo tiene que dedicar como mínimo para poder aprobar? 11.-. La intensidad de corriente I, que se aprecia en un amperímetro varía con la fuerza electromotriz aplicada E, de acuerdo con la tabla de datos experimentales adjunta: E 5 10 1.5 20 25 30 I -7 -2 1.0 4 10 12 Determinar: a) La matriz de covarianzas. b) El coeficiente de correlación lineal e interpretarlo. c) La recta de regresión de la variable intensidad sobre la fuerza electromotriz. ¿Cuál será el valor estimado de la intensidad para una fuerza electromotriz de 20? 12.- La siguiente tabla representa una muestra de 6 valores de una variable estadística bidimensional (x,y). x 5 4 3 2 1 0 y 6.2 5.6 3.4 2.3 1.9 1.2 a) Representar el diagrama de dispersión. A la vista del diagrama de dispersión es lógico adoptar un ajuste lineal. b) Calcular: b1) La matriz de covarianzas. b2) El coeficiente de correlación lineal. Interpretarlo. c) Hallar la ecuación de la recta de regresión lineal y estimar el valor de “y” para x = 4. d) Calcular d1) La varianza residual. d2La varianza explicada por el ajuste lineal. 13.- Los siguientes datos representan los resultados, notas, de una determinada asignatura (Y) y el número de horas de estudio semanales (X) de 16 alumnos. ∑ xi = 96 ∑ yi = 64 ∑ xi ⋅ yi = 492 i ∑x i 2 i = 657 i ∑y i 2 i = 526 i Se pide: a) Estimar el modelo de regresión simple que relaciona los resultados obtenidos con el número de horas dedicadas al estudio. b) Calcule una medida de la bondad del ajuste e interprete el resultado. c) Si un alumno ha estudiado 8 horas, ¿qué nota espera obtener en el examen? U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 4 Regresión y Correlación d) ¿Cuál es el número de horas mínimo que un alumno debe estudiar para superar la asignatura? Considerad que el 5 es el aprobado. 14.- La siguiente tabla indica los litros de cerveza vendidos en un bar y la temperatura (en ºC) en la ciudad durante 5 días, temperatura 34 25 32 37 39 cerveza 187 123 198 232 267 a) ¿Existe correlación entre la temperatura y los litros de cerveza vendidos? b) Hallar e interpretar el coeficiente de determinación. c) Calcular la varianza residual del ajuste lineal de y (litros) sobre x (temperatura). d) Predecir la cantidad de cerveza que se vendería en este bar un día con una temperatura de 35ºC. 15.- Los neumáticos subinflados o sobreinflados pueden acelerar el desgaste de los neumáticos y aumentar o disminuir el consumo. Se toma una muestra de tamaño 14 resultando: L: libras por pulg2 30 30 31 31 32 32 33 M : millas 29.5 30.2 32.1 34.5 36.3 35.0 38.2 L: libras por pulg2 33 34 34 35 35 36 36 M : millas 37.6 37.7 36.1 33.6 34.2 26.8 27.4 a) Hallar la matriz de covarianzas. b) Los coeficientes de correlación lineal (r) y de determinación (R2). Interpretarlos. c) Calcular la recta de regresión de L/M d) Calcular la varianza residual 16.- Conocidas la media aritmética y la varianza de cada una de las variables asociadas a una distribución bidimensional, X =3, Y =2, σ2x=6, σ2y=8 de la que se conoce, además, la recta de regresión de Y sobre X, 2x+3y-12=0. Obtener el coeficiente de correlación lineal y la recta de regresión de X sobre Y. 17.- Sea la distribución conjunta de la variable x = “número de habitaciones de un piso” con respecto a la variable y = “precio de alquiler en euros”. x\y 0-500 500-1000 1000- 1500 2 2 2 0 3 8 12 16 4 4 13 18 Se pide: a) Distribuciones marginales de las variables x e y. b) Moda y mediana de las variables x e y. c) Centro de gravedad de la distribución conjunta. d) Recta de regresión de x sobre y. U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 5 Regresión y Correlación e) Coeficiente de correlación lineal. f) Si disponemos de 600 euros ¿Cuál es el mayor número de habitaciones de un piso de alquiler que podemos conseguir? 18.- A partir del diagrama de dispersión Se pide: a) Coeficiente de correlación lineal. b) Recta de regresión de y sobre x. c) Si y=2 ¿qué valor se puede estimar para la variable x? d) Representar las rectas de regresión sobre el diagrama de dispersión. 19.- En una unidad de pediatría, se obtuvieron los siguientes datos respecto a los pesos y edades de los niños atendidos. Peso en kilos 0 0–4 2 4–8 4 8 – 12 12 – 16 16 - 20 Edad en años 1 2 3 2 8 1 2 9 2 7 8 4 14 1 a) Obtener la mediana del peso en kilos. b) ¿Qué distribución tiene mayor dispersión relativa? c) Si un niño tiene 2 años y pesa 10 kg, ¿qué percentil representa entre los niños de 2 años? d) Hallar el sesgo de la distribución de peso en kilos. e) Hallar el coeficiente de correlación lineal. Interpretarlo. f) Si un niño tiene un año ¿cuál será su peso estimado? g) Si un niño pesa 10 kilos ¿cuántos años se estima que tendrá? U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 6 Regresión y Correlación 1.- El número de turistas (en millones) entrados en España mensualmente durante los años 2001 y 2002 se expone en la siguiente estadística. X σx Nº Turistas 2001 2,76 2,62 2,92 3,8 4,4 4,81 8,93 9,98 5,91 4,34 2,62 3,65 4,7283 2,3266 Nº Turistas 2002 2,89 2,63 3,2 3,19 4,52 4,77 8,91 9,99 5,95 4,35 2,87 3,7 4,7475 2,3066 a) Calcular en qué año hubo mayor dispersión de turistas por mes. b) Calcular la matriz de covarianzas. c) Calcular el coeficiente de correlación lineal entre los dos años e interpretarlo. Solución: a) σ x 2,3266 = ≈ 0, 49205 . X 4, 7283 CV(2001) = CV(2002) = σ y 2,3066 = ≈ 0, 4850 . Y 4, 7475 La dispersión en el año 2001 es un poco mayor. b) ∑x y n i = σ xy i n i i −= XY 12611,5 − 4, 7283 ⋅ 4, 7475 = 4, 7475 12 σ2x σ xy 5, 4129 5,3438 = Σ = σ xy σ 2y 5,3438 5,3203 c) = rxy σ xy 5,3438 = ≈ 0,996 . La correlación lineal es directa y casi perfecta σ x σ y 2,3266 ⋅ 2,32066 U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 7 Regresión y Correlación 2.- Se ha tomado un grupo de parejas (con hijos) y se les ha preguntado a qué edad tuvieron su primer hijo. La información se recoge en la tabla adjunta (x = edad del padre, y = edad de la madre). Se pide: a) Estimar mediante la recta de regresión, la edad del padre, si la madre tuvo una edad de 25 años. b) Estimar mediante la recta de regresión la edad de la madre si el padre tuvo una edad de 25 años. c) Calcular e interpretar el coeficiente de correlación lineal (r) y el coeficiente de determinación (R2). d) Representar el polígono de frecuencias absoluta y el polígono de frecuencias absolutas acumuladas de la distribución marginal de los padres. e) Calcular la mediana y el percentil 90 de la distribución marginal de las madres. f) Qué media es más representativa. Justificar la respuesta. x y 18-22 22-26 26-30 30-34 34-38 17-21 5 21-25 2 3 25-29 29-33 33-37 9 4 1 6 6 3 10 7 4 Solución: x\y 19 23 20 5 2 24 3 27 31 35 ni.xi ni.(xi-m)2 7 140 448 13 312 208 9 1 4 6 10 20 560 0 32 6 7 13 416 208 36 3 4 7 252 448 28 n.j 5 5 13 16 21 60 1680 1312 n.jyj 95 115 351 496 735 Y = 29,87 X = 28 σ 2x =21,87 n.j(yj-m)2 590,78 235,98 107,08 20,43 552,65 f) ni. x = 28 y = 29,87 σ x = 4,68 σ y = 5,01 σ 2y =25,12 CV(x)=0,17 CV(y)=0,17 Las dos medias, son igual de representativas, ya que, los coeficientes de variación son iguales. U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 8 Regresión y Correlación x\y 19 27 31 5832 744 3024 5208 9800 32 5952 7840 36 3348 5040 20 23 1900 24 35 920 1656 28 1900 2576 8856 15252 22680 51264 covarianza 18,13 a) Recta de regresión de x sobre y: x −= X = ( x − 28 ) σ 2y ( y − Y) 18,13 x 0,83y + 3, 24 ⇒ x= 0,83 ⋅ 25 + 3, 24= 24 ( y − 29,87 ) ⇒= 21,87 b) Recta de regresión de y sobre x: y −= Y ( y − 29,87 )= c)= rxy σ xy σ xy σ2x (x − X) 18,13 y 0, 72x + 9, 66 ⇒ y= 0, 72 ⋅ 25 + 9, 66= 27, 7 ( x − 28) ⇒= 25,12 σ xy = 0, 77 , por tanto, la relación lineal es directa pero no demasiado buena. σx σy R 2 = 0,6 , el ajuste no es demasiado bueno. d) Polígonos de frecuencia, absoluta y absoluta acumulada de la distribución marginal “padres”. 25 20 15 10 5 0 16. 18 - 22 22 - 26 26 - 30 30 - 34 34 - 38 e) Mediana; M = 29 + 40. 70 60 50 40 30 20 10 0 18. 22. 26. 30. 34. 38. 28 60 = 30, 75 Percentil 90; P90 =33 + = 35,86 16 21 U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 9 Regresión y Correlación 3. La tabla siguiente muestra las respectivas estaturas x, y de una muestra de 12 padres y sus hijos mayores. Estatura x del padre 169 164 174 167 177 162 182 172 177 174 179 185 Estatura y del hijo 177 172 177 169 180 172 177 169 185 174 177 182 A) B) C) D) E) Solución: A) Calcular Q1, Q3 y la mediana de las estaturas “y” de los hijos. Explicar cuál de las dos estaturas es más dispersa. Hallar e interpretar el coeficiente de correlación lineal. Calcular la recta de regresión de x sobre y. Varianza explicada y residual. ¿Qué estatura tendrá el hijo mayor de un padre que mide 177 cm? y Si ordenamos la variable y de menor a mayor N = 3 ⇒ Q1 = 172 ; 169 172 174 177 180 182 185 4 ni 2 2 1 4 1 1 1 Ni 2 4 5 9 10 11 12 3N = 9 ⇒ Q3 = 177.5 ; 4 N = 6 ⇒ M = 177 2 = X 2082 547 2 = 173.5; σ= = 45.5833 x 12 12 (x − X) ( y − Y) 2 2 x y 169 177 20,25 1.17506 29913 2111 270.917 = 175.916 = = 22.5764 . . σ2y 12 12 4.7514 CV(y) = 0.027 σ y =4.7514 = 175.916 164 172 90.25 15.3351 28208 174 177 0.25 1.17506 30798 167 169 42.25 47.8311 28223 B) La estatura de los padres es más dispersa 177 180 12.25 16.6791 31860 162 172 132.25 15.3351 27864 182 177 72.25 1.17506 32214 172 169 2.25 47.8311 29068 177 185 12.25 82.5191 32745 174 174 0.25 3.67106 30276 179 177 30.25 1.17506 31683 185 182 132.25 37.0151 33670 2082 2111 547 σ x =6.7515 6.7515 CV(x) = = 0.0389 173.5 = Y por tener su coeficiente de variación mayor. 366522 = σ xy − 173.5 ⋅175.916 = 22.074 . 12 = C) rxy 22.074 = 0.688 Directa 6.7515 ⋅ 4.7514 D) Recta de regresión de x sobre y: σ xy x −= X y−Y σ 2y ( x − 173.5 = ) xy 270.917 366522 22.074 (y − 175.916) 22.5764 U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 10 Regresión y Correlación x = 0.978 y + 1.499 La varianza explicada σ2y ⋅ R 2 =22,5764 ⋅ 0, 6882 ≈ 10.686 La varianza residual o no explicada σ2r =σ2y (1 − R 2 ) =22,5764 ⋅ (1 − 0, 6882 ) ≈ 11.89 E) Recta de regresión de Y sobre X: y −= Y y − 175.916= σ xy σ2x (x − X) 22.074 (x − 173.5) ó y = 0.484 x + 91.897 45.5833 Si la estatura del padre es x=177 sustituyendo en la ecuación anterior se obtiene y=177.56. U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 8 Regresión y Correlación 4.- La tabla siguiente muestra cómo se distribuye las notas en Matemáticas y Física de 25 estudiantes X\Y [20 a 26) [26 a 32) [32 a 38) [38 a 44) [44 a 50) [14 a 20) 1 [20 a 26) 3 1 [26 a 32) 2 5 2 [32 a 38) 1 4 1 [38 a 44) 1 3 [44 a 50) 1 Sobre la distribución marginal X (Matemáticas) calcular: a) La media, y la cuasivarianza. b) Representar un diagrama de cajas y estudiar si existen puntos atípicos. Sobre la distribución marginal Y (Física) calcular: c) La media, la varianza de la muestra. d) Representar el histograma de frecuencias absolutas y el polígono de frecuencias absolutas acumuladas. Respecto de ambas variables e) Hallar e interpretar el coeficiente de correlación lineal. f) Calcular el porcentaje de la variación total de la variable nota de física que se explica mediante la relación con la variable nota de matemáticas. g) Hallar la recta de regresión que permite estimar la nota de física conocida la nota de matemáticas. Solución: a) X = b) 791 1229,8 = 51,24 = 31,64 , S 2x = 24 25 Q1 = 26.833 , Q 3 = 36,75 , 1.5 * IQR = 14.875 Q1 − 1.5 *1QR = 11,96 , Q 3 + 1.5 * IQR = 51,625, M = 31 11.96 14 50 51.62 31 26,8 c)= Y 36.7 911 884.16 = 36, 44 = σ2y = 35,366 25 25 d) 20 26 32 38 U. D. de Matemáticas de la ETSITGC 44 Asignatura: CÁLCULO Y ESTADÍSTICA 9 Regresión y Correlación e) rxy = 0.7719 f) R 2 = 0.32198 32,198% g) Recta de regresión de Y sobre X: y −= Y y − 36.44 = U. D. de Matemáticas de la ETSITGC σ xy σ2x (x − X) 32.198 ( x − 31.64) 49.19 Asignatura: CÁLCULO Y ESTADÍSTICA 10 Regresión y Correlación 5.- De una variable estadística bidimensional se conocen los siguientes datos: ∑ x= 140; ∑ y= 90; N= 12; σx= 3.5; σy= 2.2 y el coeficiente de correlación lineal r = 0.9. Calcular: A) La recta de regresión de y sobre x. B) La recta de regresión de x sobre y. C) El valor de x para un valor de y=7. D) El punto de intersección de las rectas de regresión. E) Varianza residual. F) varianza explicada. G) Coeficiente de determinación. H) Matriz de covarianzas Solución: = X ∑x i 140 35 = = ;= Y N 12 3 ∑y i σ xy σ xy 90 15 = = ; r= = = 0,9 ⇒ σ= 6,93 xy xy N 12 2 σ x σ y 3,5 ⋅ 2, 2 a) Recta de regresión de y sobre x: y −= Y σ xy σ2x (x − X) 15 6,93 35 = x − ⇒ y 0,5657142857·x + 0,9 y− = 2 2 3,5 3 b) Recta de regresión de x sobre y: x −= X σ xy σ 2y ( y − Y) 35 6,93 15 y− = x − = ⇒ x 1,431818181 ⋅ y + 0,928030303 2 3 2, 2 2 c) El valor de x se obtiene de la recta de regresión de x sobre y = x 1.431818181 ⋅ y + 0.928030303=1.431818181 ⋅ 7 + 0.928030303 10.95075757 d) El punto de intersección corresponde al centro de gravedad: ( X, Y ) = 35 15 , 3 2 e) Depende de la recta de regresión Para la recta de regresión de y sobre x La varianza residual o no explicada σ 2r =σ2x (1 − R 2 ) =3,52 ⋅ (1 − 0,92 ) ≈ 2,3275 Para la recta de regresión de x sobre y La varianza residual o no explicada σ2r =σ2y (1 − R 2 ) =2, 22 ⋅ (1 − 0,92 ) ≈ 0,9196 U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 11 Regresión y Correlación f) La varianza explicada σ 2x ⋅ R 2 =3,52 ⋅ 0,92 ≈ 9,9225 La varianza explicada σ2y ⋅ R 2 =2, 22 ⋅ 0,92 ≈ 3,9204 g) 2 2 2 0,81 R= r= 0,9= Es bastante fiable, pues explica el 81% de la variación entre las variables. h) σ2x σ xy 4,84 6,93 = Σ = σ xy σ 2y 6,93 12, 25 U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 12 Regresión y Correlación 6.- De un cierto estudio estadístico se sabe, que las rectas de regresión de la variable 1 4x + 2y = 2 1. estadística (X,Y) son y que la varianza marginal de la variable Y es σ y = 1 5x + 3y = Hallar: a) El coeficiente de correlación lineal. b) Las medias marginales. c) La varianza marginal de X ( σ2x ). d) el valor estimado para y sabiendo que x=0. Solución: Buscaremos los coeficientes de regresión despejando x e y: y= 1 4x + 2y = ⇒ 1 5x + 3y = x= 1 − 2x 6 3 2 ⇒ r 2 = b xy ⋅ b yx = − ⋅ ( −2 ) = > 1 1 3 5 5 − y 5 5 ¡Imposible! Entonces x= 1 4x + 2y = ⇒ 1 5x + 3y = y= 1 1 − y 1 5 5 4 2 ⇒ r 2 = b xy ⋅ b yx = − ⋅ − = < 1 1 5 2 3 6 − x 3 3 a) 5 5 r 2 = ⇒ r =± -0,9128709291 6 6 Correlación inversa y muy fuerte b) 1 4x + 2y = ⇒ 1 5x + 3y = 1 X = 2 Y = − 1 2 c) σ σ σ 3 1 1 −1/ 2 5 b xy = xy2 = xy = − ⇒ σ xy = − ⇒ b yx = xy2 = 2 = − ⇒ σ 2x = 10 σy 1 2 2 σx σx 3 d) Debemos utilizar la recta de regresión de y sobre x para pode predecir el valor de y: 1 1 5 1 5 y= − x= − 0= 3 3 3 3 3 U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 13 Regresión y Correlación 7.- Se han realizado 10 mediciones de distintas distancias (x) y se ha estimado el correspondiente error (y), cuyos resultados vienen reflejados en la siguiente tabla de doble entrada: a) Hallar la distancia media, el error medio. y las varianzas de las variables distancias y errores. b) Hallar ambas rectas de regresión, los coeficientes de regresión, las pendientes de las rectas de regresión y el coeficiente de correlación lineal. Solución: X\Y 0,1 3 1 0 0 0,01 0,02 0,03 0,04 n.j Yjn.j 4 0,4 2 Yj n.j 0,2 0 1 1 0 0,3 0 0 2 0 0,4 0 0 0 1 2 2 1 3 2 3 2 0,4 0,6 0,4 0,04 0,05 0,08 0,05 0,18 0,06 0,16 0,04 0,25 0,04 0,71 0,24 0,005 0,01 0,018 0,016 0,02 0,07 0,024 0,23 m2 0,0007 0,071 0,000124 0,0181 2 m11 Xi2ni. 0,0003 0,0008 0,0027 0,0032 0,24 0,007 0,0069 σ xy 0,00138 0,92115 r a) Distancia media ∑x n i 10 2,3 Xini. 0,03 0,04 0,09 0,08 Y m1 σ m10= X= ni. 1 0,50 RESULTADOS: X i 0,5 0 0 0 1 Error medio i 0, 24 = = 0, 024 ; n 10 m 01= Y= ∑y n i i n i = 2,3 = 0, 23 10 Varianzas: ( ) σ 2x =m 20 − X ( ) σ 2y =m 02 − Y 2 2 ∑x n = 2 i n ∑y n = i i 2 i i n i ( ) − X ( ) − Y 2 0, 007 = − 0, 0242 =0, 000124 10 2 0, 71 = − 0, 232 =0, 0181 10 U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 14 Regresión y Correlación Covarianza: σ xy = m11 − XY = ∑x y n i i n i i − XY = 0, 069 − 0, 024 ⋅ 0, 23 = 0, 00138 10 b) Rectas de regresión Recta de regresión de y sobre x: y −= Y 23) ( y − 0,= σ2x (x − X) 0, 00138 0, 024 ) ⇒ y 11,12903225·x − 0.03709677419 ( x −= 0, 000124 Recta de regresión de x sobre y: x −= X = ( x − 0, 024 ) σ xy σ xy σ 2y ( y − Y) 0, 00138 0, 23) ⇒ x 0,07624309392 ⋅ y + 0.006464088397 ( y −= 0, 0181 Los coeficientes de regresión b= yx σ xy = 11,12903225 σ2x b= xy σ xy = 0,07624309392 σ2y Las pendientes: b yx = tgα= 11.12903225 ⇒ α =84º 51'56 '' b= xy 1 = 0.07624309392 ⇒ β =85º 38' 24 '' tgβ El coeficiente de correlación lineal: σ xy 0,92115 Correlación fuerte y directa r= ± b yx ⋅ b xy = = σx σy U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 15 Regresión y Correlación 8.- Se han hallado la velocidad media y la distancia a la Tierra de 10 nebulosas, tal como se indica en la siguiente tabla: x 6 9 24 38 46 48 52 75 118 196 y 1,2 1,8 3,3 7,2 7 9,1 11 14,5 22,9 36,3 La variable x representa la velocidad media en cientos de km/s, y la variable y, la distancia a la Tierra en millones de parsecs. El parsec equivale a 3,6 años-luz, o sea, es la distancia a la cual se ve el diámetro de la órbita terrestre bajo un ángulo de 1’. Determinar el coeficiente de correlación lineal. Solución: x y x*y 6 1,2 7,2 9 1,8 16,2 24 3,3 79,2 38 7,2 273,6 46 7 322 48 9,1 436,8 52 11 572 75 14,5 1087,5 118 22,9 2702,2 196 36,3 7114,8 612 114,3 12611,5 61,2 11,43 1261,15 covarianza 561,634 coeficientes de regresión: sumas momentos x2 36 81 576 1444 2116 2304 2704 5625 13924 38416 67226 6722,6 2977,16 2 y 1,44 3,24 10,89 51,84 49 82,81 121 210,25 524,41 1317,69 2372,57 237,257 106,6121 0,1886476 5,268013668 Medias: = X ∑x n i i i 612 = = 61, 2 ; n 10 = Y ∑y n i i i = n 114,3 = 11, 43 10 Varianzas: ( ) σ 2x =m 20 − X ( ) σ =m 02 − Y 2 y 2 2 ∑x n = 2 i n ∑y n = i i 2 i i n i ( ) − X ( ) − Y 2 67226 = − 61, 22 =2977,16 10 2 2372,57 = − 11, 432 =106, 6121 10 U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 16 Regresión y Correlación Covarianza: σ xy = m11 − XY = ∑x y n i i i n i − XY = 12611,5 − 61, 2 ⋅11, 43 = 561, 634 10 Los coeficientes de regresión: b= yx σ xy 561, 634 = = 0,1886476 σ2x 2977,16 b= xy σ xy 561, 634 = = 5, 268013668 σ2y 106, 6121 Coeficiente de correlación lineal: r= ± b yx ⋅ b xy = 0,1886476 ⋅ 5, 268013668 ≈ 0,996 . La correlación lineal es directa y casi perfecta U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 17 Regresión y Correlación 9.- Sea una parcela o porción de terreno, en la cual se han tomado las coordenadas relativas de los 12 puntos que se expresan en la tabla: Estaca X Y 1 37 64 2 39 71 3 29 53 4 42 67 5 31 55 6 30 58 7 35 77 8 28 57 9 32 56 10 22 51 11 41 76 12 37 68 c) Hallar el intervalo X ± σX . ¿Qué tanto por ciento de valores en la variable X quedan dentro de dicho intervalo? Siendo la distribución conjunta (X, Y) d) Calcular la matriz de covarianzas. c) El coeficiente correlación lineal. Interpretarlo d) La recta de regresión de Y sobre X. e) Varianza residual. f) El coeficiente de determinación. Interpretarlo. Solución: Y 64 XY X2 Y2 2368 1369 4096 71 2769 1521 5041 53 1537 841 2809 67 2814 1764 4489 31 55 1705 961 3025 30 58 1740 900 3364 35 77 2695 1225 5929 28 57 1596 784 3249 56 1792 1024 3136 X 37 39 29 42 32 U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 18 Regresión y Correlación 22 51 1122 484 2601 41 76 3116 1681 5776 37 68 2516 1369 4624 Sumas 403 753 25770 13923 48139 a) X ± σX 12 ∑x = X i 403 = 33,5833; 12 = 12 i =1 12 = σ2x ∑x i =1 n 2 i ( ) 2 − X= 13923 2 − 33,58333 = 32, 4097222 12 σX , X + σX 33.58333333 − 32.4097222 , 33.58333333 + 32, = 4097222 X −= Resultan 9 de los 12 valores de X 22 28 29 30 31 32 35 37 37 39 41 [ 27.89,39.276] 42 Tenemos el 75% de los valores 12 ∑y b) = σ2y i =1 2 i ( ) n − Y= 48139 2 − 62, 75 = 74, 0208333 12 − XY = 25770 − 33,58333333 ⋅ 62,= 75 40,1458333 12 2 12 σ = xy ∑x y n i =1 i i i n σ2x σ xy 32, 4097222 40,1458333 = Σ = σ xy σ 2y 40,1458333 74, 0208333 c)= rxy σ xy = σx σy 40,1458333 ≈ 0,8196 32, 4097222 74, 0208333 por tanto, la relación lineal es directa y buena d) Recta de regresión de y sobre x: y −= Y = ( y − 62, 75 ) σ xy σ2x (x − X) 40,146 y 21,15 + 1, 2387x ( x − 33,583) ⇒ = 32, 4097 e) La varianza residual o no explicada σ2r =σ2y (1 − R 2 ) =74, 0208 ⋅ (1 − 0,81962 ) ≈ 49, 729 f) R 2 = 0, 6718 67,18% es el porcentaje de la variación total de las y que se explica mediante la relación con x U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 19 Regresión y Correlación 10.- Se ha preguntado a 10 alumnos las horas de estudio (X) y la calificación obtenida en 1 − x + 2y = Estadística (Y) y como resultado obtenemos las rectas de regresión: y que 1 −5x + 3y = 1 . Se pide: la varianza marginal de la variable Y es σ 2y = a) El coeficiente de correlación lineal. b) Las medias marginales.c) La covarianza d) ¿Qué tiempo tiene que dedicar como mínimo para poder aprobar? Solución: a) Buscaremos los coeficientes de regresión despejando x e y: 1 1 y= + x 1 − x + 2y = 3 1 3 2 2 ⇒ r 2 = b xy ⋅ b yx = ⋅ = <1 ⇒ 1 3 1 5 2 10 −5x + 3y = x =− + y 5 5 Entonces 3 3 r 2 = ⇒ r =± 0,5477226<0,8 10 10 Correlación directa y muy débil. No se acepta el ajuste. b) 1 = X 1 − x + 2y = 7 ⇒ 1 −5x + 3y = Y = 4 7 c) b= xy σ xy σ xy 3 σ xy 3 / 5 1 6 3 = = ⇒ σ= ⇒ b= = = ⇒ σ 2x = xy yx 2 2 2 5 σy 1 5 5 σx σx 2 d) No podemos predecir el valor de la Y. U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 20 Regresión y Correlación 11.-. La intensidad de corriente I, que se aprecia en un amperímetro varía con la fuerza electromotriz aplicada E, de acuerdo con la tabla de datos experimentales adjunta: E 5 10 1.5 20 25 30 I -7 -2 1.0 4 10 12 Determinar: a) La matriz de covarianzas. b) El coeficiente de correlación lineal e interpretarlo. c) La recta de regresión de la variable intensidad sobre la fuerza electromotriz. ¿Cuál será el valor estimado de la intensidad para una fuerza electromotriz de 20? Solución: La media para cada variable es: = E E ∑= 15.25;= I I ∑ = i 3 n n Para el cálculo de varianzas y covarianzas, podemos formar la tabla I−I ( E − E) ( I − I) ( E − E) ( I − I) -7 -10.25 -10 102.50 105.0625 100 10 -2 -5.25 -5 26.25 27.5625 25 1.5 1 -13.75 -2 27.50 189.0625 4 4.75 1 4.75 22.5625 1 25.0 10 9.75 +7 68.25 95.0625 49 30.0 12 14.75 +9 132.75 217.5625 81 91,5 18 0 0 362.00 656.8750 260 E I 5 20.0 4 SUMAS i E−E 2 2 σ2E σEI 109.4791 60.3 = a) Para obtener la matriz de covarianza aplicamos 2 43.3 σEI σI 60.3 b) Para calcular el coeficiente de correlación aplicamos la siguiente ecuación: σ EI = rEI = 0.876 ⇒ rEI2 = 0, 767 , por tanto, la correlación es positiva (a mayor σE σI fuerza electromotriz mayor intensidad, además es buena el modelo explica el 76,7% σ xy = La recta de regresión de I/E es: I= −I E−E ⇒ I 0,5511E − 5, 4042 σ2E c) Para un valor de E = 20 esperamos una intensidad de 0,5511·20 - 5.4042 = 5,6176 ( U. D. de Matemáticas de la ETSITGC ) Asignatura: CÁLCULO Y ESTADÍSTICA 21 Regresión y Correlación 12.- La siguiente tabla representa una muestra de 6 valores de una variable estadística bidimensional (x,y). x 5 4 3 2 1 0 y 6.2 5.6 3.4 2.3 1.9 1.2 c) Representar el diagrama de dispersión. A la vista del diagrama de dispersión es lógico adoptar un ajuste lineal. d) Calcular: b1) La matriz de covarianzas. b2) El coeficiente de correlación lineal. Interpretarlo. c) Hallar la ecuación de la recta de regresión lineal y estimar el valor de “y” para x = 4. d) Calcular d1) La varianza residual. d2La varianza explicada por el ajuste lineal. Solución: a) Los puntos parecen estar próximos a una recta, por tanto, es lógico efectuar un ajuste lineal. b) En primer lugar calculamos las medias y varianzas marginales de la muestra, así como la covarianza muestral. X = 2.5; S2x = 3.5 ⇒ Sx ≈ 1.87; Y ≈ 3.43; S2y ≈ 4.19; Sy ≈ 2.05; Sxy ≈ 3.72 S2x La matriz de covarianzas viene dada por: S xy Sxy 3.5 3.72 = S2y 3.72 4.19 Sxy 3.72 = ≈ 0.97 . La relación entre X Sx ·Sy 1.87·2.05 e Y es muy buena, además nos indica que a mayor valor de la variable X mayor valor para la variable Y (correlación directa). c) La ecuación de la recta de Y sobre X es: Sxy 3.72 y 0.77 + 1.06x y −= Y x − X ⇒ y − 3.43 = ( x − 2.5) ⇒= 2 Sx 3.5 El valor estimado para “y” cuando x = 4 es y = 0.77 + 1.06·4 = 5.01 d) En la recta de Y/X la varianza residual o no explicada es S2r = S2y (1 − R 2 ) = 4.19(1 − 0.94) ≈ 0.24 La varianza explicada es igual a la varianza total menos la varianza no explicada. 2 Sexplicada = S2y − Sr2 = 4.19 − 0.24 = 3.95 , o bien El coeficiente de correlación lineal es= rxy ( ) 2 2 2 Sexplicada = S= 4.19·0.94 ≈ 3.95 y ·R U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 22 Regresión y Correlación 13.- Los siguientes datos representan los resultados, notas, de una determinada asignatura (Y) y el número de horas de estudio semanales (X) de 16 alumnos. ∑x i i = 96 ∑y ∑x = 64 i i i ∑x ⋅ y i = 492 i 2 i = 657 i ∑y 2 i = 526 i Se pide: e) Estimar el modelo de regresión simple que relaciona los resultados obtenidos con el número de horas dedicadas al estudio. f) Calcule una medida de la bondad del ajuste e interprete el resultado. g) Si un alumno ha estudiado 8 horas, ¿qué nota espera obtener en el examen? h) ¿Cuál es el número de horas mínimo que un alumno debe estudiar para superar la asignatura? Considerad que el 5 es el aprobado. Solución: a) 16 16 ∑x ∑y i =i 1 =i 1 = X n 96 = 6; = Y 16 = n i = 64 = 4 16 16 ∑x = σ i =1 2 x n 2 i ( ) 2 − X= 657 2 = -6 5, 0625 16 16 σ= 2 y ∑y i =1 n 2 i ( ) 526 2 − 4= 16,875 16 2 − Y= 16 σ xy= ∑x y n i i i i 492 − 6⋅= 4 6, 75 16 − XY= n La ecuación de la recta de Y sobre X es: σ xy 6, 75 4 y −= Y x − X ⇒ y= −4 y x−4 ( x − 6) ⇒ = 2 σx 5, 0625 3 σ xy 6,75 b)= rxy = ≈ 0,7302967433 σx σy 5, 0625 16,875 por tanto, la relación lineal es directa y buena 4 c) Si x=8 horas, entonces y = ⋅ 8 − 4 ≈ 6, 6 3 σ xy d) Recta de regresión de X sobre Y: x −= X y − Y e y=5 σ 2y ( ) ( = x-6 ) 6,75 ( 5 − 4 ) ⇒ x = 6, 4 horas 16,875 U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 23 Regresión y Correlación 14.- La siguiente tabla indica los litros de cerveza vendidos en un bar y la temperatura (en ºC) en la ciudad durante 5 días, temperatura 34 25 32 37 39 cerveza 123 198 232 267 187 a) ¿Existe correlación entre la temperatura y los litros de cerveza vendidos? b) Hallar e interpretar el coeficiente de determinación. c) Calcular la varianza residual del ajuste lineal de y (litros) sobre x (temperatura). d) Predecir la cantidad de cerveza que se vendería en este bar un día con una temperatura de 35ºC. Solución: (x − x ) (y − y) x y 169 177 20,25 1.17506 29913 164 172 90.25 15.3351 28208 2 2 xy 2 σ x = 23,44; σ y = 2321,04; σ xy = 226,44 2 = r σ xy = 0,9708072925 σx σy a) El coeficiente de correlación lineal es 174 177 0.25 1.17506 30798 muy próximo a 1, luego existe correlación 167 169 42.25 47.8311 28223 directa entre la temperatura y los litros de 177 180 12.25 16.6791 31860 cerveza vendidos. 162 172 132.25 15.3351 27864 182 177 72.25 1.17506 32214 172 169 2.25 47.8311 29068 177 185 12.25 82.5191 32745 174 174 0.25 3.67106 30276 179 177 30.25 1.17506 31683 185 182 132.25 37.0151 33670 2082 2111 547 270.917 366522 σ xy b) R = σx σy 2 2 0,97812 ≈ 0,9424667991 ⇒ = 94, 25% se explica por el modelo. c) En la recta de Y/X la varianza residual o no explicada es σ 2r =σ2y (1 − R 2 ) =2321,04(1 − 0,9425) ≈ 133,52 d) Para predecir los litros de cerveza se utiliza la recta de regresión de y sobre x, es decir, y =y + b yx (x − x) =201, 4 + 9, 66041(35 − 33, 4) =216,857 U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 24 Regresión y Correlación 15.- Los neumáticos subinflados o sobreinflados pueden acelerar el desgaste de los neumáticos y aumentar o disminuir el consumo. Se toma una muestra de tamaño 14 resultando: L: libras por pulg2 30 30 31 31 32 32 33 M : millas 29.5 30.2 32.1 34.5 36.3 35.0 38.2 L: libras por pulg2 33 34 34 35 35 36 36 M : millas 37.6 37.7 36.1 33.6 34.2 26.8 27.4 a) Hallar la matriz de covarianzas. b) Los coeficientes de correlación lineal (r) y de determinación (R2). Interpretarlos. c) Calcular la recta de regresión de L/M d) Calcular la varianza residual Solución: a) 2L 4 ; 2M 13.27 ; LM 0.828 13.27 0.828 M . 4 0.828 LM 0.1137 la correlación lineal es mala y negativa como podemos observar en L M el diagrama de dispersión. b) rLM Si ajustamos una recta R2 = 0.0129, la proporción de varianza explicada por la recta es muy pequeño, deberíamos intentar otro tipo de ajuste. c) La ecuación de la recta pedida es y = 0.2071·x + 40.85 d) La varianza residual es e L 1 R 2 1.97 . Diagrama de dispersión y = ‐0,2071x + 40,35 R² = 0,0129 50 Millas 40 30 20 10 0 28 30 32 34 36 38 Libras U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 25 Regresión y Correlación 16.- Conocidas la media aritmética y la varianza de cada una de las variables asociadas a una distribución bidimensional, X =3, Y =2, σ2x=6, σ2y=8 de la que se conoce, además, la recta de regresión de Y sobre X, 2x+3y-12=0. Obtener el coeficiente de correlación lineal y la recta de regresión de X sobre Y. Solución: Al ser la recta de regresión de Y sobre X despejamos: σ σ 2 2 y = − x + 4 ⇒ b yx = xy2 = xy = − ⇒ σ xy = −4 3 σx 6 3 σ -4 1 rxy =xy = = − ≈ −0,57 correlación mala σx σy 6 8 3 Recta de regresión de X sobre Y: x −= X x − 3 =− σ xy σ 2y ( y − Y) 4 1 − y+4 ( y − 2) ⇒ x = 8 2 U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 26 Regresión y Correlación 17.- Sea la distribución conjunta de la variable x = “número de habitaciones de un piso” con respecto a la variable y = “precio de alquiler en euros”. x\y 0-500 500-1000 1000- 1500 2 2 2 0 3 8 12 16 4 4 13 18 Se pide: a) Distribuciones marginales de las variables x e y. b) Moda y mediana de las variables x e y. c) Centro de gravedad de la distribución conjunta. d) Recta de regresión de x sobre y. e) Coeficiente de correlación lineal. f) Si disponemos de 600 euros ¿Cuál es el mayor número de habitaciones de un piso de alquiler que podemos conseguir? Solución: x\y xini. xi2ni. 250 750 1250 ni. 2 8 16 2 2 0 4 3 108 324 8 12 16 36 4 140 560 4 13 18 35 n.j 256 900 14 27 34 75 yjn.j 3500 20250 42500 66250 yj2n.j 875000 15187500 53125000 69187500 44 92 120 256 11000 69000 150000 230000 RESULTADOS: X Y 3,413333333 883,3333333 m1 12,00000 922500 m2 0,34916 142222,22222 varianzas 3066,666667 m11 covarianza 51,55555556 0,231356797 r a) Distribución marginal de x: x ni. 4 2 36 3 35 4 Distribución marginal de y: y 0-50 50-100 100-150 14 27 34 n.j b) Moda (x) = 3; Moda (y) = (100,150) Mediana (x) x ni. Ni. 4 4 2 36 40 3 35 75 4 U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 27 Regresión y Correlación La mediana de x es 3 Mediana (y) y n.j N.j 14 14 0-500 27 41 500-1000 34 75 1000-1500 La mediana es el valor que deja a su izquierda el 50% de la población, es decir, N 75 = = 37,5 ∈ (14, 41) que no se corresponde con un valor de la columna de frecuencias 2 2 absolutas acumuladas y por tanto hay interpolar en el intervalo (50,100). N 75 − N i −1 a − 14 ⋅ 500 2 2 = 935,185 = Me = ei −1 + 500 + ni 27 c) Centro de gravedad: 256 66250 256 2650 = X, Y = , , ≈ ( 3.41,883.3) 75 75 3 75 ( ) d) Recta de regresión de x sobre y: x −= X σ = xy = σ 2y ∑x y n i i i N ∑y n 2 i i N i i − XY = ( ) 2 −= Y σ xy σ 2y ( y − Y) 23000 256 2650 − ⋅ = 51,56 75 75 3 2 691875 2650 − = 142222, 22 75 3 2560 51,56 x −= 0.000036253125y+34,13211584 ( y − 33,583) ⇒ x = 75 142222, 22 σ xy 51,56 = ≈ 0, 23 . El ajuste es “malo” por ser un valor σx σy 0,3491 142222, 2 próximo a cero. e)= rxy f) g) No se puede predecir. U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 28 Regresión y Correlación 18.- A partir del diagrama de dispersión Se pide: a) Coeficiente de correlación lineal. b) Recta de regresión de y sobre x. c) Si y=2 ¿qué valor se puede estimar para la variable x? d) Representar las rectas de regresión sobre el diagrama de dispersión. Solución: x y xy x2 y2 0 1 2 3 6 1 0 0 1 3 3 1 9 4 8 4 16 4 12 9 16 12 23 14 42 2 1 6 1 14 X= x= = 1,5 ; σ 2x = x i2 − X = − 1,52 = 1, 25 ∑ ∑ i N i 4 N i 4 2 1 42 2 1 12 y 2j − Y = − 3 = 1,5 Y = y=j = 3 ; σ 2y= ∑ ∑ N j 4 N j 4 1 23 σ xy = x i y j − XY = − 1,5 ⋅ 3= 1, 25 ∑∑ N i j 4 σ xy 1, 25 a)= rxy = ≈ 0,9128709291 Ajuste directo y muy bueno. σx σy 1, 25 1,5 b) La recta de regresión de Y sobre X: σ xy 1, 25 y −= Y x − X ⇒ y= −3 ( x − 1.5) ⇒ ⇒ y= x + 1.5 2 σx 1, 25 c) La recta de regresión de x sobre y: σ xy 1, 25 x −= X y − Y ⇒ x − 1.5 = ( y − 3) ⇒ ⇒ x= 5/6 y - 1 2 σy 1,5 ( ( ) ) Para un valor de y=2 se obtiene x= (5/6) 3-1=3/2 d) U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 29 Regresión y Correlación 18.- En una unidad de pediatría, se obtuvieron los siguientes datos respecto a los pesos y edades de los niños atendidos. Peso en kilos 0 0–4 2 4–8 4 8 – 12 12 – 16 16 - 20 Edad en años 1 2 3 2 8 1 2 9 2 4 7 8 14 1 a) Obtener la mediana del peso en kilos. b) ¿Qué distribución tiene mayor dispersión relativa? c) Si un niño tiene 2 años y pesa 10 kg, ¿qué percentil representa entre los niños de 2 años? d) Hallar el sesgo de la distribución de peso en kilos. e) Hallar el coeficiente de correlación lineal. Interpretarlo. f) Si un niño tiene un año ¿cuál será su peso estimado? g) Si un niño pesa 10 kilos ¿cuántos años se estima que tendrá? Solución x\y 0 2 2 6 4 1 2 3 xini. xi2ni. 2 4 8 8 48 288 4 ni. 2 2 10 8 9 7 24 240 2400 14 1 2 8 14 25 350 4900 1 1 18 324 660 7920 18 n.j 6 11 13 15 15 60 yjn.j 0 11 26 45 60 142 yj2n.j 0 11 52 135 240 438 28 106 130 xiyjnij 182 214 546 856 1768 0 106 260 RESULTADOS: X m1 m2 Y 11 2,366667 132 7,3 U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 30 Regresión y Correlación σ2 11 1,698889 CV 0,301511 0,550738 m11 29,46667 σxy 3,433333 r 0,794213 a) Para obtener la mediana de la variable x escribimos la distribución marginal de x: x n/2=30; b) Medias ni. Ni. 0–4 2 2 4–8 8 10 8 – 12 24 34 12 – 16 25 59 16 - 20 1 60 M=8+(30-10)*4/24=11,333 x= 660 1 5 = 11 ; xi ni. = ∑ 60 n i =1 y= 142 1 5 = 2,366667 y j n. j = ∑ 60 n j =1 Varianzas σ x2 = 7920 1 5 2 − 112= 11 ; xi ni. − x 2= ∑ 60 n i =1 2 438 142 1 5 2 1, 698889 = y j n. j − y 2 = − σ ∑ = n j =1 60 60 2 y Coeficiente de variación σy 1,698889 11 ≈ 0,55 . La edad de los niños. y) = = ≈ 0,30 ; CV (= 2,366667 y 11 x c) La distribución de frecuencias acumuladas para el total de 13 niños con 2 años es: CV (= x) σx x ni 0-4 Ni 0 4-8 2 2 8-12 9 11 12-16 2 13 U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 31 Regresión y Correlación Teniendo en cuenta que el peso de 10 kg es justamente la mitad del intervalo (8,12) le corresponde la mitad de 9, es decir, la frecuencia absoluta acumulada es 2+9/2=6,5 sobre el total de 13. Justamente el 50%. Percentil 50 o mediana. d) Sesgo o coeficiente de asimetría g1 33 (xi-media)3ni. ni. x 2 2 -1458 6 8 -1000 10 24 -24 14 25 675 18 1 343 sumatorio -1464 μ3 -24,4 3 1 x i. X n i. 24, 4 0, 67 Asimétrica por la izquierda. g1 N 3 3 11 e) xy rxy x y n i i i xy N x y i XY 1768 162 11 3, 43 60 60 3, 43 0, 79 . El ajuste es “bueno” y directo por ser un valor 11 1, 698889 superior a 0,7 f) La recta de regresión de x sobre y permite determinar los valores de x para valores conocidos de y: x X xy2 y Y y x 11 3, 43 162 y x = 2,020907769·y + 6,21651131 1, 698889 60 Para y=1 se obtiene un peso de x= 2,020907769 + 6,21651131 = 8,23741907 kg g) La recta de regresión dey sobre x permite determinar los valores de y para valores conocidos de x: y Y xy2 x X x 162 3, 43 y x 11 y = 0,3121181818·x – 1,0663 60 11 Para x=10 se obtiene un peso de y = 0.3121181818·10 – 1,0663= 2,054545 años U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 32 Coeficiente de variación de Pearson Es el cociente de la desviación típica y la media. CV X Es siempre positivo y no existe si la media vale cero. Es frecuente expresarlo en tanto por ciento. Es independiente de la unidad que se utilice, pues no tiene unidades y por tanto nos permite comparar la dispersión de dos distribuciones que tengan unidades diferentes, o que tengan medias muy distintas. U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía 27 Matriz de covarianzas Llamamos matriz de covarianzas, a la matriz cuadrada simétrica que tiene en la diagonal principal las varianzas marginales, y fuera de la diagonal principal S2x las covarianzas, es decir Syx 2x xy 2 xy y Sxy ; que es simétrica, pues S xy S yx . O bien S2y Se llama varianza generalizada al valor S2xS2y S2xy 0 y mide aproximadamente el área ocupado por el conjunto de datos. U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía 128 Coeficiente de correlación lineal Coeficiente de correlación lineal es la media geométrica de los coeficientes de regresión byx y bxy. r b yx b xy 2 xy xy 2x 2y 2xy 2x 2y r xy x y El coeficiente de correlación lineal es un número abstracto y es independiente de las unidades utilizadas en las variables, cuyo signo es el de la covarianza, ya que las varianzas son positivas, y comprendido entre -1 y +1. U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía 27 http://www2.topografia.upm.es/...ero/Apuntes/Vademecum/Recta%20de%20regresi%f3n%20de%20y%20sobre%20x.JPG[26/02/2012 21:00:48] Recta de regresión de x sobre y Es el ajuste por mínimos cuadrados, a una recta. x a by x X xy 2y (y Y) que es la ecuación de la recta de regresión de x sobre y. Esta recta permite calcular, aproximadamente, los valores de x dados los de y. Interpretación geométrica. x Mv (x1 a by1 ) 2 ...... (x N a by N ) 2 e12 ...... e2N MÍNIMA 2 como ei x i a byi x i x i error horizontal o distancia horizontal (x i teórico) y yj xi x* j x Una vez construidas las rectas de regresión, la pendiente de la de x sobre y es mayor que la correspondiente a la recta de regresión de y sobre x. x=a+by , , y=a +b x y x U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía 168 Coeficiente de determinación Es el porcentaje de varianza explicada por la recta de regresión y su valor siempre estará entre 0 y 1 y siempre es igual al cuadrado del coeficiente de correlación. Es una medida de la proximidad o de ajuste de la recta de regresión a la nube de puntos. También se le denomina bondad del ajuste. 1-R2 nos indica qué porcentaje de las variaciones no se explica a través del modelo de regresión. U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía 27 Polígono de frecuencias Polígono de frecuencias de una variable discreta, sin agrupar: es una línea que se obtiene uniendo los extremos superiores de las barras en el diagrama de barras. frecuencia (absoluta o relativa) 16 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 14 12 10 8 6 4 2 0 Para variables estadísticas agrupadas en intervalos de clase. El polígono de frecuencias es una línea que se obtiene uniendo los puntos medios de las bases superiores (los techos) de cada rectángulo en el histograma. De forma que empiece y acabe sobre el eje de abscisas, en el punto medio del que sería el intervalo anterior al primero y el último respectivamente. xx x 0 1 x i x k x k+1 U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía 158 Polígono de frecuencias acumuladas Para variables estadísticas sin agrupar en intervalos de clase. Representamos en el eje de abscisas los distintos valores de la variable estadística. Levantamos sobre cada uno de ellos un perpendicular cuya longitud será la frecuencia (absoluta, Ni, o relativa, Fi) acumulada correspondiente a ese valor. De esta forma aparece un diagrama de barras creciente. Trazando segmentos horizontales de cada extremo de barra a cortar la barra situada a su derecha se obtiene el diagrama o polígono de frecuencias acumuladas. 40 35 Ni 30 25 20 15 10 5 0 xi Para variables estadísticas agrupadas en intervalos de clase. En el eje de abscisas representamos los distintos intervalos de clase de una variable estadística que han de estar naturalmente solapados. Sobre el extremo superior de cada intervalo se levanta una línea vertical de longitud equivalente a la frecuencia (absoluta o relativa) acumulada del mismo. Se obtiene así un diagrama de barras creciente, que uniendo sus extremos da lugar al polígono de frecuencias acumuladas. Alcanzará su máxima altura en el último intervalo, que tendrá de frecuencia N ó 1 según se trate de frecuencias acumuladas absolutas o relativas. N Ni e0 e1 ei ei+1 ek U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía 155 Distribución marginal Distribución marginal de la variable "x" son los valores que toma dicha variable con sus respectivas frecuencias en la distribución conjunta de la variable bidimensional (x,y) x ni.. x1 n1. x2 n2. .... .... xi ni. .... .... xr nr. U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía 63 Mediana Mediana de un triángulo es el segmento que une un vértice con el punto medio del lado opuesto. Mediana de un triángulo esférico es el arco de circunferencia máxima que une un vértice con el punto medio del lado opuesto. En Estadística: La mediana es el valor de la variable que ocupa el lugar central, es decir, que la mitad de la población es menor y la otra mitad es mayor que él. La mediana es un valor M tal que F(M)=1/2, se define así como raíz de una ecuación. Para las variables estadísticas se ordenan en forma creciente, dejando igual número de observaciones inferiores que superiores a ella. a) En las distribuciones sin agrupar, en general, no tiene solución, puesto que la función F(x) varía por saltos: 1) Si ningún valor posible x i corresponde a F( x i )=1/2 se conviene en considerar 1 como mediana el valor x i tal que: F( x i 1 ) F( x i ) 2 1 2) Si uno de los valores xi corresponde a F( x i ) (lo que ocurre solamente si el 2 total N de la población es par) la mediana está indeterminada entre los valores xi y xi+1. El intervalo (xi, xi+1) se denomina mediano, o bien llamamos mediana al punto medio de dicho intervalo. b) En las agrupadas pueden darse dos casos: INTERVALO xi ni Ni e0 -- e1 x1 n1 N1 e1 -- e2 x2 n2 N2 ............ ... ... .... ej-2 – ej-1 xj-1 Nj-1 Nj-1 ej-1 -- ej xj nj Nj ............ ... ... ... ek-1 -- ek xk nk N N 1) coincide con uno de los recogidos en la columna de frecuencias acumuladas, 2 por ejemplo Nj, en este caso la mediana es ej. N 2) está entre N j1 y N j . La mediana se encontrará en el intervalo ( e j1 , e j ) . La 2 mediana será M e j1 h y por interpolación lineal se obtiene h. Amplitud del intervalo: a = e j e j-1 N N nj a ( N j 1 ) a ( N j1 ) a h 2 M e j 1 2 N nj nj N j1 h 2 Cuantiles Cuantil de orden es un valor de la variable estadística que deja a su izquierda una parte de la población y a la derecha una parte 1- de la población. El Cuantil de orden (0 1) es x tal que F( x )=. Siendo F la función de distribución o la frecuencia relativa acumulada. Los más utilizados son los cuartiles Q1, Q2 y Q3 que dejan a su izquierda 1/4, 1/2 y 3/4 de la población respectivamente. Obsérvese que Q2 = M (Mediana). Los deciles D1, D2, ..... , D9 dejan a su izquierda 1/10, 2/10, ..., 9/10 de la población respectivamente. Los percentiles P1, P2, ........, P99 dejan a su izquierda 1/100, 2/100, ..... 99/100 de la población respectivamente. El cálculo de los mismos es similar al cálculo de la mediana. U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía 33 Varianza residual La varianza residual se define como la varianza de los errores o residuos Varianza residual de una variable aleatoria X con respecto a otra Y es igual a la varianza de Y por (1-r2), siendo r el coeficiente de correlación lineal entre ambas variables. La varianza residual o no explicada 2r 1 (yi * y j )2 n ij 2y (1 r 2 ) n i, j Siendo el valor ajustado o teórico= yi * U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía 168 Varianza explicada En la recta de regresión de la Y sobre X la varianza total de la variable Y puede descomponerse en dos partes una parte explicada por la regresión (la varianza de la regresión) y otra parte no explicada (la varianza residual). La varianza explicada, será la obtenida por el producto de la varianza de Y por el coeficiente de determinación R2. U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía 201 Media aritmética La media de una variable estadística es la suma ponderada de los valores k k i 1 i 1 n N posibles por sus respectivas frecuencias: X fi x i i x i 1 k ni xi N i 1 x i = valores que toma la variable o marca de clase. fi = frecuencias relativas. n i = frecuencias absolutas. N = número total de la población o muestra. Relación entre las medias armónica, geométrica y aritmética: H G X La media o esperanza matemática de una variable aleatoria es: m1 E x E = n x P( X ) para una variable discreta y finita. i i 1 E = i x.f (x).dx cuando la variable es continua con función de densidad f(x). Media armónica Medida de tendencia central de una variable estadística es el cociente entre el tamaño de la muestra y la suma de los cocientes de las frecuencias por los valores de las correspondientes de la variable: H N ni i 1 x i k x i = valores que toma la variable o marca de clase. fi = frecuencias relativas. n i = frecuencias absolutas. N = número total de la población o muestra. Relación entre las medias armónica, geométrica y aritmética: H G X Media cuadrática Medida de tendencia central de una variable estadística es la raíz cuadrada de la suma ponderada de los cuadrados de los posibles valores de la variable multiplicados por sus respectivas frecuencias: MC k f x i 1 i 2 i k ni Nx i 1 2 i Media geométrica Medida de tendencia central de una variable estadística que resulta de la raíz nésima del producto de los valores posibles de la variable, elevados a a sus respectivas frecuencias: G N x1n .x 2n ...x kn x i = valores que toma la variable o marca de clase. fi = frecuencias relativas. n i = frecuencias absolutas. N = número total de la población o muestra. Relación entre las medias armónica, geométrica y aritmética: H G X 1 2 k U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía 136 Varianza muestral o cuasivarianza La varianza muestral viene dada por: k N N S2 2 , es decir: S2 N 1 N 1 ( x i X) 2 i 1 N k (x i X) 2 i 1 N 1 Nótese que para N suficientemente grande la diferencia entre 2 y S2 es muy pequeña. U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía 207 Diagrama de cajas o Box-plot Se construye sólo para variables cuantitativas. Pasos a seguir: •Se dibuja un rectángulo cuyos extremos son Q1 y Q3 y se indica la posición de la mediana mediante una línea vertical. También se indica la media mediante una cruz (+). •Se dibuja una línea desde cada extremo del rectángulo hasta el valor más alejado no atípico. •Se calculan los límites de admisión (barreras o bigotes) LI =Q1 -1,5 (Q3- Q1) LS =Q3 +1,5 (Q3- Q1) •Se marcan todos los datos considerados como atípicos (outliers) son los que quedan fuera de los límites de admisión se indican mediante un círculo. Existen otros valores atípicos más graves (atípicos extremos) que superen 3 veces el rango intercuartilíco y se representan por cruces (x). Si no hubiese ningún dato atípico las barreras llegarían hasta el valor mínimo y máximo. Q1 Q2 = M Q3 + Q1-1,5(Q3-Q1) Q3+1,5(Q3-Q1) U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía 56 Histograma En un histograma se representan las frecuencias de una variable estadística mediante áreas. De tal forma que un histograma es un conjunto de rectángulos que tienen como base los intervalos de clase y cuya superficie son las frecuencias (absolutas o relativas). Por tanto las alturas son proporcionales a las frecuencias, y será el cociente entre la frecuencia y la amplitud del intervalo. 16 14 12 10 8 6 4 2 0 1 2 3 4 5 Donde cada rectángulo puede ser: fi ni ai ai fi ni ei-1 ei ei-1 U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía ei 114 Varianza Varianza o momento de segundo orden respecto de la media en una variable estadística es la media de los cuadrados de las desviaciones a la media: k 2 i 1 ( x i X) 2 n i N x i = valores de la variable o marcas de clase. La varianza de una variable aleatoria es el momento de segundo orden respecto a 2 la media: 2 2 E x x V = x i 1 n 2 x P(X i ) para una variable discreta y finita. i V = 2 x x .f (x).dx cuando la variable es continua con función de 2 densidad f(x). Varianza explicada En la recta de regresión de la Y sobre X la varianza total de la variable Y puede descomponerse en dos partes una parte explicada por la regresión (la varianza de la regresión) y otra parte no explicada (la varianza residual). La varianza explicada, será la obtenida por el producto de la varianza de Y por el coeficiente de determinación R2. Varianza muestral o cuasivarianza La varianza muestral viene dada por: k N N S2 2 , es decir: S2 N 1 N 1 ( x i X) 2 i 1 N k (x i X) 2 i 1 N 1 Nótese que para N suficientemente grande la diferencia entre 2 y S2 es muy pequeña. Varianza residual La varianza residual se define como la varianza de los errores o residuos Varianza residual de una variable aleatoria X con respecto a otra Y es igual a la varianza de Y por (1-r2), siendo r el coeficiente de correlación lineal entre ambas variables. La varianza residual o no explicada 2r 1 (yi * y j )2 n ij 2y (1 r 2 ) n i, j Siendo el valor ajustado o teórico= yi * U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía 207 Coeficiente de regresión El coeficiente de regresión de la variable y con respecto a la variable x, es la pendiente de la recta de y sobre x, por consiguiente, el sentido de crecimiento o decrecimiento, así como el grado de variación, viene determinado por el signo y el valor del coeficiente de regresión b yx xy 2x . U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía 27 Covarianza xy recibe el nombre de covarianza, de gran importancia práctica, se define como la media aritmética de los productos de las desviaciones de la variable x con respecto a su media aritmética, X , por las desviaciones de la variable y con respecto a la media aritmética, Y . r s xy i 1 j1 (x i X)(y j Y)n ij N De la misma forma que en el caso de la varianza, se define la covarianza muestral por: r s ( x X )( y Y ) n N i j ij siendo S xy xy . S xy N 1 N 1 i 1 j1 U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía Moda Moda es el valor de la variable que se presenta con más frecuencia dentro de la distribución. En las distribuciones sin agrupar se observa directamente el valor de mayor frecuencia. En las agrupadas, definimos la clase modal como la que tiene mayor frecuencia. NOTA: Algunas distribuciones pueden presentar varias modas. Cada moda corresponde a un máximo absoluto del diagrama de barras o histograma. Para variables aleatorias La moda es el máximo de la función de densidad o de la función de probabilidad U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía 118 Centro de gravedad Las dos rectas de regresión y Y b yx ( x X) , x X b xy ( y Y ) se cortan en un punto, que es precisamente el ( X, Y) , llamado, por su naturaleza de promedio, centro de gravedad de la distribución. U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía 21 Diagrama de dispersión o nube de puntos Las estadísticas de dos variables suelen representarse en un sistema de ejes cartesianos, tomándose los valores de la variable "x" en el eje de abscisas y los de la variable "y" en el de ordenadas y señalándose la confluencia en el plano con un punto. El conjunto de puntos así obtenidos, en un número igual al de observaciones conjuntas efectuadas, recibe el nombre de diagrama de dispersión o nube de puntos. Diagrama de dispersión 55 y y j x i x U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía 48 Sesgo Para obtener una medida adimensional de la simetría de una variable estadística, se define el coeficiente de asimetría o sesgo Coeficiente de Asimetría de Pearson: As X Mo . Mide la asimetría respecto de la moda. Si As=0 es simétrica respecto de la moda. X M0 . Si As>0 es asimétrica a la derecha de la moda. X M0 . Si As<0 es asimétrica a la izquierda de la moda. X M0 . Si la moda no es única, no está definido. n x 1 k Coeficiente de Asimetría de Fisher: g1 3 3 n i 1 i i X 3 3 Es un coeficiente adimensional y mide la asimetría respecto de la media. Si g1=0 la distribución es simétrica o no sesgada. Si g1<0 la distribución es asimétrica o sesgada a la izquierda y X Me Mo . Si g1>0 la distribución es asimétrica o sesgada a la derecha y Mo Me X . El sesgo es la diferencia entre el valor esperado de un estimador y el verdadero valor del parámetro: E(θ*) - θ