www.clasesalacarta.com 1 Tema 9.- Distribuciones Bidimensionales. Correlación y Regresión Distribuciones Bidimensionales Se estudian 2 características distintas. Relación funcional Relación estadística Dos variables x e y están relacionadas funcionalmente cuando conocida la primera se puede saber con exactitud el valor de la segunda. Dos variables x e y están relacionadas estadísticamente cuando conocida la primera se puede estimar aproximadamente el valor de la segunda. Variable estadística bidimensional Variable en la que cada individuo está definido por un par de caracteres, (x, y). Estos dos caracteres son, a su vez, variables estadísticas en las que sí existe relación entre ellas, una de las dos variables es la variable independiente y la otra variable dependiente. Distribuciones bidimensionales Son aquellas en las que a cada individuo le corresponden los valores de dos variables, las representamos por el par (xi, yi). Si representamos cada par de valores como las coordenadas de un punto, el conjunto de todos ellos se llama nube de puntos o diagrama de dispersión. Sobre la nube de puntos puede trazarse una recta que se ajuste a ellos lo mejor posible, llamada recta de regresión. 2 1 xi yi 3 3 4 2 4 4 5 4 6 4 6 6 7 4 7 6 8 7 10 9 10 10 yi xi Covarianza σxy = fi xi -x yi-y = N fi ·xi ·yi - x·y N La covarianza indica el sentido de la correlación entre las variables Si xy >0: correlación directa Si xy < 0: correlación inversa La covarianza presenta como inconveniente, el hecho de que su valor depende de la escala elegida para los ejes. n xi yi xi · yi x= 72 =6 12 2 1 2 3 3 9 4 2 8 4 4 16 5 4 20 6 4 24 6 6 36 y= 7 4 28 60 =5 12 7 6 42 8 7 72 10 9 90 10 10 100 72 60 431 12 σxy = 431 - 6·5 = 5.92 12 á á 2 Matemáticas _ CCSS _ 1º Bachillerato Correlación La correlación trata de establecer la relación o dependencia que existe entre las dos variables que intervienen en una distribución bidimensional. Es, por tanto, determinar si los cambios en una de las variables influyen en los cambios de la otra. En caso de que suceda, diremos que las variables están correlacionadas o que hay correlación entre ellas. Si no sucede, son variables incorreladas. Tipos de correlación Directa Grado de correlación Inversa Fuerte Débil Nula Coeficiente de Correlación Lineal r= σxy σx · σy Propiedades del coeficiente de correlación 1. No varía al hacerlo la escala de medición 2. Su signo es el mismo que el de la covarianza a. Si xy > 0: correlación directa. b. Si xy < 0: correlación inversa. c. Si xy = 0: no existe correlación. 3. -1 r 1: a. Si r −1: correlación fuerte e inversa. b. Si r 1: correlación fuerte y directa. c. Si r 0: correlación débil. d. Si r = −1 o r = 1: los puntos de la nube están sobre la recta creciente o decreciente. Entre ambas variables hay dependencia funcional. 2 1 xi yi 3 3 4 2 4 4 5 4 6 4 6 6 7 4 7 6 8 7 10 9 10 10 n xi yi xi · yi 2 xi 2 yi 2 1 2 4 1 1º.Hallamos las medias: x= 3 3 9 9 9 4 2 8 16 4 72 =6 12 2º.Hallamos la covarianza: σxy = 4 4 16 16 16 y= 431 12 5 4 20 25 16 6 4 24 36 16 6 6 36 36 36 7 4 28 49 16 7 6 42 49 36 8 7 72 64 49 10 9 90 100 81 10 10 100 100 100 σy = 380 12 2 72 60 431 504 380 60 =5 12 6·5 = 5.92 3º.Calculamos las desviaciones típicas: σx = 4º.Aplicamos la fórmula del coeficiente: r = 504 12 2 - 6 = 2.45 5.92 2.45 · 2.58 - 5 = 2.58 = 0.94 5º.Al ser r > 0, la correlación es directa, como r 1, la correlación es muy fuerte. 12 www.clasesalacarta.com 3 Tema 9.- Distribuciones Unidimensionales. Parámetros Recta de Regresión La recta de regresión es la que mejor se ajusta a la nube de puntos. Pasa por el punto x, y llamado centro de gravedad. Recta de regresión de Y sobre X Recta de regresión de X sobre Y Para estimar los valores de la Y a partir de los de la X. Para estimar los valores de la X a partir de los de la Y. Pte: y-y= xi yi σxy σ2x Pte: · x-x x - x= σxy σ2y r=0 r=0 y=y x=x 2 1 3 3 4 2 4 4 5 4 6 4 6 6 7 4 7 6 8 7 10 9 · y-y 10 10 n xi yi xi · yi 2 xi 2 yi 2 1 2 4 1 3 3 9 9 9 4 2 8 16 4 1º. Hallamos las medias: x = 72 12 4 4 16 16 16 5 4 20 25 16 =6 2º. Hallamos la covarianza: σxy = 431 12 6 4 24 36 16 y= 60 12 6 6 36 36 36 7 4 28 49 16 7 6 42 49 36 10 10 100 100 100 72 60 431 504 380 8 7 72 64 49 10 9 90 100 81 σy = 380 2 -5 = 2.58 12 =5 - 6·5 = 5.92 3º. Calculamos las desviaciones típicas: 4º. Recta de Regresión de y sobre x: 5º. Recta de Regresión de x sobre y: σx = y-5= x-6= 504 12 2 - 6 = 2.45 5.92 2 2.58 5.92 2.45 2 x - 6 → y = 0.987x - 0.922 y - 5 → x = 0.889y + 1.556 x = 0.8 y + 1.5 y= 0.9 x + 0.9 12