CORRELACIÓN Y REGRESIÓN LINEAL 1. Coeficiente de correlación Al efectuar el estudio estadístico de un colectivo podemos estudiar dos caracteres simultáneamente, por ejemplo quizás queramos investigar sobre las alturas y pesos de una muestra de alumnos del Instituto para comprobar si entre ambas variables hay alguna relación (quizás sea lógico pensar que uno pesa más cuanto más mide). El estudio de dos caracteres simultáneos en cada individuo de una población va a dar lugar a lo que se conoce con el nombre de distribución estadística bidimensional. Basándonos en los conocimientos que ya tenemos del estudio de las variables estadísticas unidimensionales (de un sólo carácter), podemos calcular medias y desviaciones típicas de cada carácter por separado mediante las fórmulas ya conocidas: Definimos ahora la covarianza de dos variables como la media aritmética de los productos de las desviaciones de cada variable respecto a su media, con lo que su cálculo se pude realizar así: Donde fij se llama frecuencia absoluta conjunta del par de valores (xi, yj). El cálculo de la covarianza mediante la expresión anterior resulta un poco complicado por lo que después de realizar una serie de transformaciones la podemos transformar así: que es la fórmula que emplearemos para su cálculo. Sea el ejemplo mencionado anteriormente de investigar sobre la relación entre estatura y pesos de 15 alumnos del Instituto a cada uno de los cuales lo representaremos por una pareja de números, el primero de los cuales es su estatura en cm. y el segundo es su peso en kg. Después de medirlos y pesarlos, el resultado ha sido: (140, 40), (165, 60), (190, 80), (190, 80), (160, 55), (180, 75), (200, 90), (200, 90), (190, 80), (140, 40), (165, 60), (165, 60), (140, 40), (160, 55), (140, 40). Construyamos la siguiente tabla de frecuencias: xi yj fi fj xifi yjfj 140 40 4 4 560 160 -28,3 800,89 3203,56 160 55 2 2 320 110 -8,3 68,89 137,78 165 60 3 2 495 120 -3,3 10,89 32,67 180 75 1 2 180 150 11,7 136,89 136,89 190 80 3 4 570 320 21,7 470,89 1412,67 200 90 2 1 400 90 31,7 1004,89 2009,78 15 15 2525 950 6933,35 de las columnas 5 y 6 -23,3 542,89 2171,56 -8,3 68,89 137,78 -3,3 10,89 21,78 11,7 136,89 273,78 16,7 278,89 1115,56 26,7 712,89 712,89 4433,35 De las columnas 8 y 11 de la tabla anterior, se tiene: La covarianza la calculamos así: Al cociente entre la covarianza y el producto de las desviaciones típicas de ambas variables se le denomina coeficiente de correlación. Su cálculo, para nuestro ejemplo será: El valor de r ha de estar necesariamente comprendido entre -1 y 1. Si r=1 ó r=-1, la dependencia entre ambas variables es perfecta (funcional). Si 0,5<r<1 ó -1<r<0,5 , la dependencia es significativa. Si -0,5<r<0,5 prácticamente se puede decir que no hay dependencia estadística 2. Dependencia estadística El estudio simultáneo de dos caracteres estadísticos nos induce a pensar en la existencia de una posible relación entre ellos. Si a cada valor de xi le podemos asignar un sólo valor yi mediante una relación de la forma y=f(x), diremos que existe una dependencia funcional entre ambas, pero también puede observarse que existen características en las que es evidente una relación entre ellas pero no es posible establecer una función en el sentido matemático. A esta relación no expresable por una fórmula la llamaremos dependencia estadística. La posible dependencia estadística entre dos variables se puede observar en un dibujo llamado nube de puntos en el cual, en el eje de abcisas colocamos los valores de la 1ª variable y en el de ordenadas los de la 2ª, representado cada par (xi, yi) por un punto del plano. Cuanto más agrupados estén los puntos de la nube, mayor es el grado de dependencia entre las variables, así, para el ejemplo que hemos estudiado anteriormente, su nube de puntos sería: Caso que exista dependencia estadística nos interesa ajustar la nube de puntos a otros que estén ligados entre sí por una función matemática que se aproxime a ellos lo más posible. En el apartado siguiente veremos cómo ajustar una recta a la nube de puntos, recta que denominaremos recta de regresión 3. Rectas de regresión. Denominaremos recta de regresión a la que mejor se ajuste a la nube de puntos. Se dice que una línea se ajusta lo mejor posible a una nube de puntos cuando la suma de las desviaciones de los puntos de la nube a dicha recta es la menor posible. Podemos determinar dos rectas de regresión diferentes. Si deseamos saber el comportamiento de la variable Y según los valores que tome la variable X, la recta se llama de regresión de Y sobre X, y, se puede demostrar, aunque no lo podemos hacer aquí, que esta recta tiene por ecuación: Análogamente podemos escribir una recta de regresión de X sobre Y de la siguiente manera: Donde: = media de la variable X = media de la variable Y = varianza de la variable X = varianza de la variable Y = covarianza se llaman coeficientes de regresión. Para el ejemplo desarrollado anteriormente de pesos y estaturas, dado que teníamos los siguientes valores: La recta de regresión de Y sobre X será: La recta de regresión de X sobre Y será: Después de operar en ambas para ponerlas en la forma explícita, queda: y=0,7210x-58,0443 x=1,1265y+96,9925 Con ellas podemos aproximar el peso o la estatura de determinadas personas que no aparezcan en la muestra elegida. Así, si nos piden determinar la estatura de una persona de 83 kg. de peso o el peso de una persona de 134 de estatura, tendremos: y=0,7210.134-58,0443 = 38,6 Kg. pesaría el de 134 cm. x=1,1265.83+96,9925=190,5 cm mediría el de 83 kg. Las representaciones gráficas de ambas rectas serían: Ambas rectas de regresión, se cortan en el punto de coordenadas (168.3, 63.3) que corresponde a las medias de ambas variables. A este punto se le suele llamar centro de gravedad de la distribución