Tema 8 Series estadı́sticas bidimensionales. Regresión y correlación lineal. Coeficiente de correlación. Significado y aplicaciones 1. Tablas estadı́sticas Sea una población de n individuos que en la que se van a estudiar dos variables X y Y . Sean X1 , X2 , . . . , Xn las modalidades de X y Y1 , Y2 , . . . , Yn las modalidades de Y . Vamos a considerar nij el número de individuos que presentan las modalidades Xi y Yj , para i = 1, 2, . . . , k y j = 1, 2, . . . , p. Por tanto p k X X nij = n i=1 j=1 Además el número de individuos que presentan la modalidades Xi y Yj respectivamente serı́a p k X X nij = ni. nij = n.j j=1 i=1 Estos valores son las frecuencias absolutas de cada modalidad. Las frecuencias relativas del par (Xi , Yj ) y de las modalidades Xi y Yj se definen como nij ni. n.j fij = fi. = f.j = n n n La tabla estadı́stica para la distribución de caracteres quedarı́a ası́: X1 X2 .. . Y1 n11 n21 .. . Y2 n12 n22 .. . ... ... ... Yj n1j n2j .. . ... ... ... Yp n1p n2p .. . n1. n2. .. . Xi .. . ni1 .. . ni2 .. . ... nij .. . ... nip .. . ni. .. . Xk nk1 n,1 nk2 n,2 ... ... nkj n.j ... ... nkp n.p nk. n Hagamos notar que las modalidades de los caracteres X y Y pueden ser discretas o continuas, en cuyo caso aparecerán, además, las marcas de clases. 1 Jesús Alcantud Garcı́a 2. Tema 8 Series estadı́sticas bidimensionales Representaciones gráficas Vamos a distinguir dos casos: 1. X e Y son dos variables discretas: Sobre los ejes coordenados se colocan los valores de X e Y , y sobre cada punto (Xi , Yj ) se dibuja un cı́rculo con ese centro y cuya superficie es proporcional a nij . Esta representación gráfica recibe el nombre de diagrama de dispersión o nube de puntos. 2. X e Y son dos variables continuas: Sobre los ejes coordenados se colocan los valores de X e Y , y perpendicularmente sobre cada rectángulo se levanta un paralelepı́pedo cuya altura es proporcional a la frecuencia absoluta. Esta representación gráfica es una generalización del histograma y recibe el nombre de estereograma. 3. Caracterı́sticas marginales Media marginal de X: x= X 1X ni. xi = fi. xi n i=1 i=1 y= X 1X n.j yj = f.j yj n j=1 j=1 k k Media marginal de Y : p p Varianza marginal de X: X 1X ni. (xi − x)2 = fi. (xi − x)2 n i=1 i=1 k σx2 = k Varianza marginal de Y : X 1X n.j (yj − y)2 = f.j (yj − y)2 n j=1 j=1 p σy2 = 4. p Correlación La correlación es el grado de dependencia mutua entre dos variables, es decir, es una medida de la intensidad con que dos variables están relacionadas mediante la regresión. La regresión nos da una estructura de dependencia y la correlación nos mide el grado de dependencia. Para cuantificar la relación estadı́stica entre dos variables, vamos a utilizar algunos parámetros que definimos a continuación: Covarianza : σxy = p k X X fij xi yj − x y i=1 j=1 Coeficiente de correlación: r= 2 σxy σ x σy Jesús Alcantud Garcı́a Tema 8 Series estadı́sticas bidimensionales Si ahora se considera r, los casos que pueden presentarse son los siguientes: 1. r = −1. La correlación es perfecta y negativa, es decir, la dependencia está totalmente explicada por la recta de regresión y las variables varı́an en sentido opuesto. 2. −1 < r < 0. La dependencia lineal será mayor cuanto más próximo se encuentre r a −1. 3. r = 0. La correlación es nula. Las dos variables no están relacionadas por regresión lineal. 4. 0 < r < 1. La dependencia lineal será mayor cuanto más próximo se encuentre r a 1. 5. r = 1. La correlación es perfecta y positiva, es decir, la dependencia está totalmente explicada por la recta de regresión y las variables varı́an en igual sentido. 5. Regresión lineal La teorı́a de la regresión lineal trata de proporcionar los medios necesarios para calcular aproximadamente el valor de una de las dos variables conocida la otra. Tres son los objetivos fundamentales de esta teorı́a: 1. Describir la dependencia causal entre las variables. 2. Expresar esa dependencia mediante una función matemática 3. Predecir valores de la variable dependiente en función de valores de la independiente. (la fiabilidad de los valores pronosticados disminuye a medida que los valores de X en los que se basa la predicción se alejan de x) Si se representa la nube de puntos se trata de hallar una función lineal (recta) que mejor se ajuste a esta nube. Para la obtención exacta de la recta, se recurre al método de los mı́nimos cuadrados: de todas las rectas posibles y = ax + b nos quedamos con aquella para la cual la suma de los cuadrados de las distancias de los puntos a la recta sea la menor posible. Utilizando métodos numéricos se obtiene que la recta de regresión de Y sobre X es : y=y+ σxy (x − x) σx2 A la pendiente de la recta de regresión, regresión de Y sobre X. 3 σxy se le llama coeficiente de σx2