correlacion y regresion lineal

Anuncio
CORRELACIÓN Y REGRESIÓN LINEAL
1. Coeficiente de correlación
Al efectuar el estudio estadístico de un colectivo podemos estudiar dos caracteres
simultáneamente, por ejemplo quizás queramos investigar sobre las alturas y
pesos de una muestra de alumnos del Instituto para comprobar si entre ambas
variables hay alguna relación (quizás sea lógico pensar que uno pesa más cuanto
más mide). El estudio de dos caracteres simultáneos en cada individuo de una
población va a dar lugar a lo que se conoce con el nombre de distribución
estadística bidimensional.
Basándonos en los conocimientos que ya tenemos del estudio de las variables
estadísticas unidimensionales (de un sólo carácter), podemos calcular medias y
desviaciones típicas de cada carácter por separado mediante las fórmulas ya
conocidas:
Definimos ahora la covarianza de dos variables como la media aritmética de los
productos de las desviaciones de cada variable respecto a su media, con lo que su
cálculo se pude realizar así:
Donde fij se llama frecuencia absoluta conjunta del par de valores (xi, yj). El cálculo
de la covarianza mediante la expresión anterior resulta un poco complicado por lo
que después de realizar una serie de transformaciones la podemos transformar
así:
que es la fórmula que emplearemos para su cálculo.
Sea el ejemplo mencionado anteriormente de investigar sobre la relación entre
estatura y pesos de 15 alumnos del Instituto a cada uno de los cuales lo
representaremos por una pareja de números, el primero de los cuales es su
estatura en cm. y el segundo es su peso en kg. Después de medirlos y pesarlos, el
resultado ha sido:
(140, 40), (165, 60), (190, 80), (190, 80), (160, 55), (180, 75), (200, 90), (200, 90),
(190, 80), (140, 40), (165, 60), (165, 60), (140, 40), (160, 55), (140, 40).
Construyamos la siguiente tabla de frecuencias:
xi
yj
fi
fj
xifi
yjfj
140
40
4
4
560
160
-28,3
800,89
3203,56
160
55
2
2
320
110
-8,3
68,89
137,78
165
60
3
2
495
120
-3,3
10,89
32,67
180
75
1
2
180
150
11,7
136,89
136,89
190
80
3
4
570
320
21,7
470,89
1412,67
200
90
2
1
400
90
31,7
1004,89 2009,78
15
15
2525
950
6933,35
de las columnas 5 y 6
-23,3
542,89
2171,56
-8,3
68,89
137,78
-3,3
10,89
21,78
11,7
136,89
273,78
16,7
278,89
1115,56
26,7
712,89
712,89
4433,35
De las columnas 8 y 11 de la tabla anterior, se tiene:
La covarianza la calculamos así:
Al cociente entre la covarianza y el producto de las desviaciones típicas de ambas
variables se le denomina coeficiente de correlación. Su cálculo, para nuestro
ejemplo será:
El valor de r ha de estar necesariamente comprendido entre -1 y 1. Si r=1 ó r=-1,
la dependencia entre ambas variables es perfecta (funcional). Si 0,5<r<1 ó -1<r<0,5 , la dependencia es significativa. Si -0,5<r<0,5 prácticamente se puede decir
que no hay dependencia estadística
2. Dependencia estadística
El estudio simultáneo de dos caracteres estadísticos nos induce a pensar en la
existencia de una posible relación entre ellos. Si a cada valor de xi le podemos
asignar un sólo valor yi mediante una relación de la forma y=f(x), diremos que
existe una dependencia funcional entre ambas, pero también puede observarse
que existen características en las que es evidente una relación entre ellas pero no
es posible establecer una función en el sentido matemático. A esta relación no
expresable por una fórmula la llamaremos dependencia estadística. La posible
dependencia estadística entre dos variables se puede observar en un dibujo
llamado nube de puntos en el cual, en el eje de abcisas colocamos los valores de
la 1ª variable y en el de ordenadas los de la 2ª, representado cada par (xi, yi) por
un punto del plano. Cuanto más agrupados estén los puntos de la nube, mayor es
el grado de dependencia entre las variables, así, para el ejemplo que hemos
estudiado anteriormente, su nube de puntos sería:
Caso que exista dependencia estadística nos interesa ajustar la nube de puntos a
otros que estén ligados entre sí por una función matemática que se aproxime a
ellos lo más posible. En el apartado siguiente veremos cómo ajustar una recta a la
nube de puntos, recta que denominaremos recta de regresión
3. Rectas de regresión.
Denominaremos recta de regresión a la que mejor se ajuste a la nube de puntos.
Se dice que una línea se ajusta lo mejor posible a una nube de puntos cuando la
suma de las desviaciones de los puntos de la nube a dicha recta es la menor
posible.
Podemos determinar dos rectas de regresión diferentes. Si deseamos saber el
comportamiento de la variable Y según los valores que tome la variable X, la recta
se llama de regresión de Y sobre X, y, se puede demostrar, aunque no lo
podemos hacer aquí, que esta recta tiene por ecuación:
Análogamente podemos escribir una recta de regresión de X sobre Y de la
siguiente manera:
Donde:
= media de la variable X
= media de la variable Y
= varianza de la variable X
= varianza de la variable Y
= covarianza
se llaman coeficientes de regresión.
Para el ejemplo desarrollado anteriormente de pesos y estaturas, dado que
teníamos los siguientes valores:
La recta de regresión de Y sobre X será:
La recta de regresión de X sobre Y será:
Después de operar en ambas para ponerlas en la forma explícita, queda:
y=0,7210x-58,0443
x=1,1265y+96,9925
Con ellas podemos aproximar el peso o la estatura de determinadas personas
que no aparezcan en la muestra elegida. Así, si nos piden determinar la estatura
de una persona de 83 kg. de peso o el peso de una persona de 134 de estatura,
tendremos:
y=0,7210.134-58,0443 = 38,6 Kg. pesaría el de 134 cm.
x=1,1265.83+96,9925=190,5 cm mediría el de 83 kg.
Las representaciones gráficas de ambas rectas serían:
Ambas rectas de regresión, se cortan en el punto de coordenadas (168.3, 63.3)
que corresponde a las medias de ambas variables. A este punto se le suele llamar
centro de gravedad de la distribución
Descargar