Tema 8 Series estad´ısticas bidimensionales

Anuncio
Tema 8 Series estadı́sticas bidimensionales.
Regresión y correlación lineal.
Coeficiente de correlación. Significado y
aplicaciones
1.
Tablas estadı́sticas
Sea una población de n individuos que en la que se van a estudiar dos
variables X y Y . Sean X1 , X2 , . . . , Xn las modalidades de X y Y1 , Y2 , . . . , Yn
las modalidades de Y . Vamos a considerar nij el número de individuos que
presentan las modalidades Xi y Yj , para i = 1, 2, . . . , k y j = 1, 2, . . . , p. Por
tanto
p
k X
X
nij = n
i=1 j=1
Además el número de individuos que presentan la modalidades Xi y Yj respectivamente serı́a
p
k
X
X
nij = ni.
nij = n.j
j=1
i=1
Estos valores son las frecuencias absolutas de cada modalidad.
Las frecuencias relativas del par (Xi , Yj ) y de las modalidades Xi y Yj se
definen como
nij
ni.
n.j
fij =
fi. =
f.j =
n
n
n
La tabla estadı́stica para la distribución de caracteres quedarı́a ası́:
X1
X2
..
.
Y1
n11
n21
..
.
Y2
n12
n22
..
.
...
...
...
Yj
n1j
n2j
..
.
...
...
...
Yp
n1p
n2p
..
.
n1.
n2.
..
.
Xi
..
.
ni1
..
.
ni2
..
.
...
nij
..
.
...
nip
..
.
ni.
..
.
Xk
nk1
n,1
nk2
n,2
...
...
nkj
n.j
...
...
nkp
n.p
nk.
n
Hagamos notar que las modalidades de los caracteres X y Y pueden ser
discretas o continuas, en cuyo caso aparecerán, además, las marcas de clases.
1
Jesús Alcantud Garcı́a
2.
Tema 8 Series estadı́sticas bidimensionales
Representaciones gráficas
Vamos a distinguir dos casos:
1. X e Y son dos variables discretas: Sobre los ejes coordenados se colocan
los valores de X e Y , y sobre cada punto (Xi , Yj ) se dibuja un cı́rculo
con ese centro y cuya superficie es proporcional a nij . Esta representación
gráfica recibe el nombre de diagrama de dispersión o nube de puntos.
2. X e Y son dos variables continuas: Sobre los ejes coordenados se colocan los
valores de X e Y , y perpendicularmente sobre cada rectángulo se levanta
un paralelepı́pedo cuya altura es proporcional a la frecuencia absoluta.
Esta representación gráfica es una generalización del histograma y recibe
el nombre de estereograma.
3.
Caracterı́sticas marginales
Media marginal de X:
x=
X
1X
ni. xi =
fi. xi
n i=1
i=1
y=
X
1X
n.j yj =
f.j yj
n j=1
j=1
k
k
Media marginal de Y :
p
p
Varianza marginal de X:
X
1X
ni. (xi − x)2 =
fi. (xi − x)2
n i=1
i=1
k
σx2 =
k
Varianza marginal de Y :
X
1X
n.j (yj − y)2 =
f.j (yj − y)2
n j=1
j=1
p
σy2 =
4.
p
Correlación
La correlación es el grado de dependencia mutua entre dos variables, es decir,
es una medida de la intensidad con que dos variables están relacionadas mediante
la regresión. La regresión nos da una estructura de dependencia y la correlación
nos mide el grado de dependencia. Para cuantificar la relación estadı́stica entre
dos variables, vamos a utilizar algunos parámetros que definimos a continuación:
Covarianza :
σxy =
p
k X
X
fij xi yj − x y
i=1 j=1
Coeficiente de correlación:
r=
2
σxy
σ x σy
Jesús Alcantud Garcı́a
Tema 8 Series estadı́sticas bidimensionales
Si ahora se considera r, los casos que pueden presentarse son los siguientes:
1. r = −1. La correlación es perfecta y negativa, es decir, la dependencia
está totalmente explicada por la recta de regresión y las variables varı́an
en sentido opuesto.
2. −1 < r < 0. La dependencia lineal será mayor cuanto más próximo se
encuentre r a −1.
3. r = 0. La correlación es nula. Las dos variables no están relacionadas por
regresión lineal.
4. 0 < r < 1. La dependencia lineal será mayor cuanto más próximo se
encuentre r a 1.
5. r = 1. La correlación es perfecta y positiva, es decir, la dependencia está totalmente explicada por la recta de regresión y las variables varı́an en igual
sentido.
5.
Regresión lineal
La teorı́a de la regresión lineal trata de proporcionar los medios necesarios
para calcular aproximadamente el valor de una de las dos variables conocida la
otra. Tres son los objetivos fundamentales de esta teorı́a:
1. Describir la dependencia causal entre las variables.
2. Expresar esa dependencia mediante una función matemática
3. Predecir valores de la variable dependiente en función de valores de la
independiente. (la fiabilidad de los valores pronosticados disminuye a medida que los valores de X en los que se basa la predicción se alejan de
x)
Si se representa la nube de puntos se trata de hallar una función lineal (recta)
que mejor se ajuste a esta nube. Para la obtención exacta de la recta, se recurre
al método de los mı́nimos cuadrados: de todas las rectas posibles y = ax + b nos
quedamos con aquella para la cual la suma de los cuadrados de las distancias
de los puntos a la recta sea la menor posible. Utilizando métodos numéricos se
obtiene que la recta de regresión de Y sobre X es :
y=y+
σxy
(x − x)
σx2
A la pendiente de la recta de regresión,
regresión de Y sobre X.
3
σxy
se le llama coeficiente de
σx2
Descargar