tema 2_Ismael [Modo de compatibilidad]

Anuncio
TEMA 2: Distribuciones bidimensionales.
Tablas de contingencia. Regresión lineal
2.1 Distribución de frecuencias bidimensional
2.2 Distribuciones marginales y
condicionadas
2.3 Dependencia e independencia
estadística. Indicadores de asociación
2.4 Regresión y correlación lineal
1
2.1 Distribución de frecuencias
bidimensional
♦ Ejemplo . X: “Peso”, Y: “Estatura”
X\Y
140-160 160-180
180-200 >200
Marginal
X
40-60
10
6
2
0
18
60-80
8
12
6
2
28
80-100
1
8
10
6
25
Marginal
Y
19
26
18
8
71
Frecuencias Marginales
Frecuencias Marginales de X
Frecuencias Marginales de Y
Frecuencias Condicionadas
Frecuencias Condicionadas de X
Frecuencias Condicionadas de Y
2
2.2 Distribuciones marginales y
condicionadas
Distribución marginal de X
♦ Distribución de la variable X: “Peso”
X \Y
140-160 160-180
180-200 >200 Marginal
X
2
0
18
40-60
10
6
60-80
8
12
6
2
28
80-100
1
8
10
6
25
Marginal
Y
19
26
18
8
71
3
Distribución marginal de X
♦ Distribución de la variable X: “Peso”
X
Frecuencias
Marginales
40-60
18
60-80
28
80-100
25
71
Media Marginal de X
Varianza Marginal de X
Mediana Marginal de X
4
Distribución marginal de Y
♦ Distribución de la variable Y: “Estatura”
X\Y
140-160 160-180
180-200 >200
Marginal
X
40-60
10
6
2
0
18
60-80
8
12
6
2
28
80-100
1
8
10
6
25
Marginal
Y
19
26
18
8
71
5
Distribución marginal de Y
♦ Distribución de la variable Y: “Estatura”
Y
Frecuencias
Marginales
140-160
19
160-180
26
180-200
18
>200
8
71
Media Marginal de Y
Varianza Marginal de Y
Mediana Marginal de Y
6
Distribuciones de X
Condicionadas a valores de Y
♦ Ejemplo . Distribución de X
Condicionada a 160 < Y < 180
X\Y
140-160 160-180
180-200 >200 Marginal
X
2
0
18
40-60
10
6
60-80
8
12
6
2
28
80-100
1
8
10
6
25
Marginal
Y
19
26
18
8
71
7
♦ Ejemplo . Distribución de X
Condicionada a 160 < Y < 180
X
Frecuencias
condicionadas
40-60
6
60-80
12
80-100
8
26
Medias Condicionadas de X
Varianzas Condicionadas de X
8
Distribuciones de Y
Condicionadas a valores de X
♦ Ejemplo . Distribución de Y
Condicionada a 60 < X < 80
X\Y
140-160 160-180
180-200 >200
Marginal
X
40-60
10
6
2
0
18
60-80
8
12
6
2
28
80-100
1
8
10
6
25
Marginal
Y
19
26
18
8
71
9
♦ Ejemplo . Distribución de Y
Condicionada a 60 < X < 80
Y
Frecuencias
condicionadas
140-160
8
160-180
12
180-200
6
>200
2
total
28
Medias Condicionadas de Y
Varianzas Condicionadas de Y
10
2.4 Dependencia e independencia
estadística. Indicadores de asociación
Independencia estadística
No hay relación entre las variables
sii n ij =
n i.n. j
n
∀ i, j
Dependencia estadística
Hay relación entre las variables
El grado de asociación se mide mediante
los coeficientes de asociación
11
♦ Ejemplo. Variables X e Y Independientes
X\Y
Y1
Y2
Y3
Y4
ni ●
X1
n11
n12
n13
n14
n1 ●
=2
=6
=4
=8
= 20
n21
n22
n23
n24
n2 ●
=3
=9
=6
= 12
= 30
n31
n32
n33
n34
n3 ●
=1
=3
=2
=4
= 10
n ●1
n ●2
n ●3
n ●4
n
=6
= 18
= 12
= 24
= 60
X2
X3
n ●j
Independencia estadística
n 23 =
n 2. n.3
n 31 =
n 3. n.1
n
n
Si nij =
ni. n. j
n
∀ i, j
30 × 12
=
=6
60
=
10 × 6
=1
60
12
♦ Ejemplo. Variables X e Y No Independientes
X\Y
Y1
Y2
Y3
Y4
ni ●
X1
n11
n12
n13
n14
n1 ●
=3
=6
=4
=8
= 21
n21
n22
n23
n24
n2 ●
=3
= 10
=6
= 12
= 31
n31
n32
n33
n34
n3 ●
=1
=3
=2
=4
= 10
n ●1
n ●2
n ●3
n ●4
n
=7
= 19
= 12
= 24
= 62
X2
X3
n ●j
Independencia estadística
n 23 =
n 31 ≠
n 2. n.3
n
n 3. n.1
n
=
Si nij =
ni. n. j
n
∀ i, j
31 × 12
=
=6
62
10 × 7
= 1.129 ≠ 1
62
13
Indicadores de asociación
2
Coeficiente χ
χ =∑
2
(t
ij
ij
− nij )
2
tij
0 ≤ χ 2 ≤ N min { p − 1, q − 1}
Coeficiente de contingencia de Pearson
χ2
C=
n + χ2
,
0≤C ≤
k −1
k
k = min { p, q}
Coeficiente T de Tschuprow
T=
χ2
n ( p − 1)(q − 1)
0 ≤ T ≤1
14
2.4 Regresión y correlación lineal
Definición de Covarianza
Cov [ X , Y ] = σ x y =
∑∑ n ij ( xi − x ) ( y j − y )
i
j
n
=
∑∑ nij xi y j
=
i
j
n
−x y
Regresión
“Búsqueda de una función matemática sencilla que
relacione ambas variables y sirva para predecir la
variable de interés del problema”
15
Nube de puntos (diagrama de dispersión): gráfico
de las observaciones (datos bidimensionales)
Especificación de función de regresión
Elección de la función de regresión : tipo de
función que mejor se ajuste a la nube de puntos:
Lineal , polinómica, exponencial……
Correlación
Estudio del grado de asociación entre las variables
16
Rectas de regresión
Recta de mínimos cuadrados de Y / X
Y
y = a + bx
*
*
*
y j*
*
*
*
eij
*
*
yj
*
(xi, yj* )
(xi, yj )
*
*
X
xi
Residuos = eij = y j − ( a + bxi )
2
min ∑∑ eij = min∑∑
i
j
i
= min ∑∑
i
j
(
( y j − ( a + bxi ) )
)
2
*
yj − yj
=
2
j
Ecuaciones normales
17
Recta de mínimos cuadrados de Y / X
y = f ( x) = a + b x
Cov [ X , Y ] σ xy
=
=
b=
2
Var [ X ]
σx
∑ ni x i yi − x y
n
∑ ni xi 2
n
−x
2
a = y − bx
(
y− y =b x−x
)
b = coeficiente de regresión de Y / X
“Variación de Y que se produce por cada
unidad de aumento en X”
18
Recta de mínimos cuadrados de X / Y
x = f ( y) = c + d y
Cov [ X , Y ] σ xy
d=
=
=
2
Var [Y ]
σy
∑ ni x i yi − x y
n
∑ ni y i 2
n
−y
2
c = x−d y
(
x−x=d y− y
)
d = coeficiente de regresión de X / Y
“Variación de X si Y aumenta en una unidad”
Propiedad: “Las dos rectas de regresión se
cortan en el el punto ( x , y ) “
19
Coeficiente de determinación y
coeficiente de correlación lineal
Coeficiente de determinación
“Proporción de la varianza explicada por la regresión”
r2 =
Propiedad: r 2 = bd
rectas de regresión.
2
σ xy
;
σ x2 σ y2
0 ≤ r2 ≤ 1
, donde b y d son las pendientes de las
Coeficiente de correlación lineal de Pearson
r=
σ xy
σ xσ y
;
−1 ≤ r ≤ 1
r = 0 ⇒ No hay asociacion lineal entre las variables
Independencia ⇒ r = 0
r = 1 ⇒ Asociacion lineal positiva perfecta
r = − 1 ⇔ Asociacion lineal negativa perfecta
20
♦ Ejemplo. X= “Estatura”, Y= “Peso”
xi
yi
x i yi
x i2
Yi2
160
52
8320
25600
2704
172
64
11008
29584
4096
174
65
11310
30276
4225
176
72
12672
30976
5184
180
78
14040
32400
6084
Σ=862 Σ= 331 Σ= 57350 Σ= 148836 Σ= 22293
x=
σ xy
862
= 172.4 ;
5
y=
331
= 66.2
5
n i x i yi
57350
∑
=
− xy =
− 172.4
σx
n
5
×
66.2 = 57.12
2
n
x
2 148836
∑
i
i
2=
−x =
− 172.42 = 45.44
σ y2 =
n
2
n
y
∑ i i
n
5
2
−y =
22293
− 66.22 = 76.16
5
21
y = a + bx
b=
Cov [ X , Y ]
Var [ X ]
=
σ xy
σ x2
=
57.12
= 1.257
45.44
a = y − bx = 66.2 − 1.257 × 172.4 = −150.5068
y = a + b x = −150.5068 + 1.258 x
Para x = 170
⇒
y = a + bx = −150.5068 + 1.257 × 170 = 63.1832
σ xy
57.12
r=
=
= 0.909
σx σy
45.44 76.16
22
Otros tipos de ajuste
Parabólico
y = ax 2 + bx + c
Exponencial
y = a bx
Potencial
y = a xb
Hiperbólico
y=
a
x
23
Descargar