Capítulo 2 Análisis de datos (Bivariados) Estadística Bivariada

Anuncio
Universidad Técnica Federico Santa María
Universidad Técnica Federico Santa María
Departamento de Informática
ILI-280
Capítulo 2
Análisis de datos (Bivariados
(Bivariados))
Estadística Computacional
I Semestre 2006
Parte II
Profesores:
Carlos Valle ([email protected])
Página:
www.inf.utfsm.cl/~cvalle
Estadística Bivariada
Supongamos que se toma una muestra de tamaño n
de una población y que se desea estudiar, dos
características de un mismo objeto .
Sean estas características X e Y. Siguiendo los
procedimientos habituales, la Muestra se divide en
r clases Ai para la variable X
s clases Bj para la variables Y
Existirán elementos que pertenecerán simultáneamente a AiBj. Los datos los podemos ordenar en
una tabla o matriz llamada Tabla de Contingencia
Profesor C.Valle
2
1
Universidad Técnica Federico Santa María
Tabla de Contingencia
Y
B1
B2
.....
Bj
.....
Bs
Total
A1
n11
n12
.....
n1j
.....
n1s
n1
A2
n21
n22
.....
n2j
.....
n2s
n2
Ai
ni1
ni2
.....
nij
.....
nis
n i
Ar
nr1
nr2
.....
nrj
.....
nrs
nr
Total
n1
n2
.....
nj
.....
ns
n X
Profesor C.Valle
n _
=n
3
Tabla de Contingencia
Y
B1
B2
.....
Bj
.....
Bs
Total
A1
f11
f12
.....
f1j
.....
f1s
f1
A2
f21
f22
.....
f2j
.....
f2s
f2
Ai
fi1
fi2
.....
fij
.....
fis
f i
Ar
fr1
fr2
.....
frj
.....
frs
fr
Total
f1
f2
.....
fj
.....
fs
f X
Profesor C.Valle
f =_ 1
4
2
Universidad Técnica Federico Santa María
Tabla de Contingencia
nij =
Frecuencia Absoluta de la clase conjunta AiBj.
(Valor observado en la celda (i,j) de la Tabla de Contingencia)
fij = nij
n
r
Frecuencia Relativa
“conjunta” de la clase
conjunta correspondiente a
la intersección de Ai y Bj.
s
∑∑ f
ij
=1
i =1 j =1
s
ni• = ∑ nij
j =1
Frecuencia Absoluta de la clase Ai; para i= 1, ,2, ... ,r
(Independiente de la clases Bj a la que estén asociadas
Suma de los valores de la fila i-ésima )
r
n• j = ∑ nij
i =1
Frecuencia Absoluta de la clase Bj; para j= 1, ,2, ... ,s
(Independiente de las clases Ai a la que estén asociadas.
Suma de los valores de la columna j-ésima)
Profesor C.Valle
5
Frecuencias Marginales
Dado el experimento anterior, cuando sólo interesa conocer la
frecuencia de ocurrencia de cada una de las variables por separado
se habla de Frecuencia Marginal de la variable X o Y
Frecuencia (relativa) “marginal” de la variable X,
Conjunto de valores pertenecientes a la clase Ai,
considerándola independientemente de la clase Bj
Frecuencia (relativa) “marginal” de la variable Y,
Conjunto de valores pertenecientes a la clase Bj,
considerándola independientemente de la clase Ai
Profesor C.Valle
6
3
Universidad Técnica Federico Santa María
Estadística Bivariada
Notación: Sean
fij := frecuencia relativa conjunta AiBj = fr(xi,yj)
fi =
i
∑f
ij
∑ f (x , y ) = f (x )
= frec relativa marginal =
r
j
∑f
f j=
i
ij
r
j
i
∑ f (x , y ) = f ( y )
= frec. relativa marginal =
i
fi/j =
i
j
r
i
r
j
j
i
fij
f• j
= frec. relativa condicional=fr ( xi
/ yj) =
fr ( xi , y j )
fr ( y j )
Profesor C.Valle
7
Tabla de Contingencia
Para frecuencias
relativas , i = 1,....,r se tiene:
s
f i • = ∑ f ij
j =1
r
f • j = ∑ f ij
i =1
(Suma de los valores de la fila i-ésima
de la tabla de frecuencias conjuntas)
(Suma de los valores de la columna j-ésima
de la tabla de frecuencias conjuntas)
Además se verifica que:
n
fi• = i•
n••
f• j =
n• j
n••
Profesor C.Valle
fi/j =
n
fij
= ij
f• j n• j
8
4
Universidad Técnica Federico Santa María
Tabla de Contingencia
Ejemplo
Una tela se clasifica en tres categorías A, B y C según cantidad y
severidad de pequeñas imperfecciones. La empresa tiene 5
telares, en un mes dado de producción se registraron los
siguientes datos.
# piezas de tela en la clasificación
A
B
C
Telar
1
2
3
4
5
Marginal
185
190
170
158
185
888
16
24
35
22
22
119
12
21
16
7
15
71
Marginal
213
235
221
187
222
1078
Profesor C.Valle
9
Frecuencia Condicional
• Cuando se “pregunta” por la frecuencia relativa de una de las variables,
digamos X, restringida a los elementos observados de la clase Bj según
Y; esto es, estudiar el comportamiento de una variable dado un valor fijo
de la otra. Se obtiene la frecuencia relativa condicional
fi/j =
fij
f• j
nij
=n
f ,f ,f
1/j
2/j
Frecuencia (relativa) de la variable X en la
clase conjunta AiBj, “dado” que sólo nos
interesa respecto a lo observado en la clase Bj
de la variable Y; para i = 1, 2, .., r
•j
3/j, ... ,
f
r/j
Constituye la distribución de frecuencia relativa
condicional de la variable X dada la clase Bj de
la variable Y.
Nótese que se trabaja “condicionado” sobre un
tamaño de muestra “reducido” al número de
observaciones de la clase Bj dada
Profesor C.Valle
10
5
Universidad Técnica Federico Santa María
Independencia Estadística
Se dice que X es independiente de Y si las frecuencias
condicionales de X/Y son todas iguales; es decir, no
dependen de la clase condicionante, esto es
i/1
n
i1
=
f
n
i/2
i2
=
f
n
i/3
i3
n• 1 = n• 2 = n• 3
Luego Como = .... =
=.... =
fi/j = fi•
fij
fi/j =
f• j
n
is
n• S
f
i/s
=
f
A
f
i = 1, 2, 3, ... , r
i•
n
+
i1
n
+
i2
n
i3
+.... + n
n
n• 1+ n• 2 + n• 3 +.... + n•iss = n ••i•
=
f
i•
f = f• j
similarmente j/i
f = fi/j × f•j
ij
fij = fi• × f• j
Profesor C.Valle
11
Estadística Bivariada
Notación:
Análogamente, se tiene:
fj/i =
fij
fi•
= frecuencia condicional = f
r ( y j / xi ) =
fr ( xi , y j )
fr ( xi )
Independencia Estadística
X e Y son variables estadísticamente independientes ssi:
fr ( y j / xi ) = fr ( y j )
fi/j = fi•
ó
fr ( xi / y y ) = fr ( xi )
ó
fj/i = f• j
Profesor C.Valle
12
6
Universidad Técnica Federico Santa María
Estadística Bivariada
Independencia Estadística
como
fij = fj/i × fi• ⇒
fij = f• j × fi•
Asociación de Variables
Datos no agrupados Cov (x,y) =
Datos agrupados :
Cov(x,y) =
1
∑ ( xi − x)( yi − y)
n
∑ fi ( xi − x)( yi − y )
Coeficiente de Correlación = r = Cov (x,y)
Sx Sy
Profesor C.Valle
13
Ejercicio
Fallas Anuales
Temperatura
120
140
160
Marginal
20
12
4
-
15
7
10
5
10
5
2
10
45
24
16
15
37
27
100
Averías
2
3
4
5
Marginal
36
Obtener :
Distribuciones marginales
Distribuciones condicionales (4 averías), Media
y Varianza condicional
Profesor C.Valle
14
7
Universidad Técnica Federico Santa María
Ejercicio
Fallas Anuales
Temperatura
120
140
160
Marginal
0,20
0,12
0,04
0
0,15
0,07
0,10
0,05
0,10
0,05
0,02
0,10
0,45
0,24
0,16
0,15
0,36
0,37
0,27
1,00
Averías
2
3
4
5
Marginal
fj/4 ={ 2/8; 5/8; 1/8} Xj/4 =137,5
Vj/4= 2/8(120-137,5)2 +5/8(140-137,5)2
+1//8(160-137,5)2 =
Profesor C.Valle
15
Modelo Estadístico (Lineal)
y = β 0 + β1x + ε
x , y son variables independiente y dependiente
respectivamente. Además ε una variable estadística
que representa el error.
Los parámetros β0 y β1 pueden ser estimados a
partir de los datos {(xi , yi)}i=1,...,n mediante método de
mínimos cuadrados.
Sea ;
ei = yi − yˆ i = yi − βˆ 0 − βˆ1 xi
Entonces
Profesor C.Valle
16
8
Universidad Técnica Federico Santa María
n
n
min ∑ ei = min ∑ ( yi − β 0 − β1 xi ) 2
β 0 β1
2
β 0 β1
i =1
i =1
n
SC E = ∑ ei
2
i =1
β̂1 =
SC xy
βˆ 0 = y − βˆ1 x
SC x
n
SC x = ∑ ( xi − x )
n
SC xy = ∑ ( xi − x )( yi − y )
2
i =1
i =1
n
VNE = ∑ ei
2
=1
Profesor iC.Valle
17
Curvas de Regresión
t
0
1
2
3
4
5
6
V(t)
30
20
60
40
20
46
32
26
10
14
12
4
8
17
V(t)
25
40
46
29
12
6
17
Sea xt = sen t
Luego
yt = V(t)
y(t) = a + b xt + εt
min Q( a, b) = min ∑ ( yt − a − bxt ) 2
a ,b
a ,b
t
Profesor C.Valle
18
9
Universidad Técnica Federico Santa María
cov( x, y )
bˆ =
= 20
2
Sx
aˆ = y − bˆ x = 25,3
∑( y
2
S y = 1276
t
− yˆ t ) 2 = 22,45
% de Ajuste del Modelo =
∑ eˆ
1−
Sy
2
t
2
= 0,98 ∗100% = 98%
Profesor C.Valle
19
Transformaciones
Sea yi = h ( xi )
con
i = 1,...,n
1. Lineales
yi = axi + b
y = ax + b
Sy = a Sx
2. No lineales
yi = h( xi )
1
y = h(x) + 2 h”(x) SX2
Sy2≈ Sx2 [ h’ (x)]]2
En particular
h(x) = ln x
1
y = ln x - 2 ( Sx2 / x2 )
Sy2 ≈ ( Sx2 / x2 ) = CV 2
Profesor C.Valle
20
10
Universidad Técnica Federico Santa María
Universidad Técnica Federico Santa María
Departamento de Informática
ILI-280
Análisis de una Bivariada
como muestra estratificada
Análisis de una muestra estratificada
E1
n1 V
1
E2
n2 V2
X2
m
∑n
h
h =1
X1
nm
Xm
=n
Em
ph =
Vm
nh
n
m- estratos
Supongamos que la variable admite una clasificación
en k
- clases, representadas por X1, X2,.....Xk.
Profesor C.Valle
22
11
Universidad Técnica Federico Santa María
Análisis de una muestra estratificada
nih = Cantidad de individuos de la submuestra del
estrato “h” que pertenece a Ci.
k
n
fih = ih
nh
k
∑f
ih
∑n
=1
ih
i =1
= nh
i =1
k
k
Vh = ∑ fih ( X i − X h ) 2
X h = ∑ fih X i
i =1
i =1
m
fi = ∑ phfih
h =1
Profesor C.Valle
23
Análisis de una muestra estratificada
Entonces:
m
X = ∑ ph X n
h =1
m
m
h =1
h =1
VT = ∑ phVh + ∑ ph ( X h − X ) 2
VT = Vint ra + Vint er
Profesor C.Valle
24
12
Universidad Técnica Federico Santa María
Ejemplo
Se tiene 3 criaderos de aves. En el criadero (1) se ponen 50
pollos recién nacidos; en el (2) 200 pollos y en el (3) 100 pollos.
Al cabo de un cierto tiempo se pesan los 350 pollos,
encontrándose que algunos están muertos y los vivos pesan
entre 1,00 [kg]. y 2,50 [kg]. Para los efectos del registro los pollos
muertos se supondrán de peso cero, y el cero actuará como
centro del supuesto intervalo. Los otros intervalos serán
[1,00 ; 1,50]] [1,50 ; 2,00]] [2,00 ; 2,50]].
Calcular
Centros Frecuencias Absolutas
(1)
(2)
(3)
0
5
10
10
1,25
10
20
30
1,75
30
150
50
2,25
5
20
10
X h , Vh , X , VT
Vint er , Vint ra
Note que existen 3
estratos y 4 clases
Profesor C.Valle
25
Análisis Muestra Estratificada
Frecuencia
Relativa
Histograma Apilado por Peso
0,7
0,6
0,5
Criadero 1
0,4
Criadero 2
0,3
Criadero 3
0,2
0,1
Peso
0
0
1,25
1,00
1,75
1,50
Profesor C.Valle
2,25
2,00
2,50
26
13
Universidad Técnica Federico Santa María
Análisis Muestra Estratificada
Frecuencia
Relativa
Histograma por Estrato y por Peso
0,5
0,4
0,3
Criadero 1
Criadero 2
0,2
Criadero 3
0,1
Peso
0
0
1,25
1,75
1,00
1,50
2,25
2,00
2,50
Profesor C.Valle
Estrato (1)
P1=1/7
Xi
fi1
fi1X1
Xi-X1
0
1,25
1,75
2,25
0,1
0,2
0,6
0,1
0
0,250
1,050
0,225
-1,525
-0,275
0,225
0,725
Estrato (2)
0
1,25
1,75
2,25
( )2
fi1( )2
2,325
0,0756
0,0501
0,525
0,2325
0,0151
0,0304
0,0526
X1=1,525
V1=0,331
P2=4/7
fi2
fi2X1
Xi-X2
( )2
fi2( )2
0,05
0,10
0,75
0,10
0
0,125
1,312
0,225
-1,662
-0,412
0,088
0,588
2,76
0,17
0, 01
0,35
0,138
0,017
0,006
0,035
Estrato (3)
0
1,25
1,75
2,25
27
X2=1,662
V2=0,195
P3=2/7
fi3
fi3X1
0,10
0,30
0,50
0,10
0
0,375
0,875
0,225
Xi-X3
( )2
fi3( )2
-1,475
2,17
0,218
-0,225
0,05
0,015
0,275
0, 08
0,039
Profesor C.Valle
0,775
0,60
0,060
X3=1,475
V3=0,331
28
14
Universidad Técnica Federico Santa María
Estratos Ph
(1)
(2)
(3)
1/7
4/7
2/7
Media Varianza PhXh
Xh
Vh
1,525
1,662
1,475
0,331
0,195
0,331
0,218
0,950
0,421
1,589
PhVh
Xh-X
0,047
0,111
0,095
0,253
-0,064
0,073
-0,114
(X-Xh)2 Ph( )2
0,004
0,005
0,013
0,00058
0,00305
0,00371
0,0073
Profesor C.Valle
29
Resultados
Se ha obtenido, entonces:
Media Total
X = 1,589
Varianza promedio dentro de los estratos
Vintra= 0,253
Varianza entre estratos
Vinter= 0,0073
Varianza Total
VT= 0,2606
Profesor C.Valle
30
15
Descargar