TEMA 1. ESTADÍSTICA DESCRIPTIVA 1.1 Introducción: conceptos

Anuncio
TEMA 1. ESTADÍSTICA DESCRIPTIVA
1.1 Introducción: conceptos básicos
1.2 Tablas estadísticas y representaciones
gráficas
1.3 Características de variables estadísticas
unidimensionales
1.3.1 Características de posición
1.3.2 Características de dispersión
1.3.3 Características de forma
1.4 Concepto de v.e. bidimensional
1.5 Distribuciones marginales y
condicionadas
1.6 Covarianza
1.7 Dependencia e independencia estadística
1.8 Regresión y correlación. Introducción
1.9 Rectas de regresión
1.10 Coeficiente de determinación y
coeficiente de correlación lineal
1.11 Otros tipos de ajuste
1
™ 1.1. Introducción : conceptos básicos
¾ ESTADÍSTICA: “Estudio de los métodos de recogida
y descripción de datos, así como del análisis de esta
información”
™ Etapas de un estudio estadístico
1
2
3
4
Recogida de datos
Ordenación, tabulación y gráficos*
Descripción de características*
Análisis formal
* Estadística descriptiva: parte de la
estadística que se ocupa de las etapas 2 y 3
™ Individuo, Población, Muestra
¾ Población: “Conjunto de elementos a los que se les
estudia una característica”
¾ Individuo: “Cada uno de los elementos de la población”
¾ Muestra: “Subconjunto representativo de la población”
2
™ Variables estadísticas. Modalidades
¾ Variable estadística (v.e.): ”Característica propia
del individuo objeto del estudio estadístico”
Ejemplos:
- Estatura
- Peso
- Color del pelo
- Nivel de colesterol
- Nº de hijos de una familia
¾ Modalidad: “Cada una de las posibilidades o
estados diferentes de una variable estadística”
¾ Exhaustivas e incompatibles
Ejemplo:
color del pelo:
- castaño
- rubio
- negro
3
™ Tipos de variables estadísticas
¾ Cualitativas: Las características no son cuantificables
Ejemplos:
Profesión
Color del pelo
¾ Cuantitativas: Características cuantificables o numéricas
9 Discretas: Numéricas numerables
Ejemplos:
Nº de hijos
Nº de viviendas
9 Continuas: Numéricas no numerables
Ejemplos:
Talla
Peso
Nivel de colesterol
4
™ 1.2. Tablas estadísticas y representaciones
gráficas
¾ Variables discretas
9 Frecuencias
♦
♦
♦
♦
Absolutas, ni (nº individuos modalidad i)
Absolutas acumuladas, Ni = n1 + n2 + ... + ni
Relativas, fi (proporcion indiv. modalidad i)
Re lativas acumuladas, F i = f1 + f 2 + ... + fi
xi ni
x1
...
xi
...
xk
Ni
fi
Fi
n1 N1 f1 F1
... ... ... ...
ni Ni fi Fi
... ... ... ...
nk Nk fk Fk
n
1
Absolutas, ni
Absolutas
acumuladas, Ni
Relativas
f i = ni / n
Relativas
acumuladas
Fi = Ni / n
5
¾ Variables continuas: Intervalos
Intervalo Ii
xi
ni
Ni
fi
Fi
eo- e1
...
ei-1- ei
...
ek-1- ek
x1
...
xi
...
xk
n1
...
ni
...
nk
n
N1
...
Ni
...
Nk
f1
...
fi
...
fk
1
F1
...
Fi
...
Fk
¾ Marca de clase xi (punto medio de cada intervalo)
¾ Amplitud ai (distancia entre los extremos)
[ ... )
¾ Extremos
6
™ Gráficos estadísticos
¾ V. e. Cualitativas: Gráfico rectangular
Color Plumaje
Nº de Aves (ni)
Negro
10
Gris
14
Blanco
20
Rojo
6
Violeta
4
20
10
Negro
Gris
Blanco
Rojo
Violeta
7
¾ V. e. Cualitativas: Gráfico de sectores
Color Plumaje
Nº de Aves (ni)
Negro
10
Gris
14
Blanco
20
Rojo
6
Violeta
4
Grados
de cada
sector = 360º fi
violeta
rojo
negro
gris
blanco
8
¾ V. e. Discretas: Gráfico de barras
Nº de crías Nº animales: n
i
fi
Fi
2
20
0.20
0.20
3
30
0.30
0.50
4
25
0.25
0.75
5
15
0.15
0.90
6
10
0.10
1
n = 100
35
30
25
20
15
10
5
0
2
3
4
5
6
9
¾ V. e. Discretas: Curva acumulativa
de distribución
Nº de crías Nº animales: n
i
fi
Fi
2
20
0.20
0.20
3
30
0.30
0.50
4
25
0.25
0.75
5
15
0.15
0.90
6
10
0.10
1
n = 100
1
0.90
•
•
•
0.75
•
0.50
•
0.20
2
3
4
5
6
10
¾ V. e. Continuas: Histograma
hi
Estatura
ni
140-160
160-170
170-180
180-190
190-200
30
22
20
18
10
100
hi = ni / a i
1.5
2.2
2
1.8
1
¾ “El área de
cada rectángulo
es proporcional
a la frecuencia”
2.2
2
1.8
1.5
1
140
160 170 180 190 200
11
¾ V. e. Continuas: Curva
acumulativa de distribución
Talla
140-160
160-170
170-180
180-190
190-200
ni
30
22
20
18
10
100
fi
Fi
0.30
0.30
0.22
0.52
0.20
0.72
0.18
0.90
0.10
1
1
0.90
0.72
0.52
0.30
140
160
170
180
190
200
12
™ 1.3. Características de variables
estadísticas unidimensionales
^ 1.3.1
Características de Posición
™ Media aritmética
k
∑ ni xi
k
x = ∑ fi xi = i =1
i =1
Estatura
n
Nº Personas M. Clase
ni
xi
nixi
140-150
20
145
2900
150-160
100
155
15500
160-180
80
170
13600
180-200
10
190
1900
n = 210
33900
k
∑ ni xi
Media : x = i =1
n
=
33900
210
= 161.42
13
™ Moda
‰ Valor de la variable más frecuente
9 Puede haber más de una moda : Plurimodal
¾ Variables discretas
ƒ Datos en serie
2, 2, 3, 3, 3, 3, 5, 6, 7 Mo = 3
ƒ Datos en tabla
W Ejemplo
xi
1
ni
34
2
36
3
45
4
22
5
17
Mo = 3
14
¾ Variables continuas
Mo = ei −1 +
W Ejemplo
Mo = 160 +
h i − h i −1
(h i − h i−1 ) + (hi − h i+1 )
ai
xi
ni
hi =ni / ai
140-160
160-170
170-180
180-190
190-200
30
22
20
18
10
100
1.5
2.2
2
1.8
1
( 2.2 − 1.5)
× 10 = 167.777
( 2.2 − 1.5) + ( 2.2 − 2 )
¾ Observaciones:
1. Puede utilizarse la frecuencia relativa
2. Si las amplitudes son iguales se puede proceder
directamente con las frecuencias
15
™ Mediana
‰ Valor de la variable que ocupa el lugar central en una
serie de datos ordenados.
ƒ El 50% de los elementos de la población tienen un valor
de la variable menor de la mediana. El 50% de los
elementos de la población tienen un valor de la variable
mayor.
¾ Variables discretas
ƒ Datos en serie
W Ejemplos
ƒ Nº impar de observaciones:
:
2, 2, 2, 3, 5, 6, 7, 7, 8
Me = 5
ƒ Nº par de observaciones:
4, 6, 6, 6, 7, 8, 8, 9
:
Me = 6 – 7
Indeterminado entre 6 y 7
16
¾ Variables discretas
ƒ Datos en tabla
W Ejemplo
xi
ni
Ni
fi
Fi
0
4
4
0.142
0.142
1
6
10
0.214
0.357
2
10
20
0.357
0.714
3
5
25
0.178
0.892
4
3
28
0.107
1
28
n/2 =14
Fi= 1/2
Me = 2
1
¾ Observación: Si n/2 coincide con un Ni
la mediana está indeterminada entre xi y xi+1
17
¾ Variables continuas
n
1
− Ni −1
− Fi −1
Me = ei −1 + 2
ai = ei −1 + 2
ai
ni
fi
W Ejemplo
Tallas
ni
Ni
fi
Fi
140-150
15
15 0.15 0.15
150-160
30
45 0.30 0.45
160-170
25
70 0.25 0.70
170-180
20
90 0.20 0.90
180-200
10 100 0.10
n/2 = 50
Fi = 1/2
1
100
Me = 160 +
0.5 − 0.45
× 10 = 160 + 2 = 162
0.25
¾ Observación: Si n/2 coincide con un Ni
la mediana es el extremo superior del intervalo que le
corresponde
18
™ Percentiles
‰ Definición: Pk, k:1,2,...,99, “percentil k”, valor de la
variable que deja por debajo, el k% de los valores de la
variable
Q1 = P25 → Cuartil 1º
Q2 = P50 → Cuartil 2º = Me
Q3 = P75 → Cuartil 3º
Cuantiles, aún
más general
D1 = P10 → Decil 1º
D2 = P20 → Decil 2º
….
D9 = P90 → Decil 9º
ƒ Cálculo para v.e. discretas:
Igual que la mediana, cambiando n/2 por nk/100
ƒ Cálculo para v.e. continuas:
nk
k
− Ni−1
− Fi−1
Pk = ei −1 + 100
ai = ei−1 + 100
ai
ni
fi
19
W Ejemplos percentiles v.e. discreta
xi
ni
Ni
2
20
20
3
30
50
4
44
94
5
20
114
6
10
124
nk/100 =
124x40/100 = 49.6
nk/100 =
124x95/100 = 117.8
124
Percentil 40, P40 = 3
Percentil 95, P95 = 6
nk/100 =
124x25/100 = 31
Percentil 25, P25 = 3 = Q1
nk/100 =
124x50/100 = 62
Percentil 50, P50 = 4 = Me = Q2
nk/100 =
124x75/100 = 93
Percentil 75, P75 = 4 = Q3
20
W Ejemplos percentiles v.e. continua
Tallas
ni
Ni
fi
Fi
140-150
15
15 0.15 0.15
150-160
30
45 0.30 0.45
160-170
25
70 0.25 0.70
170-180
20
90 0.20 0.90
180-200
10 100 0.10
P40
P75
1
100
nk
k
− Ni −1
− Fi −1
Pk = ei −1 + 100
ai = ei −1 + 100
ai
ni
fi
40 − 15
0.4 − 0.15
P40 = 150 +
×10 = 150 +
×10 = 158.33
30
0.30
P75 = 170 +
75 − 70
0.75 − 0.70
×10 = 170 +
×10 = 172.5 = Q3
20
0.20
21
^ 1.3.2.
Características de Dispersión
9 “Miden la Homogeneidad de las observaciones”
™ Rango o recorrido
¾ Valor máximo menos valor mínimo de la variable
™ Recorrido intercuartílico
¾ Q3 – Q1
22
™ Varianza
k
(
∑ ni x i − x
σ 2 = i =1
n
)
k
2
2
n
x
∑ ii
= i =1
n
−x
2
™ Desviación típica
σ = σ2
™ Coeficiente de variación
σ
C. V . =
x
23
W Ejemplo
xi
ni
nixi
nixi2
4
6
8
10
12
20
40
44
36
22
162
80
240
352
360
264
1296
320
1440
2816
3600
3168
11344
k
∑ ni x i 2
σ 2 = Var [ X ] = i =1
n
2
11344  1296 
−x =
−
 = 6.02
162  162 
2
σ = σ 2 = 6.02 = 2.4535
24
™ Momentos no centrales (Respecto al origen)
k
r
n
x
∑i i
k
m r = ∑ fi x i r = i =1
n
i =1
k
∑ ni xi
k
r = 1 → m1 = ∑ fi xi = i =1
i =1
n
=x
k
2
n
x
∑ ii
k
r = 2 → m 2 = ∑ fi xi 2 = i =1
i =1
n
k
σ
2
2
n
x
∑ii
= i =1
n
2
( )
− x = m 2 − m1
2
25
™ Momentos centrales (Respecto a la media)
k
∑ ni ( x i − x )
µ r = i =1
r
n
k
∑ ni ( x i − x )
r = 1 → µ1 = i =1
n
k
∑ ni ( x i − x )
r = 2 → µ 2 = i =1
n
=0
2
=σ2
26
^ 1.3.3
Características de forma
™ Coeficiente de Sesgo (Asimetría)
γ1 =
µ3
σ3
y
Si γ 1 = 0 ⇒ Distribución simétrica
y
Si γ 1 > 0 ⇒ Distribución sesgada a la derecha
y
Si γ 1 < 0 ⇒ Distribución sesgada a la izquierda
27
™ Coeficiente de Curtosis (Aplastamiento)
γ2 =
µ4
σ
4
−3
Distribución igual de aplastada
que la distribución Normal
y Si
γ2 =0 ⇒
y Si
Distribución menos aplastada
γ2 >0 ⇒
que la distribución Normal
y Si
γ 2 < 0 ⇒ Distribución más aplastada que
la distribución Normal
28
™ 1.4 Concepto de variable estadística
bidimensional
W Ejemplo . X: “Peso”, Y: “Estatura”
X\Y
140-160 160-180
180-200 >200 Marginal
X
40-60
10
6
2
0
18
60-80
8
12
6
2
28
80-100
1
8
10
6
25
Marginal
Y
19
26
18
8
71
9 Frecuencias Marginales
Frecuencias Marginales de X
Frecuencias Marginales de Y
9 Frecuencias Condicionadas
Frecuencias Condicionadas de X
Frecuencias Condicionadas de Y
29
™ 1.5 Distribuciones marginales y
condicionadas
¾ Distribución marginal de X
W Distribución de la variable X: “Peso”
X \Y
140-160 160-180
180-200 >200 Marginal
X
2
0
18
40-60
10
6
60-80
8
12
6
2
28
80-100
1
8
10
6
25
Marginal
Y
19
26
18
8
71
30
¾ Distribución marginal de X
W Distribución de la variable X: “Peso”
X
Frecuencias
Marginales
40-60
18
60-80
28
80-100
25
71
9 Media Marginal de X
9 Mediana Marginal de X
9 Moda Marginal de X
9 Varianza Marginal de X
31
¾ Distribución marginal de Y
W Distribución de la variable Y: “Estatura”
X\Y
140-160 160-180
180-200 >200 Marginal
X
40-60
10
6
2
0
18
60-80
8
12
6
2
28
80-100
1
8
10
6
25
Marginal
Y
19
26
18
8
71
32
¾ Distribución marginal de Y
W Distribución de la variable Y: “Estatura”
Y
Frecuencias
Marginales
140-160
19
160-180
26
180-200
18
>200
8
71
9 Media Marginal de Y
9 Mediana Marginal de Y
9 Moda Marginal de Y
9 Varianza Marginal de Y
33
¾ Distribuciones de X
condicionadas a valores de Y
W Ejemplo . Distribución de X
condicionada a 160 < Y < 180
X\Y
140-160 160-180
180-200 >200 Marginal
X
2
0
18
40-60
10
6
60-80
8
12
6
2
28
80-100
1
8
10
6
25
Marginal
Y
19
26
18
8
71
34
W Ejemplo . Distribución de X
condicionada a 160 < Y < 180
X
Frecuencias
condicionadas
40-60
6
60-80
12
80-100
8
26
9 Medias condicionadas de X
9 Varianzas condicionadas de X
35
¾ Distribuciones de Y
condicionadas a valores de X
W Ejemplo . Distribución de Y
condicionada a 60 < X < 80
X\Y
140-160 160-180
180-200 >200 Marginal
X
40-60
10
6
2
0
18
60-80
8
12
6
2
28
80-100
1
8
10
6
25
Marginal
Y
19
26
18
8
71
36
W Ejemplo . Distribución de Y
condicionada a 60 < X < 80
Y
Frecuencias
condicionadas
140-160
8
160-180
12
180-200
6
>200
2
28
9 Medias condicionadas de Y
9 Varianzas condicionadas de Y
37
™ 1.6 Covarianza
Cov [ X , Y ] = σ x y =
∑∑ n ij ( xi − x )( y j − y )
i
j
n
=
∑∑ nij xi y j
=
i
j
n
−x y
38
™ 1.7 Dependencia e
independencia estadística
¾ Independencia estadística
ƒ No hay relación entre las variables
Si n ij =
n i.n. j
n
∀ i, j
¾ Dependencia estadística
ƒ Hay relación entre las variables
El grado de relación se mide mediante
un coeficiente de asociación
39
W Ejemplo. Variables X e Y independientes
X\Y
Y1
Y2
Y3
Y4
ni ^
X1
n11
n12
n13
n14
n1 ^
=2
=6
=4
=8
= 20
n21
n22
n23
n24
n2 ^
=3
=9
=6
=
12
= 30
n31
n32
n33
n34
n3 ^
=1
=3
=2
=4
= 10
n ^1
n ^2
n ^3
n ^4
n
=6
= 18
= 12
=
24
= 60
X2
X3
n ^j
Independencia estadística
Si nij =
n 23 =
n 2. n.3
n 31 =
n 3. n.1
n
n
=
30 × 12
=6
60
=
10 × 6
=1
60
ni. n. j
n
∀ i, j
40
W Ejemplo. Variables X e Y no independientes
X\Y
Y1
Y2
Y3
Y4
ni ^
X1
n11
n12
n13
n14
n1 ^
=3
=6
=4
=8
= 21
n21
n22
n23
n24
n2 ^
=3
= 10
=6
=
12
= 31
n31
n32
n33
n34
n3 ^
=1
=3
=2
=4
= 10
n ^1
n ^2
n ^3
n ^4
n
=7
= 19
= 12
=
24
= 62
X2
X3
n ^j
Independencia estadística
Si nij =
n 23 =
n 2. n.3
n 31 ≠
n 3. n.1
n
n
=
31 × 12
=6
62
ni. n. j
n
∀ i, j
10 × 7
=
= 1.129 ≠ 1
62
41
W Ejemplo. Dependencia Funcional
™ .- Dadas las siguientes distribuciones bidimensionales:
1. ¿Son independientes las variables X e Y?
2. ¿Dependen funcionalmente las variables X e Y?
a.
b.
c.
d.
X\Y
10
15
20
1
2
3
0
1
0
3
0
0
0
0
5
4
0
1
0
X\Y
10
15
20
25
1
2
3
0
0
2
3
0
0
0
1
0
4
0
0
X\Y
10
15
20
1
2
3
0
3
0
5
0
0
0
0
2
X\Y
10
15
20
1
2
3
3
1
0
2
0
1
0
2
1
42
1. ¿Son independientes las variables X e Y?
a.
X\Y
10
15
20
Marginal X
1
0
3
0
3
2
1
0
0
1
3
0
0
5
5
4
0
1
0
1
Marginal Y
1
4
5
10
n12 ≠
n 1. n.2
n
3× 4
=
= 1.2 ≠ 3
10
Las variables X e Y no son independientes
b.
X\Y
10
15
20
25
Marginal X
1
0
3
0
4
7
2
0
0
1
0
1
3
2
0
0
0
2
Marginal Y
2
3
1
4
10
n 23 ≠
n 2. n.3
n
=
1×1
= 0.1 ≠ 1
10
Las variables X e Y no son independientes
43
1. ¿Son independientes las variables X e Y?
c.
X\Y
10
15
20
Marginal X
1
0
5
0
5
2
3
0
0
3
3
0
0
2
2
Marginal Y
3
5
2
10
n11 ≠
n 1. n.1
n
5×3
=
= 1.5 ≠ 0
10
Las variables X e Y no son independientes
d.
X\Y
10
15
20
Marginal X
1
3
2
0
5
2
1
0
2
3
3
0
1
1
2
Marginal Y
4
3
3
10
n 21 ≠
n 2. n.1
n
=
3× 4
= 1.2 ≠ 1
10
Las variables X e Y no son independientes
44
2. ¿Dependen funcionalmente las variables X e Y?
a.
X\Y
10
15
20
1
0
3
0
2
1
0
0
3
0
0
5
4
0
1
0
Y Depende funcionalmente de X
X No Depende funcionalmente de Y
b.
X\Y
10
15
20
25
1
0
3
0
4
2
0
0
1
0
3
2
0
0
0
Y No Depende funcionalmente de X
X Depende funcionalmente de Y
45
2. ¿Dependen funcionalmente las variables X e Y?
c.
X\Y
10
15
20
1
0
5
0
2
3
0
0
3
0
0
2
X Depende funcionalmente de Y
Y Depende funcionalmente de X
d.
X\Y
10
15
20
1
3
2
0
2
1
0
2
3
0
1
1
X No Depende funcionalmente de Y
Y No Depende funcionalmente de X
46
™ 1.8 Regresión y correlación.
Introducción
™ Regresión
¾ Búsqueda de una función que relacione ambas variables
y sirva para predecir una variable a partir de la otra
y = f(x)
™ Correlación
¾ Estudio del nivel de relación entre las variables
9 Nube de puntos (diagrama de dispersión): gráfico
de las observaciones (datos bidimensionales)
9 Línea o función de regresión: tipo de función que
mejor se ajuste a la nube de puntos:
_ Lineal ; Cuadrática; Exponencial…
47
™ 1.9 Rectas de regresión
™ Recta de mínimos cuadrados de Y / X
Y
y = a + bx
*
*
*
yj *
*
*
(xi, yj* )
*
(xi, yj )
eij
yj
*
*
X
xi
Residuos = eij = y j − ( a + bxi )
min ∑∑ eij = min ∑∑
2
i
j
i
= min ∑∑
i
(
j
y j − ( a + bxi )
(
)
2
*
yj − yj
=
)
2
j
Ecuaciones normales
48
™ Recta de mínimos cuadrados de Y / X
y = f ( x) = a + b x
Cov [ X , Y ] σ xy
b=
=
=
2
Var [ X ]
σx
∑ ni x i yi − x y
n
∑ ni x i 2
n
−x
2
a = y − bx
(
y− y =b x−x
)
b = coeficiente de regresión de Y / X
“Variación de Y si X aumenta en una unidad”
49
™ Recta de mínimos cuadrados de X / Y
x = f ( y) = c + d y
Cov [ X , Y ] σ xy
d=
=
=
2
Var [Y ]
σy
∑ ni x i yi − x y
n
∑ ni y i 2
n
−y
2
c = x−d y
(
x−x=d y− y
)
d = coeficiente de regresión de X / Y
“Variación de X si Y aumenta en una unidad”
50
™ 1.10 Coeficiente de determinación y
coeficiente de correlación lineal
™ Coeficiente de determinación
¾ “Proporción de la varianza explicada por la regresión”
r2 =
2
σ xy
;
σ x2 σ y2
0 ≤ r2 ≤ 1
™ Coeficiente de correlación lineal de Pearson
r=
σ xy
σ xσ y
;
−1 ≤ r ≤ 1
r = 0 ⇔ Independencia
r > 0 ⇔ Dependencia directa
r < 0 ⇔ Dependencia inversa
r = ± 1 ⇔ Dependencia funcional lineal
51
W Ejemplo. X= “Estatura”, Y= “Peso”
xi
yi
x i yi
x2i
y 2i
160
52
8320
25600
2704
172
64
11008
29584
4096
174
65
11310
30276
4225
176
72
12672
30976
5184
180
78
14040
32400
6084
Σ=862 Σ= 331 Σ= 57350 Σ= 148836 Σ= 22293
x=
σ xy
862
= 172.4 ;
5
y=
331
= 66.2
5
n i x i yi
57350
∑
=
− xy =
− 172.4
σx
5
n
×
66.2 = 57.12
2
n
x
2 148836
∑
i i
2
=
−x =
− 172.42 = 45.44
5
n
2
σy =
2
n
y
∑ i i
n
2
−y =
22293
− 66.22 = 76.16
5
52
y = a + bx
b=
Cov [ X , Y ]
Var [ X ]
=
σ xy
σ x2
=
57.12
= 1.257
45.44
a = y − bx = 66.2 − 1.257 × 172.4 = −150.5068
y = a + b x = −150.5068 + 1.257 x
Para x = 170
⇒
y = a + bx = −150.5068 + 1.257 × 170 = 63.1832
r=
σ xy
σx σy
=
57.12
45.44
= 0.9708
76.16
53
™ 1.11 Otros tipos de ajuste
¾ Parabólico
y = ax 2 + bx + c
¾ Exponencial
y = a bx
¾ Potencial
y = a xb
¾ Hiperbólico
y=
a
x
54
Descargar