Tema 2: Análisis Descriptivo de Conjuntos de Datos

Anuncio
Tema 2: Análisis Descriptivo de Conjuntos de Datos
Estadística. 4o Curso
Licenciatura en Ciencias Ambientales
Licenciatura en Ciencias Ambientales (4o Curso)
Tema 2: Análisis Descriptivo de Conjuntos de Datos
Curso 2009-2010
1 / 28
Índice
1
Objetivos de la Estadística Descriptiva
2
Conceptos Básicos
3
Métodos para la organización de conjuntos de datos
4
Métodos para la representación gráfica de conjuntos de datos
5
Métodos para el resumen de conjuntos de datos
Licenciatura en Ciencias Ambientales (4o Curso)
Tema 2: Análisis Descriptivo de Conjuntos de Datos
Curso 2009-2010
2 / 28
Objetivos de la Estadística Descriptiva
Estudia los procedimientos apropiados para organizar, representar gráficamente y
resumir convenientemente la información contenida en un conjunto de datos.
Es la parte de la Estadística más conocida por ser muy frecuentemente utilizada en los
medios de comunicación y en la vida cotidiana.
Los procedimientos que proporciona la Estadística Descriptiva sólo permiten obtener
conclusiones para los conjuntos de datos recogidos y no para las poblaciones de las
que han sido extraídos.
Licenciatura en Ciencias Ambientales (4o Curso)
Tema 2: Análisis Descriptivo de Conjuntos de Datos
Curso 2009-2010
3 / 28
Conceptos Básicos
Experimentos estadísticos
Una vez seleccionada la muestra de la población, medimos en las n unidades
experimentales la variable o variables que pretendemos estudiar.
Si X es una de estas variables obtendremos que x1 , . . . , xn son los valores que toma la
variable X en los individuos 1, 2, . . . , n, respectivamente. Se denomina a su vez
muestra de la variable X.
Ejemplo de tabla de datos
1
2
3
4
..
.
n
Licenciatura en Ciencias Ambientales (4o Curso)
X
x1
x2
x3
x4
..
.
xn
Y
y1
y2
y3
y4
..
.
yn
Z
z1
z2
z3
z4
..
.
zn
W
w1
w2
w3
w4
..
.
wn
...
...
...
...
...
...
Tema 2: Análisis Descriptivo de Conjuntos de Datos
Curso 2009-2010
4 / 28
Métodos para la organización de conjuntos de datos
Tablas de frecuencias: Variables cualitativas
n (tamaño de la muestra) frecuencia total.
M1 , . . . , Mk modalidades distintas de la variable sobre la muestra.
ni ≡ frecuencia absoluta de Mi ; es el número de veces que se repite la modalidad
Mi (n1 + · · · + nk = n )
ni
fi =
fi ≡ frecuencia relativa de la modalidad Mi ;
n
(f1 + · · · + fk = 1)
Mod.
M1
M2
..
.
Mk
Licenciatura en Ciencias Ambientales (4o Curso)
ni
n1
n2
..
.
nk
n
fi
f1
f2
..
.
fk
1
Tema 2: Análisis Descriptivo de Conjuntos de Datos
Curso 2009-2010
5 / 28
Métodos para la organización de conjuntos de datos
Ejemplo 1
En una zona contaminada se tomaron una serie de muestras de aire y se midieron los
niveles de CO (alto, medio, bajo), obteniéndose los siguientes resultados:
dato
CO
dato
CO
1
A
11
B
2
A
12
A
3
M
13
A
4
B
14
M
Mod.
Alto
Medio
Bajo
Licenciatura en Ciencias Ambientales (4o Curso)
5
A
15
A
ni
8
6
6
20
6
M
16
A
7
B
17
B
8
B
18
M
9
A
19
M
10
M
20
B
fi
0.4
0.3
0.3
1
Tema 2: Análisis Descriptivo de Conjuntos de Datos
Curso 2009-2010
6 / 28
Métodos para la organización de conjuntos de datos
Tablas de frecuencias: Variables cuantitativas discretas
n (tamaño de la muestra) frecuencia total.
x1 , . . . , xk valores distintos de la variable sobre la muestra. (x1 < · · · < xn )
ni ≡ frecuencia absoluta y fi ≡ frecuencia relativa; se definen del mismo
modo que para las variables cualitativas.
Ni ≡ frecuencia absoluta acumulada de xi ; Ni = n1 + · · · + ni
Fi ≡ frecuencia relativa acumulada de xi ; Fi = f1 + · · · + fi
valor
x1
x2
..
.
xk
Licenciatura en Ciencias Ambientales (4o Curso)
ni
n1
n2
..
.
nk
n
fi
f1
f2
..
.
fk
1
Ni
N1
N2
..
.
Nk = n
(Nk = n)
(Fk = n)
Fi
F1
F2
..
.
Fk = 1
Tema 2: Análisis Descriptivo de Conjuntos de Datos
Curso 2009-2010
7 / 28
Métodos para la organización de conjuntos de datos
Ejemplo 2
Se desea saber el riesgo de extinción de la cigüeña en una cierta región. Se eligen en
dicha región 25 nidos mediante un MAS, contando los huevos que hay en cada nido.
Resulta que 2 de los nidos no tenían huevos, 3 tenían un huevo, 4 tenían 2 huevos, 8
tenían 3 huevos, 5 tenían 4 huevos y el resto 5 huevos.
valor
0
1
2
3
4
5
Licenciatura en Ciencias Ambientales (4o Curso)
ni
2
3
4
8
5
3
25
fi
0.08
0.12
0.16
0.32
0.2
0.12
1
Ni
2
5
9
17
22
25
Fi
0.08
0.2
0.36
0.68
0.88
1
Tema 2: Análisis Descriptivo de Conjuntos de Datos
Curso 2009-2010
8 / 28
Métodos para la organización de conjuntos de datos
Tablas de frecuencias: Variables cuantitativas continuas
Antes de construir la tabla de frecuencias hay que agrupar los datos de estas variables
en intervalos. La forma de hacerlo es la siguiente:
Determinar valores máximo (Vmax ) y mínimo (Vmin ) de los datos.
Determinar el número (k) de intervalos a construir, que deben ser todos de la
misma amplitud.
Vmax − Vmin
Determinar la amplitud de los intervalos: a ≈
k
A veces conviene redondear esta amplitud pero NUNCA DEBEMOS PERDER
NINGÚN DATO EN EL PROCESO.
¿Cómo determinar el número de intervalos?
Categorías prefijadas en estudios anteriores.
A criterio del investigador.
Mediante la Fórmula de Sturges (k ≈ 1 + 3.322 log10 n) u otra similar.
Licenciatura en Ciencias Ambientales (4o Curso)
Tema 2: Análisis Descriptivo de Conjuntos de Datos
Curso 2009-2010
9 / 28
Métodos para la organización de conjuntos de datos
Ejemplo 3
En la siguiente tabla se muestran los niveles de colinesterasa de 34 agricultores
expuestos a insecticidas agrícolas:
10.6
11.5
14.9
12.2
10.3
11.3
Vmin = 7.8
,
11.8
8.6
11.1
12.5
9.9
12.5
10.8
12.4
12.3
Vmax = 16.5
,
a≈
12.7
8.5
10.2
11.1
11.9
12.5
16.5
9.1
9.7
11.4
10.1
12.3
9.2
11.6
12.0
15.0
7.8
9.3
12.4
k ≈ 1 + 3.322 log10 34 = 6.08 ≈ 6
16.5 − 7.8
= 1.45(≈ 1.5)
6
Sin redondear:
[7.8, 9.25], (9.25, 10.7], (10.7, 12.15], (12.15, 13.6], (13.6, 15.05], (15.05, 16.5]
Redondeando:
[7.5, 9], (9, 10.5], (10.5, 12], (12, 13.5], (13.5, 15], (15, 16.5]
Licenciatura en Ciencias Ambientales (4o Curso)
Tema 2: Análisis Descriptivo de Conjuntos de Datos
Curso 2009-2010
10 / 28
Métodos para la organización de conjuntos de datos
Tablas de frecuencias: variables cuantitativas continuas
I1 = [a0 , a1 ], I2 = (a1 , a2 ], . . . , Ik = (ak−1 , ak ] intervalos en los que se han agrupado
los datos.
ni ≡ frecuencia absoluta del intervalo Ii ; es el número de valores que pertenecen
al intervalo Ii .
ni
fi ≡ frecuencia relativa del intervalo Ii ;
fi =
n
Ni ≡ frecuencia absoluta acumulada del intervalo Ii ; Ni = n1 + · · · + ni
Fi ≡ frecuencia relativa acumulada del intervalo Ii ; Fi = f1 + · · · + fi
intervalo
I1
I2
..
.
Ik
Licenciatura en Ciencias Ambientales (4o Curso)
ni
n1
n2
..
.
nk
n
fi
f1
f2
..
.
fk
1
Ni
N1
N2
..
.
Nk = n
Fi
F1
F2
..
.
Fk = 1
Tema 2: Análisis Descriptivo de Conjuntos de Datos
Curso 2009-2010
11 / 28
Métodos para la organización de conjuntos de datos
Ejemplo 3 (continuación)
Tabla de frecuencias para los datos de los niveles de colinesterasa de 34 agricultores
expuestos a insecticidas agrícolas:
Licenciatura en Ciencias Ambientales (4o Curso)
intervalo
[7.5, 9]
ni
3
fi
0.088
Ni
3
Fi
0.088
(9, 10.5]
8
0.235
11
0.323
(10.5, 12]
11
0.324
22
0.647
(12, 13.5]
9
0.265
31
0.911
(13.5, 15]
2
0.059
33
0.971
(15, 16.5]
1
34
0.029
1
34
1
Tema 2: Análisis Descriptivo de Conjuntos de Datos
Curso 2009-2010
12 / 28
Métodos para la representación gráfica de conjuntos de
datos
Variables cualitativas: diagrama de sectores
Se calculan frecuencias relativas (fi ).
A la modalidad Mi se le asigna un ángulo de fi · 360o .
No es conveniente que haya un número excesivo de modalidades.
Ejemplo 1 (continuación)
Alto
Mod.
Alto
Medio
Bajo
ni
8
6
6
20
fi
0.4
0.3
0.3
1
grados
144
108
108
Bajo
Medio
Licenciatura en Ciencias Ambientales (4o Curso)
Tema 2: Análisis Descriptivo de Conjuntos de Datos
Curso 2009-2010
13 / 28
Métodos para la representación gráfica de conjuntos de
datos
Variables cualitativas: diagrama de barras
Esta representación consiste en construir tantos rectángulos o barras como
modalidades presente el carácter bajo estudio. La altura que alcanza cada barra puede
ser igual a la frecuencia absoluta o bien a la frecuencia relativa de la modalidad a la
que corresponde dicha barra.
0.2
6
0.1
4
0.0
fi
0.4
0.3
0.3
1
2
ni
8
6
6
20
0
Mod.
Alto
Medio
Bajo
0.3
8
0.4
Ejemplo 1 (continuación)
Alto
Licenciatura en Ciencias Ambientales (4o Curso)
Bajo
Medio
Tema 2: Análisis Descriptivo de Conjuntos de Datos
Alto
Bajo
Medio
Curso 2009-2010
14 / 28
Métodos para la representación gráfica de conjuntos de
datos
Variables cuantitativas discretas: polígono de frecuencias
Se colocan los valores ordenados de menor a mayor en el eje horizontal. A cada valor
de la variable se le asocia un punto con la altura correspondiente a su frecuencia
absoluta o bien a su frecuencia relativa. Los puntos se conectan mediante segmentos.
Este polígono puede representarse de forma superpuesta a un diagrama de barras.
Licenciatura en Ciencias Ambientales (4o Curso)
6
4
fi
0.08
0.12
0.16
0.32
0.2
0.12
1
2
ni
2
3
4
8
5
3
25
0
valor
0
1
2
3
4
5
8
Ejemplo 2 (continuación)
0
1
2
3
4
Tema 2: Análisis Descriptivo de Conjuntos de Datos
5
Curso 2009-2010
15 / 28
Métodos para la representación gráfica de conjuntos de
datos
Variables cuantitativas continuas: histograma
Para construir el histograma partimos de la tabla de frecuencias de los datos.
Dividimos el eje horizontal en los intervalos en que hemos agrupado los datos.
Sobre cada intervalo construiremos un rectángulo. Para la altura de estos rectángulos
tenemos tres opciones:
Las frecuencias absolutas.
Las frecuencias relativas.
Se construyen rectángulos cuyas áreas sean las frecuencias relativas. Si hi es la
altura del rectángulo que hay sobre el intervalo Ii y a es la amplitud de todos los
intervalos
fi
fi = hi · a ⇒ hi =
a
Licenciatura en Ciencias Ambientales (4o Curso)
Tema 2: Análisis Descriptivo de Conjuntos de Datos
Curso 2009-2010
16 / 28
Métodos para la representación gráfica de conjuntos de
datos
Fi
0.088
(9, 10.5]
8
0.235
11
0.323
(10.5, 12]
11
0.324
22
0.647
(12, 13.5]
9
0.265
31
0.911
(13.5, 15]
2
0.059
33
0.971
(15, 16.5]
1
34
0.029
1
34
1
Licenciatura en Ciencias Ambientales (4o Curso)
0.15
Ni
3
0.10
fi
0.088
0.05
ni
3
0.00
intervalo
[7.5, 9]
0.20
Ejemplo 3 (continuación)
8
10
Tema 2: Análisis Descriptivo de Conjuntos de Datos
12
14
16
Curso 2009-2010
17 / 28
Métodos para el resumen de conjuntos de datos
¡¡¡Advertencia!!!
SÓLO PARA VARIABLES CUANTITATIVAS DISCRETAS Y CONTINUAS SIN
AGRUPAR
Medidas de centralización: moda y media
La moda es el dato más repetido. Puede haber más de una.
La media (x̄) es el valor central en el sentido aritmético. Viene a ser el “centro de
gravedad” de los datos.
x1 + · · · + xn
x̄ =
n
Si la variable es discreta y los datos están agrupados en una tabla de frecuencias
x̄ =
Licenciatura en Ciencias Ambientales (4o Curso)
x1 n1 + · · · + xk nk
= x1 f1 + · · · + xk fk
n
Tema 2: Análisis Descriptivo de Conjuntos de Datos
Curso 2009-2010
18 / 28
4. Medidas de síntesis de la información
Medidas de centralización: mediana
La mediana (x̃) es un valor que deja la mitad de los datos a su izquierda y la otra
mitad a su derecha. Ocupa la posición central en el sentido del orden.
Para calcularla hay que ordenar los datos de menor a mayor y entonces:
Si n impar, x̃ ≡ dato que ocupa la posición
n+1
2
Si n par, x̃ ≡ punto medio de los datos que ocupan las posiciones
Licenciatura en Ciencias Ambientales (4o Curso)
Tema 2: Análisis Descriptivo de Conjuntos de Datos
n n
y +1
2 2
Curso 2009-2010
19 / 28
Métodos para el resumen de conjuntos de datos
Ejemplo 2 (continuación)
Si en una variable discreta nos dan los datos agrupados en una tabla de frecuencias,
para calcular la mediana se utilizan las frecuencias absolutas acumuladas:
valor
0
1
2
3
4
5
ni
2
3
4
8
5
3
fi
0.08
0.12
0.16
0.32
0.2
0.12
Ni
2
5
9
17
22
25
Licenciatura en Ciencias Ambientales (4o Curso)
Fi
0.08
0.2
0.36
0.68
0.88
1
x̄ = 2.8
Tema 2: Análisis Descriptivo de Conjuntos de Datos
,
x̃ = 3
Curso 2009-2010
20 / 28
Métodos para el resumen de conjuntos de datos
0.15
0.20
Ejemplo 3 (continuación)
x̃ = 11.45
0.00
0.05
0.10
x̄ = 11.35294 ,
8
10
12
14
Licenciatura en Ciencias Ambientales (4o Curso)
16
Tema 2: Análisis Descriptivo de Conjuntos de Datos
Curso 2009-2010
21 / 28
Métodos para el resumen de conjuntos de datos
Medidas de posición: cuartiles
Primer cuartil (Q1 ) es el valor que deja a su izquierda la cuarta parte de los
n+1
datos. Para calcularlo se ordenan los datos de menor a mayor y se toma
2
redondeado por defecto. A este número lo llamamos q.
q+1
.
2
q q
Si q es par, Q1 es el punto medio de los datos que ocupan las posiciones y + 1.
2 2
Si q es impar, Q1 es el dato que ocupa la posición
Segundo cuartil (Q2 ) Es el valor que deja a la izquierda dos cuartas partes de los
datos. Por tanto se trata de la mediana, Q2 = x̃.
Tercer cuartil (Q3 ) Es el valor que deja a la izquierda las tres cuartas partes de
los datos. Su posición es simétrica a la de Q1 .
Otras medidas de posición
Deciles: El decil i-ésimo deja i/10 de los datos a la izquierda.
Percentiles: El percentil p deja el 100p% de los datos a la izquierda.
Licenciatura en Ciencias Ambientales (4o Curso)
Tema 2: Análisis Descriptivo de Conjuntos de Datos
Curso 2009-2010
22 / 28
Métodos para el resumen de conjuntos de datos
Ejemplo 3 (continuación)
7.80
9.90
11.10
12.00
12.50
8.50
10.10
11.30
12.20
12.50
8.60
10.20
11.40
12.30
12.70
Q1 = 10.10 ,
Licenciatura en Ciencias Ambientales (4o Curso)
9.10
10.30
11.50
12.30
14.90
9.20
10.60
11.60
12.40
15.00
9.30
10.80
11.80
12.40
16.50
Q2 = x̃ = 11.45 ,
9.70
11.10
11.90
12.50
Q3 = 12.40
Tema 2: Análisis Descriptivo de Conjuntos de Datos
Curso 2009-2010
23 / 28
Métodos para el resumen de conjuntos de datos
Medidas de dispersión
Rango (R): diferencia entre el máximo y el mínimo.
Varianza muestral (s2 ):
Mide la variabilidad de los datos respecto de la media muestral x̄.
!
n
n
X
1 X
1
2
2
2
2
(xi − x̄) =
xi − nx̄
s =
n−1
n−1
i=1
i=1
Desviación típica (s):
√
Se define como s = s2 . La raíz cuadrada compensa el hecho de haber elevado
los datos al cuadrado. Por tanto se mide en las mismas unidades que los datos.
Licenciatura en Ciencias Ambientales (4o Curso)
Tema 2: Análisis Descriptivo de Conjuntos de Datos
Curso 2009-2010
24 / 28
Métodos para el resumen de conjuntos de datos
Medidas de dispersión
Rango intercuartílico (RI ): Distancia entre Q1 y Q3 , RI = Q3 − Q1 . En esta
distancia se concentran el 50% de los datos, concretamente los que ocupan
posiciones centrales.
Coeficiente de variación (C.V.): Mide la dispersión de los datos en relación a
su orden de magnitud. Se utiliza para comparar la dispersión de distintos grupos
de datos.
s
C.V. = · 100
x̄
Ejemplo 3 (continuación)
R = 8.7
,
s2 = 3.514082
RI = 2.30
Licenciatura en Ciencias Ambientales (4o Curso)
,
,
s = 1.874588
C.V. = 16.51%
Tema 2: Análisis Descriptivo de Conjuntos de Datos
Curso 2009-2010
25 / 28
Métodos para el resumen de conjuntos de datos
Diagramas de caja
Se trata de una representación gráfica ligada a los cuartiles. Con los datos del Ejemplo
3 podemos dibujar el siguiente:
16
●
12
Q1
8
Q3
~
x
10
14
h3
h1
h1 es el dato más próximo a Q1 − 1.5RI mayor que este valor.
h3 es el dato más próximo a Q3 + 1.5RI menor que este valor.
Los valores menores que h1 ó mayores que h3 son valores atípicos que pueden ser
datos influyentes o simplemente mal tomados.
Licenciatura en Ciencias Ambientales (4o Curso)
Tema 2: Análisis Descriptivo de Conjuntos de Datos
Curso 2009-2010
26 / 28
Métodos para el resumen de conjuntos de datos
Medidas de forma: coeficiente de asimetría
El coeficiente de asimetría (g1 ) se define como:
1 Xn
(xi − x̄)3
i=1
n
g1 =
s3
1
2
3
4
g1=0
Licenciatura en Ciencias Ambientales (4o Curso)
5
6
0.05
0.00
0.0
0.00
0.1
0.05
0.10
0.2
0.10
0.15
0.3
0.15
0.20
0.4
Conforme más próximo esté g1 a 0 más simetría presentan los datos. Si g1 > 0 hay
una desviación hacia valores altos y si g1 < 0 hacia valores bajos.
0
2
4
6
8
10
12
g1>0
Tema 2: Análisis Descriptivo de Conjuntos de Datos
0
2
4
6
8
10
12
g1<0
Curso 2009-2010
27 / 28
Métodos para el resumen de conjuntos de datos
Medidas de forma: coeficiente de curtosis
El coeficiente de aplastamiento o de curtosis (g2 ) Se define como:
1 Xn
(xi − x̄)4
i=1
n
−3
g2 =
s4
Si g2 = 0 el grado de aplastamiento de los datos será similar al de una campana de
Gauss. Si g2 > 0 los datos presentan un menor aplastamiento que la campana de
Gauss y si g2 < 0, los datos aparecen más aplastados que la campana de Gauss.
Ejemplo 3 (continuación)
g1 = 0.4899285
Licenciatura en Ciencias Ambientales (4o Curso)
,
g2 = 0.3731027
Tema 2: Análisis Descriptivo de Conjuntos de Datos
Curso 2009-2010
28 / 28
Descargar