Tema 3: Estadística Descriptiva

Anuncio
Tema 3: Estadística Descriptiva
Estadística. 4o Curso.
Licenciatura en Ciencias Ambientales
Licenciatura en Ciencias Ambientales (4o Curso)
Tema 3: Estadística Descriptiva
Curso 2008-2009
1 / 27
Índice
1
Introducción.
2
Tabulación de datos
3
Representación gráfica
4
Medidas de síntesis de la información
Licenciatura en Ciencias Ambientales (4o Curso)
Tema 3: Estadística Descriptiva
Curso 2008-2009
2 / 27
1 Introducción.
Experimentos estadísticos
Una vez seleccionada la muestra de la población, medimos en las n unidades
experimentales la variable o variables que pretendemos estudiar.
Si X es una de estas variables obtendremos que x1 , . . . , xn son los valores que toma la
variable X en los individuos 1, 2, . . . , n, respectivamente. Se denomina a su vez
muestra de la variable X.
Ejemplo de tabla de datos
1
2
3
4
..
.
n
Licenciatura en Ciencias Ambientales (4o Curso)
X
x1
x2
x3
x4
..
.
xn
Y
y1
y2
y3
y4
..
.
yn
Z
z1
z2
z3
z4
..
.
zn
W
w1
w2
w3
w4
..
.
wn
Tema 3: Estadística Descriptiva
...
...
...
...
...
...
Curso 2008-2009
3 / 27
2. Tabulación de datos
Tablas de frecuencias: Variables cualitativas
n (tamaño de la muestra) frecuencia total.
M1 , . . . , Mk modalidades distintas de la variable sobre la muestra.
ni ≡ frecuencia absoluta de Mi ; es el número de veces que se repite la modalidad
Mi (n1 + · · · + nk = n )
ni
fi ≡ frecuencia relativa de la modalidad Mi ;
fi =
n
(f1 + · · · + fk = 1)
Mod.
M1
M2
..
.
Mk
Licenciatura en Ciencias Ambientales (4o Curso)
ni
n1
n2
..
.
nk
n
fi
f1
f2
..
.
fk
1
Tema 3: Estadística Descriptiva
Curso 2008-2009
4 / 27
2. Tabulación de datos
Ejemplo 1
En una zona contaminada se tomaron una serie de muestras de aire y se midieron los
niveles de CO (alto, medio, bajo), obteniéndose los siguientes resultados:
dato
CO
dato
CO
1
A
11
B
2
A
12
A
3
M
13
A
4
B
14
M
Mod.
Alto
Medio
Bajo
Licenciatura en Ciencias Ambientales (4o Curso)
5
A
15
A
ni
8
6
6
20
6
M
16
A
7
B
17
B
8
B
18
M
9
A
19
M
10
M
20
B
fi
0.4
0.3
0.3
1
Tema 3: Estadística Descriptiva
Curso 2008-2009
5 / 27
2. Tabulación de datos
Tablas de frecuencias: Variables cuantitativas discretas
n (tamaño de la muestra) frecuencia total.
x1 , . . . , xk valores distintos de la variable sobre la muestra. (x1 < · · · < xn )
ni ≡ frecuencia absoluta y fi ≡ frecuencia relativa; se definen del mismo
modo que para las variables cualitativas.
Ni ≡ frecuencia absoluta acumulada de xi ; Ni = n1 + · · · + ni (Nk = n)
Fi ≡ frecuencia relativa acumulada de xi ; Fi = f1 + · · · + fi (Fk = n)
valor
x1
x2
..
.
xk
Licenciatura en Ciencias Ambientales (4o Curso)
ni
n1
n2
..
.
nk
n
fi
f1
f2
..
.
fk
1
Ni
N1
N2
..
.
Nk = n
Tema 3: Estadística Descriptiva
Fi
F1
F2
..
.
Fk = 1
Curso 2008-2009
6 / 27
2. Tabulación de datos
Ejemplo 2
Se desea saber el riesgo de extinción de la cigüeña en una cierta región. Se eligen en
dicha región 25 nidos mediante un MAS, contando los huevos que hay en cada nido.
Resulta que 2 de los nidos no tenían huevos, 3 tenían un huevo, 4 tenían 2 huevos, 8
tenían 3 huevos, 5 tenían 4 huevos y el resto 5 huevos.
valor
0
1
2
3
4
5
Licenciatura en Ciencias Ambientales (4o Curso)
ni
2
3
4
8
5
3
25
fi
0.08
0.12
0.16
0.32
0.2
0.12
1
Ni
2
5
9
17
22
25
Tema 3: Estadística Descriptiva
Fi
0.08
0.2
0.36
0.68
0.88
1
Curso 2008-2009
7 / 27
2. Tabulación de datos
Tablas de frecuencias: Variables cuantitativas continuas
Antes de construir la tabla de frecuencias hay que agrupar los datos de estas variables
en intervalos. La forma de hacerlo es la siguiente:
Determinar valores máximo (Vmax ) y mínimo (Vmin ) de los datos.
Determinar el número (k) de intervalos a construir, que deben ser todos de la
misma amplitud.
Vmax − Vmin
Determinar la amplitud de los intervalos: a ≈
k
A veces conviene redondear esta amplitud pero NUNCA DEBEMOS PERDER
NINGÚN DATO EN EL PROCESO.
¿Cómo determinar el número de intervalos?
Categorías prefijadas en estudios anteriores.
A criterio del investigador.
Mediante la Fórmula de Sturges (k ≈ 1 + 3.322 log10 n) u otra similar.
Licenciatura en Ciencias Ambientales (4o Curso)
Tema 3: Estadística Descriptiva
Curso 2008-2009
8 / 27
2. Tabulación de datos
Ejemplo 3
En la siguiente tabla se muestran los niveles de colinesterasa de 34 agricultores
expuestos a insecticidas agrícolas:
10.6
11.5
14.9
12.2
10.3
11.3
Vmin = 7.8 ,
11.8
8.6
11.1
12.5
9.9
12.5
10.8
12.4
12.3
Vmax = 16.5 ,
a≈
12.7
8.5
10.2
11.1
11.9
12.5
16.5
9.1
9.7
11.4
10.1
12.3
9.2
11.6
12.0
15.0
7.8
9.3
12.4
k ≈ 1 + 3.322 log10 34 = 6.08 ≈ 6
16.5 − 7.8
= 1.45(≈ 1.5)
6
Sin redondear:
[7.8, 9.25], (9.25, 10.7], (10.7, 12.15], (12.15, 13.6], (13.6, 15.05], (15.05, 16.5]
Redondeando:
[7.5, 9], (9, 10.5], (10.5, 12], (12, 13.5], (13.5, 15], (15, 16.5]
Licenciatura en Ciencias Ambientales (4o Curso)
Tema 3: Estadística Descriptiva
Curso 2008-2009
9 / 27
2. Tabulación de datos
Tablas de frecuencias: variables cuantitativas continuas
I1 = [a0 , a1 ], I2 = (a1 , a2 ], . . . , Ik = (ak−1 , ak ] intervalos en los que se han agrupado
los datos.
ni ≡ frecuencia absoluta del intervalo Ii ; es el número de valores que pertenecen
al intervalo Ii .
ni
fi ≡ frecuencia relativa del intervalo Ii ;
fi =
n
Ni ≡ frecuencia absoluta acumulada del intervalo Ii ; Ni = n1 + · · · + ni
Fi ≡ frecuencia relativa acumulada del intervalo Ii ; Fi = f1 + · · · + fi
intervalo
I1
I2
..
.
Ik
Licenciatura en Ciencias Ambientales (4o Curso)
ni
n1
n2
..
.
nk
n
fi
f1
f2
..
.
fk
1
Ni
N1
N2
..
.
Nk = n
Tema 3: Estadística Descriptiva
Fi
F1
F2
..
.
Fk = 1
Curso 2008-2009
10 / 27
2. Tabulación de datos
Ejemplo 3 (continuación)
Tabla de frecuencias para los datos de los niveles de colinesterasa de 34 agricultores
expuestos a insecticidas agrícolas:
Licenciatura en Ciencias Ambientales (4o Curso)
intervalo
[7.5, 9]
ni
3
fi
0.088
Ni
3
Fi
0.088
(9, 10.5]
8
0.235
11
0.323
(10.5, 12]
11
0.324
22
0.647
(12, 13.5]
9
0.265
31
0.911
(13.5, 15]
2
0.059
33
0.971
(15, 16.5]
1
34
0.029
1
34
1
Tema 3: Estadística Descriptiva
Curso 2008-2009
11 / 27
3. Representación gráfica
Variables cualitativas: diagrama de sectores
Se calculan frecuencias relativas (fi ).
A la modalidad Mi se le asigna un ángulo de fi · 360o .
No es conveniente que haya un número excesivo de modalidades.
Ejemplo 1 (continuación)
Alto
Mod.
Alto
Medio
Bajo
ni
8
6
6
20
fi
0.4
0.3
0.3
1
grados
144
108
108
Bajo
Medio
Licenciatura en Ciencias Ambientales (4o Curso)
Tema 3: Estadística Descriptiva
Curso 2008-2009
12 / 27
3. Representación gráfica
Variables cualitativas: diagrama de barras
Esta representación consiste en construir tantos rectángulos o barras como
modalidades presente el carácter bajo estudio. La altura que alcanza cada barra puede
ser igual a la frecuencia absoluta o bien a la frecuencia relativa de la modalidad a la
que corresponde dicha barra.
0.2
6
0.1
4
0.0
fi
0.4
0.3
0.3
1
2
ni
8
6
6
20
0
Mod.
Alto
Medio
Bajo
0.3
8
0.4
Ejemplo 1 (continuación)
Alto
Licenciatura en Ciencias Ambientales (4o Curso)
Bajo
Tema 3: Estadística Descriptiva
Medio
Alto
Bajo
Medio
Curso 2008-2009
13 / 27
3. Representación gráfica
Variables cuantitativas discretas: polígono de frecuencias
Se colocan los valores ordenados de menor a mayor en el eje horizontal. A cada valor
de la variable se le asocia un punto con la altura correspondiente a su frecuencia
absoluta o bien a su frecuencia relativa. Los puntos se conectan mediante segmentos.
Este polígono puede representarse de forma superpuesta a un diagrama de barras.
Licenciatura en Ciencias Ambientales (4o Curso)
6
4
fi
0.08
0.12
0.16
0.32
0.2
0.12
1
2
ni
2
3
4
8
5
3
25
0
valor
0
1
2
3
4
5
8
Ejemplo 2 (continuación)
0
1
2
Tema 3: Estadística Descriptiva
3
4
5
Curso 2008-2009
14 / 27
3. Representación gráfica
Variables cuantitativas continuas: histograma
Para construir el histograma partimos de la tabla de frecuencias de los datos.
Dividimos el eje horizontal en los intervalos en que hemos agrupado los datos.
Sobre cada intervalo construiremos un rectángulo. Para la altura de estos rectángulos
tenemos tres opciones:
Las frecuencias absolutas.
Las frecuencias relativas.
Se construyen rectángulos cuyas áreas sean las frecuencias relativas. Si hi es la
altura del rectángulo que hay sobre el intervalo Ii y a es la amplitud de todos los
intervalos
fi
fi = hi · a ⇒ hi =
a
Licenciatura en Ciencias Ambientales (4o Curso)
Tema 3: Estadística Descriptiva
Curso 2008-2009
15 / 27
3. Representación gráfica
Fi
0.088
(9, 10.5]
8
0.235
11
0.323
(10.5, 12]
11
0.324
22
0.647
(12, 13.5]
9
0.265
31
0.911
(13.5, 15]
2
0.059
33
0.971
(15, 16.5]
1
34
0.029
1
34
1
Licenciatura en Ciencias Ambientales (4o Curso)
0.15
Ni
3
0.10
fi
0.088
0.05
ni
3
0.00
intervalo
[7.5, 9]
0.20
Ejemplo 3 (continuación)
8
Tema 3: Estadística Descriptiva
10
12
14
16
Curso 2008-2009
16 / 27
4. Medidas de síntesis de la información
¡¡¡Advertencia!!!
SÓLO PARA VARIABLES CUANTITATIVAS DISCRETAS Y CONTINUAS SIN
AGRUPAR
Medidas de centralización: moda y media
La moda es el dato más repetido. Puede haber más de una.
La media (x̄) es el valor central en el sentido aritmético. Viene a ser el “centro de
gravedad” de los datos.
x1 + · · · + xn
x̄ =
n
Si la variable es discreta y los datos están agrupados en una tabla de frecuencias
x̄ =
Licenciatura en Ciencias Ambientales (4o Curso)
x1 n1 + · · · + xk nk
= x1 f1 + · · · + xk fk
n
Tema 3: Estadística Descriptiva
Curso 2008-2009
17 / 27
4. Medidas de síntesis de la información
Medidas de centralización: mediana
La mediana (x̃) es un valor que deja la mitad de los datos a su izquierda y la otra
mitad a su derecha. Ocupa la posición central en el sentido del orden.
Para calcularla hay que ordenar los datos de menor a mayor y entonces:
Si n impar, x̃ ≡ dato que ocupa la posición
n+1
2
Si n par, x̃ ≡ punto medio de los datos que ocupan las posiciones
Licenciatura en Ciencias Ambientales (4o Curso)
Tema 3: Estadística Descriptiva
n n
y +1
2 2
Curso 2008-2009
18 / 27
4. Medidas de síntesis de la información
Ejemplo 2 (continuación)
Si en una variable discreta nos dan los datos agrupados en una tabla de frecuencias,
para calcular la mediana se utilizan las frecuencias absolutas acumuladas:
valor
0
1
2
3
4
5
ni
2
3
4
8
5
3
fi
0.08
0.12
0.16
0.32
0.2
0.12
Ni
2
5
9
17
22
25
Licenciatura en Ciencias Ambientales (4o Curso)
Fi
0.08
0.2
0.36
0.68
0.88
1
x̄ = 2.8 ,
Tema 3: Estadística Descriptiva
x̃ = 2
Curso 2008-2009
19 / 27
4. Medidas de síntesis de la información
0.15
0.20
Ejemplo 3 (continuación)
x̃ = 11.45
0.00
0.05
0.10
x̄ = 11.35294 ,
8
10
12
14
Licenciatura en Ciencias Ambientales (4o Curso)
16
Tema 3: Estadística Descriptiva
Curso 2008-2009
20 / 27
4. Medidas de síntesis de la información
Medidas de posición: cuartiles
Primer cuartil (Q1 ) es el valor que deja a su izquierda la cuarta parte de los
n+1
datos. Para calcularlo se ordenan los datos de menor a mayor y se toma
2
redondeado por defecto. A este número lo llamamos q.
q+1
.
2
q q
Si q es par, Q1 es el punto medio de los datos que ocupan las posiciones y + 1.
2 2
Si q es impar, Q1 es el dato que ocupa la posición
Segundo cuartil (Q2 ) Es el valor que deja a la izquierda dos cuartas partes de los
datos. Por tanto se trata de la mediana, Q2 = x̃.
Tercer cuartil (Q3 ) Es el valor que deja a la izquierda las tres cuartas partes de
los datos. Su posición es simétrica a la de Q1 .
Otras medidas de posición
Deciles: El decil i-ésimo deja i/10 de los datos a la izquierda.
Percentiles: El percentil p deja el 100p% de los datos a la izquierda.
Licenciatura en Ciencias Ambientales (4o Curso)
Tema 3: Estadística Descriptiva
Curso 2008-2009
21 / 27
4. Medidas de síntesis de la información
Ejemplo 3 (continuación)
7.80
9.90
11.10
12.00
12.50
8.50
10.10
11.30
12.20
12.50
8.60
10.20
11.40
12.30
12.70
Q1 = 10.10 ,
Licenciatura en Ciencias Ambientales (4o Curso)
9.10
10.30
11.50
12.30
14.90
9.20
10.60
11.60
12.40
15.00
9.30
10.80
11.80
12.40
16.50
Q2 = x̃ = 11.45 ,
9.70
11.10
11.90
12.50
Q3 = 12.40
Tema 3: Estadística Descriptiva
Curso 2008-2009
22 / 27
4. Medidas de síntesis de la información
Medidas de dispersión
Rango (R): diferencia entre el máximo y el mínimo.
Varianza muestral (s2 ):
Mide la variabilidad de los datos respecto de la media muestral x̄.
!
n
n
X
1 X
1
2
2
2
2
(xi − x̄) =
xi − nx̄
s =
n−1
n−1
i=1
i=1
Desviación típica (s):
√
Se define como s = s2 . La raíz cuadrada compensa el hecho de haber elevado
los datos al cuadrado. Por tanto se mide en las mismas unidades que los datos.
Licenciatura en Ciencias Ambientales (4o Curso)
Tema 3: Estadística Descriptiva
Curso 2008-2009
23 / 27
4. Medidas de síntesis de la información
Medidas de dispersión
Rango intercuartílico (RI ): Distancia entre Q1 y Q3 , RI = Q3 − Q1 . En esta
distancia se concentran el 50% de los datos, concretamente los que ocupan
posiciones centrales.
Coeficiente de variación (C.V.): Mide la dispersión de los datos en relación a
su orden de magnitud. Se utiliza para comparar la dispersión de distintos grupos
de datos.
s
C.V. = · 100
x̄
Ejemplo 3 (continuación)
R = 8.7 ,
s2 = 3.514082 ,
RI = 2.30 ,
Licenciatura en Ciencias Ambientales (4o Curso)
s = 1.874588
C.V. = 16.51%
Tema 3: Estadística Descriptiva
Curso 2008-2009
24 / 27
4. Medidas de síntesis de la información
Diagramas de caja
Se trata de una representación gráfica ligada a los cuartiles. Con los datos del Ejemplo
3 podemos dibujar el siguiente:
16
●
12
Q1
8
Q3
~
x
10
14
h3
h1
h1 es el dato más próximo a Q1 − 1.5RI mayor que este valor.
h3 es el dato más próximo a Q3 + 1.5RI menor que este valor.
Los valores menores que h1 ó mayores que h3 son valores atípicos que pueden ser
datos influyentes o simplemente mal tomados.
Licenciatura en Ciencias Ambientales (4o Curso)
Tema 3: Estadística Descriptiva
Curso 2008-2009
25 / 27
4. Medidas de síntesis de la información
Medidas de forma: coeficiente de asimetría
El coeficiente de asimetría (g1 ) se define como:
1 Xn
(xi − x̄)3
i=1
n
g1 =
s3
1
2
3
4
g1=0
Licenciatura en Ciencias Ambientales (4o Curso)
5
6
0.05
0.00
0.0
0.00
0.1
0.05
0.10
0.2
0.10
0.15
0.3
0.15
0.20
0.4
Conforme más próximo esté g1 a 0 más simetría presentan los datos. Si g1 > 0 hay
una desviación hacia valores altos y si g1 < 0 hacia valores bajos.
0
2
4
6
8
10
12
g1>0
Tema 3: Estadística Descriptiva
0
2
4
6
8
10
12
g1<0
Curso 2008-2009
26 / 27
4. Medidas de síntesis de la información
Medidas de forma: coeficiente de curtosis
El coeficiente de aplastamiento o de curtosis (g2 ) Se define como:
1 Xn
(xi − x̄)4
i=1
n
−3
g2 =
s4
Si g2 = 0 el grado de aplastamiento de los datos será similar al de una campana de
Gauss. Si g2 > 0 los datos presentan un menor aplastamiento que la campana de
Gauss y si g2 < 0, los datos aparecen más aplastados que la campana de Gauss.
Ejemplo 3 (continuación)
g1 = 0.4899285 ,
Licenciatura en Ciencias Ambientales (4o Curso)
g2 = 0.3731027
Tema 3: Estadística Descriptiva
Curso 2008-2009
27 / 27
Descargar