Estadística descriptiva

Anuncio
Estadística descriptiva
1. Concepto de variable aleatoria
1. Concepto de variable aleatoria y tipos de variables
2. Cálculo de medidas resumen para variables cuantitativas:
- de tendencia central: media, mediana, moda
- de dispersi ón: rango, variancia, desviaci ón típica
Es una aplicación que a cada suceso elemental
le hace corresponder un número real
Formalización matemática de las variables
reales que estamos habituados a tratar
- de posici ón: cuartiles, percentiles
3. Representaciones gráficas
Variables cuantitativas:
diagrama de puntos, diagrama de caja, histograma
Variables cualitativas:
Sexo
1. Hombre
2. Mujer
Estudios
1.Sin estudios
2.Primarios
3.Secundarios
4.Universitarios
Temperatura
35 Cº
128 F
Peso, Talla
60 kilos
175 cm
tabulaci ón, diagrama de barras, diagrama de sectores
4. Introducción al SPSS
1. Tipos de variables
- Cualitativas: estudian una cualidad de las unidades de la
población, como por ejemplo: sexo, color de los ojos, estado civil,
clase de fertilizante...
- Cuantitativas: estudian una característica de la población que
puede ser cuantificada, como por ejemplo: temperatura,
humedad, número de especies de una determinada zona...
- Discretas: solo pueden tomar unos determinados
valores, por ejemplo: número de hijos
- Continuas: pueden tomar cualquier valor dentro de un
intervalo, por ejemplo: temperatura
1. Tipos de variables
Ejercicio
Sea la siguiente encuesta. Decidir, para cada una de
las preguntas o variables, el tipo al que pertenecen:
NOMINALES
CUALITATIVAS
ORDINALES
Variables
estadísticas
DISCRETAS
CUANTITATIVAS
CONTINUAS
1.
2.
3.
4.
Edad en años
Sexo (1= hombre, 2= mujer)
Número de hermanos (incluido uno mismo)
Lugar de nacimiento (1= Catalunya, 2= resto de España, 3=
extranjero
5. Bronquitis crónica (1= si, 2= no)
6. Número de cigarrillos que fuma al día
7. Número de tazas de caf é que toma al día
8. Tiene dolores de cabeza (1= nunca, 2= a veces, 3= muchas veces,
4= siempre)
9. Peso en kilogramos
10. Talla en cent ímetros
1
2. Cálculo de medidas resumen
2. Cálculo de medidas resumen
Tendencia central: media
n
Medidas de tendencia central:
x=
∑x
i
i =1
n
media: x
=
x 1 + x 2 + x3 + ... + x n
n
Ejemplo: calcular la media de los siguientes datos
mediana: md
4, 2, 7, 1, 9
moda
x=
4+2+7+1+9
= 4,6
5
0
2. Cálculo de medidas resumen
1
2
3
4
5
6
7
8
9
10
2. Cálculo de medidas resumen
Tendencia central: media
Tendencia central: media
Alguna observaci ón a la
izquierda con mucho peso
• Indica el “centro de gravedad” de la distribuci ón
• Tiene presente el valor de todos los datos de la distribuci ón
• Es un estad ístico muy sensible (poco robusto) en presencia de datos
atípicos o extremos. Por esta raz ón podemos calcular también la media
truncada que se obtiene calculando la media de la variable despu és de
suprimir el 5% de los valores superiores y el 5% de los inferiores (u otro
porcentage). De esta forma, la media que se obtiene es más robusta
ante la posible presencia de datos atípicos. Si los valores obtinidos son
diferentes, es senyal de presencia de datos atípicos. Si son iguales
puede o no haver datos atípicos.
2. Cálculo de medidas resumen
Tendencia central: mediana
Alguna observaci ón a la
derecha con mucho peso
No hay observaciones
atípicas
2. Cálculo de medidas resumen
Tendencia central: mediana
Es el punto medio de los datos ordenados; es el valor que tiene por
enzima i per debajo el 50% de los datos ordenados
Ordena los
valores
de pequeño
a más
grande
Número impar de datos: Valor que queda en medio
Número par de datos: Promedio de los 2 centrales
• No tiene en cuenta el valor de las observaciones
• Es un estadístico robusto en presencia de datos
atípicos
Ejemplo: Calcular la mediana de: 4, 2, 7, 1, 9
Los ordenamos de menor a mayor:
• Indica el “centro” de la distribución
1, 2, 4, 7, 9
md
Mediana
0
1
2
3
4
5
6
7
8
9
10
2
2. Cálculo de medidas resumen
Tendencia central: moda
Es el valor más frecuente de la distribución de los datos. No
tiene fórmula
• Podemos tener más de una moda
• Cuando todas las observaciones de una muestra tienen la
misma frecuencia decimos que la muestra no tiene moda
EJERCICIO:
Para poder calcular los rendimientos médicos (horas trabajadas/horas
contratadas), decidimos averiguar los tiempos de las primeras visitas
de Medicina Interna en las consultas externas de un hospital rea lizadas
durante el día de hoy.
Como primera información, decidimos llamar a recepción y pedir que
tomen los tiempos y se los den a Estadística para que calculen la
media, la mediana y la moda. Estadística contesta:
n=6,
media=62’
moda=30’
mediana=45’
• Tiene sentido para variables categóricas
¿Cuál de estos tres valores utilizaría como medida de tendencia
central?
2. Cálculo de medidas resumen
2. Cálculo de medidas resumen
CENTRO Y SIMETRÍA:
CENTRO Y SIMETRÍA:
Distribución de datos simétrica
Distribuci ón de datos
simétrica
x= Md
Distribución de datos sesgada a la derecha
Distribución de datos sesgada a la izquierda
x > Md
x < Md
Distribuci ón de datos
sesgada a la derecha
Distribuci ón de datos
sesgada a la izquierda
2. Cálculo de medidas resumen
Medidas de dispersión:
2. Cálculo de medidas resumen
Dispersión: rango o amplitud
Rango = valor máximo – valor mínimo
rango o amplitud: R, A
variancia: s 2
• Fácil de utilizar pero poco informativo
(especialmente si se dispone de muchos datos)
desviación típica: s
• Muy influenciable en presencia de valores extremos
R=8
0
1
2
3
4
5
6
7
8
9
10
3
2. Cálculo de medidas resumen
Dispersión: variancia
2. Cálculo de medidas resumen
Dispersión: variancia
“Promedio ” del cuadrado de las distancias de cada valor a
la media
(9 – 4,6) 2 + (7 – 4,6) 2 + (4 – 4,6) 2 + (2 – 4,6) 2 + (1 – 4,6)
s2 =
n
∑( x-x )
2
i
s2 = i = 1
=
(4,4) 2 + (2,4)
2+
(- 0,6)
2+
(- 2,6)
2 + (-
3,6)
2
= 11,3
4
n-1
0,6
2,4
2,6
La variancia mide el grado de dispersi ón (variabilidad ) de los datos
alrededor de la media.
2
=
5-1
3,6
4,4
x
0
1
2
3
4
5
6
7
8
9
10
4,6
2. Cálculo de medidas resumen
2. Cálculo de medidas resumen
Dispersión: desviación típica
s = s2
• Medida de dispersi ón de uso más cuotidiano
Medidas de posición:
percentiles: Pq
• Mismas unidades que los datos
• Orden de magnitud comparable a los datos
cuartiles: Q1, Q2 , Q 3
Ejemplo: Pesos de 4 personas (en kg): 65, 94, 81, 72
Variancia: s2 = 156,67 kg 2 (!)
Desviación t ípica: s = 12,52 kg
Pero la desviaci ón típica no tiene las propiedades matemáticas de la variancia
2. Cálculo de medidas resumen
2. Cálculo de medidas resumen
Posición: percentiles
Posición: percentiles
Son los valores que dividen una serie ordenada de datos en
100 partes iguales, se representan por P1, P 2 ... P 99
q Ejemplo: calcular el percentil del 10% de los siguientes datos:
El primer percentil, P1 , es el valor que tiene por debajo el 1%
de los datos ordenados; el segundo percentil, P2 , es el valor
que tiene por debajo el 2% de los datos ordenados...
Ordenamos los datos:
3, 2, 5, 5, 2, 7, 1, 10, 7, 9, 14, 12, 13, 14, 10
1, 2, 2, 3, 5, 5, 7, 7, 9, 10, 10, 12, 13, 14, 14
Lugar que ocupa el P10 : 10x15/100 =1.5
•El lugar que ocupa el primer percentil es el N/100
•El lugar que ocupa el segundo percentil es el 2N/100
•El lugar que ocupa el percentil 99 es el 99N/100
Cogemos el dato de la segunda posici ón:
1, 2, 2, 3, 5, 5, 7, 7, 9, 10, 10, 12, 13, 14, 14
P10
4
2. Cálculo de medidas resumen
2. Cálculo de medidas resumen
50
52
57
58
59
60
61
61
61
64
68
69
71
72
73
78
78
80
81
82
82
84
86
90
92
93
94
95
98
100
Menor
Posición: cuartiles
• El percentil 25 (P 25) representa el 1r cuartil (Q1)
• El percentil 50 (P 50) es la Mediana (Md) o 2do cuartil (Q 2)
Datos ordenados
de menos a m ás
• El percentil 75 (P 75) representa el 3r cuartil (Q3)
Mayor
25 %
Q1 = 61: Primer cuartil
75 %
50 %
75,5
Mediana
50 %
75 %
Q3 = 86: Tercer cuartil
25 %
3. Representaciones gráficas
Para variables cuantitativas:
Vamos a recoger datos de nuestra
función pulmonar
Diagrama de puntos (dot plot)
Diagrama de caja (box plot)
Tabla de frecuencias: histograma
3. Representaciones gráficas
Diagrama de puntos: dot plot
3. Representaciones gráficas
Diagrama de caja: box plot
Fija la atenci ón en las medidas de posici ón y en los valores extremos
Representa cada dato como un punto encima de un eje
Cuando tenemos pocos datos, un diagrama de puntos es mejor que
Orden:
1
un histograma
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
5, 7, 7, 9, 9, 9, 9, 9, 9, 9, 10, 11, 11, 11, 11, 11, 14, 15, 16, 18
Q1
Mediana
Q3
Ejemplo. Diagrama de puntos con los datos: 1, 2, 4, 7, 9
Últimos valores antes de entrar en zona de outliers
0
1
2
3
4
5
6
7
8
9
10
Zona
outliers
extremos
Zona
outliers
moderados
Q1
1,5*IQR
Ejemplo. Diagrama de puntos con los datos: 1, 2, 4, 7, 7, 9
1,5*IQR
Zona
outliers
moderados
Q3
IQR
1,5*IQR
1,5*IQR
*
0
1
2
3
4
5
6
7
8
9
*
10
3
4
5
6
7
8
9
10
11
12
13
Zona
outliers
extremos
14
15
o
*
16
17
18
5
3. Representaciones gráficas
3. Representaciones gráficas
Box plot: ejemplos
Tabla de frecuencias : Histograma
Ejemplo :
Peso en funci ón del sexo en un grupo
de 92 participantes en un estudio de obesidad
Evoluci ón de la humedad de un producto
fabricado en una semana
10
Hu med ad
Weig ht
200
150
100
9
8
1
2
Lunes
Martes
Miér coles
J ueves
Sex
3. Representaciones gráficas
Vier nes
TABLA 1: Longitud (cm) de 90 plantas
3. Representaciones gráficas
Tabla de frecuencias : Histograma
Tabla de frecuencias : Histograma
Necesitamos una solución
mejor, cuando tenemos
muchos datos distintos
Ejemplo :
AGRUPAR LOS DATOS EN
INTERVALOS!!
TABLA 1 bis: Longitud (cm) de 90 plantas (lista ordenada)
3. Representaciones gráficas
Tabla de frecuencias : Histograma
3. Representaciones gráficas
Tabla de frecuencias : Histograma
NÚMERO DE INTERVALOS:
Tabla de frecuencias: 10 intervalos de clase
6
3. Representaciones gráficas
3. Representaciones gráficas
Tipos de histogramas (según distintos datos ):
Tabla de frecuencias : Histograma
200
120
200
150
150
80
100
100
40
50
50
0
0
30
35
40
45
50
55
60
65
70
0
25 30 35 40 45 50
Variabilidad natural
55
60
65 70 75
0
Bimodal
200
200
150
150
150
100
100
100
50
50
30
35
40
45
50
55
60
65
70
Censurado
10
15
20
25
200
50
0
0
0
5
Sesgado a la derecha
35 40 45 50 55 60
35
65 70 75 80 85 90
40
45
50 55
60 65
70
75
80
85
90
Con outliers, errores, etc,
3. Representaciones gráficas
3. Representaciones gráficas
Tipos de histogramas (según distintos datos ):
Petit superposament
Superposament mitjà
50
50
50
0
0
95
1 05
Tabulación
0
90
1 15
Para variables cualitativas:
1 00
Freq üè n ci a
Fre q üè n ci a
Freq üè n ci a
Superposament gran
100
100
1 00
110
95
10 0
105
11 0
100
Diagrama de barras (bar chart)
90
1 00
80
50
70
Freq üè n ci a
Fre q üè n ci a
Freq üè n ci a
100
60
50
40
30
Diagrama de sectores (pie chart)
50
20
10
0
0
95
1 05
100
1 00
110
95
Fre q üè n ci a
50
50
0
0
95
1 05
1 15
10 0
105
11 0
150
10 0
Fre q üè n ci a
Fre q üè n ci a
0
90
1 15
100
50
0
90
10 0
110
95
1 00
105
110
3. Representaciones gráficas
3. Representaciones gráficas
Tabulación:
No tiene en cuenta
los missings en
los cálculos
Tabulación:
• Frecuencia absoluta: nk
• Frecuencia absoluta acumulada: Nk
Autovaloración estado de salud
• Frecuencia relativa: fk
– fk= nk / N , donde N = número total de casos
Valid
• Frecuencia relativa acumulada: Fk
– Fk= Nk / N
Sexo
nk
Nk
fk
Fk
Hombre
Mujer
57
35
57
92
0,62 (=57/92) 0,62
0,38 (=35/92) 1
Excelente
Muy buena
Buena
Regular
Mala
Total
Frequency
7
30
89
34
6
166
Percent
4,2
18,1
53,6
20,5
3,6
100,0
Valid Percent
4,2
18,1
53,6
20,5
3,6
100,0
Frecuencia Frecuencia
absoluta
Relativa
(nk)
(fk ) *100
Cumulative
Percent
4,2
22,3
75,9
96,4
100,0
Frecuencia
relativa
Acumulada (Fk) *100
SPSS porcentua
7
3. Representaciones gráficas
• Diagrama de barras
– Eje horizontal: valores discretos de la variable
– Eje vertical: frecuencia absoluta o relativa
Sobre cada valor de la variable se dibuja una barra con
altura igual a su nk o fk
3. Representaciones gráficas
• Diagrama de sectores
– Cada sector representa un valor de la variable
– El área del sector representa su frecuencia relativa
(360º * fk)
Distribuci ón sexo
38%
Distribución sexo
100
80
62%
62
60
38
40
20
Hombres
0
Hombres
Mujeres
Mujeres
INTRODUCCIÓN SPSS
8
Descargar