3. - SERGAS

Anuncio
M. Carmen Carollo Limeres
Profesora Titular de la USC. Unidad de
Bioestadística. Facultad de Medicina
[email protected]
Octubre de 2011
Explorando los datos.
¿Cómo resumir la información de
tipo cuantitativo?
Variables cuantitativas
Índice
1. Introducción
2. Clasificación de variables
3. Estadística descriptiva
– Frecuencias
– Representaciones gráficas
– Medidas resumen
4. Resumen
5. Software
6. Bibliografía
3
Introducción
1. Introducción
4
1. Introducción
Base de datos “ais”: Los datos corresponden a 102 hombres y a 100
mujeres deportistas colegiados en el Instituto Australiano de Deportes
Gran cantidad de datos
Los datos contienen
información
Técnicas que permitan
organizar y resumir
los datos
5
Clasificación de variables
2. Clasificación de variables
6
2. Clasificación de variables
Variables
Cuantitativas
7
Cualitativas
Continuas
Discretas
Ordinales
Categóricas
-Altura
-IMC
-Hcto
-Hb
-Nº de días
concentración
IMC (Cole et
al.)
Sexo
Tipo deporte,
FEGAS
Estadística descriptiva
3. Estadística descriptiva
8
3. Estadística descriptiva
La Estadística descriptiva se ocupa de:
clasificar y resumir
la información contenida en los datos a través de
técnicas numéricas y técnicas gráficas.
En esta presentación veremos cómo resumir la
información relacionada con datos cuantitativos
9
3. Estadística descriptiva
Representaciones
gráficas
Medidas
resumen
Distribuciones
de frecuencias
Estadística
descriptiva
10
FEGAS
3. 1 Distribuciones de frecuencias
3. Estadística Descriptiva
Frecuencias
Representaciones Gráficas
Medidas resumen
11
3. 1 Distribuciones de frecuencias
• Frecuencia Absoluta (ni) : es el número de veces que
ocurre cada resultado (xi).
• Frecuencia Relativa (fi ): Es la frecuencia absoluta
dividida por el número de observaciones.
• Frecuencia Absoluta Acumulada (Ni ): Es el número
de veces que se ha observado un resultado ≤ xi .
• Frecuencia Relativa Acumulada (Fi): Es la frecuencia
absoluta acumulada dividida por el número total de
observaciones.
12
FEGAS
3. 1 Distribuciones de frecuencias. Datos discretos
13
Nº DE
DÍAS
(Xi)
Frecuencias
Absolutas
(ni)
Frecuencias
relativas
(fi)
Frecuencias
acumuladas
Absolutas
(Ni)
Frecuencias
acumuladas
relativas
(Fi)
20
42
0,21
42
0,21
21
32
0,16
74
0,37
22
29
0,14
103
0,51
23
34
0,17
137
0,68
24
28
0,14
165
0,82
25
37
0,18
202
1,00
202
1,00
FEGAS
3. 1 Distribuciones de frecuencias. Datos continuos
Para datos continuos el resumen anterior es poco práctico.
Agrupar los datos en intervalos de clase (representados por la marca
de clase)
Xi
[ )[ )[ )[ )… [ )[ )[ )
ni
Frecuencias = Número de observaciones por intervalo
Intervalos:
Cuantos más intervalos, más información pero menos manejable.
Cuantos menos intervalos, menos información pero es más manejable.
Número de intervalos a considerar: El entero más próximo a
de datos (como máximo 10 intervalos)
14
n ,n= nº
© 2010.NETEX
3. 1 Distribuciones de frecuencias. Datos continuos
Hcto
Intervalos
Marcas
de
Clase
(Xi)
Frec.
Frec.
Absolutas relativas
(ni)
(fi)
Frec.
Frec.
acumuladas acumuladas
Absolutas
relativas
(Ni)
(Fi)
[35-40)
37,5
46
0,228
46
0,228
[40-45)
42,5
88
0,435
134
0,663
[45-50)
47,5
65
0,322
199
0,985
[50-55)
52,5
2
0,010
201
0,995
[55-60)
57,5
1
0,005
202
1,000
1,000
202
15
FEGAS
3.2 Representaciones gráficas
3. Estadística Descriptiva
Frecuencias
Representaciones Gráficas
Medidas resumen
16
3.2 Representaciones gráficas
Tipo de variable
Cuantitativas
Cualitativas
Continuas
Histograma
17
Diagrama
de cajas
Discretas
Diagrama
de barras
Diagrama
de sectores
Diagrama
de barras
Diagrama
de
sectores
3.2 Representaciones gráficas. Datos discretos
Nº DE
DÍAS
Frecuencias
absolutas
20
42
21
32
22
29
23
34
24
28
25
37
Nº días concentración
18
3.2 Representaciones gráficas. Datos discretos
Nº DE
DÍAS
Frecuencias
absolutas
20
42
21
32
22
29
23
34
24
28
25
37
¡Atención!
Representación útil sólo si
la variable tiene pocos
valores
19
3.2 Representaciones gráficas. Datos continuos
Hcto
Marcas
de
Clase
(Xi)
Frec.
Absolutas
[35-40)
37,5
46
[40-45)
42,5
88
[45-50)
47,5
65
[50-55)
52,5
2
[55-60)
57,5
1
Intervalos
(ni)
Hcto
20
FEGAS
3.2 Representaciones gráficas. Datos continuos
Hcto
21
Hcto
3.2 Representaciones gráficas. Datos continuos
Primer cuartil: primer valor que acumula el 25 %
de las observaciones
Segundo cuartil o mediana: primer valor que
acumula el 50 % de las observaciones
Tercer cuartil: primer valor que acumula el 75 %
de las observaciones
22
FEGAS
3.2 Representaciones gráficas. Datos continuos
Mediana
Dato atípico
Cuartil 1º
Cuartil 3º
Hcto
Bigotes
23
FEGAS
3.2 Representaciones gráficas. Datos continuos
24
FEGAS
3.2 Representaciones gráficas. Datos continuos por datos categóricos
Hcto por sexo
Hcto
¿El hematocrito
depende del
sexo?
25
FEGAS
Representaciones gráficas. Datos continuos por datos continuos
Hb
¿Existe alguna
relación entre el
Hcto y la Hb?
Hcto
26
FEGAS
3.2 Representaciones gráficas. Datos continuos por datos continuos
Hcto
¿Existe alguna
relación entre el
IMC y el Hcto?
IMC
27
FEGAS
Clasificación-Representaciones gráficas
Distribuciones de
frecuencias
Clasificación de
Datos
Representaciones
gráficas
IDEA GLOBAL
DE
CONJUNTO
28
FEGAS
3.3 Medidas resumen
3. Estadística Descriptiva
Frecuencias
Representaciones Gráficas
Medidas resumen
29
3.3 Medidas resumen
Medidas
resumen
Posición
30
Dispersión
Forma
FEGAS
3.3 Medidas resumen de posición
Tendencia central
31
Tendencia no central
• Media
• Rango
• Mediana
• Cuartiles
• Moda
• Percentiles
FEGAS
3.3 Medidas resumen de posición
• Medidas de posición de tendencia central
Media: Suma de valores dividido entre el nº de datos X = 1 ∑ X i
n
i
Mediana: Primer valor que acumula el 50% de los datos
Moda: Valor/valores que más se repiten
32
FEGAS
Medidas resumen de posición
Ejemplo: nº de días de concentración
3 3 3 4 5 5 15
Media: (3+3+3+4+5+5+15)/7 = 5,43
Mediana: 3 3 3 4 5 5 15
• Moda: 3
33
Medidas resumen de posición
• Propiedades de la media:
– Es única.
– Sólo tiene sentido para datos numéricos.
– Su valor está comprendido entre el mínimo y el
máximo de los datos.
– Es el “centro de gravedad” de los datos.
– Está afectada por cada valor. Valores extremos
pueden distorsionarla.
34
FEGAS
Medidas descriptivas de posición
•
•
•
•
Propiedades de la mediana:
Es única.
Los datos deben ser al menos de tipo ordinal.
Su valor está comprendido entre el mínimo y el máximo
de los datos.
• Los valores extremos no tienen efectos importantes
sobre ella.
Ejemplo nº de días de concentración: 3
Media = 5,43
35
3
3
4 5
5
15
Mediana = 4
FEGAS
3.3 Medidas resumen de posición
• Medidas de posición de tendencia no central
Rango: diferencia entre la mayor y la menor
de las observaciones
Cuartiles: tres observaciones que dividen el
rango en cuatro partes iguales (25%, 50%,75%)
Percentiles: 99 observaciones que dividen el
rango en cien partes iguales
36
FEGAS
Medidas resumen de posición
Ejemplo: nº de días de concentración
3 3 3 4 5 5 15
Rango: 15 – 3= 12
Cuartiles: cuartil 1º
3
Percentiles:
37
10%
3
cuartil 2º
4
25%
3
cuartil 3º
5
50%
4
90%
15
3.3 Medidas resumen de dispersión
• La dispersión de un conjunto de datos se refiere a la
variabilidad que muestran.
Rango
Más
concentrada
Varianza
Más dispersa
Coeficiente
de variación
38
FEGAS
3.3 Medidas resumen de dispersión
• Medidas de dispersión
Rango: diferencia entre la mayor y la menor de las
observaciones
k
1
2
Varianza:=
S
Xi − X )
(
∑
n i =1
2
Coeficiente de variación:
CVhombres=0,079
39
CV =
S
X
CVmujeres=0,081
FEGAS
Medidas resumen de dispersión
Ejemplo: nº de días de concentración
3, 3, 3, 4, 5, 5, 15
Rango: R=15 – 3= 12
1
2
2
2
2
s 2 = [ ( 3 − 5, 43 ) + ( 3 − 5, 43 ) + ( 3 − 5, 43 ) + ( 4 − 5, 43 ) +
7
Varianza:
+ ( 5 − 5, 43 ) + ( 5 − 5, 43 ) + (15 − 5, 43) ] =
15, 96
2
2
2
Coeficiente de variación: CV= 3,99/5,43 = 0,73
40
3.3 Medidas resumen de forma
Medidas de forma
Asimetría
41
Apuntamiento
FEGAS
3.3 Medidas resumen de forma. Asimetría
=
CAS
k
∑ ( xi − X )
i =1
3
1
ns 3
CA = 0
CA < 0
42
CA > 0
FEGAS
3.3 Medidas resumen de forma. Apuntamiento
El coeficiente de apuntamiento mide el grado de concentración
de los datos, en la región central de la distribución, comparado con
m4
el de la “distribución normal”. CA=
−3
p
4
s
Apuntamiento = 0
Apuntamiento > 0
43
Apuntamiento < 0
FEGAS
Conclusión
4. Conclusión/Resumen
44
4. Conclusión
• Es imprescindible organizar y resumir los
datos de forma correcta:
Identificar el tipo de dato
¿Es cualitativo?
¿Es cuantitativo?
Utilizar la técnica adecuada de
Estadística descriptiva
Interpretar correctamente los
resultados
45
Software
5. Software
46
5. Software
•
Excel:
•
Epidat 4.0:
http://www.sergas.es/MostrarContidos_N3_T01.asp
x?IdPaxina=62713
• R:
 http://www.r-project.org/
•
47
SPSS:
© 2010.NETEX
Bibliografía
6. Referencias/Bibliografía
48
6. Bibliografía
•
•
•
•
•
•
•
•
49
Álvarez Cáceres, R. (2007) “Estadística Aplicada a las Ciencias
de la Salud”. Editorial Diaz de Santos.
Daniel, W.W. (2006) “Bioestadística. Base para el análisis de las
ciencias de la salud”. (2ª ed). Editorial LIMUSA.Wiley.
Douglas G. Altman (1997) “Practical Statistics for Medical
Research”. Ed. Chapman & Hall.
Martín Andrés, A.; Luna del Castillo, J. (1994) “Bioestadística
para las ciencias de la salud”. (4ª ed). Ediciones Norma.
Martínez González, M.A, Almudena Sánchez y Javier Faulin.
(2006). “Bioestadística amigable”. 2ª ed. Editorial Diaz de Santos.
Milton, J.S. (1994) “Estadística para biología y ciencias de la
salud”. (2ª ed). Ed. Interamericana, McGraw-Hill.
Quesada, V. y otros (1982) “Curso de ejercicios de estadística”.
(2ª ed). Editorial Alambra.
Rosner, B. (2000) “Fundamentals of biostatistics”. (5ª ed).
Wadsworth Publishing Company. Duxbury Press.
¡¡¡MUCHAS GRACIAS!!!
Descargar