ejercicio de integración de descripción de datos

Anuncio
Ejercicio de Integración de Estadística Descriptiva - Hoja 1
EJERCICIO DE INTEGRACIÓN DE DESCRIPCIÓN DE DATOS
Utilizaremos para el ejercicio integración de descripción de datos la base de
datos de un estudio de corte transversal (relevamiento) desarrollado por el
Dr. Emilio Marigliano y colaboradores en la Ciudad d e Mendoza, Argentina,
para establecer parámetros demográficos y factores asociados a los niveles
de tensión arterial en adolescentes de 13 y 14 años.
Se efectuó un relevamiento en el cual se interrogó:
Edad, sexo, peso, talla en metros, se calculó el Body Mass Index (peso/talla
al cuadrado), y se midió pulso y presión arterial sistólica y diastólica en
condiciones basales y en una segunda entrevista.
Utilizaremos para el ejemplo la base MENDO6.REC
Las variables incluidas son:
FICHA:
EDAD
SEXO:
PESO:
TALLA:
BMI
HERMANO:
ORDEN:
TAS1:
TAD1A:
PULSO1:
TAS2:
TAD2A:
PULSO2:
GRUPESO:
LOGPESO:
GRUPLOPESO:
número de orden de cada paciente en el estudio
f - m
en kgr
en metros
número total de hermanos
orden de nacimiento
tensión arterial sistólica en la primera medición
tensión arterial diastólica en la primera medición
frecuencia cardíaca en la primera medición
tensión arterial sistólica en la primera medición
tensión arterial diastólica en la primera medición
frecuencia cardíaca en la primera medición
pacientes divididos en aprox 20 grupos de acuerdo al peso
transformación logarítmica del peso
pacientes divididos en aprox 20 grupos de acuerdo al
logpeso
Primer paso:
Desde el módulo ANALYSIS leemos la base:
EPI 6> READ MENDO6
Nos indica que tenemos 1019 pacientes.
Analizaremos la distribución de un dato cualitativo, el SEXO:
EPI 6> FREQ SEXO
SEXO | Freq Percent
Cum.
------+--------------------------F
|
501
49.2%
49.2%
M
|
518
50.8%
100.0%
------+--------------------------Total | 1019 100.0%
Ejercicio de Integración de Estadística Descriptiva - Hoja 2
Observamos que la distribución porcentual fue de 49,2% mujeres y 50,8%
hombres. Es decir, ligeramente más hombres que mujeres.
Si nos interesa conocer el intervalo de confianza de la distribución del sexo,
escribiremos
EPI 6> FREQ SEXO/C
SEXO | Freq Percent
Cum. 95% Conf Limit
------+-------------------------------------F
|
501
49.2%
49.2%
46.1% -52.3% *
M
|
518
50.8%
100.0%
47.7%-53.9% *
------+-------------------------------------Total | 1019 100.0%
Esto nos aclara que la prevalencia de sexo masculino fue de 50,8% con un
intervalo de confianza del 95% de 47,7 a 53,9 (amplitud del intervalo 6,2).
Como ejercicio, trabajaremos con sólo los primeros 200 pacientes.
La orden es:
EPI 6> SELECT RECNUMBER < 200
Recnumber es el número de orden de cada paciente.
Repetimos la orden:
EPI 6> FREQ SEXO/C
Current selection: recnumber < 200
SEXO | Freq Percent
Cum. 95% Conf Limit
------+-------------------------------------F
|
112
56.3%
56.3%
49.1% -63.3%
M
|
87
43.7%
100.0%
36.7% -50.9%
------+-------------------------------------Total |
199 100.0%
Notamos que ha habido un cambio del porcentaje de sexo masculino,
probablemente al azar (en toda la población la prevalencia de sexo
masculino es 50,8, y en esta muestra de 200 fue de 43,7), pero lo más
resaltable es la ampliación del intervalo de confianza debido al menor
número de pacientes. El anterior fue con una n de 1019 y el actual 199.
Vemos que en los 1019 pacientes el intervalo de confianza era de 47,7 a
53,6 (amplitud 5,9), mientras que al reducirnos a una muestra de 199
pacientes el intervalo de confianza para sexo masculino es de 36,7 a 50,9%
(amplitud 14,2, mucho mayor que el anterior). Vemos que la prevalencia
real de sexo masculino, 50,8%, está abarcada por el intervalo de confianza
del 95% de la muestra de 199 pacientes.
Para continuar desactivamos la selección con:
EPI 6> SELECT
Ejercicio de Integración de Estadística Descriptiva - Hoja 3
Analizaremos ahora la distribución de los datos cuantitativos peso, talla,
body mass index, tensión arterial sistólica y diastólica.
Comenzaremos con la talla:
EPI 6> MEANS TALLA/N
La /N en el Epi Info 6 es para evitar que nos liste todos los datos y nos de
sólo el resultado final.
TALLA
Total
1019
Sum
1565
Mean
1.535
Variance
0.005
Std Dev
0.073
Std Err
0.002
Minimum
1.250
25%ile
1.490
Median
1.530
75%ile
1.590
Maximum
1.760
Mode
1.500
Observamos que la mediana es muy cercana a la media, y la distribución de
intervalos intercuartilo 25 y 75 es casi simétrica, lo que nos hace pensar en
la posibilidad de una distribución gaussiana.
Podemos resumir la descripción de la talla afirmando que el valor de media
± DS fue de 1,535 ± 0,073, el error estándar de la media fue 0,002.
Intervalo de confianza para la media y error standard
Para establecer el intervalo de confianza del 95% del valor de la media.
Hacemos: media ± 1,96 * ES = 1,535 ± 0,004, es decir que el intervalo de
confianza del 95% va de 1,531 a 1,539. También obtenemos de la tabla los
valores mínimos y máximos, percentilo 25, 50% (mediana) y 75%.
Repita usted los cálc ulos para peso, body mass index, tensión arterial
sistólica (TAS1) y tensión arterial diastólica (TAD1A).
MEANS
MEANS
MEANS
MEANS
MEANS
PESO/N
BMI/N
TAS1/N
TAD1A/N
PULSO1/N
Preste atención y si existen valores discrepantes o imposibles
elimine los mismos. Por ejemplo, si hay valores de TAD1A marcados
como 0, pueden eliminarse para el cálculo con la orden:
EPI 6> SELECT TAD1A > 0
EPI 6> MEANS TAD1A/N
EPI 6> SELECT
Exprese el intervalo de confianza de la media de cada uno de estos
parámetros con la fórmu la Media ± 1*96 x Error standard.
Ejercicio de Integración de Estadística Descriptiva - Hoja 4
PESO
Total
1019
Sum
48706
Mean
47.798
Variance
115.909
Std Dev
10.766
Std Err
0.337
Minimum
26.500
25%ile
40.000
Median
46.000
75%ile
53.500
Maximum
97.200
Mode
41.500
En el caso del peso, se observa que la media es algo diferente de la
mediana. Si hacemos el intervalo de confianza de la media 47.798 ±
1,96*0,337 alcanzamos el valor de 47,137 a 48,458, es decir, que el valor
de la mediana no está abarcado por la media y su intervalo de confianza, lo
que sugiere una distribución no gaussiana.
Dividimos a la población de acuerdo en grupos de peso en la variable
GRUPESO. Si efectuamos un histograma:
EPI 6> HISTOGRAM GRUPESO
140
120
100
80
60
Count
40
20
0
24 to
26 36 to
30 to
38 48 to
32 42 to
50 60 to
44 54 to
62 72 to
56 66 to
74 84 to
68 78 to
86 96 to
80 90 to
98
92
GRUPESO
Observamos que el dibujo indica una agrupación desviada a la izquierda.
Evaluaremos la posibilidad de un distribución logarítmica normal con la
nueva variable LOGPESO. Esta variable ya está provista y fue calculada con
la fórmula:
LOGPESO = LOG (PESO)
Esta fórmula nos da el logaritmo natural del valor del peso.
Efectuamos la media de la nueva variable LOGPESO y observamos:
La media está aquí más cerca de la mediana:
Ejercicio de Integración de Estadística Descriptiva - Hoja 5
LOGPESO
Total
1019
Minimum
1.400
Sum
1700
25%ile
1.600
Mean
1.669
Median
1.700
Variance
0.009
75%ile
1.700
Std Dev
0.097
Maximum
2.000
Std Err
0.003
Mode
1.600
Haciendo: media ± 1,96 * 0,003 (error standard de la media) obtenemos
que el intervalo de confianza del 95% de la media va de 1,666 a 1,672, es
decir, que no abarca a la mediana y por tanto aún con la transformación
logarítmica normal la media no es gaussiana.
Agrupando en 20 categorías de acuerdo al logaritmo del peso en la variable
gruplopeso, hacemos un histograma:
EPI 6> HISTOGRAM GRUPLOPESO
200
Count
100
0
99
19
to
60 59
19 o 19
t
20 9
19 191
to
80 9
18 187
to
40 39
18 o 18
t
00 9
18 179
to
60 9
17 175
to
20 19
17 o 17
t
80 9
16 167
to
40 39
16 o 16
t
00 9
16 159
to
60 9
15 155
to
20 19
15 o 15
t
80 9
14 147
to
40 9
14 143
to
00
14
GRUPLOPESO
Se observa que es un poco más similar a la distribución gaussiana. Como
primera impresión, el peso parecería tener una distribución más similar a
logarítmica normal que a gaussiana. Sin embargo como hemos visto, la
distribución no fue estrictamente logarítmica normal.
Si queremos efectuar histogramas en el EPI6, por ejemplo de la tensión
arterial sistólica debemos dar la orden:
EPI 6> HISTOGRAM TAS1
observamos que los divide en numerosos grupos.
Ejercicio de Integración de Estadística Descriptiva - Hoja 6
Una forma de reagruparlos es estimar aproximadamente 15 a 30 grupos
recodificando. Por ejemplo creamos una variable de reagrupación:
DEFINE GRUPTAS __________________________
(Aclaración: al definir una nueva variable nunca olvide dejar un espacio
luego del nombre y usar los guiones de subrayado __ y no de espacio --).
Esta nueva variable será alfanumérica. Para indicar eso, luego de escribir
DEFINE GRUPTAS, dejando un espacio, se colocan las marcas horizontales
por debajo del renglón tantas como letras tendrá la variable alfanumérica.
Luego indicamos la orden para reagrupar en forma automática los valores
por ejemplo cada 5 mmHg
RECODE TAS1 TO GRUPTAS BY 5
o cada 3 mmHg:
RECODE TAS1 TO GRUPTAS BY 3
Luego efectuamos el histograma de GRUPTAS, que nos exhibe los datos en
forma más presentable.
Otros programas estadísticos agrupan por defecto los pacientes en 20 a 30
grupos, o solicitan al operador el número de grupos deseados.
peso
Promedio
talla
Bmi
47,80
1,54
20,16
10,761
0,073
3,736
0,661
0,004
0,229
26,5
1,25
10,58
Valor cuartilo 25% (cuartilo 1)
40
1,49
17,615
Mediana (cuartilo 2)
46
1,53
19,29
Valor cuartilo 75% (cuartilo 3)
53,5
1,59
21,855
Valor máximo (cuartilo 4)
97,2
1,76
39,21
Desvío standard
Intervalo de confianza de la media
Valor mínimo
Descargar