Ejercicio de Integración de Estadística Descriptiva - Hoja 1 EJERCICIO DE INTEGRACIÓN DE DESCRIPCIÓN DE DATOS Utilizaremos para el ejercicio integración de descripción de datos la base de datos de un estudio de corte transversal (relevamiento) desarrollado por el Dr. Emilio Marigliano y colaboradores en la Ciudad d e Mendoza, Argentina, para establecer parámetros demográficos y factores asociados a los niveles de tensión arterial en adolescentes de 13 y 14 años. Se efectuó un relevamiento en el cual se interrogó: Edad, sexo, peso, talla en metros, se calculó el Body Mass Index (peso/talla al cuadrado), y se midió pulso y presión arterial sistólica y diastólica en condiciones basales y en una segunda entrevista. Utilizaremos para el ejemplo la base MENDO6.REC Las variables incluidas son: FICHA: EDAD SEXO: PESO: TALLA: BMI HERMANO: ORDEN: TAS1: TAD1A: PULSO1: TAS2: TAD2A: PULSO2: GRUPESO: LOGPESO: GRUPLOPESO: número de orden de cada paciente en el estudio f - m en kgr en metros número total de hermanos orden de nacimiento tensión arterial sistólica en la primera medición tensión arterial diastólica en la primera medición frecuencia cardíaca en la primera medición tensión arterial sistólica en la primera medición tensión arterial diastólica en la primera medición frecuencia cardíaca en la primera medición pacientes divididos en aprox 20 grupos de acuerdo al peso transformación logarítmica del peso pacientes divididos en aprox 20 grupos de acuerdo al logpeso Primer paso: Desde el módulo ANALYSIS leemos la base: EPI 6> READ MENDO6 Nos indica que tenemos 1019 pacientes. Analizaremos la distribución de un dato cualitativo, el SEXO: EPI 6> FREQ SEXO SEXO | Freq Percent Cum. ------+--------------------------F | 501 49.2% 49.2% M | 518 50.8% 100.0% ------+--------------------------Total | 1019 100.0% Ejercicio de Integración de Estadística Descriptiva - Hoja 2 Observamos que la distribución porcentual fue de 49,2% mujeres y 50,8% hombres. Es decir, ligeramente más hombres que mujeres. Si nos interesa conocer el intervalo de confianza de la distribución del sexo, escribiremos EPI 6> FREQ SEXO/C SEXO | Freq Percent Cum. 95% Conf Limit ------+-------------------------------------F | 501 49.2% 49.2% 46.1% -52.3% * M | 518 50.8% 100.0% 47.7%-53.9% * ------+-------------------------------------Total | 1019 100.0% Esto nos aclara que la prevalencia de sexo masculino fue de 50,8% con un intervalo de confianza del 95% de 47,7 a 53,9 (amplitud del intervalo 6,2). Como ejercicio, trabajaremos con sólo los primeros 200 pacientes. La orden es: EPI 6> SELECT RECNUMBER < 200 Recnumber es el número de orden de cada paciente. Repetimos la orden: EPI 6> FREQ SEXO/C Current selection: recnumber < 200 SEXO | Freq Percent Cum. 95% Conf Limit ------+-------------------------------------F | 112 56.3% 56.3% 49.1% -63.3% M | 87 43.7% 100.0% 36.7% -50.9% ------+-------------------------------------Total | 199 100.0% Notamos que ha habido un cambio del porcentaje de sexo masculino, probablemente al azar (en toda la población la prevalencia de sexo masculino es 50,8, y en esta muestra de 200 fue de 43,7), pero lo más resaltable es la ampliación del intervalo de confianza debido al menor número de pacientes. El anterior fue con una n de 1019 y el actual 199. Vemos que en los 1019 pacientes el intervalo de confianza era de 47,7 a 53,6 (amplitud 5,9), mientras que al reducirnos a una muestra de 199 pacientes el intervalo de confianza para sexo masculino es de 36,7 a 50,9% (amplitud 14,2, mucho mayor que el anterior). Vemos que la prevalencia real de sexo masculino, 50,8%, está abarcada por el intervalo de confianza del 95% de la muestra de 199 pacientes. Para continuar desactivamos la selección con: EPI 6> SELECT Ejercicio de Integración de Estadística Descriptiva - Hoja 3 Analizaremos ahora la distribución de los datos cuantitativos peso, talla, body mass index, tensión arterial sistólica y diastólica. Comenzaremos con la talla: EPI 6> MEANS TALLA/N La /N en el Epi Info 6 es para evitar que nos liste todos los datos y nos de sólo el resultado final. TALLA Total 1019 Sum 1565 Mean 1.535 Variance 0.005 Std Dev 0.073 Std Err 0.002 Minimum 1.250 25%ile 1.490 Median 1.530 75%ile 1.590 Maximum 1.760 Mode 1.500 Observamos que la mediana es muy cercana a la media, y la distribución de intervalos intercuartilo 25 y 75 es casi simétrica, lo que nos hace pensar en la posibilidad de una distribución gaussiana. Podemos resumir la descripción de la talla afirmando que el valor de media ± DS fue de 1,535 ± 0,073, el error estándar de la media fue 0,002. Intervalo de confianza para la media y error standard Para establecer el intervalo de confianza del 95% del valor de la media. Hacemos: media ± 1,96 * ES = 1,535 ± 0,004, es decir que el intervalo de confianza del 95% va de 1,531 a 1,539. También obtenemos de la tabla los valores mínimos y máximos, percentilo 25, 50% (mediana) y 75%. Repita usted los cálc ulos para peso, body mass index, tensión arterial sistólica (TAS1) y tensión arterial diastólica (TAD1A). MEANS MEANS MEANS MEANS MEANS PESO/N BMI/N TAS1/N TAD1A/N PULSO1/N Preste atención y si existen valores discrepantes o imposibles elimine los mismos. Por ejemplo, si hay valores de TAD1A marcados como 0, pueden eliminarse para el cálculo con la orden: EPI 6> SELECT TAD1A > 0 EPI 6> MEANS TAD1A/N EPI 6> SELECT Exprese el intervalo de confianza de la media de cada uno de estos parámetros con la fórmu la Media ± 1*96 x Error standard. Ejercicio de Integración de Estadística Descriptiva - Hoja 4 PESO Total 1019 Sum 48706 Mean 47.798 Variance 115.909 Std Dev 10.766 Std Err 0.337 Minimum 26.500 25%ile 40.000 Median 46.000 75%ile 53.500 Maximum 97.200 Mode 41.500 En el caso del peso, se observa que la media es algo diferente de la mediana. Si hacemos el intervalo de confianza de la media 47.798 ± 1,96*0,337 alcanzamos el valor de 47,137 a 48,458, es decir, que el valor de la mediana no está abarcado por la media y su intervalo de confianza, lo que sugiere una distribución no gaussiana. Dividimos a la población de acuerdo en grupos de peso en la variable GRUPESO. Si efectuamos un histograma: EPI 6> HISTOGRAM GRUPESO 140 120 100 80 60 Count 40 20 0 24 to 26 36 to 30 to 38 48 to 32 42 to 50 60 to 44 54 to 62 72 to 56 66 to 74 84 to 68 78 to 86 96 to 80 90 to 98 92 GRUPESO Observamos que el dibujo indica una agrupación desviada a la izquierda. Evaluaremos la posibilidad de un distribución logarítmica normal con la nueva variable LOGPESO. Esta variable ya está provista y fue calculada con la fórmula: LOGPESO = LOG (PESO) Esta fórmula nos da el logaritmo natural del valor del peso. Efectuamos la media de la nueva variable LOGPESO y observamos: La media está aquí más cerca de la mediana: Ejercicio de Integración de Estadística Descriptiva - Hoja 5 LOGPESO Total 1019 Minimum 1.400 Sum 1700 25%ile 1.600 Mean 1.669 Median 1.700 Variance 0.009 75%ile 1.700 Std Dev 0.097 Maximum 2.000 Std Err 0.003 Mode 1.600 Haciendo: media ± 1,96 * 0,003 (error standard de la media) obtenemos que el intervalo de confianza del 95% de la media va de 1,666 a 1,672, es decir, que no abarca a la mediana y por tanto aún con la transformación logarítmica normal la media no es gaussiana. Agrupando en 20 categorías de acuerdo al logaritmo del peso en la variable gruplopeso, hacemos un histograma: EPI 6> HISTOGRAM GRUPLOPESO 200 Count 100 0 99 19 to 60 59 19 o 19 t 20 9 19 191 to 80 9 18 187 to 40 39 18 o 18 t 00 9 18 179 to 60 9 17 175 to 20 19 17 o 17 t 80 9 16 167 to 40 39 16 o 16 t 00 9 16 159 to 60 9 15 155 to 20 19 15 o 15 t 80 9 14 147 to 40 9 14 143 to 00 14 GRUPLOPESO Se observa que es un poco más similar a la distribución gaussiana. Como primera impresión, el peso parecería tener una distribución más similar a logarítmica normal que a gaussiana. Sin embargo como hemos visto, la distribución no fue estrictamente logarítmica normal. Si queremos efectuar histogramas en el EPI6, por ejemplo de la tensión arterial sistólica debemos dar la orden: EPI 6> HISTOGRAM TAS1 observamos que los divide en numerosos grupos. Ejercicio de Integración de Estadística Descriptiva - Hoja 6 Una forma de reagruparlos es estimar aproximadamente 15 a 30 grupos recodificando. Por ejemplo creamos una variable de reagrupación: DEFINE GRUPTAS __________________________ (Aclaración: al definir una nueva variable nunca olvide dejar un espacio luego del nombre y usar los guiones de subrayado __ y no de espacio --). Esta nueva variable será alfanumérica. Para indicar eso, luego de escribir DEFINE GRUPTAS, dejando un espacio, se colocan las marcas horizontales por debajo del renglón tantas como letras tendrá la variable alfanumérica. Luego indicamos la orden para reagrupar en forma automática los valores por ejemplo cada 5 mmHg RECODE TAS1 TO GRUPTAS BY 5 o cada 3 mmHg: RECODE TAS1 TO GRUPTAS BY 3 Luego efectuamos el histograma de GRUPTAS, que nos exhibe los datos en forma más presentable. Otros programas estadísticos agrupan por defecto los pacientes en 20 a 30 grupos, o solicitan al operador el número de grupos deseados. peso Promedio talla Bmi 47,80 1,54 20,16 10,761 0,073 3,736 0,661 0,004 0,229 26,5 1,25 10,58 Valor cuartilo 25% (cuartilo 1) 40 1,49 17,615 Mediana (cuartilo 2) 46 1,53 19,29 Valor cuartilo 75% (cuartilo 3) 53,5 1,59 21,855 Valor máximo (cuartilo 4) 97,2 1,76 39,21 Desvío standard Intervalo de confianza de la media Valor mínimo