46 Ajuste e interpretación de modelos de regresión logística con variables categóricas y continuas* LUIS NAVA PUENTE1 SURENDRA PRADAD. SINHA2 Resumen Se desarrolló un procedimiento para ajustar un modelo de regresión logística que relacionara la prevalencia de cardiomiopatía clínica con las variables de sexo, consumo de “chimó”, consumo de alcohol, fumar, seropositividad a Trypanosoma cruzi y edad. Se usó la información referente a un grupo de 2.336 habitantes del Estado Trujillo. Los resultados de la investigación indicaron que las variables relacionadas en forma significativa con la presencia de anormalidades electrocardiográficas son sexo, consumo de chimó, fumar y edad. El modelo apropiado incluye la interacción entre las variables sexo y consumo de chimó y un término cuadrático de edad. El consumo de chimó y la edad son variables que incrementan en forma significativa las posibilidades de cardiomiopatía clínica. Podemos concluir con base en los resultados que los hombres tienen mayores posibilidades que las mujeres de presentar esta anomalía. Palabras clave: Regresión logística, modelo lineal generalizado, Trypanosoma cruzi, cardiomiopatía, anormalidades electrocardiográficas. * Este artículo corresponde a un resultado obtenido en el Seminario 2 del Doctorado en Estadística de la Universidad de Los Andes, desarrollado por Luis Nava Puente y con la tutoría de Surendra Sinha. 1 Facultad de Economía, Escuela de Estadística, Universidad de Los Andes, Mérida, Venezuela. 2 Facultad de Economía, Instituto de Estadística Aplicada y Computación, Universidad de Los Andes. Recibido: 01-02-2007 Revisado: 05-03-2007 Aceptado: 12-05-2007 Nava L., Pradad S., Ajuste e interpretación de modelos de regresión logística con variables categóricas y continuas 47 Tittle: Adjustment and interpretation of logistic regression models with categorical and continuous variables Abstract A logistic regression model was fitted to establish the relation between the prevalence of clinic myocardiopathy with the variables gender, chimó (a type of chewing tobacco consumption), alcohol consumption, smoking habits, seropositivity to Trypanosoma cruzi and age. The information was based on a group of 2336 persons from the state of Trujillo, Venezuela. The results of the research showed that the variables significantly related with the presence of electrocardiographic (ECG) abnormalities were gender, chimó consumption, smoking and age. The best model included interactions between gender and chimó consumption, and a quadratic term for age. Chimó consumption and age were the variables that made significantly greater the risk of clinic myocardiopathy. We conclude also that males have a greater risk of developing this kind of abnormality. Key words: Logistic regression, generalized lineal model, Trypanosoma cruzi, cardiomyopathy, electrocardiographic anomalies. diente y la combinación lineal de factores de predicción mediante una función adecuada del valor esperado de la misma. Un caso especial del modelo lineal generalizado es el modelo de regresión logística, el cual se distingue del modelo de regresión lineal en que la variable respuesta es dicotómica. El modelo de regresión logística nos permite, en este caso, estudiar la incidencia de cardiomiopatía clásica en un grupo de pobladores del Estado Trujillo. Ilustramos el procedimiento para ajustar el mejor modelo de regresión logística a los datos, determinar la importancia de las variables independientes bajo estudio en la prevalencia de anormalidades electrocardiográficas, así como la forma de interpretar los resultados. Los datos Introducción El modelo lineal generalizado propuesto inicialmente por Nelder y Wedderburn en 1972, es una extensión o generalización del modelo lineal clásico. Entre otras cosas, ofrece una mayor variedad de distribuciones para la variable respuesta, es decir, posibilita el ajuste de un modelo con diferentes distribuciones sin necesidad de realizar modificaciones en los datos. Además, permite establecer una relación entre la variable depen- Varias investigaciones clínicoepidemiológicas han sido realizadas por el Laboratorio Multidisciplinario de Investigación Clínico-Epidemiológicas de la Facultad de Medicina, coordinado por Darío Novoa M., en comunidades rurales del Estado Trujillo con diversos índices de infestación por “chipo” (triatomino) y con distintas tasas de prevalencia de seropositividad a Trypanosoma cruzi. Estos estudios fueron realizados entre 1978 y 1989, unos han sido publicados y otros están en proceso. Univ. Méd. Bogotá (Colombia), 49 (1): 46-57, enero-marzo de 2008 48 La información analizada en este proyecto se refiere a un estudio de prevalencia (1986-1987) de cardiomiopatía clínica, realizado en un grupo de 2.336 habitantes del Estado Trujillo. A este conjunto de individuos se les registró, entre otras, las variables de sexo (masculino, femenino), consumo de chimó (no, sí), consumo de alcohol (no, sí), fuma (sí, no), seropositividad a Trypanosoma cruzi (positiva, negativa) y edad. que incluye sólo el intercepto). Este resultado se muestra en la tabla 1. En segundo lugar, se efectuó la evaluación de cada uno de los factores cualitativos de interés en el estudio y se construyó la tabla 2. Resultados Tenemos, pues, que la tabla 2 presenta el deviance de cada modelo unifactorial y el efecto global de cada uno de estos factores. Este efecto global resulta de la diferencia entre las desviaciones (deviance) del modelo nulo y el de cada modelo de un factor. Inicialmente se calculó el deviance asociado con el modelo nulo (modelo Debe señalarse, al comparar los resultados mostrados en la tabla 2 con Tabla 1 Cálculo del deviance para el modelo nulo Estadísticos de Bondad de Ajuste Deviance y Pearson Criterio Deviance Pearson GL 28 28 Valor 247.7866 244.2682 Valor/GL 8.8495 8.7239 Pr > ChiSq <.0001 <.0001 GL: Grados de Libertad. Pr: Probabilidad. Chisq: Chi-Cuadrado. Tabla 2 Cálculo de deviance y efecto global para los modelos de un factor Modelo Nulo Sexo Comechimo Fuma Toma Resultad Deviance 247,7866 75,4344 202,0885 240,5551 229,8772 238,7436 GL 28 27 27 27 27 27 Efecto global GL 172,3522* 45,6981* 7,2315* 17,9094* 9,043* 1 1 1 1 1 *Significativo al 5%. GL: Grados de Libertad. Nava L., Pradad S., Ajuste e interpretación de modelos de regresión logística con variables categóricas y continuas 49 c21;0.05 = 3.84146, que todos los efectos globales resultan significativos a un nivel de significación del 5%. Por consiguiente, se considera apropiado correr un modelo aditivo que incluya los cinco factores cualitativos anteriormente evaluados. Los resultados obtenidos al ajustar este modelo se presentan en la tabla 3 y se puede observar que el modelo se ajusta a los datos (p=0,1005). Cabe considerar, por otra parte, que a un nivel del 5% todos los factores, excepto “Toma” (p=0,3879), resultan estadís- ticamente significativos. Este resultado es confirmado al utilizar el procedimiento de selección de variables hacia adelante; el mismo considera que el modelo debe incluir las variables sexo, come chimó, fuma y resultado. Inclusión de la variable edad El análisis precedente consideró sólo las variables cualitativas. Sin embargo, una variable cuantitativa que, por lo general, resulta de interés, es la variable edad; por lo tanto, debe ser incluida en nuestra construcción. Dado Tabla 3 Ajuste de modelo aditivo Criterio GL Deviance 23 Pearson 23 Number of unique profiles: Valor 31.9818 30.9851 29 Valor/GL 1.3905 1.3472 Pr > ChiSq 0.1005 0.1232 Contraste de la hipótesis nula global: BETA=0 Test Likelihood Ratio Score Wald Chi-Square GL 215.8048 214.2951 200.7542 Pr > 5 5 5 ChiSq <.0001 <.0001 <.0001 Análisis de las estimaciones máximo verosímil Parámetro Intercept SEXO Comechimo FUMAACTU Toma RESULTAD 1 2 1 1 1 GL 1 1 1 1 1 1 Estimación -1.2122 1.1911 0.4421 -0.4167 -0.1056 0.2718 E.E. 0.0720 0.1027 0.1002 0.1132 0.1223 0.1370 ChiSq 283.0820 134.4210 19.4504 13.5436 0.7455 3.9368 Pr > ChiSq <.0001 <.0001 <.0001 0.0002 0.3879 0.0472 GL: Grados de Libertad. E.E. Error estándar. Pr: Probabilidad. Chisq: Chi-Cuadrado. Univ. Méd. Bogotá (Colombia), 49 (1): 46-57, enero-marzo de 2008 50 que edad es cuantitativa, ella produce problemas en el cumplimiento del requisito de la disponibilidad de 10 observaciones por celda o, combinación de niveles. Es claro, entonces, que esta variable no puede ser incorporada al modelo en la forma usual. Una forma diferente de lo usual sería la incorporación de esta variable a través de la construcción de grupos de edades, es decir, creando categorías de edades. Otra forma es mediante el uso del procedimiento propuesto por Stokes, Davis y Koch[4]. Este procedimiento consiste en seguir tres estrategias, las cuales deben coincidir en el modelo ideal. La estrategia 1 consiste en ajustar dos modelos; un primer modelo que incluye sólo los factores cualitativos y un segundo modelo, que es el primero expandido por la variable cuantitativa. Tenemos pues que, al comparar estos modelos, evaluando la diferencia entre sus deviances, mostrados en la tabla 4, 1109.4104-1106.7611=2.6493, podemos concluir que el aporte de la variable edad no es significativo. Esta tabla también nos muestra el análisis de las estimaciones de máximo verosímil. Podemos observar aquí que las variables toma, edad y resultado, no son estadísticamente significativas. Ahora bien, en la estrategia 2 se evalúa la ji al cuadrado residual propuesto por Breslow y Day (1980). El modelo propuesto es el que incluye las variables sexo, come chimó, fuma y edad. Dado que p=0,2001, a un nivel de significación del 5%, se concluye que este modelo se ajusta adecuadamente a los datos. Dentro de ese marco, la estrategia 3 consiste en el cálculo del estadístico de bondad de ajuste propuesto por Hosmer y Lemeshow (1989)[5]. Al comparar el valor de este estadístico, 42.6322, con un ji al cuadrado de 8 grados de libertad, podemos observar que esta medida no apoya lo adecuado del modelo para estos datos. Resulta, claro, una inconsistencia en los resultados obtenidos mediante las tres estrategias, es decir, no hay coincidencia en el modelo ideal. Inclusión del término cuadrático de la variable edad Dada la importancia que representa la variable edad en esta investigación y debido a los resultados obtenidos en la sesión anterior, se decidió incorporar al análisis un término cuadrático (edad 2) de esta variable al modelo. En la tabla 5 se muestran los resultados obtenidos al incorporar el término cuadrático al modelo. El modelo no ajusta a los datos (p<0,001). Obsérvese que ahora la variable edad resulta significativa, mientras que las variables toma y resultado, se mantienen como no significativas. Nava L., Pradad S., Ajuste e interpretación de modelos de regresión logística con variables categóricas y continuas 51 Tabla 4 Ajuste de Modelo incluyendo la variable Edad Estadísticos de Bondad de Ajuste Deviance y Pearson Criterio GL Valor Valor/GL Pr > ChiSq Deviance 827 1109.4104 1.3415 <.0001 Pearson 827 908.8145 1.0989 0.0247 Estadísticos de bondad de ajuste Deviance y Pearson Criterio GL Valor Valor/GL Pr > ChiSq Deviance 826 1106.7611 1.3399 <.0001 Pearson 826 903.2268 1.0935 0.0314 Contraste de la hipótesis nula global: BETA=0 Test Chi-Square GL Pr > ChiSq Likelihood Ratio 218.4542 6 <.0001 Score 216.7855 6 <.0001 Wald 202.6436 6 <.0001 Analysis of Maximum Likelihood estimates Parámetro GL Estimación E.E. ChiSq Pr > ChiSq Intercept 1 -1.3633 0.1181 133.2993 <.0001 SEXO 1 1 1.1918 0.1028 134.2673 <.0001 Comechimo 2 1 0.3853 0.1061 13.1816 0.0003 Fumaactu 1 1 -0.4132 0.1132 13.3182 0.0003 toma 1 1 -0.0975 0.1225 0.6339 0.4259 Edad 1 0.00456 0.00280 2.6556 0.1032 Resultad 1 1 0.2205 0.1406 2.4596 0.1168 GL: Grados de Libertad. E.E. Error estándar. Pr: Probabilidad. Chisq: Chi-Cuadrado. En la tabla 6 se muestran los resultados obtenidos al seguir el procedimiento de las tres estrategias planteado en la sesión anterior, incluyendo el término cuadrático para la variable edad. El modelo no se ajusta a los datos (p<0,001). Obsérvese que ahora la variable edad resulta significativa, mientras que las variables toma y resultado, se mantienen como no significativas. Por consiguiente, podemos indicar que el modelo propuesto es Log it (π ijk ) = –0.094 + 1.121sexo+0.427 comechimo – 0.323 fumaactu – 0.070edad + 0.00087edad2 Univ. Méd. Bogotá (Colombia), 49 (1): 46-57, enero-marzo de 2008 52 Tabla 5 Ajuste de modelo incluyendo el término Cuadrático para la variable Edad Estadísticos de bondad de ajuste Deviance y Pearson Criterio GL Valor Valor/GL Pr > ChiSq Deviance 825 1069.6080 1.2965 <.0001 Pearson 825 882.9096 1.0702 0.0793 Contraste de la hipótesis nula global: BETA=0 Test Chi-Square GL Pr > ChiSq Likelihood Ratio 255.6073 7 <.0001 Score 252.8066 7 <.0001 Wald 229.0238 7 <.0001 Analysis of maximum Likelihood estimates Parámetro GL Estimación E.E. ChiSq Pr > ChiSq Intercept 1 -0.0665 0.2412 0.0760 0.7828 SEXO 1 1 1.1206 0.1040 116.0274 <.0001 Comechimo 2 1 0.4096 0.1077 14.4639 0.0001 Fumaactu 1 1 -0.3223 0.1151 7.8333 0.0051 toma 1 1 0.00803 0.1244 0.0042 0.9485 Edad 1 -0.0715 0.0129 30.7440 <.0001 Edad 2 1 0.000884 0.000147 36.1823 <.0001 Resultad 1 1 0.2556 0.1432 3.1870 0.0742 GL: Grados de Libertad. E.E. Error estándar Pr: Probabilidad. Chisq: Chi-Cuadrado Tabla 6 Ajuste de modelo incluyendo el término Cuadrático para la variable Edad usando las tres estrategias Contraste de la hipótesis nula global: BETA=0 Test Likelihood Ratio Score Wald Chi-Square 252.4506 249.8648 226.7564 GL 5 5 5 Pr > ChiSq <.0001 <.0001 <.0001 Nava L., Pradad S., Ajuste e interpretación de modelos de regresión logística con variables categóricas y continuas 53 Análisis de las estimaciones máximo verosímil Parámetro Intercept SEXO 1 Comechimo 2 FUMAACTU 1 EDAD EDAD 2 GL 1 1 1 1 1 1 Estimación -0.0937 1.1212 0.4266 -0.3227 -0.0695 0.000874 E.E. 0.2395 0.0940 0.1071 0.1127 0.0127 0.000145 ChiSq 0.1532 142.3389 15.8683 8.1943 29.8656 36.2290 Pr > ChiSq 0.6955 <.0001 <.0001 0.0042 <.0001 <.0001 Test residual chi-cuadrado Chi-Square 3.1957 GL 2 Pr > ChiSq 0.2023 Partición para el test de Hosmer y Lemeshow Grupo 1 2 3 4 5 6 7 8 9 10 Total 233 236 231 238 233 234 234 240 246 211 ekg1 = 1 Observado Esperado 40 37.43 44 45.03 44 47.98 56 56.68 54 63.04 80 75.64 89 96.27 129 112.71 142 131.28 125 136.93 ekg1 = 2 Observado Esperado 193 195.57 192 190.97 187 183.02 182 181.32 179 169.96 154 158.36 145 137.73 111 127.29 104 114.72 86 74.07 Test de bondad de ajuste de Hosmer y Lemeshow Chi-Square GL 13.0244 8 Pr > ChiSq 0.1110 GL: Grados de libertad. E.E. Error estándar Pr: Probabilidad. Chisq: Chi-cuadrado Comparando los deviances de los modelos lineal y cuadrático en la variable edad, 1106.7611-1069.6080 =37.1531, podemos indicar que este término es significativo. Un modelo con interacción Con base en el resultado obtenido en la sesión anterior, se propone el estudio de un modelo que considere las interacciones entre los factores cualitativos, es decir, un modelo que considere las interacciones dobles entre los factores sexo, come chimó y fuma actualmente, así como su interacción triple. Mediante el uso del SAS, se obtienen los resultados mostrados en la tabla 7. Univ. Méd. Bogotá (Colombia), 49 (1): 46-57, enero-marzo de 2008 54 Tabla 7 Ajuste de modelo con interacción Contraste de la hipótesis nula global: BETA=0 Test Likelihood ratio Score Wald Chi-Square 260.0263 254.8781 232.3186 GL 6 6 6 Pr > ChiSq <.0001 <.0001 <.0001 Análisis de las estimaciones máximo verosímil Parámetro GL Intercept 1 Sexo 1 1 Comechimo 2 1 Fumaactu 1 1 Sexo*Comechimo 1 2 1 Edad 1 Edad 2 1 Estimación -0.1614 1.2969 0.7119 -0.3018 -0.5466 -0.0699 0.000875 Error Chi-Square 0.2418 0.4454 0.1140 129.3352 0.1476 23.2673 0.1128 7.1536 0.1979 7.6317 0.0128 30.0554 0.000145 36.2049 Pr > ChiSq 0.5045 <.0001 <.0001 0.0075 0.0057 <.0001 <.0001 Estimaciones de las razones de posibilidades3 Point Estimación 0.740 0.932 1.001 Effect Fumaactu 1 vs 2 Edad Edad 2 95% Wald Confidence 0.593 0.909 1.001 Limits 0.923 0.956 1.001 Test residual chi-cuadrado Chi-Square 1.9477 GL 3 Pr > ChiSq 0.5833 Resumen de la selección hacia delante Paso 1 2 3 4 5 6 Efecto Entrante Sexo Edad2 Edad Comechimo Sexo*Comechimo Fumaactu GL 1 1 1 1 1 1 In 1 2 3 4 5 6 ChiSq 173.5261 25.1850 31.6636 15.4864 8.7434 7.1774 Pr > ChiSq <.0001 <.0001 <.0001 <.0001 0.0031 0.0074 Etiqueta Sexo Edad2 Edad umaactu Test de bondad de ajuste de Hosmer y Lemeshow Chi-Square 7.8173 GL 8 Pr > 0.4515 ChiSq GL: Grados de libertad. E.E. Error estándar Pr: Probabilidad. Chisq: Chi-Cuadrado 3 Razón de posibilidades es la traducción del término Odds Ratio, el cual no tiene traducción directa en castellano. Odds indica P/(1-P), donde P representa la probabilidad de un evento de interés. Nava L., Pradad S., Ajuste e interpretación de modelos de regresión logística con variables categóricas y continuas 55 El procedimiento de selección de variables hacia adelante propone como modelo apropiado aquél que involucra las variables sexo, come chimó, fuma actualmente, los términos lineal y cuadrático de edad y la interacción sexo*come chimó. Esto es, el modelo a considerar está dado por Log it (π ijk ) = –0.161 + 1.297sexo+0.712comechimo – 0.302 fumaactu – 0.547sexo*comechimo – 0.070edad + 0.00087edad2 Ahora bien, lo adecuado de este modelo a los datos es sustentado por la prueba ji al cuadrado residual (p=0,5833) comparado con un ji al cuadrado de tres grados de libertad y la prueba de bondad de ajuste de Hosmer y Lemeshow (p=0,4515) comparado con una ji al cuadrado de ocho grados de libertad. Por lo tanto, este modelo representa el modelo definitivo. Interpretación de los coeficientes del modelo Para interpretar los resultados obtenidos es necesario indicar que los niveles sexo=femenino, come chimó=no y fuma actualmente=no, representan los niveles de referencia usados para las variables cualitativas. Comenzaremos con la interpretación de los coeficientes de aquellas variables cualitativas que no están involucradas en la interacción, como es lo apropiado. El valor –0,3018 (e-0.3018 = 0.7395) asociado con la variable fuma actualmente, indica que el no fumar disminuye la posibilidad de tener problemas electrocardiográficos en un 26,05%. Dado que la interacción sexo*come chimó resultó significativa, carece de sentido interpretar los coeficientes de sexo y come chimó por separado. La forma de actuar es comparar los niveles de una variable manteniendo constante la otra en un nivel determinado. De esta forma, se tiene que: • En el grupo de individuos que no consumen chimó, los hombres tienen casi cuatro veces (e 1.2969 = 3.658) más posibilidades de presentar problemas electrocardiográficos que las mujeres. • En el grupo de individuos que consumen chimó, las posibilidades de que los hombres presenten problemas electrocardiográficos se incrementa en un 111,76% (e1.29690.5466 = 2.1176) con respecto a las de las mujeres. Esto es, las posibilidades de que un hombre presente problemas electrocardiográficos es más de dos veces de las posibilidades que las presente una mujer. • En el grupo de las mujeres, el consumir chimó incrementa en un 103,4% (e0.7119 = 2.034) las posibilidades de tener problemas electrocardiográficos. • En el grupo de los hombres, el consumo de chimó incrementa las Univ. Méd. Bogotá (Colombia), 49 (1): 46-57, enero-marzo de 2008 56 posibilidades de presentar alteraciones electrocardiográficas en un 17,98% (e0.7119-0.5466 = 1.1798). Para interpretar los coeficientes relacionados con la edad, debemos usar un mecanismo que permita medir el cambio que ocurre en los logit o en las posibilidades, por cada unidad en la que se incrementa la edad. Una forma es derivando, otra forma es obteniendo el cociente entre las posibilidades en edad y edad+1. Esta segunda resulta, por lo general, más sencilla. En nuestro caso este cociente es equivalente a: e log it (πijk) = e–0.0699 + 0.000875 + 2*0.00087edad = e–0.069025 + 0.001edad e log it (πijk) Podemos ver, entonces, que las posibilidades de presentar problemas electrocardiográficos es una función creciente de la edad, es decir, a medida que se incrementa la edad, mayor es esa posibilidad. 3. Entre los hombres, el grupo con mayores posibilidades de presentar cardiomiopatía clínica es el que consume chimó: 17,98% más que los que no consumen chimó. 4. El consumo de chimó afecta en mayor grado a las mujeres que a los hombres. 5. Las posibilidades de presentar problemas electrocardiográficos es una función creciente de la edad. 6. El consumo de chimó, la edad y el sexo son variables de gran importancia en la explicación de la presencia de cardiomiopatía clínica, mientras que el consumo de alcohol y la seropositividad a Trypanosoma cruzi son irrelevantes. Bibliografía 1. Dumett MA. Modelos lineales generalizados. Bogotá: Universidad Nacional de Colombia, Departamento de Matemáticas y Estadística; (1995). 2. Hosmer DW, Lemeshow S. Applied logistic regression. Second edition. New York: John Wiley & Sons; 2000. 3. López LA, Rincón LF. Modelo lineal. Bogotá: Universidad Nacional de Colombia, Departamento de Matemáticas y Estadística; 1999. 4. Rodríguez G. Generalized lnear models. Princeton: Princeton University; 2002. Conclusiones 1. El fumar incrementa las posibilidades de presentar anormalidades electrocardiográficas en un 26,1%. 2. El hombre tiene más posibilidades que la mujer de presentar cardiomiopatía clínica. Nava L., Pradad S., Ajuste e interpretación de modelos de regresión logística con variables categóricas y continuas 57 5. Solomon PR. Guía para redactar informes de investigación. México: Editorial Trillas; 1998. 6. Stokes ME, Davis CS, Koch GG. Categorical data analysis using the SAS system. Cary, N.C.: SAS Institute, U.S.A.; 2000. Univ. Méd. Bogotá (Colombia), 49 (1): 46-57, enero-marzo de 2008