ANÁLISIS DE LOS FACTORES CUALITATIVOS EN LOS MODELOS DE REGRESIÓN MULTIPLE Y S U APLICACIÓN EN LA DETERMINACIÓN DE CASOS DE INFLUENZA AH1N1 J. A. Jiménez García c Vacío , a,b b b,c a , S. Téllez Vázquez , J. Sánchez Aguilar , J. Cuevas Ortuño , R. Jaramillo a CIA TE C A.C., [email protected] UPGTO, stellez@upgto. edu.mx c LAPEM-CFE, jons_sanc [email protected] b RESUMEN. Existen varios fenómenos de tipo social y epidemiológico que pueden explicarse mediante un modelo de regresión múltiple, donde se hace necesario construir un modelo con datos cuantitativos. Cuando se tienen factores cualitativos se requiere la creación de variables Dummy que consiste en la asignación de c eros y unos para los diferentes niveles de la variable categórica. En este trabajo se propone la asignación de números reales a los diferentes niveles de la variable categóric a y se permutan para analizar el efecto de las diferentes asignaciones en los análisis obtenidos. Para determinar las variables significativas del modelo se utilizó el software Statgraphics Cent urión con licencia ac adémic a C2AO -S1P1-P020-K 038-0214, considerando como criterio de 2 selección el coeficiente de determinación, R , el error cuadrático medio MSE y el estadístico Cp. El 2 mejor modelo tiene un coeficiente de determinación R = 75.2694%, un error cuadrático medio MSE = 837399 y un estadístico Cp = 0.432967 estableciendo las siguientes variables como regresoras: X1 = Población por estado, X4 = Unidades médicas, X6 = Promedio de habitantes por vivienda particular, X7 = Población económicamente activa y X8 =Densidad poblacional. Siendo la variable de respuesta el número de c asos de influenz a A H1N1 confirmados en cada uno de los Estados de la República Mexicana. Esta investigación contribuye al entendimiento del comport amiento estadístico del virus AH1N1 además se analiza qué es lo que sucede cuando se utilizan valores cuantitativos en lugar de variables Dummy cuando se trata con variables del tipo cualitativo. 1. INTRODUCCIÓN. Un modelo de regresión que contiene más de una variable de regresión recibe el nombre de modelo de regresión lineal múltiple (RLM), el cual se puede describir mediante la siguiente relación . Un problema que es inherente a los investigadores que utilizan RLM es el denominado problema de selección de va riables, donde no se conoce la verdadera relación funcional ent re y y se desea establecer un modelo que se utilice para predecir observaciones futuras de la variable de respuesta , correspondiente a valores de las variables independientes [1, 2]. Uno de los criterios más utilizados para juzgar la adecuación del 2 modelo es el coeficiente de determinación R , que se interpreta como la cantidad de variabilidad en los datos explicada por el modelo de regresión, sin embargo, abuso en el uso de dic ho coeficiente, puede conducirnos a conclusiones equivocadas [3], en este trabajo para evitar errores de interpretación, además del coeficiente de determinación, también se consideran como criterio de selección, el error cuadrático medio y el estadístico , su interpretación se explica en la sección 2.1. El objetivo de este artículo es determinar mediante un análisis de modelos de RLM si los partidos políticos en México tuvieron cierta influencia en la publicación de casos positivos de influenza AH1N1. Se utilizó la base de dat os de INEGI y del IFE para definir el partido político que gobierna cada estado y los casos positivos que se report aron [4, 5, 6, 7]. Debido a que la variable partido político es de naturaleza c ualitativa o cat egórica, se analiza la posibilidad de c odificarla como PRI=R=1, PAN=A=2 y PRD= D=3. Así mismo se determina si la codificación mediante los números 1, 2 y 3 es adec uada o si es necesario el uso de variables indicadoras Dummy. Cumsulle en [8] recomienda, evitar, en la medida de lo posible, la categorización de variables en el análisis de regresión, Navarro en [9], considera que el análisis de regresión categórica constituye una buena técnica cuando se está en presencia de problemas en los que la mayoría de variables predictoras son categóricas. El resto del trabajo se encuentra organizado de la siguiente manera: en la sección 2 se presentan diferent es métodos para la selección de variables, en la sección 3 se plantean las categorías de la variable cualitativa, en la sección 4 se presenta el desarrollo y la experimentación, finalmente en la sección 5, se presentan los result ados y conclusiones. 1 2. MÉTODOS DE S ELECCIÓN DE V ARIABLES. Seleccionar un conjunto de variables regresoras en un modelo de regresión lineal múltiple consiste en dos as pectos: a) escoger un criterio de selección para evaluar el modelo; b) desarrollar el algoritmo comput acional para construir el modelo [1]. Entre los criterios más utilizados, se tienen el error cuadrático medio ( MSE ), el 2 coeficiente de determinación (R ) y el estadístico Cp [2]. 2.1. TODAS LAS REGRESIONES POSIBLES. Este enfoque requiere que el analista ajuste todas las ecuaciones tomando una variable candidata, luego las ecuaciones de regresión tomando dos variables candidatas, y así sucesivamente. El siguiente paso es evaluar estas ecuaciones de acuerdo con algún criterio adecuado para s eleccionar “el mejor” modelo de regresión. Un c riterio muy utilizado se bas a en el coeficiente de determinación múltiple [2]. Bajo este criterio el analista añade variables al modelo hasta el punto donde ninguna más es útil debido a que proporciona un incremento pequeño en . El coeficiente de determinación se calcula de la siguiente manera: (1) Un segundo criterio es utilizar el error cuadrático medio, , para una ecuación de p variables. Un criterio lógico es escoger las variables de regresión de modo que sea mínimo [2]. El error cuadrático medio se calcula de la siguiente manera: (2) Un tercer criterio es el estadístico , el cual se calcula de la siguiente manera: (3) De acuerdo con este criterio, S e escoge como la mejor ecuación de regresión la que corresponde al modelo que tiene un mínimo o un modelo con un un poco mayor y que no tenga mucho sesgo [2]. Con el uso del software Statgrphics, es posible analizar los mejores modelos con base en los criterios , y de manera simultánea y facilita la categorización, desde el mejor hasta el peor modelo. E n la Tabla seis, se puede observar un resumen de los mejores modelos encontrados. 3. MODELO CON VARIABLES DUMMY. En general, una variable cualitativa con t niveles puede modelarse con t-1 variables indicadoras, a las cuales se les asigna el valor cero o uno [10]. La razón de definir una variable indicadora menos, que el número de niveles de X es que de no hacerlo así, la matriz de diseño no conduciría a una inversa [11]. Por tanto, si se tienen tres partidos políticos (R, P y D), los distintos nivel es pueden considerarse por las dos variables dummy definidas en la tabla 1. D15 0 1 0 Tabla 1. Asignación de valores a variables dummy. D16 Definición 0 Si la observación proviene del partido político R 0 Si la observación proviene del partido político A 1 Si la observación proviene del partido político D Con esta categorización de variables es posible determinar si el partido político tiene ciert o efecto en los resultados positivos de influenza AH1N1, ajustando el siguiente modelo: (4) 4. DES ARROLLO Y EXPERIMENTACIÓN. S e identificaron 15 variables de tipo socioeconómico que pueden tener may or efecto en los casos de influenza AH1N1. En la Tabla 2 se puede obs ervar cada uno de los estados de la República Mexicana, así como las 15 variables con s u respectivo nombre. La codificación para los diferentes partidos políticos es la siguiente: R = PRI, A = PAN, D = PRD. La variable de respuesta Y, representa el número de casos positivos de influenza AH1N1, reportados en los diferentes Estados. 2 Tabla 2. Datos socioeconómicos de los 32 Estados de la República Mexicana. 4.1 ANÁLISIS 1: CODIFICACIÓN R = PRI = 1, A = PAN = 2, D = PRD = 3. Al realizar el análisis en busca del mejor modelo de regresión lineal múltiple, Statgraphics codifica con una letra mayúscula a cada una de las variables, a continuación se muestra dicha codificación: A= X1, B= X10, C= X12, D= X13, E= X14, F= X15, G= X2, H= X3, I= X4, J= X5, K= X6, L= X7, M= X8, N= X9. El orden que se presentan es de acuerdo con los resultados arrojados por el software. En la Tabla 3, se puede apreciar los mejores modelos, aplicando el método de todas las regresiones posibles, según los 2 criterios MSE, R y Cp, el mejor modelo incluye las variables AIKLM (X1, X4, X6, X7, X8) Tabla 3. Modelos con los mejores va lores de MSE, R2 y Cp. Adjusted Included MSE R-Squared R-Squared Cp Variables 837399. 75.2694 70.5135 6.71356 AIKL M 842069. 75.1315 70.349 6.86252 ACIL M 907834. 73.1892 68.0333 8.96046 ACJKL En la Tabla 4 se presenta la estimación de los parámetros del modelo. Tabla 4. Estimación de los parámetros del Standard T Parameter Estimate Error Statistic CONS TANT -6031.1 3238.09 -1.86255 X1 -0.00321166 0.00110845 -2.89744 X4 1.93998 0.802055 2.41876 X6 1641.15 787.298 2.08454 X7 0.00731539 0.0023837 3.06893 X8 82.5659 20.996 3.93245 3 modelo. P-Value 0.0739 0.0075 0.0229 0.0471 0.0050 0.0006 Source Model Residual Total (Corr.) Tabla 5. Análisi s de varianza. Sum of Squares Df Mean Square 6.62657E 7 5 1.32531E 7 2.17724E 7 26 837399. 8.80381E 7 31 F-Ratio P-Value 15.83 0.0000 De acuerdo a los resultados presentados en las Tablas 3 y 4 el ajuste del modelo de regresión lineal múltiple para describir la relación ent re Y y las 5 variables independientes es el siguiente: Y = -6031.1 - 0.00321166*X1 + 1.93998*X4 + 1641.15*X6 + 0.00731539*X7 + 82.5659*X8 (5) De acuerdo a la t abla 5 del ANOVA se puede observar que el valor P es menor a 0.05, por lo que se concluye que existe una relación significativa entre las variables con un nivel de confianza del 95%. El estadístico R-cuadrado de la Tabla 3, indica que el modelo ajustado explica 75.2694% de la variabilidad en Y. Todas las variables contempladas en el modelo resultan ser significativas como se observa en la Tabla 4. En el análisis 1, se puede obs ervar que la variable Estado gobernado por partido político (X12), no result ó significativa. 4.2 RESUMEN DE MODELOS. El mismo análisis presentado en la sección 3.1, se aplicó a todas las posibles permutaciones de la variable Estado gobernado por partido político (X12), es decir, se analizó la posibilidad de que R = PRI, tenga un valor de 1, 2 y 3, así mismo A = PA N y D = PRD , como se observa en la Tabla 6. Tabla 6. Resumen de análisis para las 6 permutaciones posibles. NO. DE ANALISIS 1 2 3 4 5 6 CODIFICACIÓN R=1, R=2, R=3, R=1, R=2, R=3, A=2, A=1, A=2, A=3, A=3, A=1, D=3 D=3 D=1 D=2 D=1 D=2 MSE R2 Cp 837399 837399 837399 782342 837399 782342 75.2694 75.2694 75.2695 76.8954 75.2694 76.8954 6.71356 0.432967 6.71356 10.569 0.432967 10.569 Variables incluidas software AIKL M AIKL M AIKL M ACIL M AIKL M ACIL M Variables incluidas originales X1, X4, X6, X7, X8 X1, X4, X6, X7, X8 X1, X4, X6, X7, X8 X1, X12, X4, X7, X8 X1, X4, X6, X7, X8 X1, X12, X4, X7, X8 5. RES ULTADOS Y CONCLUSIONES. De ac uerdo con el resumen de los seis análisis presentados en la Tabla seis, se puede concluir que al asignarle diferent es valores a los partidos políticos (1, 2, 3) para tener la posibilidad de encontrar un modelo regresión lineal múltiple, prácticamente se obtienen los mismos resultados, con excepción de los análisis 4 y 6, donde se observó que el coeficiente de la variable Estado gob ernado por partido (X12) resultó significativo. Considerando el método de todas las regresiones posibles, explicada en la sección 2.1, donde los 2 valores de MSE y Cp son mínimos y el valor de R es el máximo posible, el mejor de t odos los modelos se encuentra mediante la siguiente asignación de valores: R = 2, A = 1, D = 3, dando como resultado el siguiente modelo de regresión: Y = -6031.1 - 0.00321166*X1 + 1.93998*X4 + 1641.15*X6 + 0.00731539*X7 + 82.5659*X8 (6) Se puede observar que el modelo de regresión lineal es idéntico al modelo del análisis 1, donde se realizó una asignación de R = 1, A = 2 y D = 3. Los coeficientes se interpretan de la siguiente manera: -6031.1 es el intercepto, el coeficiente de X1 = Población por estado (- 0.00321166) es negativo por lo tanto el número de c asos disminuy e a mayor población, lo cual puede resultar contradictorio al pensamiento c omún, pero si consideramos que en los Estados con mayor población, por lo general tienen may or espacio geográfico puede justificars e dicho valor, ya que entre más dispersas estén las personas, es menor la probabilidad de contagio. Una excepción para este argument o es el D. F. El coeficiente de X4 = Unidades médicas (1.93998) es positivo, lo que 4 indica que a mayor cantidad de unidades médicas más casos de influenza AH1N1 positivos se registrarán. El coeficiente de X6 = Promedio de habitantes por vivienda (1641.15) tiene un coeficiente positivo, lo que significa que entre más habitantes se t engan en promedio por vivienda, mayor será el riesgo de contagio y los casos positivos de influ enza A H1N1, se incrementarán. El coeficiente de X7 = Población económicamente activa (0.00731539) tiene un coeficient e positivo, lo que quiere decir es que entre más gente económicamente activa exista en cierto Estado de la Republica Mexicana, mayor s erá la p robabilidad de contagiars e del virus AH1N1, por lo tanto entre más grande sea X7, más casos positivos se tendrán. Finalmente, la variable X8 = Densidad poblacional (82.5659), nos indica que entre más gente exista por espacio t erritorial, la probabilidad de contagio es mayor y por consecuencia el número de casos report ados positivos también. El modelo encontrado se considera que tendrá una buena utilidad para predecir el número de casos de influenza que podrían presentarse en cada uno de los Estados de la República Mexicana, al incrementars e (o disminuirse) la población por Estado, las unidades médicas, el promedio de habitantes por vivienda, la población económicamente activa y la densidad poblacional. El 75.2694% de la variabilidad en Y, puede ser explicada por las variables X1, X4, X6, X7 y X8. De acuerdo con los análisis 4 y 6 de la tabla 6, se puede pensar que los partidos políticos si tuvieron cierta influencia en la publicación de resultados positivos de influenza A H1N1, pero se debe de ver con un poco de reservas debido a que el modelo resultant e provoca un s esgo importante en los resultados ya que el valor de Cp = 10.569 es significativamente mayor que el numero coeficientes en el modelo (p = 5). Con relación al uso de variables dummy que s e establecieron en la Tabla 1 de la sección 3, se analizó en Statgraphics donde se ajustaron 4744 modelos diferentes, resultando como el mejor modelo el que se muestra en las ecuaciones 5 y 6. De acuerdo con los criterios de selección establecidos en la sección 2.1, se tiene un error cuadrático medio MSE = 837399, un coeficiente de 2 determinación R = 75.2694% y un estadístico Cp = 10. 8558, siendo este último un poco más grande con respecto al encontrad o en el análisis 2 de la Tabla seis, debido al uso de las variables dummy, se tuvo un ligero increment o en el sesgo, el cual es parecido con lo que establece Navarro en [9]. REFERENCI AS 1. O. Navarro, “Perspectiva Selección de variables en regresión: componentes principales”, Seventh LA CCE I Latin American and Caribbean Conference for E ngineering and Technology (LACCEI’2009), June 2-5, 2009. 2. D. C. Montgomery y G. C. Runger (1996) Probabilidad y estad ística aplicadas a la ingeniería (1ra ed.). México: Mc Graw Hill. 3. E. Martínez. “Errores frecuentes en la interpretación del coeficient e de determinación lineal”. Anuario Jurídico y Económico Escurialens e, XXXVIII (2005) 315-332. 4. www.inegi.org.mx,Censo 2005 5. www.inegi.org.mx,Censo 2008 6. http://portal.salud.gob.mx/contenidos/noticias/influenza/estadisticas , Documento 7. 8. "Centros Estratégicos de Vacunación de Influenza A(H1N1) por Entidad Federativa" http://www.ife.org.mx/documentos/RESELEC/SICEEF/principal.html F. Cumsulle y B. Shrikant. “Categorización de variables en el analisis estadístico de datos: consecuencias sobre la interpretación de res ultados”. Rev P anam Salud P ublica/Pan Am J Public Health 8(5), 2000. 9. J. M. Navarro, G. M. Casas, E. González y S. Cuadrado. “Estudio del riesgo cardiovascular en el municipio de Santa Clara utilizando el mét odo de regresión categórica”. Revista investigación operacional Vol., 29, No. 3, 224-230, 2008. 10. D. C. Montgomery y E. A. Peck (1992) Introduction to linear regression analysis (2da ed.). New York: Wiley. 11. M. Rosas, F. Chacín, J Garc ía, M. Ascanio y M Cobo. “Construction of linear regression with quantitative and qualitative variables in order to inference about student accomplishment”. Rev. Fac. Agron. (LUZ). 2006, 23: 194-210. 5