análisis de los factores cualitativos en los modelos de

Anuncio
ANÁLISIS DE LOS FACTORES CUALITATIVOS EN LOS MODELOS DE REGRESIÓN
MULTIPLE Y S U APLICACIÓN EN LA DETERMINACIÓN DE CASOS DE INFLUENZA AH1N1
J. A. Jiménez García
c
Vacío ,
a,b
b
b,c
a
, S. Téllez Vázquez , J. Sánchez Aguilar , J. Cuevas Ortuño , R. Jaramillo
a
CIA TE C A.C., [email protected]
UPGTO, stellez@upgto. edu.mx
c
LAPEM-CFE, jons_sanc [email protected]
b
RESUMEN. Existen varios fenómenos de tipo social y epidemiológico que pueden explicarse
mediante un modelo de regresión múltiple, donde se hace necesario construir un modelo con datos
cuantitativos. Cuando se tienen factores cualitativos se requiere la creación de variables Dummy
que consiste en la asignación de c eros y unos para los diferentes niveles de la variable categórica.
En este trabajo se propone la asignación de números reales a los diferentes niveles de la variable
categóric a y se permutan para analizar el efecto de las diferentes asignaciones en los análisis
obtenidos. Para determinar las variables significativas del modelo se utilizó el software Statgraphics
Cent urión con licencia ac adémic a C2AO -S1P1-P020-K 038-0214, considerando como criterio de
2
selección el coeficiente de determinación, R , el error cuadrático medio MSE y el estadístico Cp. El
2
mejor modelo tiene un coeficiente de determinación R = 75.2694%, un error cuadrático medio
MSE = 837399 y un estadístico Cp = 0.432967 estableciendo las siguientes variables como
regresoras: X1 = Población por estado, X4 = Unidades médicas, X6 = Promedio de habitantes por
vivienda particular, X7 = Población económicamente activa y X8 =Densidad poblacional. Siendo la
variable de respuesta el número de c asos de influenz a A H1N1 confirmados en cada uno de los
Estados de la República Mexicana. Esta investigación contribuye al entendimiento del
comport amiento estadístico del virus AH1N1 además se analiza qué es lo que sucede cuando se
utilizan valores cuantitativos en lugar de variables Dummy cuando se trata con variables del tipo
cualitativo.
1. INTRODUCCIÓN. Un modelo de regresión que contiene más de una variable de regresión
recibe el nombre de modelo de regresión lineal múltiple (RLM), el cual se puede describir mediante
la siguiente relación
. Un problema que es inherente a los investigadores que
utilizan RLM es el denominado problema de selección de va riables, donde no se conoce la
verdadera relación funcional ent re
y
y se desea establecer un modelo que se utilice para
predecir observaciones futuras de la variable de respuesta , correspondiente a valores de las
variables independientes [1, 2]. Uno de los criterios más utilizados para juzgar la adecuación del
2
modelo es el coeficiente de determinación R , que se interpreta como la cantidad de variabilidad en
los datos explicada por el modelo de regresión, sin embargo, abuso en el uso de dic ho coeficiente,
puede conducirnos a conclusiones equivocadas [3], en este trabajo para evitar errores de
interpretación, además del coeficiente de determinación, también se consideran como criterio de
selección, el error cuadrático medio y el estadístico , su interpretación se explica en la sección
2.1. El objetivo de este artículo es determinar mediante un análisis de modelos de RLM si los
partidos políticos en México tuvieron cierta influencia en la publicación de casos positivos de
influenza AH1N1. Se utilizó la base de dat os de INEGI y del IFE para definir el partido político que
gobierna cada estado y los casos positivos que se report aron [4, 5, 6, 7]. Debido a que la variable
partido político es de naturaleza c ualitativa o cat egórica, se analiza la posibilidad de c odificarla
como PRI=R=1, PAN=A=2 y PRD= D=3. Así mismo se determina si la codificación mediante los
números 1, 2 y 3 es adec uada o si es necesario el uso de variables indicadoras Dummy. Cumsulle
en [8] recomienda, evitar, en la medida de lo posible, la categorización de variables en el análisis
de regresión, Navarro en [9], considera que el análisis de regresión categórica constituye una
buena técnica cuando se está en presencia de problemas en los que la mayoría de variables
predictoras son categóricas. El resto del trabajo se encuentra organizado de la siguiente manera:
en la sección 2 se presentan diferent es métodos para la selección de variables, en la sección 3 se
plantean las categorías de la variable cualitativa, en la sección 4 se presenta el desarrollo y la
experimentación, finalmente en la sección 5, se presentan los result ados y conclusiones.
1
2. MÉTODOS DE S ELECCIÓN DE V ARIABLES. Seleccionar un conjunto de variables regresoras
en un modelo de regresión lineal múltiple consiste en dos as pectos: a) escoger un criterio de
selección para evaluar el modelo; b) desarrollar el algoritmo comput acional para construir el
modelo [1]. Entre los criterios más utilizados, se tienen el error cuadrático medio ( MSE ), el
2
coeficiente de determinación (R ) y el estadístico Cp [2].
2.1. TODAS LAS REGRESIONES POSIBLES. Este enfoque requiere que el analista ajuste todas
las ecuaciones tomando una variable candidata, luego las ecuaciones de regresión tomando dos
variables candidatas, y así sucesivamente. El siguiente paso es evaluar estas ecuaciones de
acuerdo con algún criterio adecuado para s eleccionar “el mejor” modelo de regresión. Un c riterio
muy utilizado se bas a en el coeficiente de determinación múltiple [2]. Bajo este criterio el analista
añade variables al modelo hasta el punto donde ninguna más es útil debido a que proporciona un
incremento pequeño en
. El coeficiente de determinación se calcula de la siguiente manera:
(1)
Un segundo criterio es utilizar el error cuadrático medio,
, para una ecuación de p variables.
Un criterio lógico es escoger las variables de regresión de modo que
sea mínimo [2]. El
error cuadrático medio se calcula de la siguiente manera:
(2)
Un tercer criterio es el estadístico
, el cual se calcula de la siguiente manera:
(3)
De acuerdo con este criterio, S e escoge como la mejor ecuación de regresión la que corresponde
al modelo que tiene un
mínimo o un modelo con un
un poco mayor y que no tenga mucho
sesgo [2]. Con el uso del software Statgrphics, es posible analizar los mejores modelos con base
en los criterios
,
y
de manera simultánea y facilita la categorización, desde el mejor
hasta el peor modelo. E n la Tabla seis, se puede observar un resumen de los mejores modelos
encontrados.
3. MODELO CON VARIABLES DUMMY. En general, una variable cualitativa con t niveles puede
modelarse con t-1 variables indicadoras, a las cuales se les asigna el valor cero o uno [10]. La
razón de definir una variable indicadora menos, que el número de niveles de X es que de no
hacerlo así, la matriz de diseño no conduciría a una inversa [11]. Por tanto, si se tienen tres
partidos políticos (R, P y D), los distintos nivel es pueden considerarse por las dos variables dummy
definidas en la tabla 1.
D15
0
1
0
Tabla 1. Asignación de valores a variables dummy.
D16
Definición
0
Si la observación proviene del partido político R
0
Si la observación proviene del partido político A
1
Si la observación proviene del partido político D
Con esta categorización de variables es posible determinar si el partido político tiene ciert o efecto
en los resultados positivos de influenza AH1N1, ajustando el siguiente modelo:
(4)
4. DES ARROLLO Y EXPERIMENTACIÓN. S e identificaron 15 variables de tipo socioeconómico
que pueden tener may or efecto en los casos de influenza AH1N1. En la Tabla 2 se puede obs ervar
cada uno de los estados de la República Mexicana, así como las 15 variables con s u respectivo
nombre. La codificación para los diferentes partidos políticos es la siguiente: R = PRI, A = PAN,
D = PRD. La variable de respuesta Y, representa el número de casos positivos de influenza
AH1N1, reportados en los diferentes Estados.
2
Tabla 2. Datos socioeconómicos de los 32 Estados de la República Mexicana.
4.1 ANÁLISIS 1: CODIFICACIÓN R = PRI = 1, A = PAN = 2, D = PRD = 3. Al realizar el análisis en
busca del mejor modelo de regresión lineal múltiple, Statgraphics codifica con una letra mayúscula
a cada una de las variables, a continuación se muestra dicha codificación: A= X1, B= X10, C= X12,
D= X13, E= X14, F= X15, G= X2, H= X3, I= X4, J= X5, K= X6, L= X7, M= X8, N= X9. El orden que se
presentan es de acuerdo con los resultados arrojados por el software. En la Tabla 3, se puede
apreciar los mejores modelos, aplicando el método de todas las regresiones posibles, según los
2
criterios MSE, R y Cp, el mejor modelo incluye las variables AIKLM (X1, X4, X6, X7, X8)
Tabla 3. Modelos con los mejores va lores de MSE, R2 y Cp.
Adjusted
Included
MSE
R-Squared R-Squared Cp
Variables
837399.
75.2694
70.5135
6.71356 AIKL M
842069.
75.1315
70.349
6.86252 ACIL M
907834.
73.1892
68.0333
8.96046 ACJKL
En la Tabla 4 se presenta la estimación de los parámetros del modelo.
Tabla 4. Estimación de los parámetros del
Standard
T
Parameter
Estimate
Error
Statistic
CONS TANT -6031.1
3238.09
-1.86255
X1
-0.00321166 0.00110845 -2.89744
X4
1.93998
0.802055
2.41876
X6
1641.15
787.298
2.08454
X7
0.00731539 0.0023837 3.06893
X8
82.5659
20.996
3.93245
3
modelo.
P-Value
0.0739
0.0075
0.0229
0.0471
0.0050
0.0006
Source
Model
Residual
Total (Corr.)
Tabla 5. Análisi s de varianza.
Sum of Squares
Df Mean Square
6.62657E 7
5
1.32531E 7
2.17724E 7
26 837399.
8.80381E 7
31
F-Ratio P-Value
15.83
0.0000
De acuerdo a los resultados presentados en las Tablas 3 y 4 el ajuste del modelo de regresión
lineal múltiple para describir la relación ent re Y y las 5 variables independientes es el siguiente:
Y = -6031.1 - 0.00321166*X1 + 1.93998*X4 + 1641.15*X6 + 0.00731539*X7 + 82.5659*X8
(5)
De acuerdo a la t abla 5 del ANOVA se puede observar que el valor P es menor a 0.05, por lo que
se concluye que existe una relación significativa entre las variables con un nivel de confianza del
95%. El estadístico R-cuadrado de la Tabla 3, indica que el modelo ajustado explica 75.2694% de
la variabilidad en Y. Todas las variables contempladas en el modelo resultan ser significativas
como se observa en la Tabla 4. En el análisis 1, se puede obs ervar que la variable Estado
gobernado por partido político (X12), no result ó significativa.
4.2 RESUMEN DE MODELOS. El mismo análisis presentado en la sección 3.1, se aplicó a todas
las posibles permutaciones de la variable Estado gobernado por partido político (X12), es decir, se
analizó la posibilidad de que R = PRI, tenga un valor de 1, 2 y 3, así mismo A = PA N y D = PRD ,
como se observa en la Tabla 6.
Tabla 6. Resumen de análisis para las 6 permutaciones posibles.
NO. DE
ANALISIS
1
2
3
4
5
6
CODIFICACIÓN
R=1,
R=2,
R=3,
R=1,
R=2,
R=3,
A=2,
A=1,
A=2,
A=3,
A=3,
A=1,
D=3
D=3
D=1
D=2
D=1
D=2
MSE
R2
Cp
837399
837399
837399
782342
837399
782342
75.2694
75.2694
75.2695
76.8954
75.2694
76.8954
6.71356
0.432967
6.71356
10.569
0.432967
10.569
Variables
incluidas
software
AIKL M
AIKL M
AIKL M
ACIL M
AIKL M
ACIL M
Variables incluidas
originales
X1, X4, X6, X7, X8
X1, X4, X6, X7, X8
X1, X4, X6, X7, X8
X1, X12, X4, X7, X8
X1, X4, X6, X7, X8
X1, X12, X4, X7, X8
5. RES ULTADOS Y CONCLUSIONES. De ac uerdo con el resumen de los seis análisis
presentados en la Tabla seis, se puede concluir que al asignarle diferent es valores a los partidos
políticos (1, 2, 3) para tener la posibilidad de encontrar un modelo regresión lineal múltiple,
prácticamente se obtienen los mismos resultados, con excepción de los análisis 4 y 6, donde se
observó que el coeficiente de la variable Estado gob ernado por partido (X12) resultó significativo.
Considerando el método de todas las regresiones posibles, explicada en la sección 2.1, donde los
2
valores de MSE y Cp son mínimos y el valor de R es el máximo posible, el mejor de t odos los
modelos se encuentra mediante la siguiente asignación de valores: R = 2, A = 1, D = 3, dando
como resultado el siguiente modelo de regresión:
Y = -6031.1 - 0.00321166*X1 + 1.93998*X4 + 1641.15*X6 + 0.00731539*X7 + 82.5659*X8 (6)
Se puede observar que el modelo de regresión lineal es idéntico al modelo del análisis 1, donde se
realizó una asignación de R = 1, A = 2 y D = 3. Los coeficientes se interpretan de la siguiente
manera: -6031.1 es el intercepto, el coeficiente de X1 = Población por estado (- 0.00321166) es
negativo por lo tanto el número de c asos disminuy e a mayor población, lo cual puede resultar
contradictorio al pensamiento c omún, pero si consideramos que en los Estados con mayor
población, por lo general tienen may or espacio geográfico puede justificars e dicho valor, ya que
entre más dispersas estén las personas, es menor la probabilidad de contagio. Una excepción para
este argument o es el D. F. El coeficiente de X4 = Unidades médicas (1.93998) es positivo, lo que
4
indica que a mayor cantidad de unidades médicas más casos de influenza AH1N1 positivos se
registrarán. El coeficiente de X6 = Promedio de habitantes por vivienda (1641.15) tiene un
coeficiente positivo, lo que significa que entre más habitantes se t engan en promedio por vivienda,
mayor será el riesgo de contagio y los casos positivos de influ enza A H1N1, se incrementarán. El
coeficiente de X7 = Población económicamente activa (0.00731539) tiene un coeficient e positivo, lo
que quiere decir es que entre más gente económicamente activa exista en cierto Estado de la
Republica Mexicana, mayor s erá la p robabilidad de contagiars e del virus AH1N1, por lo tanto entre
más grande sea X7, más casos positivos se tendrán. Finalmente, la variable X8 = Densidad
poblacional (82.5659), nos indica que entre más gente exista por espacio t erritorial, la probabilidad
de contagio es mayor y por consecuencia el número de casos report ados positivos también. El
modelo encontrado se considera que tendrá una buena utilidad para predecir el número de casos
de influenza que podrían presentarse en cada uno de los Estados de la República Mexicana, al
incrementars e (o disminuirse) la población por Estado, las unidades médicas, el promedio de
habitantes por vivienda, la población económicamente activa y la densidad poblacional. El
75.2694% de la variabilidad en Y, puede ser explicada por las variables X1, X4, X6, X7 y X8. De
acuerdo con los análisis 4 y 6 de la tabla 6, se puede pensar que los partidos políticos si tuvieron
cierta influencia en la publicación de resultados positivos de influenza A H1N1, pero se debe de ver
con un poco de reservas debido a que el modelo resultant e provoca un s esgo importante en los
resultados ya que el valor de Cp = 10.569 es significativamente mayor que el numero coeficientes
en el modelo (p = 5).
Con relación al uso de variables dummy que s e establecieron en la Tabla 1 de la sección 3, se
analizó en Statgraphics donde se ajustaron 4744 modelos diferentes, resultando como el mejor
modelo el que se muestra en las ecuaciones 5 y 6. De acuerdo con los criterios de selección
establecidos en la sección 2.1, se tiene un error cuadrático medio MSE = 837399, un coeficiente de
2
determinación R = 75.2694% y un estadístico Cp = 10. 8558, siendo este último un poco más
grande con respecto al encontrad o en el análisis 2 de la Tabla seis, debido al uso de las variables
dummy, se tuvo un ligero increment o en el sesgo, el cual es parecido con lo que establece Navarro
en [9].
REFERENCI AS
1. O. Navarro, “Perspectiva Selección de variables en regresión: componentes principales”,
Seventh LA CCE I Latin American and Caribbean Conference for E ngineering and
Technology (LACCEI’2009), June 2-5, 2009.
2. D. C. Montgomery y G. C. Runger (1996) Probabilidad y estad ística aplicadas a la
ingeniería (1ra ed.). México: Mc Graw Hill.
3. E. Martínez. “Errores frecuentes en la interpretación del coeficient e de determinación
lineal”. Anuario Jurídico y Económico Escurialens e, XXXVIII (2005) 315-332.
4. www.inegi.org.mx,Censo 2005
5. www.inegi.org.mx,Censo 2008
6. http://portal.salud.gob.mx/contenidos/noticias/influenza/estadisticas
,
Documento
7.
8.
"Centros Estratégicos de Vacunación de Influenza A(H1N1) por Entidad Federativa"
http://www.ife.org.mx/documentos/RESELEC/SICEEF/principal.html
F. Cumsulle y B. Shrikant. “Categorización de variables en el analisis estadístico de datos:
consecuencias sobre la interpretación de res ultados”. Rev P anam Salud P ublica/Pan Am J
Public Health 8(5), 2000.
9. J. M. Navarro, G. M. Casas, E. González y S. Cuadrado. “Estudio del riesgo cardiovascular
en el municipio de Santa Clara utilizando el mét odo de regresión categórica”. Revista
investigación operacional Vol., 29, No. 3, 224-230, 2008.
10. D. C. Montgomery y E. A. Peck (1992) Introduction to linear regression analysis (2da ed.).
New York: Wiley.
11. M. Rosas, F. Chacín, J Garc ía, M. Ascanio y M Cobo. “Construction of linear regression
with quantitative and qualitative variables in order to inference about student
accomplishment”. Rev. Fac. Agron. (LUZ). 2006, 23: 194-210.
5
Descargar