ANALISIS MULTIVARIADO Regresion Logistica Integrantes: Wenceslao Olate Rodrigo Rivera S. INTRODUCCION Los modelos de Regresión Logística (RL) se desarrollaron en las últimas décadas del presente siglo para analizar relaciones entre una variable dicotómica y factores cuantitativos y cualitativos potencialmente asociados con ella. INTRODUCCION Se trabaja con una variable dependiente con unicamente dos categorias u opciones, en la cual el objetivo es averiguar la probabilidad de ocurrencia de una u otra a partir de una serie de informaciones de una serie de variables que denominaremos independientes ANALISIS DE REGRESION LOGISTICA Con los Modelos de Regresión Lineal, simple y múltiple, explicamos una variable dependiente Y en función de una o varias variables independientes X1 , ... , Xk mediante una relación lineal del tipo: Y = b0 + b1X1 + ...... + bkXk Una aspecto clave de esta clase de análisis es que la variable dependiente Y debe ser (además de con distribución normal) de tipo continuo. ANALISIS DE REGRESION LOGISTICA Con el Análisis de Regresión Logística la variable dependiente Y es de tipo dicotómico, es decir, sólo toma dos valores correspondientes a dos situaciones experimentales observadas (por ejemplo, el paciente fallece o no, tiene infarto o no), denominadas en general éxito y fracaso. ANALISIS DE REGRESION LOGISTICA Además, con este tipo de modelos, ya no hacemos depender directamente a la variable Y de las covariables X1 , ... , Xk sino que establecemos una relación lineal de la forma: Log p =b0 + b1X1 + ...... + bkXk 1-p en donde p es la probabilidad de lo que hayamos calificado como éxito. ANALISIS DE REGRESION LOGISTICA De esta forma, ahora no modelizamos la variable de respuesta Y, con distribución normal, mediante las k covariables , sino una variable dicotómica (que tomo sólo los valores éxito y fracaso) con distribución binomial B(n,p). OBJETIVO DEL ANALISIS Los objetivos del Análisis de Regresión Logística siguen siendo, básicamente, los mismos de la Regresión Lineal: Analizar cuáles de las k covariables son significativas a la hora de explicar la variable dependiente Y , para después estimar los parámetros de regresión bj en el modelo anterior de las covariables que han resultado significativas, con objeto de poder hacer predicciones con el modelo ajustado SIGNIFICACIÓN DEL MODELO Porcentaje de casos clasificados correctamente: Si P(Y) > 0,5 clasifica como 1 y Si P(Y) < 0,5 clasifica como 0 ETAPAS DE REGRESION LOGISTICA Primer paso: • Diseño de objetivos Segundo paso: • Diseño de la investigacion Tercer paso: • supuestos estadisticos ETAPAS DE REGRESION LOGISTICA Cuarto paso: • Estimacion de modelo de regresion logistica Quinto paso: • Interpretacion de los resultados Sexto paso: • Validacion de los resultados APLICACION No cabe ninguna duda que la regresión logística es una de las herramientas estadísticas con mejor capacidad para el análisis de datos en investigación clínica y epidemiología, de ahí su amplia utilización. EJEMPLO Se quiere analizar si la Edad en años; la ocurrencia (valor 1) o no (valor 0) de Angina de Pecho con anterioridad al experimento; antecedentes de Presión Sanguínea alta (sí, valor 1; no, valor 0) y el tipo de Actividad deportiva llevada a cabo por el individuo (ninguna, valor 0; mínima, valor 1; moderada, valor 2; más que moderada, valor 3), son variables que pueden utilizarse para predecir la probabilidad p de Infarto de miocardio (de valores 1, si hay infarto y 0 si no hay infarto). EJEMPLO Si las cuatro variables resultaran de utilidad a la hora de explicar a la variable dependiente Infarto, se obtendría un modelo de Regresión Logística de la forma: Log p 1-p =b0 + b1edad + b2Angina + b3P.Sang + b4Act EJEMPLO Con objeto de realizar dicho análisis, se eligieron al azar 50 personas de la población en estudio, obteniéndose los siguientes datos: E d ad 52 66 56 57 ...... 40 42 A ctivid ad 1 0 2 3 ...... 3 1 In farto 1 0 1 1 ...... 1 1 A n gin a 1 1 0 1 ...... 1 0 P resión 0 0 1 0 0 1 EJEMPLO Comentarios: Después de realizado un Análisis de Regresión Logística a todos los datos, se obtuvo como única variable significativa, a la hora de explicar a la variable Infarto, a la variable Presión, quedando como Modelo de Regresión Logística estimado. log p 1 p 1 . 335 1 . 181 P .Sanguinea EJEMPLO de donde despejando la probabilidad de infarto p, quedará: p exp( 1 . 335 1 . 181 P .Sanguinea ) 1 exp( 1 . 335 1 . 881 P .Sanguinea ) EJEMPLO de donde se obtiene que los individuos de la población de donde se extrajo la muestra, con presión sanguínea baja (P.Sanguínea=0), tienen una probabilidad de infarto: p exp( 1 . 335 ) 1 exp( 1 . 335 ) 0 . 792 EJEMPLO y los individuos con presión sanguínea alta (P.Sanguínea=1) una probabilidad de infarto p exp( 1 . 335 1 . 181 ) 1 exp( 1 . 335 1 . 881 ) 0 . 5384 MODELOS PROBIT Y LOGIT Utilice esta herramienta para modelizar variables de respuestas binarias (sí/no, 0/1,...), en función de variables explicativas cuantitativas o cualitativas. Estos modelos son muy utilizados en medicina para analizar los efectos de dosis de algunos tratamientos durante la curación, así como en finanzas (scoring, análisis de riesgos), en marketing (sensibilidad o no a una acción marketing), en química, en farmacología o en agronomía. MODELOS PROBIT Y LOGIT Hay algunas investigaciones ,especialmente en el campo publicitario, que tienen como finalidad averiguar el tiempo de exposicion necesario para el reconocimiento de un estimulo determinado, sea este una marca, un eslogan, una señal, un logotipo etc. Para ello se puede utilizar un aparato llamado taquitoscopio, que proyecta este estimulo a tiempos de exposicion que pueden irse modificando a deseo del investigador. CONLUSION Luego de un exhaustivo estudio del método en cuestión como también la investigación de este en diferentes áreas, mediante los pasos o etapas que se deben realizar para llegar a obtener los resultados, analizando cada formula e interpretándola, acá nos referimos a un punto que no hemos incluidos en este informe producto que solo mostramos los resultados, pero estos últimos se obtuvieron del programa SPSS APLICACION DEL SOFTWARE SPSS A traves del siguiente ejemplo, se analizaran que tan relevente son o pueden ser las variables independientes, las cuales son, C1(sexo), C2(edad), C6(nivel de estudios), en el modelo de regresion logistica, que permita pronosticar la situacion laboral(b1, variable dependiente) de un individuo a partir de una serie de informaciones al mismo. APLICACION DEL SOFTWARE SPSS Total number of cases: 973 (Unweighted) Number of selected cases: 973 Number of unselected cases: 0 Number of selected cases: 973 Number rejected because of missing data: 0 Number of cases included in the analysis: 973 INTERPRETACION De los 1200 individuos encuestados, 973 de ellos son menores de 65 años, sin saber si trabajan o no trabajan. APLICACION DEL SOFTWARE SPSS Dependent Variable Encoding: Original Internal Value Value 1 0 5 1 INTERPRETACION En este punto se analizo la variable dependiente, en donde los valores originales 1 y 5, que corresponden, a si trabajan o no trabajan respectivamente, fueron reemplazados por el programa, tomando los valores 0 y 1, con la finalidad de interpretar de mejor forma los resultados de la regresion logistica, producto de que se trabaja con probabilidades. APLICACION DEL SOFTWARE SPSS Parameter Value Freq Coding (1) C1 Hombre 1 484 1.000 Mujer 2 489 .000 INTERPRETACION Aca podemos apreciar que el progama nuevamente modifica los valores 1 y 2, de la variable sexo, que corresponde a una variable independiente, asignandole los valores 1 y 0, los cuales corresponden a hombre y mujer respectivamente. Ademas se aprecia que de las personas encuestadas, 484 son hombres y 489 son mujeres. APLICACION DEL SOFTWARE SPSS Hosmer and Lemeshow Goodness-of-Fit Test B1 Group Observed = Sí B1 = No Expected Observed Expected Total 1 68.000 68.459 29.000 28.541 97.000 2 50.000 60.927 47.000 36.073 97.000 3 62.000 51.584 34.000 44.416 96.000 4 49.000 43.728 48.000 53.272 97.000 5 54.000 40.593 42.000 55.407 96.000 6 26.000 38.827 71.000 58.173 97.000 7 36.000 34.102 61.000 62.898 97.000 8 21.000 23.700 78.000 75.300 99.000 9 18.000 21.647 80.000 76.353 98.000 10 18.000 18.434 81.000 80.566 99.000 INTERPRETACION Se observa en el grupo 1, que de un total de 97 individuos, 68 si trabajan y 29 no trabajan, pero el programa estima que 68.459 si trabajan y 28.541 no trabajan, en concecuencia en este grupo lo esperado por el sistema se asemeja a la realidad del problema en estudio. De la misma forma se pueden analizar los demas grupos. APLICACION DEL SOFTWARE SPSS Classification Table for B1 The Cut Value is .50 Predicted Sí S Observed Sí No I Percent Correct N +-------+-------+ S I 169 I 233 I 42.04% +-------+-------+ No N I 106 I 465 I 81.44% +-------+-------+ Overall 65.16% INTERPRETACION Esta tabla trabaja con el punto de corte de 0.5 que fue definido con anterioridad, la cual nos da a conocer lo que el sistema clasifica como correcta e incorrectamente a los individuos que si trabajan y no trabajan, en donde los primeros clasificados correctamente son 169 y los segundos clasificados de misma manera son 465, que corresponden a la diagonal principal de la matriz. Los individuos clasificados incorrectamente se presentan en la diagonal opuesta, finalmente se puede observar el porcentaje de correccion de los individuos encuestados, que equivale a un 42.04% para los que trabajan y un 81.44% para los que no trabajan. APLICACION DEL SOFTWARE SPSS Variables in the Equation -----------------Variable B S.E. Wald df Sig C1(1) C2 C6 Constant -.9300 -.0015 -.2275 1.7440 .1388 .0054 .0318 .2932 44.8666 .0723 51.1204 35.3745 1 1 1 1 .0000 .7880 .0000 .0000 Variable C1(1) C2 C6 Exp(B) .3945 .9985 .7965 95% CI for Exp(B) Lower Upper .3005 .9880 .7484 .5179 1.0092 .8478 R -0.1803 0.0000 -0.1930 INTERPRETACION •En la primera columna(B), se obtienen los coeficientes estimados del modelo regresion logistica: log p 1 p 1 . 744 0 . 015 C 2 0 . 93 C 1 0 . 2275 C 6 • En la segunda columna (S.E) se obtienen los errores estandar de los coeficientes estimados para cada variable. INTERPRETACION •En la tercera columna se obtiene el estadistico de Wald para cada variable, el cual se obtiene de la siguiente manera o forma: Estadistico de Wald = (B S.E) ² El estadistico de Wald, tiene la siguiente interpretacion: - Si Wald es distinto de cero se dice que las variables son significativas y por el contrario, si es igual a cero las variables no son significativas, por lo que se podrian eliminar del modelo. INTERPRETACION •En la quinta columna (Sig) se obtienen los niveles de significacion de las variables, en donde su interpretacion nos dice que si el nivel de significacion es igual a cero las variables son significativas, por el contrario si el nivel de significacion es distinto de cero, se dice que las variables no son significativas para el modelo. •En la sexta columna (R) se obtiene el coeficiente de correlacion parcial, luego su interpretacion indica que si R es igual a cero la variable no aporta en nada al modelo, ademas este coeficiente de correlacion parcial se mueve entre -1 y 1 INTERPRETACION •En la septima columna ( Exp(B)) se obtienen los coeficientes estimados exponencialmente, el cual indica la razon entre la probabilidad del exito por la probabilidad del fracaso, y si este es muy cercano a 1 se puede señalar que la variable no contribuye en el modelo. APLICACION DEL SOFTWARE SPSS Observed Groups and Predicted Probabilities 200 + + I I I I F I N N I R 150 + N N + E I N N I Q I N N I U I N N I E 100 + N N N + N I S N N I C I N S N N N I Y I N N S N N N I 50 + N N N S N N N + I N S S S SN N N N I I S S S S SS S SN SN N N S N I I S NS NS S SS S SS SS S S S S N I Predicted --------------+--------------+--------------+--------------Prob: 0 .25 .5 .75 1 Group: SSSSSSSSSSSSSSSSSSSSSSSSSSSSSSNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN Predicted Probability is of Membership for No The Cut Value is .50 Symbols: S - Sí N - No Each Symbol Represents 12.5 Cases. INTERPRETACION El grafico muestra las probabilidades estimadas por el modelo para todos los individuos de las muestra, considerando como punto de corte de 0.5, en la cual indica la cantidad de exito y fracaso, mediante los simbolos S y N respectivamente, ademas cada simbolo indica 12.5 individuos, luego la interpretacion que se le puede dar a este grafico es que mientras mas S se encuentren a la izquierda de 0.5 mejor sera el modelo y por el contrario mientras mas N se encuentren a la derecha de 0.5 mejor sera el modelo, como ocurre en este caso APLICACION DEL SOFTWARE SPSS 2 new variables have been created. Name Contents PRE_1 Predicted Value PGR_1 Predicted Group INTERPRETACION La interpretacion que se le pueden dar a las dos nuevas variables generadas es la siguiente: •PRE_1(Probabilidades): esta variable nos indica la probabilidad de ocurrencia de cada caso predicha por el modelo. •PGR_1(Grupo predecidos): esta variable nos indica el grupo al que sera asignado cada individuo de acuerdo con su probabilidad