Análisis multivariado

Anuncio
ANALISIS MULTIVARIADO
Regresion Logistica
Integrantes:
Wenceslao Olate
Rodrigo Rivera S.
INTRODUCCION
Los modelos de Regresión Logística (RL) se
desarrollaron en las últimas décadas del presente siglo
para analizar relaciones entre una variable dicotómica y
factores cuantitativos y cualitativos potencialmente
asociados con ella.
INTRODUCCION
Se trabaja con una variable dependiente con unicamente
dos categorias u opciones, en la cual el objetivo es
averiguar la probabilidad de ocurrencia de una u otra a
partir de una serie de informaciones de una serie de
variables que denominaremos independientes
ANALISIS DE REGRESION
LOGISTICA
Con los Modelos de Regresión Lineal, simple y
múltiple, explicamos una variable dependiente Y en
función de una o varias variables independientes X1 , ...
, Xk mediante una relación lineal del tipo:
Y = b0 + b1X1 + ...... + bkXk
Una aspecto clave de esta clase de análisis es que la
variable dependiente Y debe ser (además de con
distribución normal) de tipo continuo.
ANALISIS DE REGRESION
LOGISTICA
Con el Análisis de Regresión Logística la variable
dependiente Y es de tipo dicotómico, es decir, sólo
toma dos valores correspondientes a dos situaciones
experimentales observadas (por ejemplo, el paciente
fallece o no, tiene infarto o no), denominadas en general
éxito y fracaso.
ANALISIS DE REGRESION
LOGISTICA
Además, con este tipo de modelos, ya no hacemos
depender directamente a la variable
Y
de las
covariables X1 , ... , Xk sino que establecemos una
relación lineal de la forma:
Log p
=b0 + b1X1 + ...... + bkXk
1-p
en donde p es la probabilidad de lo que hayamos
calificado como éxito.
ANALISIS DE REGRESION
LOGISTICA
De esta forma, ahora no modelizamos la variable de
respuesta Y, con distribución normal, mediante las k
covariables , sino una variable dicotómica (que tomo
sólo los valores éxito y fracaso) con distribución
binomial B(n,p).
OBJETIVO DEL ANALISIS
Los objetivos del Análisis de Regresión Logística
siguen siendo, básicamente, los mismos de la Regresión
Lineal: Analizar cuáles de las k covariables son
significativas a la hora de explicar la variable
dependiente Y , para después estimar los parámetros de
regresión bj en el modelo anterior de las covariables
que han resultado significativas, con objeto de poder
hacer predicciones con el modelo ajustado
SIGNIFICACIÓN DEL MODELO
Porcentaje de casos clasificados correctamente:
 Si P(Y) > 0,5 clasifica como 1
y
Si P(Y) < 0,5 clasifica como 0
ETAPAS DE REGRESION
LOGISTICA
Primer paso:
• Diseño de objetivos
Segundo paso:
• Diseño de la investigacion
Tercer paso:
• supuestos estadisticos
ETAPAS DE REGRESION
LOGISTICA
Cuarto paso:
• Estimacion de modelo de regresion logistica
Quinto paso:
• Interpretacion de los resultados
Sexto paso:
• Validacion de los resultados
APLICACION
No cabe ninguna duda que la regresión logística es una
de las herramientas estadísticas con mejor capacidad
para el análisis de datos en investigación clínica y
epidemiología, de ahí su amplia utilización.
EJEMPLO
Se quiere analizar si la Edad en años; la ocurrencia
(valor 1) o no (valor 0) de Angina de Pecho con
anterioridad al experimento; antecedentes de Presión
Sanguínea alta (sí, valor 1; no, valor 0) y el tipo de
Actividad deportiva llevada a cabo por el individuo
(ninguna, valor 0; mínima, valor 1; moderada, valor 2;
más que moderada, valor 3), son variables que pueden
utilizarse para predecir la probabilidad p de Infarto de
miocardio (de valores 1, si hay infarto y 0 si no hay
infarto).
EJEMPLO
Si las cuatro variables resultaran de utilidad a la hora de
explicar a la variable dependiente Infarto, se obtendría
un modelo de Regresión Logística de la forma:
Log p
1-p
=b0 + b1edad + b2Angina + b3P.Sang + b4Act
EJEMPLO
Con objeto de realizar dicho análisis, se eligieron al azar
50 personas de la población en estudio, obteniéndose los
siguientes datos:
E d ad
52
66
56
57
......
40
42
A ctivid ad
1
0
2
3
......
3
1
In farto
1
0
1
1
......
1
1
A n gin a
1
1
0
1
......
1
0
P resión
0
0
1
0
0
1
EJEMPLO
Comentarios:
Después de realizado un Análisis de Regresión
Logística a todos los datos, se obtuvo como única
variable significativa, a la hora de explicar a la variable
Infarto, a la variable Presión, quedando como Modelo
de Regresión Logística estimado.
log
p
1 p
 1 . 335  1 . 181 P .Sanguinea
EJEMPLO
de donde despejando la probabilidad de infarto p,
quedará:
p
exp( 1 . 335  1 . 181 P .Sanguinea )
1  exp( 1 . 335  1 . 881 P .Sanguinea )
EJEMPLO
de donde se obtiene que los individuos de la
población de donde se extrajo la muestra, con
presión sanguínea baja (P.Sanguínea=0), tienen una
probabilidad de infarto:
p
exp( 1 . 335 )
1  exp( 1 . 335 )
 0 . 792
EJEMPLO
y los individuos con presión sanguínea alta
(P.Sanguínea=1) una probabilidad de infarto
p
exp( 1 . 335  1 . 181 )
1  exp( 1 . 335  1 . 881 )
 0 . 5384
MODELOS PROBIT Y LOGIT
Utilice esta herramienta para modelizar variables de
respuestas binarias (sí/no, 0/1,...), en función de
variables explicativas cuantitativas o cualitativas.
Estos modelos son muy utilizados en medicina para
analizar los efectos de dosis de algunos tratamientos
durante la curación, así como en finanzas (scoring,
análisis de riesgos), en marketing (sensibilidad o no a
una acción marketing), en química, en farmacología
o en agronomía.
MODELOS PROBIT Y LOGIT
Hay algunas investigaciones ,especialmente en el campo
publicitario, que tienen como finalidad averiguar el
tiempo de exposicion necesario para el reconocimiento
de un estimulo determinado, sea este una marca, un
eslogan, una señal, un logotipo etc. Para ello se puede
utilizar un aparato llamado taquitoscopio, que proyecta
este estimulo a tiempos de exposicion que pueden irse
modificando a deseo del investigador.
CONLUSION
Luego de un exhaustivo estudio del método en cuestión
como también la investigación de este en diferentes
áreas, mediante los pasos o etapas que se deben realizar
para llegar a obtener los resultados, analizando cada
formula e interpretándola, acá nos referimos a un punto
que no hemos incluidos en este informe producto que
solo mostramos los resultados, pero estos últimos se
obtuvieron del programa SPSS
APLICACION DEL SOFTWARE
SPSS
A traves del siguiente ejemplo, se analizaran que tan
relevente son o pueden ser las variables independientes,
las cuales son, C1(sexo), C2(edad), C6(nivel de
estudios), en el modelo de regresion logistica, que
permita pronosticar la situacion laboral(b1, variable
dependiente) de un individuo a partir de una serie de
informaciones al mismo.
APLICACION DEL SOFTWARE
SPSS
Total number of cases:
973 (Unweighted)
Number of selected cases: 973
Number of unselected cases: 0
Number of selected cases:
973
Number rejected because of missing data: 0
Number of cases included in the analysis: 973
INTERPRETACION
De los 1200 individuos encuestados, 973 de ellos son
menores de 65 años, sin saber si trabajan o no trabajan.
APLICACION DEL SOFTWARE
SPSS
Dependent Variable Encoding:
Original
Internal
Value
Value
1
0
5
1
INTERPRETACION
En este punto se analizo la variable dependiente, en
donde los valores originales 1 y 5, que corresponden, a
si trabajan o no trabajan respectivamente, fueron
reemplazados por el programa, tomando los valores 0 y
1, con la finalidad de interpretar de mejor forma los
resultados de la regresion logistica, producto de que se
trabaja con probabilidades.
APLICACION DEL SOFTWARE
SPSS
Parameter
Value
Freq
Coding
(1)
C1
Hombre
1
484
1.000
Mujer
2
489
.000
INTERPRETACION
Aca podemos apreciar que el progama nuevamente
modifica los valores 1 y 2, de la variable sexo, que
corresponde a una variable independiente, asignandole
los valores 1 y 0, los cuales corresponden a hombre y
mujer respectivamente.
Ademas se aprecia que de las personas encuestadas, 484
son hombres y 489 son mujeres.
APLICACION DEL SOFTWARE
SPSS
Hosmer and Lemeshow Goodness-of-Fit Test
B1
Group Observed
= Sí
B1
= No
Expected
Observed
Expected
Total
1
68.000
68.459
29.000
28.541
97.000
2
50.000
60.927
47.000
36.073
97.000
3
62.000
51.584
34.000
44.416
96.000
4
49.000
43.728
48.000
53.272
97.000
5
54.000
40.593
42.000
55.407
96.000
6
26.000
38.827
71.000
58.173
97.000
7
36.000
34.102
61.000
62.898
97.000
8
21.000
23.700
78.000
75.300
99.000
9
18.000
21.647
80.000
76.353
98.000
10
18.000
18.434
81.000
80.566
99.000
INTERPRETACION
Se observa en el grupo 1, que de un total de 97
individuos, 68 si trabajan y 29 no trabajan, pero el
programa estima que 68.459 si trabajan y 28.541
no trabajan, en concecuencia en este grupo lo
esperado por el sistema se asemeja a la realidad
del problema en estudio.
De la misma forma se pueden analizar los demas
grupos.
APLICACION DEL SOFTWARE
SPSS
Classification Table for B1
The Cut Value is .50
Predicted
Sí
S
Observed
Sí
No
I
Percent Correct
N
+-------+-------+
S
I
169
I
233
I
42.04%
+-------+-------+
No
N
I
106
I
465
I
81.44%
+-------+-------+
Overall
65.16%
INTERPRETACION
Esta tabla trabaja con el punto de corte de 0.5 que fue
definido con anterioridad, la cual nos da a conocer lo
que el sistema clasifica como correcta e incorrectamente
a los individuos que si trabajan y no trabajan, en donde
los primeros clasificados correctamente son 169 y los
segundos clasificados de misma manera son 465, que
corresponden a la diagonal principal de la matriz.
Los individuos clasificados incorrectamente se
presentan en la diagonal opuesta, finalmente se puede
observar el porcentaje de correccion de los individuos
encuestados, que equivale a un 42.04% para los que
trabajan y un 81.44% para los que no trabajan.
APLICACION DEL SOFTWARE
SPSS
Variables in the Equation -----------------Variable
B
S.E.
Wald
df
Sig
C1(1)
C2
C6
Constant
-.9300
-.0015
-.2275
1.7440
.1388
.0054
.0318
.2932
44.8666
.0723
51.1204
35.3745
1
1
1
1
.0000
.7880
.0000
.0000
Variable
C1(1)
C2
C6
Exp(B)
.3945
.9985
.7965
95% CI for Exp(B)
Lower
Upper
.3005
.9880
.7484
.5179
1.0092
.8478
R
-0.1803
0.0000
-0.1930
INTERPRETACION
•En la primera columna(B), se obtienen los coeficientes
estimados del modelo regresion logistica:
log
p
1 p
 1 . 744  0 . 015 C 2  0 . 93 C 1  0 . 2275 C 6
• En la segunda columna (S.E) se obtienen los errores
estandar de los coeficientes estimados para cada
variable.
INTERPRETACION
•En la tercera columna se obtiene el estadistico de Wald
para cada variable, el cual se obtiene de la siguiente
manera o forma:
Estadistico de Wald = (B S.E) ²
El estadistico de Wald, tiene la siguiente interpretacion:
- Si Wald es distinto de cero se dice que las variables
son significativas y por el contrario, si es igual a cero las
variables no son significativas, por lo que se podrian
eliminar del modelo.
INTERPRETACION
•En la quinta columna (Sig) se obtienen los niveles de
significacion de las variables, en donde su interpretacion
nos dice que si el nivel de significacion es igual a cero
las variables son significativas, por el contrario si el
nivel de significacion es distinto de cero, se dice que las
variables no son significativas para el modelo.
•En la sexta columna (R) se obtiene el coeficiente de
correlacion parcial, luego su interpretacion indica que si
R es igual a cero la variable no aporta en nada al
modelo, ademas este coeficiente de correlacion parcial
se mueve entre -1 y 1
INTERPRETACION
•En la septima columna ( Exp(B)) se obtienen los
coeficientes estimados exponencialmente, el cual indica
la razon entre la probabilidad del exito por la
probabilidad del fracaso, y si este es muy cercano a 1 se
puede señalar que la variable no contribuye en el
modelo.
APLICACION DEL SOFTWARE
SPSS
Observed Groups and Predicted Probabilities
200 +
+
I
I
I
I
F
I
N
N
I
R
150 +
N
N
+
E
I
N
N
I
Q
I
N
N
I
U
I
N
N
I
E
100 +
N
N N
+
N
I
S
N N
I
C
I
N
S
N
N N
I
Y
I
N
N
S
N
N N
I
50 +
N
N
N
S
N
N N
+
I
N
S
S
S
SN N
N N
I
I
S
S
S
S
SS
S
SN SN
N
N S N
I
I
S NS NS
S
SS
S
SS SS
S
S S S N
I
Predicted --------------+--------------+--------------+--------------Prob:
0
.25
.5
.75
1
Group:
SSSSSSSSSSSSSSSSSSSSSSSSSSSSSSNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
Predicted Probability is of Membership for No
The Cut Value is .50
Symbols: S - Sí
N - No
Each Symbol Represents 12.5 Cases.
INTERPRETACION
El grafico muestra las probabilidades estimadas por el
modelo para todos los individuos de las muestra,
considerando como punto de corte de 0.5, en la cual
indica la cantidad de exito y fracaso, mediante los
simbolos S y N respectivamente, ademas cada simbolo
indica 12.5 individuos, luego la interpretacion que se le
puede dar a este grafico es que mientras mas S se
encuentren a la izquierda de 0.5 mejor sera el modelo y
por el contrario mientras mas N se encuentren a la
derecha de 0.5 mejor sera el modelo, como ocurre en
este caso
APLICACION DEL SOFTWARE
SPSS
2 new variables have been created.
Name
Contents
PRE_1
Predicted Value
PGR_1
Predicted Group
INTERPRETACION
La interpretacion que se le pueden dar a las dos nuevas
variables generadas es la siguiente:
•PRE_1(Probabilidades): esta variable nos indica la
probabilidad de ocurrencia de cada caso predicha por el
modelo.
•PGR_1(Grupo predecidos): esta variable nos indica el
grupo al que sera asignado cada individuo de acuerdo
con su probabilidad
Documentos relacionados
Descargar