Tp5RLogistica

Anuncio
2º Cuatrimestre de 2011
Guía de Trabajos Prácticos
Modelos de Regresión
TRABAJO PRÁCTICO N 5
Regresión Logística
5.1. Se quiere analizar la relación entre la edad y la presencia o ausencia de
evidencia de enfermedad coronaria en 100 sujetos seleccionados para participar en
un estudio. La tabla CORAZÓN. XLS contiene los datos referentes a las siguientes
variables: EDAD (en años), EC (presencia o ausencia de enfermedad coronaria) y
EDGRUPO (edades agrupadas).
La variable de respuesta EC, está codificada de la siguiente forma: 1 indica la
presencia de la enfermedad y 0 la ausencia.
a) Realice un diagrama de dispersión de EDAD vs EC. ¿Qué conclusiones obtiene
a partir de este diagrama?
b) Plantee un modelo adecuado.
5.2. Se está evaluando el origen de la capacidad analgésica de la acupuntura sobre
pacientes que padecen de dolores lumbares. Puesto que se quiere descartar que la
eventual mejoría testimoniada por el paciente pueda ser debida a la sugestión (efecto
placebo), se establecen dos grupos: uno al que se le aplica el tratamiento formal con
acupuntura, y otro al que también se le trata con agujas, pero no aplicándolas en los
"puntos teóricos" establecidos por esta disciplina, sino en otros puntos,
seleccionados aleatoriamente.
La variable de respuesta MEJORA vale 1 si, dos meses después de estar recibiendo
el tratamiento el individuo mejora y vale 0 en caso que se mantenga igual o
empeore.
La variable SEXO vale 1 para mujeres, 0 para hombres.
SICOFARMA está definida según la siguiente escala ordinal:
0 ningún consumo
1 consumo ocasional
2 consumo regular
3 uso frecuente
4 sicofarmacodependencia
Por último la variable TRATAMIEN vale 1 si el individuo fue sometido al
tratamiento real y 0 al procedimiento falso.
Plantee el modelo adecuado para los datos que se encuentran en la base
ACUPUNTURA.XLS.
5.3. El siguiente conjunto de datos consiste de una muestra de 200 sujetos que
fueron parte de un estudio de sobrevida después de haber sido admitidos a una
Unidad de Cuidados Intensivos (UCI). Se quiere predecir la probabilidad de
sobrevida de estos pacientes. La base TERAPIA.XLS contiene los datos
correspondientes al estudio realizado. La tabla que figura a continuación contiene
los códigos de las variables.
Plantee un modelo adecuado.
Ana Silvia Haedo,
1
2º Cuatrimestre de 2011
Guía de Trabajos Prácticos
Nombre
Estado Vital
Códigos
0 = Vivo
1 = Muerto
Años
0 = Masculino
1 = Femenino
1 = Blanca
2 = Negra
3 = Otras
0 = Médico
1 = Cirugía
0 = No
1 = Si
0 = No
1 = Si
0 = No
1 = Si
Mm Hg
Edad
Sexo
Raza
Servicio de admisión a la
Unidad de Cuidados Intensivos
Enfermedad Presente Cáncer
Antecedentes de enfermedad
Renal
Probable infección a la
Admisión en UCI
Presión Sistólica a la admisión
en UCI
Admisión Previa a UCI en los 0 = No
últimos 6 meses
1 = Si
Tipo de admisión
0=
1 = Emergencia
Fractura Hip
0 = No
1 = Si
PO2 para gases en sangre 0  60
Inicial
0  60
Valor Basal de PH para gases 0  7,25
en sangre
0 < 7,25
Valor Basal de Pco2 para gases 0  45
en sangre
1 > 45
Valor Basal de Bicarbonato 0  18
para gases en sangre
1 < 18
Valor Basal de Creatinina para 0  20
gases en sangre
0 > 20
Nivel de conciencia a la 0 = No Coma
admisión en UCI
1 = Estupor profundo
2 = Coma
Modelos de Regresión
Variable
ESTADO
EDAD
SEXO
RAZA
UCI
CAN
ERE
INF
SIS
PRE
TIPO
FRA
PO2
PH
PCO
BIC
CRE
LOC
5.4.- El siguiente conjunto de datos corresponde a una muestra de 84 mujeres. La
base PESO.XLS contiene los datos correspondientes al estudio realizado sobre el
bajo peso de los recién nacidos. La tabla que figura a continuación contiene los
códigos de las variables.
Plantee el modelo más adecuado.
Ana Silvia Haedo,
2
2º Cuatrimestre de 2011
Guía de Trabajos Prácticos
Nombre
Bajo
Modelos de Regresión
Códigos
0 = peso  2500 g
1 = peso < 2500 g
Años
período Kg.
Edad de la madre
Peso al último
Menstrual
Raza
Fumadora durante el embarazo
Antecedentes
de
Labor
Prematura
Antecedentes de Hipertensión
Presencia
de
irritabilidad
uterina
Número de Visitas al médico
durante el primer trimestre
Peso
Variable
BAJO
EDAD
PESO
1 = Blanca
2 = Negra
3 = Otras
0 = No
1 = Sí
0 = No
1 = Sí
0 = No
1 = Sí
0 = No
1 = Sí
0 = Ninguna
1 = Una
2 = Dos, ó más
En gramos
RAZA
FUMADORA
LPRE
HIP
IUTE
VIS
PE
5.5.- La siguiente tabla muestra datos hipotéticos de 15 corredores que probaron una
pista de esquí. La variable CAIDA indica si el corredor se cayó; la variable
DIFICULTAD (continua con valores entre 1 y 3) indica la dificultad del intento de
bajada; la variable ESTACION indica en qué época se realizó la bajada.
CAÍDA
DIFICULTAD
ESTACIÓN
1
1
0
1
1
0
0
1
1
1
0
0
1
1
0
3
1
1
2
3
2
1
3
2
2
2
2
3
2
3
1
1
3
3
2
2
2
1
3
1
2
3
2
2
1
a) Ajuste los datos mediante un modelo de regresión que permita predecir caídas.
b) ¿El ajuste obtenido es bueno?
c) De acuerdo al modelo obtenido, ¿cuál es la probabilidad de que el primer
corredor se caiga? ¿Y la probabilidad de que el último se caiga?
d) Utilice el análisis de los residuos para detectar casos anómalos. ¿Puede detectar
alguno?
Ana Silvia Haedo,
3
2º Cuatrimestre de 2011
Guía de Trabajos Prácticos
Modelos de Regresión
5.6.- Los datos de la base TELECOMUNICACIONES.XLS corresponden a 1000
clientes de una empresa telefónica. Se solicita:
a) Ajuste a un modelo de regresión que permita predecir posibles bajas de los
usuarios.
b) ¿Qué variables no son relevantes en el modelo?
c) ¿Es bueno el ajuste del modelo? ¿Puede encontrar otro modelo que ajuste mejor
sus datos?
d) ¿Puede detectar casos anómalos?
e) ¿Qué capacidad de predicción tiene el modelo elegido?
5.7.- Se estudia la infección hospitalaria posquirúrgica en pacientes operados de la
cadera (Y = 1 cuando el paciente se infecta a lo largo de la primera semana, Y = 0 si
no se infecta) y se desea evaluar un nuevo modelo técnico-organizativo de la
atención de enfermería que se dispensa a estos pacientes. Definamos X 1 como una
variable que vale 0 si el sujeto estuvo ingresado bajo el nuevo modelo y que vale 1
en caso de que haya estado atendido por el modelo convencional. Consideremos que
se quiere evaluar si la edad del paciente (llamemos X 2 a esta variable) se asocia al
hecho de desarrollar una infección.
Para ello se han estudiado 40 pacientes sujetos a cada uno de los regímenes de
atención, los resultados figuran en la base INFECCIÓN.XLS.
5.8.- Supongamos que se tiene una muestra de 1000 niños menores de un año,
representativa de los niños de la comunidad para los cuales se mide la duración de la
LM (Lactancia Materna) desde una perspectiva epidemiológica.
Supongamos que se han medido dos variables, Y y X:
Y = 1 si el niño aún lacta en el momento de la encuesta, y 0 si el niño ya no lo hace
X = edad (en días) del niño el día que se hace la indagación.
Se quiere conocer cuál es el patrón de duración de la LM, es decir, se desea conocer
la curva de prevalencia, una función que refleje el porcentaje de niños que aún
consumen leche materna para cada edad considerada dentro del primer año de vida.
Los datos figuran en la base LACTANCIA.XLS.
5.9.- Se realizó un estudio para evaluar el efecto del consumo de calcio por parte de
una embarazada (CAL = 1 si el consumo es insuficiente y CAL = 0 si es adecuado)
sobre el hecho de que el niño tenga o no peso por debajo de 2500 gramos (BP = 1 y
BP = 0, respectivamente).
Se sospechaba que el hábito de fumar podía ser un potenciador del efecto negativo
atribuible al consumo insuficiente de calcio, especialmente en caso de que la "dosis"
de tabaco fuese mayor. Consecuentemente, se registró el hábito de fumar en tres
posibles niveles:
HF = 0 si no fumaba,
HF = 1 si fumaba un paquete diario o menos,
HF = 2 si fumaba más de un paquete al día.
Finalmente se consideró la ganancia de peso durante los primeros 5 meses del
embarazo (GP = 1 si estaba por debajo de lo normal y GP = 0 en caso opuesto).
Las variables CAL, HF y GP se registraron al quinto mes de embarazo de 1800
mujeres, y en el momento del parto se registró la variable de respuesta BP. La
variable GRUPO contiene las frecuencias observadas correspondientes a cada
grupo. Los resultados de la tabla figuran en la base CALCIO.XLS.
Ana Silvia Haedo,
4
2º Cuatrimestre de 2011
Guía de Trabajos Prácticos
Modelos de Regresión
5.10.- Se han monitorizado 2000 infartados que ingresan en un servicio de cuidados
intensivos. En el momento del ingreso se registra lo siguiente:
Fuma: 1 si es fumador y o si no lo es.
Edad: 1 si es mayor de 64 años, 0 si tiene 64 años o menos.
Posteriormente, se evalúa si el sujeto muere en el hospital (muerte = 1) o si egresa
vivo (muerte = 0).
Se quiere evaluar la letalidad en una unidad de cuidados intensivos para infartados,
con hábito de fumar.
Los resultados figuran en la base INFARTOS.XLS.
Regresión logística
Solución de corazón
Estadìtico-> Datos categorizados
Dep-> EC
Indep -> Edad
Parámetros
Est.
valor
Constante
-5,31
<0,0001
EDAD
0,11
<0,0001
E.E.
O.R.
Wald LI(95%)
Wald LS(95%)
Wald Chi²
1,13
4,9E-03
5,4E-04
0,05
21,94
0,02
1,12
1,07
1,17
21,25
p-
No contiene al 1.
Cuya ecuación: ln(pi/(1-pi)= -5.31+0.11 edad, entonces
Y= e^(-5.31+0.11 edad)
Tengo 100-2 grados de libertad.
Log Likelihood
Deviance
Escala (fijada)
F.V.
EDAD
gl
1
Valor
-53,68
107,35
1,00
-2[L0-L1]
31,28
Ana Silvia Haedo,
gl
98
98
p-valor
<0,0001
5
Descargar