2º Cuatrimestre de 2011 Guía de Trabajos Prácticos Modelos de Regresión TRABAJO PRÁCTICO N 5 Regresión Logística 5.1. Se quiere analizar la relación entre la edad y la presencia o ausencia de evidencia de enfermedad coronaria en 100 sujetos seleccionados para participar en un estudio. La tabla CORAZÓN. XLS contiene los datos referentes a las siguientes variables: EDAD (en años), EC (presencia o ausencia de enfermedad coronaria) y EDGRUPO (edades agrupadas). La variable de respuesta EC, está codificada de la siguiente forma: 1 indica la presencia de la enfermedad y 0 la ausencia. a) Realice un diagrama de dispersión de EDAD vs EC. ¿Qué conclusiones obtiene a partir de este diagrama? b) Plantee un modelo adecuado. 5.2. Se está evaluando el origen de la capacidad analgésica de la acupuntura sobre pacientes que padecen de dolores lumbares. Puesto que se quiere descartar que la eventual mejoría testimoniada por el paciente pueda ser debida a la sugestión (efecto placebo), se establecen dos grupos: uno al que se le aplica el tratamiento formal con acupuntura, y otro al que también se le trata con agujas, pero no aplicándolas en los "puntos teóricos" establecidos por esta disciplina, sino en otros puntos, seleccionados aleatoriamente. La variable de respuesta MEJORA vale 1 si, dos meses después de estar recibiendo el tratamiento el individuo mejora y vale 0 en caso que se mantenga igual o empeore. La variable SEXO vale 1 para mujeres, 0 para hombres. SICOFARMA está definida según la siguiente escala ordinal: 0 ningún consumo 1 consumo ocasional 2 consumo regular 3 uso frecuente 4 sicofarmacodependencia Por último la variable TRATAMIEN vale 1 si el individuo fue sometido al tratamiento real y 0 al procedimiento falso. Plantee el modelo adecuado para los datos que se encuentran en la base ACUPUNTURA.XLS. 5.3. El siguiente conjunto de datos consiste de una muestra de 200 sujetos que fueron parte de un estudio de sobrevida después de haber sido admitidos a una Unidad de Cuidados Intensivos (UCI). Se quiere predecir la probabilidad de sobrevida de estos pacientes. La base TERAPIA.XLS contiene los datos correspondientes al estudio realizado. La tabla que figura a continuación contiene los códigos de las variables. Plantee un modelo adecuado. Ana Silvia Haedo, 1 2º Cuatrimestre de 2011 Guía de Trabajos Prácticos Nombre Estado Vital Códigos 0 = Vivo 1 = Muerto Años 0 = Masculino 1 = Femenino 1 = Blanca 2 = Negra 3 = Otras 0 = Médico 1 = Cirugía 0 = No 1 = Si 0 = No 1 = Si 0 = No 1 = Si Mm Hg Edad Sexo Raza Servicio de admisión a la Unidad de Cuidados Intensivos Enfermedad Presente Cáncer Antecedentes de enfermedad Renal Probable infección a la Admisión en UCI Presión Sistólica a la admisión en UCI Admisión Previa a UCI en los 0 = No últimos 6 meses 1 = Si Tipo de admisión 0= 1 = Emergencia Fractura Hip 0 = No 1 = Si PO2 para gases en sangre 0 60 Inicial 0 60 Valor Basal de PH para gases 0 7,25 en sangre 0 < 7,25 Valor Basal de Pco2 para gases 0 45 en sangre 1 > 45 Valor Basal de Bicarbonato 0 18 para gases en sangre 1 < 18 Valor Basal de Creatinina para 0 20 gases en sangre 0 > 20 Nivel de conciencia a la 0 = No Coma admisión en UCI 1 = Estupor profundo 2 = Coma Modelos de Regresión Variable ESTADO EDAD SEXO RAZA UCI CAN ERE INF SIS PRE TIPO FRA PO2 PH PCO BIC CRE LOC 5.4.- El siguiente conjunto de datos corresponde a una muestra de 84 mujeres. La base PESO.XLS contiene los datos correspondientes al estudio realizado sobre el bajo peso de los recién nacidos. La tabla que figura a continuación contiene los códigos de las variables. Plantee el modelo más adecuado. Ana Silvia Haedo, 2 2º Cuatrimestre de 2011 Guía de Trabajos Prácticos Nombre Bajo Modelos de Regresión Códigos 0 = peso 2500 g 1 = peso < 2500 g Años período Kg. Edad de la madre Peso al último Menstrual Raza Fumadora durante el embarazo Antecedentes de Labor Prematura Antecedentes de Hipertensión Presencia de irritabilidad uterina Número de Visitas al médico durante el primer trimestre Peso Variable BAJO EDAD PESO 1 = Blanca 2 = Negra 3 = Otras 0 = No 1 = Sí 0 = No 1 = Sí 0 = No 1 = Sí 0 = No 1 = Sí 0 = Ninguna 1 = Una 2 = Dos, ó más En gramos RAZA FUMADORA LPRE HIP IUTE VIS PE 5.5.- La siguiente tabla muestra datos hipotéticos de 15 corredores que probaron una pista de esquí. La variable CAIDA indica si el corredor se cayó; la variable DIFICULTAD (continua con valores entre 1 y 3) indica la dificultad del intento de bajada; la variable ESTACION indica en qué época se realizó la bajada. CAÍDA DIFICULTAD ESTACIÓN 1 1 0 1 1 0 0 1 1 1 0 0 1 1 0 3 1 1 2 3 2 1 3 2 2 2 2 3 2 3 1 1 3 3 2 2 2 1 3 1 2 3 2 2 1 a) Ajuste los datos mediante un modelo de regresión que permita predecir caídas. b) ¿El ajuste obtenido es bueno? c) De acuerdo al modelo obtenido, ¿cuál es la probabilidad de que el primer corredor se caiga? ¿Y la probabilidad de que el último se caiga? d) Utilice el análisis de los residuos para detectar casos anómalos. ¿Puede detectar alguno? Ana Silvia Haedo, 3 2º Cuatrimestre de 2011 Guía de Trabajos Prácticos Modelos de Regresión 5.6.- Los datos de la base TELECOMUNICACIONES.XLS corresponden a 1000 clientes de una empresa telefónica. Se solicita: a) Ajuste a un modelo de regresión que permita predecir posibles bajas de los usuarios. b) ¿Qué variables no son relevantes en el modelo? c) ¿Es bueno el ajuste del modelo? ¿Puede encontrar otro modelo que ajuste mejor sus datos? d) ¿Puede detectar casos anómalos? e) ¿Qué capacidad de predicción tiene el modelo elegido? 5.7.- Se estudia la infección hospitalaria posquirúrgica en pacientes operados de la cadera (Y = 1 cuando el paciente se infecta a lo largo de la primera semana, Y = 0 si no se infecta) y se desea evaluar un nuevo modelo técnico-organizativo de la atención de enfermería que se dispensa a estos pacientes. Definamos X 1 como una variable que vale 0 si el sujeto estuvo ingresado bajo el nuevo modelo y que vale 1 en caso de que haya estado atendido por el modelo convencional. Consideremos que se quiere evaluar si la edad del paciente (llamemos X 2 a esta variable) se asocia al hecho de desarrollar una infección. Para ello se han estudiado 40 pacientes sujetos a cada uno de los regímenes de atención, los resultados figuran en la base INFECCIÓN.XLS. 5.8.- Supongamos que se tiene una muestra de 1000 niños menores de un año, representativa de los niños de la comunidad para los cuales se mide la duración de la LM (Lactancia Materna) desde una perspectiva epidemiológica. Supongamos que se han medido dos variables, Y y X: Y = 1 si el niño aún lacta en el momento de la encuesta, y 0 si el niño ya no lo hace X = edad (en días) del niño el día que se hace la indagación. Se quiere conocer cuál es el patrón de duración de la LM, es decir, se desea conocer la curva de prevalencia, una función que refleje el porcentaje de niños que aún consumen leche materna para cada edad considerada dentro del primer año de vida. Los datos figuran en la base LACTANCIA.XLS. 5.9.- Se realizó un estudio para evaluar el efecto del consumo de calcio por parte de una embarazada (CAL = 1 si el consumo es insuficiente y CAL = 0 si es adecuado) sobre el hecho de que el niño tenga o no peso por debajo de 2500 gramos (BP = 1 y BP = 0, respectivamente). Se sospechaba que el hábito de fumar podía ser un potenciador del efecto negativo atribuible al consumo insuficiente de calcio, especialmente en caso de que la "dosis" de tabaco fuese mayor. Consecuentemente, se registró el hábito de fumar en tres posibles niveles: HF = 0 si no fumaba, HF = 1 si fumaba un paquete diario o menos, HF = 2 si fumaba más de un paquete al día. Finalmente se consideró la ganancia de peso durante los primeros 5 meses del embarazo (GP = 1 si estaba por debajo de lo normal y GP = 0 en caso opuesto). Las variables CAL, HF y GP se registraron al quinto mes de embarazo de 1800 mujeres, y en el momento del parto se registró la variable de respuesta BP. La variable GRUPO contiene las frecuencias observadas correspondientes a cada grupo. Los resultados de la tabla figuran en la base CALCIO.XLS. Ana Silvia Haedo, 4 2º Cuatrimestre de 2011 Guía de Trabajos Prácticos Modelos de Regresión 5.10.- Se han monitorizado 2000 infartados que ingresan en un servicio de cuidados intensivos. En el momento del ingreso se registra lo siguiente: Fuma: 1 si es fumador y o si no lo es. Edad: 1 si es mayor de 64 años, 0 si tiene 64 años o menos. Posteriormente, se evalúa si el sujeto muere en el hospital (muerte = 1) o si egresa vivo (muerte = 0). Se quiere evaluar la letalidad en una unidad de cuidados intensivos para infartados, con hábito de fumar. Los resultados figuran en la base INFARTOS.XLS. Regresión logística Solución de corazón Estadìtico-> Datos categorizados Dep-> EC Indep -> Edad Parámetros Est. valor Constante -5,31 <0,0001 EDAD 0,11 <0,0001 E.E. O.R. Wald LI(95%) Wald LS(95%) Wald Chi² 1,13 4,9E-03 5,4E-04 0,05 21,94 0,02 1,12 1,07 1,17 21,25 p- No contiene al 1. Cuya ecuación: ln(pi/(1-pi)= -5.31+0.11 edad, entonces Y= e^(-5.31+0.11 edad) Tengo 100-2 grados de libertad. Log Likelihood Deviance Escala (fijada) F.V. EDAD gl 1 Valor -53,68 107,35 1,00 -2[L0-L1] 31,28 Ana Silvia Haedo, gl 98 98 p-valor <0,0001 5