PEC 2 Inferencia estadística 23-24 semestre 2 Máster Bioinformática y Bioestadística Primavera 2024 1.-Enunciados teóricos Indica que tipo de análisis o que pruebas estadísticas utilizarías en cada uno de los apartados y si fuera necesario que algún tipo de prueba adicional harías para llevar a cabo el análisis. Formula la hipótesis a contrastar de acuerdo con las preguntas a responder. Justifica la elección. (La solución puede no ser única) a) Se efectúa un estudio de seguimiento a 118 sujetos atendidos en una clínica de obesidad. Se mide el Índice de Masa Corporal (IMC) y el perfil lipídico(colesterol). Al cabo de 12 meses se evalúa de nuevo el IMC y el colesterol estando interesados en cuantificar la disminución de ambos parámetros. b) Se dispone de 32 pacientes con tifus murino y 28 pacientes con la fiebre Q. Se conoce que el tifus marino es un diagnóstico que se confunde con la fiebre Q. Para poder establecer un diagnóstico diferencial se estudia la distribución de tener o no erupciones cutáneas y trombocitopenia , observando que existen diferencias entre los dos diagnósticos . Indica que análisis se debe de haber realizado c) Se dispone de 18 sujetos abstemios o bebedores de menos de 12g/s, 23 que bebían bebían 20-40g/d, 12 que bebían entre 40-60g/d y 8 que bebían> 60g/d. Se cuantificaron los parámetros HSPA1A intracelular, HSPA1A y HSPD1 séricas y anti-Hsp70 y anti-Hsp60 por ELISA. Se está interesado si existe asociación entre los niveles de los parámetros y los consumos de alcohol de los individuos. d) Un posible determinante de los problemas pulmonares en los niños es la cantidad de humo ambiental del tabaco respirado en sus casas. Se dispone de un grupo de 23 niños de casas de padres fumadores y 20 de padres no fumadores. Se mide el volumen expiratorio forzado (FEV) medido en litros de aire. Indica la mejor estrategia para valorar la relación entre el el FEV y que los padres sean fumadores. e) Se dispone de 25 pacientes con cáncer en los que se toman 25 muestras de tejido tumoral y otras 25 muestras de tejido adyacente en cada paciente. Se desea comparar la expresión de algunos miRNAs objetivo entre los tejidos tumorales y los tejidos sanos adyacentes( se expresa/no se expresa). Indica la prueba más adecuada para comparar la expresióno o no expresión de los miRNAs. 2.- Ejercicio práctico Este ejercicio consta de diversas partes en un intento de simular lo que se lleva a cabo en un estudio real. Se ha simplificado para hacerlo más practicable por lo que no hace falta que os agobiéis si algo no os cuadra del todo con la realidad. De lo que se trata es que veamos cómo aplicar las distintas técnicas que hemos estudiado, de forma integral, en un problema de análisis de datos. Los datos Se dispone de 905 pacientes que seroconvirtieron al virus del vih en los años 80 y 90 del siglo XX. Se disponen algunas de las variables de riesgo de sida y muerte de estos sujertos Se midieron algunas variables como el sexo, al exposición de riesgo al vhi, la edad a la seroconversión el nivel de cd4 al inicio y el último disponible, la muerte, el debut de sida y el uso de tratamiento haart. El fichero lo tenéis disponible en Stata (dades_aids.dta) o en Excel (dades_aids.xlx) y en formato csv (dades_aids.csv). L estructura está en la siguiente tabla. Selecciona 800 casos al azar del fichero para generar la base datos del trabajo #(set.seed(######) # Sustituye ###### por un número library(foreign) dades<-as.data.frame(read.dta("dades_aids.dta")) dades800<-dades[sample(1:nrow(dades),800,replace=FALSE),] Las preguntas En las siguientes preguntas además de escoger las hipótesis adecuadas, justifica el uso de la prueba o pruebas utilizadas e interpreta los resultados. a) ¿Existe asociación entre la categoría de exposición (expcateg) y el tener sida (aids) ?. Justifica las pruebas elegidas. b)¿ Hay normalidad en las variables de CD4 (cd4bas y lastcd4) y edad a la seroconversión(agesero) ? c) ¿Existen diferencias entre el cambio del nivel basal y final del CD4? d)¿Es el nivel basal de CD4 diferente entre los grupos de exposición ? e) Existe relación entre el último nivel de CD4 y el estar o no tratado con haart (haart)? 3.- Algunas cosas más a) Indica porqué hay que utilizar técnicas de comparación múltiple como la corrección de Bonferroni b) Indica para que te podrían servir las técnicas de bootstrap en los análisis estadísticos que has realizado. Calcula el intervalo utilizando Bootstrap de la media de la última medida de CD4. Compáralo con el intervalo de confianza asintótico habitual .