8. Comparación de más de dos medias. ANOVA. 1.- Aplicación del ANOVA. El análisis de la varianza se usa para estudiar la relación entre una variable cualitativa y una variable cuantitativa. Cada nivel de la variable cualitativa abarca un grupo, y dicha variable se llama factor. Por ejemplo, un factor puede ser “tipo de fertilizante”; sus niveles, A, B y C, y la variable dependiente “cantidad de cosecha”. 2.- Supuestos del ANOVA. Normalidad (residuos, tests de Kolmogorov Smirnov y Shapiro Wilk). Homogeneidad de varianzas (test de Levene). Independencia o aleatoriedad de la muestra (test de rachas): 3.- Caso paramétrico. La hipótesis nula es la igualdad de medias. La tabla ANOVA es como sigue: Fórmulas básicas; grados de libertad (k-1, n-k, n-1), suma de cuadrados inter, suma de cuadrados intra, suma de cuadrados total. Cuidado, en el caso de existir, con la media ponderada. De todas formas, a veces es útil realizar un bosquejo con los datos; es lo que se llama los análisis a priori. Pueden ser ortogonales (en los que la suma de los coeficientes es cero y sus productos dos a dos son todos iguales a cero). Son los mejores, ya que abarcan toda la información de la SCIntra o suma de cuadrados explicada por el modelo. Un ejemplo típico vendría dado por una variable cualitativa formada por “no fumador, exfumador, fuma poco, fuma mucho”. Los signos asociados serían: (hay que pensar la razón) 1 1 -1 -1; 1 -1 0 0, 0 0 1 -1. En general no hay que saber hacerlos, sólo interpretar la salida y calcular el pvalor. Aquellos contrastes que no cumplen las propiedades anteriores son no ortogonales y necesitan un ajuste de Bonferroni (dividir el error de tipo I por el total de contrastes para compararlo con el p valor), ya que no son tan fiables. Así, un purista estadístico decidiría, a partir de este bosquejo, sobre la realización del ANOVA. Si en el ANOVA aceptamos la hipótesis nula el estudio está terminado, ya que la variable cualitativa no afecta a la variable cuantitativa. Sin embargo, si rechazamos la hipótesis es pertinente realizar los contrastes a posteriori, ya que sabemos que el factor influye, pero no sabemos entre que niveles de factor existen diferencias significativas. La idea es saber que tipo de fertilizante es mejor. Estos contrastes pueden ser comparaciones 2 a 2 (con ajuste de Bonferroni), el test de Scheffé (a ordenador) y el test de Student Newman Keulls. En Scheffé debemos observar si el pvalor es menor que α y también debemos ver si los intervalos de confianza entre dos niveles de factor incluyen el cero (en cuyo caso no hay diferencias entre ambos) o no lo hacen (en cuyo caso sí la hay y viendo los signos del intervalo sabemos que factor es el más significativo). El test de Student Neuman Keulls agrupa los niveles de factor en grupos homogéneos entre sí; en realidad es una pequeña categorización de los datos (por ejemplo, si los niveles A, B y D están juntos tenemos que son parecidos entre sí). 4. Caso no paramétrico; test de Kruskal Wallis. Plantea como hipótesis nula la igualdad de medianas. Se aplica si de los supuestos previos no se cumple el de la normalidad de los datos. Si no se cumple el supuesto de igualdad de varianzas también se puede aplicar, pero hay otras alternativas como hacer el ANOVA de siempre y realizar los estudios a posteriori con contrastes no ortogonales y ajuste de Bonferroni (procedimiento de Tamhane). En todo caso la tabla es la que sigue; Hay que tener en cuenta la fórmula fundamental y que el rango medio es n + 1 / 2. 9. ANOVA avanzado. Modelos lineales generalizados y medidas repetidas. 1. Supuestos previos: se repiten los anteriores. 2. El caso de dos factores ( tipo de fertilizante, clima) ) y de una variable cuantitativa. 2.1 Interacción. Puede ocurrir que el nivel de un factor influya en el nivel del otro. Es ese caso no hay otro remedio que hacer un estudio segmentado, los cuales consisten en medir la influencia de un factor para cada nivel del otro factor. Por ejemplo, supongamos que tenemos 3 tipos de fertilizantes y 2 tipos de campos, los secos y los húmedos. Puede ocurrir que un fertilizante funcione mejor con un clima húmedo debido a sus características. Desde este punto de vista, habría que hacer dos ANOVAS; uno con clima seco y otro con clima húmedo. Por otro lado, para cada tipo de fertilizante se podría ver si influye el clima. En este caso sólo habría dos posibilidades; seco y húmedo. Gráficos de interacción: 2.2 Caso paramétrico, tabla ANOVA. La tabla ANOVA tiene la siguiente estructura: A nivel de fórmulas, hay que tener en cuenta los grados de libertad, k – 1, j – 1, (k – 1)(j – 1), n – kj, n – 1. La estructura es idéntica a la anterior y la fórmula de la interacción no la han pedido, de momento, nunca. Es fundamental comprender que el primer dato que se analiza es el de la interacción. Si sale significativa, la tabla no sirve para nada y se hace el estudio segmentado. En caso contrario, podemos revisar los otros dos efectos para ver si cada uno de los factores influye o no lo hace. 2.3 Caso no paramétrico: test de Kruskal Wallis para rangos. Es muy sencillo, es una tabla ANOVA en la cual los datos iniciales se han reconfigurado y se han sustituido por los rangos. Las cuentas y la interpretación es siempre la misma 3. El caso de medidas repetidas. 3.1 Caso paramétrico. La referencia sería partir un campo en tres parcelas y echar a cada una un tipo de fertilizante, o dar a una persona distintas dietas. En definitiva, los distintos niveles de factor se asignan siempre al mismo sujeto. La tabla sería así: Los grados de libertad son k-1, j-1, (k-1)(j-1), n – 1. Hay que analizar el efecto de la variable principal (tipo de fertilizante o tipo de dieta). Lo otra se referencia sólo para que la suma de cuadrados intra (de los errores) no tenga incluido el efeto de los sujetos. 3.2 Caso no paramétrico, test de Friedmann. Tan sólo hay que entender que la hipótesis nula es para la igualdad de medianas, que el estadístico de contraste se compara con un jicuadrado de k – 1 grados de libertad e interpretar la salida del ordenador. Saber aplicar la fórmula es de psicópatas. 4. Recopilación de datos que se pueden estudiar mediante los análisis ANOVA . Idea: tipo de fertilizante – cantidad de cosecha. Si añado un factor más como el clima (seco, húmedo) estamos en un ANOVA de dos vías, y si el tipo de fertilizante lo comparo en muestras del mismo sujeto estoy en medidas repetidas. 10. Regresión y correlación. 1.Objetivo. El objetivo del tema es estudiar la existencia de relación entre una variable cuantitativa y otra variable cuantitativa (cantidad de siembra, cantidad de cosecha). Para ello, se realizan dos tipos de análisis; a/ La correlación estudia la existencia de asociación entre las dos variables cuantitativas. Si no hay asociación, el estudio ha terminado. Si la hay, continuamos con el mismo. b/ La regresión estudia la existencia de una relación causa efecto las dos variables. Su estudio es más complejo ya que se requieren muchos supuestos previos, y tiene como objetivo final poder realizar predicciones. GRAFICOS DE NO ASOCIACIÓN, ASOCIACIÓN Y REGRESIÓN. 2. Correlación. El cálculo del coeficiente de correlación es largo y complejo. Aunque se usa una fórmula genérica con varianzas y covarianzas, en principio usaremos la expresión simplificada, ya que es más sencilla. A dicho coeficiente se le llama r de Pearson. Se usa si la muestra es cuantitativa, normal e independiente. Hay que tener en cuenta que la correlación es un valor que va de -1 a +1; conforme más cercana está a 1 ó -1 más intensa es la relación entre x e y, aunque puede ser según el signo positiva o negativa. Además, si las variables examinadas no siguen una distribución normal se usa el rho de Spearman; aunque los cálculos son más largos, la interpretación es la misma. Como curiosidad, se debe tener en cuenta que el rho de Spearman da un resultado menor que el r de Pearson en valor absoluto, lo cual es lógico al ser el test equivalente paramétrico respecto del anterior. Cálculo del r de Pearson y Spearman: Por último, para saber si la correlación es significativa (sea un caso u otro) se usa un test que plantea como hipótesis nula que la correlación no es significativa. Ho rpob = 0 El estadístico de contraste es: Más complejo es el cálculo del intervalo de confianza para la correlación de la población (el resultado es equivalente al anterior, se acepta Ho si contiene el valor nulo. 3. Regresión. Este modelo supone que la variable cuantitativa se puede explicar linealmente a partir de una constante, otra variable cuantitativa multiplicada por una constante y una perturbación, la cual agrupa al conjunto de valores relacionados con la y (cantidad de cosecha) que no son x (cantidad de siembra). Y = α + Βx + u. En este caso, según la teoría, y es la parte aleatoria (la cantidad de cosecha depende del azar), los parámetros son valores desconocidos, x es determinista (se supone que hecho a cada campo la cantidad de siembra que deseo) y la u es el resto de variables que influye en la cosecha (clima, humedad, número de cucarachas por hectárea…) Los supuestos previos son múltiples. Sólo debemos tener claro que uno es la normalidad de los datos y que comprobamos su veracidad a partir del análisis de residuos. Recientemente en los exámenes ha aparecido algún análisis con heteroscedasticidad (lo deseable es la homoscedasticidad, igualdad de varianzas) y con correlación (lo deseable es la ausencia de autocorrelación, que las perturbaciones no estén relacionadas entre sí). Vemos un ejemplo sencillo de cálculo de la regresión y = a + bx, indicando las fórmulas principales, Aunque lo fundamental es saber interpretar las tres salidas básicas a ordenador; una de resumen, otra de ANOVA y otra de coeficientes. (FUNDAMENTAL). 11. Análisis de supervivencia. 1. Objetivo. Se trata de estimar la probabilidad de supervivencia individual para un período dado en un conjunto de personas que sigue cierta enfermedad o tratamiento. El método usado se denomina de Kaplan Meier, y en principio es un análisis no paramétrico. El único supuesto pedido es que la censura no sea informativa, es decir, que la probabilidad de ser censurado no sea distinta según los pacientes presenten mejor o peor pronóstico. 2. Procedimiento de cálculo de las curvas de supervivencia. El procedimiento gráfico a seguir consiste en ordenar los datos con respecto al tiempo de supervivencia, hacer la tabla de supervivencia, calcular para cada período de tiempo el cociente entre los que sobreviven y están a riesgo de fallecer (s / c) y multiplicar en cada período los cocientes acumulados. Por último, se representa gráficamente el modelo de estudio. Modelo final, notas y fórmulas: 12. Introducción a los modelos multivariables. 1.Objetivo. No adentramos ahora en desarrollos más complejos, todos ellos dentro de la relación causa efecto, aunque con matices diferentes. Además, el supuesto “multivariable” indica un fenómeno nuevo; hasta ahora hemos relacionado una causa con un efecto; a partir de ahora vamos a relacionar varias causas con un único efecto teniendo en cuenta tres modelos: a/ Si la medimos la relación entre diversas variables cuantitativas y otra variable cuantitativa, estamos en un modelo de regresión múltiple. En el mismo, hay que tener en cuenta que a menudo hay una variable cuantitativa “principal” y un resto de variables de “control”. b/ Si medimos la relación entre diversas variables cuantitativas y una variable cualitativa dicotómica (tener infarto o no tenerlo, por ejemplo) estamos en un modelo logit. c/ Si medimos la relación entre diversas variables cuantitativas y el tiempo en el que aparece un suceso (enfermedad o muerte, en general) estamos en una regresión de Cox. 2. Regresión lineal múltiple. Es aquella que relaciona diversas variables cuantitativas con una variable cuantitativa. Hay que tener en cuenta dos aspectos importantes: a/ algunas variables pueden ser de control para evitar confusiones (si relaciono el IMC co la edad hay que separar los factores que están relacionados con el IMC y la edad, ya que si no la regresión puede ser espuria). b/ se pueden usar variables independientes cualitativas como el sexo (hombre, mujer) recodificándolas a variables Dummy o ficticias, de forma que una variable cualitativa con p características se recodifica en p - 1 variables Dummy, las cuales sólo pueden tomar dos valores; 1 (“sí”) ó 0 (“no”). En el ejemplo de referencia estudiamos la relación entre el índice de masa corporal (IMC), la edad y edad al cuadrado; como variables de control se usan fumar (cualitativa de 4 niveles; no fumador, fumador, exfumador hace poco, exfumador hace mucho; requiere por lo tanto 3 Dummy), estudios primarios (cualitativa de dos niveles; sí o no) y actividad física (cuantitativa). Es fundamental comprender que las interpretaciones de los parámetros del modelo cambian totalmente; así, si la variable es cuantitativa tendríamos que “por cada unidad que sube x, y sube…” y si la variable es cualitativa, tendríamos “diferencia respecto del caso Dummy no codificado”. Lo mejor es razonar el caso que viene resuelto. Gráfico de regresión múltiple: 3.Modelo logit o regresión logística. Un primer punto es recordar la diferencia entre odds (los que tienen, los que no) y tasa de incidencia (los que tienen, total). A partir de ello, se define el odds ratio (cociente de odds) y el riesgo relativo (cociente de tasas). Conforme más se parece el cociente a uno, menos afecta el factor (por ejemplo fumar) a la incidencia de la enfermedad (tener cáncer de páncreas). Dicho esto, ya podemos plantear la regresión logística como Ln (p/1 – p) = Ln (odds) = a + bx + cy + cz = Logit (p). Cada coeficiente de la regresión expresa el logaritmo neperiano de la razón de odds. Lo mejor es interpretar un modelo; a partir del mismo se comprende el uso de regresión logística en epidemiología de factores de riesgo o epidemiología clínica. Se mide la posibilidad de responder sistemáticamente a un tratamiento teniendo en cuenta PCR (1, la viremia se negativiza; 0, caso contrario) y la Edad (cuantitativa). 4.Regresión de Cox. Se usa cuando la variable dependiente está relacionada con la supervivencia de los individuos y se desea averiguar simultáneamente el efecto independiente de una serie de variables explicativas o factores pronósticos sobre esta supervivencia, así como comparar diferentes grupos de sujetos. Esta regresión permite saber si una supervivencia más ventajosa es atribuida a un tratamiento teniendo en cuenta la inexistencia (se indican aparte) de factores de confusión. Se usa la tasa de riesgo (Hazard) λ como probabilidad instantánea de fallecer en el momento t. Posteriormente, se calcula el Hazard ratio con interpretación semejante al caso estudiado en el modelo logit. Expresa cuántas veces es más rápida la ocurrencia de la muerte o el suceso estudiado en un grupo o en otro. Es un cociente de dos velocidades. Para ello, analizamos un modelo en el cual se mide el riesgo de que pacientes transplantados cardiacos desarrollen cáncer de piel según sean hombres o mujeres.