8. Comparación de más de dos medias. ANOVA.

Anuncio
8. Comparación de más de dos medias. ANOVA.
1.- Aplicación del ANOVA.
El análisis de la varianza se usa para estudiar la relación entre una variable cualitativa y
una variable cuantitativa. Cada nivel de la variable cualitativa abarca un grupo, y dicha
variable se llama factor. Por ejemplo, un factor puede ser “tipo de fertilizante”; sus
niveles, A, B y C, y la variable dependiente “cantidad de cosecha”.
2.- Supuestos del ANOVA.
Normalidad (residuos, tests de Kolmogorov Smirnov y Shapiro Wilk).
Homogeneidad de varianzas (test de Levene).
Independencia o aleatoriedad de la muestra (test de rachas):
3.- Caso paramétrico.
La hipótesis nula es la igualdad de medias.
La tabla ANOVA es como sigue:
Fórmulas básicas; grados de libertad (k-1, n-k, n-1), suma de cuadrados inter, suma de
cuadrados intra, suma de cuadrados total.
Cuidado, en el caso de existir, con la media ponderada.
De todas formas, a veces es útil realizar un bosquejo con los datos; es lo que se llama
los análisis a priori.
Pueden ser ortogonales (en los que la suma de los coeficientes es cero y sus productos
dos a dos son todos iguales a cero). Son los mejores, ya que abarcan toda la
información de la SCIntra o suma de cuadrados explicada por el modelo.
Un ejemplo típico vendría dado por una variable cualitativa formada por “no fumador,
exfumador, fuma poco, fuma mucho”. Los signos asociados serían: (hay que pensar la
razón) 1 1 -1 -1; 1 -1 0 0, 0 0 1 -1.
En general no hay que saber hacerlos, sólo interpretar la salida y calcular el pvalor.
Aquellos contrastes que no cumplen las propiedades anteriores son no ortogonales y
necesitan un ajuste de Bonferroni (dividir el error de tipo I por el total de contrastes
para compararlo con el p valor), ya que no son tan fiables.
Así, un purista estadístico decidiría, a partir de este bosquejo, sobre la realización del
ANOVA.
Si en el ANOVA aceptamos la hipótesis nula el estudio está terminado, ya que la
variable cualitativa no afecta a la variable cuantitativa. Sin embargo, si rechazamos la
hipótesis es pertinente realizar los contrastes a posteriori, ya que sabemos que el factor
influye, pero no sabemos entre que niveles de factor existen diferencias significativas.
La idea es saber que tipo de fertilizante es mejor.
Estos contrastes pueden ser comparaciones 2 a 2 (con ajuste de Bonferroni), el test de
Scheffé (a ordenador) y el test de Student Newman Keulls.
En Scheffé debemos observar si el pvalor es menor que α y también debemos ver si los
intervalos de confianza entre dos niveles de factor incluyen el cero (en cuyo caso no hay
diferencias entre ambos) o no lo hacen (en cuyo caso sí la hay y viendo los signos del
intervalo sabemos que factor es el más significativo).
El test de Student Neuman Keulls agrupa los niveles de factor en grupos homogéneos
entre sí; en realidad es una pequeña categorización de los datos (por ejemplo, si los
niveles A, B y D están juntos tenemos que son parecidos entre sí).
4. Caso no paramétrico; test de Kruskal Wallis.
Plantea como hipótesis nula la igualdad de medianas. Se aplica si de los supuestos
previos no se cumple el de la normalidad de los datos. Si no se cumple el supuesto de
igualdad de varianzas también se puede aplicar, pero hay otras alternativas como hacer
el ANOVA de siempre y realizar los estudios a posteriori con contrastes no ortogonales
y ajuste de Bonferroni (procedimiento de Tamhane).
En todo caso la tabla es la que sigue;
Hay que tener en cuenta la fórmula fundamental y que el rango medio es n + 1 / 2.
9. ANOVA avanzado. Modelos lineales generalizados y
medidas repetidas.
1. Supuestos previos: se repiten los anteriores.
2. El caso de dos factores ( tipo de fertilizante, clima) ) y de una variable cuantitativa.
2.1 Interacción.
Puede ocurrir que el nivel de un factor influya en el nivel del otro. Es ese caso
no hay otro remedio que hacer un estudio segmentado, los cuales consisten en medir la
influencia de un factor para cada nivel del otro factor. Por ejemplo, supongamos que
tenemos 3 tipos de fertilizantes y 2 tipos de campos, los secos y los húmedos. Puede
ocurrir que un fertilizante funcione mejor con un clima húmedo debido a sus
características. Desde este punto de vista, habría que hacer dos ANOVAS; uno con
clima seco y otro con clima húmedo. Por otro lado, para cada tipo de fertilizante se
podría ver si influye el clima. En este caso sólo habría dos posibilidades; seco y
húmedo.
Gráficos de interacción:
2.2 Caso paramétrico, tabla ANOVA.
La tabla ANOVA tiene la siguiente estructura:
A nivel de fórmulas, hay que tener en cuenta los grados de libertad, k – 1, j – 1,
(k – 1)(j – 1), n – kj, n – 1.
La estructura es idéntica a la anterior y la fórmula de la interacción no la han
pedido, de momento, nunca.
Es fundamental comprender que el primer dato que se analiza es el de la
interacción. Si sale significativa, la tabla no sirve para nada y se hace el estudio
segmentado. En caso contrario, podemos revisar los otros dos efectos para ver si cada
uno de los factores influye o no lo hace.
2.3 Caso no paramétrico: test de Kruskal Wallis para rangos.
Es muy sencillo, es una tabla ANOVA en la cual los datos iniciales se han
reconfigurado y se han sustituido por los rangos. Las cuentas y la interpretación es
siempre la misma
3. El caso de medidas repetidas.
3.1 Caso paramétrico.
La referencia sería partir un campo en tres parcelas y echar a cada una un tipo de
fertilizante, o dar a una persona distintas dietas. En definitiva, los distintos niveles de
factor se asignan siempre al mismo sujeto.
La tabla sería así:
Los grados de libertad son k-1, j-1, (k-1)(j-1), n – 1.
Hay que analizar el efecto de la variable principal (tipo de fertilizante o tipo de dieta).
Lo otra se referencia sólo para que la suma de cuadrados intra (de los errores) no tenga
incluido el efeto de los sujetos.
3.2 Caso no paramétrico, test de Friedmann.
Tan sólo hay que entender que la hipótesis nula es para la igualdad de medianas, que el
estadístico de contraste se compara con un jicuadrado de k – 1 grados de libertad e
interpretar la salida del ordenador.
Saber aplicar la fórmula es de psicópatas.
4. Recopilación de datos que se pueden estudiar mediante los análisis ANOVA
.
Idea: tipo de fertilizante – cantidad de cosecha. Si añado un factor más como el clima
(seco, húmedo) estamos en un ANOVA de dos vías, y si el tipo de fertilizante lo
comparo en muestras del mismo sujeto estoy en medidas repetidas.
10. Regresión y correlación.
1.Objetivo.
El objetivo del tema es estudiar la existencia de relación entre una variable cuantitativa
y otra variable cuantitativa (cantidad de siembra, cantidad de cosecha). Para ello, se
realizan dos tipos de análisis;
a/ La correlación estudia la existencia de asociación entre las dos variables cuantitativas.
Si no hay asociación, el estudio ha terminado. Si la hay, continuamos con el mismo.
b/ La regresión estudia la existencia de una relación causa efecto las dos variables. Su
estudio es más complejo ya que se requieren muchos supuestos previos, y tiene como
objetivo final poder realizar predicciones.
GRAFICOS DE NO ASOCIACIÓN, ASOCIACIÓN Y REGRESIÓN.
2. Correlación.
El cálculo del coeficiente de correlación es largo y complejo. Aunque se usa una
fórmula genérica con varianzas y covarianzas, en principio usaremos la expresión
simplificada, ya que es más sencilla. A dicho coeficiente se le llama r de Pearson. Se
usa si la muestra es cuantitativa, normal e independiente.
Hay que tener en cuenta que la correlación es un valor que va de -1 a +1; conforme más
cercana está a 1 ó -1 más intensa es la relación entre x e y, aunque puede ser según el
signo positiva o negativa.
Además, si las variables examinadas no siguen una distribución normal se usa el rho de
Spearman; aunque los cálculos son más largos, la interpretación es la misma. Como
curiosidad, se debe tener en cuenta que el rho de Spearman da un resultado menor que
el r de Pearson en valor absoluto, lo cual es lógico al ser el test equivalente paramétrico
respecto del anterior.
Cálculo del r de Pearson y Spearman:
Por último, para saber si la correlación es significativa (sea un caso u otro) se usa un test
que plantea como hipótesis nula que la correlación no es significativa.
Ho rpob = 0
El estadístico de contraste es:
Más complejo es el cálculo del intervalo de confianza para la correlación de la
población (el resultado es equivalente al anterior, se acepta Ho si contiene el valor nulo.
3. Regresión.
Este modelo supone que la variable cuantitativa se puede explicar linealmente a partir
de una constante, otra variable cuantitativa multiplicada por una constante y una
perturbación, la cual agrupa al conjunto de valores relacionados con la y (cantidad de
cosecha) que no son x (cantidad de siembra).
Y = α + Βx + u.
En este caso, según la teoría, y es la parte aleatoria (la cantidad de cosecha depende del
azar), los parámetros son valores desconocidos, x es determinista (se supone que hecho
a cada campo la cantidad de siembra que deseo) y la u es el resto de variables que
influye en la cosecha (clima, humedad, número de cucarachas por hectárea…)
Los supuestos previos son múltiples. Sólo debemos tener claro que uno es la normalidad
de los datos y que comprobamos su veracidad a partir del análisis de residuos.
Recientemente en los exámenes ha aparecido algún análisis con heteroscedasticidad (lo
deseable es la homoscedasticidad, igualdad de varianzas) y con correlación (lo deseable
es la ausencia de autocorrelación, que las perturbaciones no estén relacionadas entre sí).
Vemos un ejemplo sencillo de cálculo de la regresión y = a + bx, indicando las fórmulas
principales,
Aunque lo fundamental es saber interpretar las tres salidas básicas a ordenador; una de
resumen, otra de ANOVA y otra de coeficientes. (FUNDAMENTAL).
11. Análisis de supervivencia.
1. Objetivo.
Se trata de estimar la probabilidad de supervivencia individual para un período dado en
un conjunto de personas que sigue cierta enfermedad o tratamiento.
El método usado se denomina de Kaplan Meier, y en principio es un análisis no
paramétrico. El único supuesto pedido es que la censura no sea informativa, es decir,
que la probabilidad de ser censurado no sea distinta según los pacientes presenten mejor
o peor pronóstico.
2. Procedimiento de cálculo de las curvas de supervivencia.
El procedimiento gráfico a seguir consiste en ordenar los datos con respecto al tiempo
de supervivencia, hacer la tabla de supervivencia, calcular para cada período de tiempo
el cociente entre los que sobreviven y están a riesgo de fallecer (s / c) y multiplicar en
cada período los cocientes acumulados. Por último, se representa gráficamente el
modelo de estudio.
Modelo final, notas y fórmulas:
12. Introducción a los modelos multivariables.
1.Objetivo.
No adentramos ahora en desarrollos más complejos, todos ellos dentro de la relación
causa efecto, aunque con matices diferentes. Además, el supuesto “multivariable” indica
un fenómeno nuevo; hasta ahora hemos relacionado una causa con un efecto; a partir de
ahora vamos a relacionar varias causas con un único efecto teniendo en cuenta tres
modelos:
a/ Si la medimos la relación entre diversas variables cuantitativas y otra variable
cuantitativa, estamos en un modelo de regresión múltiple. En el mismo, hay que tener
en cuenta que a menudo hay una variable cuantitativa “principal” y un resto de variables
de “control”.
b/ Si medimos la relación entre diversas variables cuantitativas y una variable
cualitativa dicotómica (tener infarto o no tenerlo, por ejemplo) estamos en un modelo
logit.
c/ Si medimos la relación entre diversas variables cuantitativas y el tiempo en el que
aparece un suceso (enfermedad o muerte, en general) estamos en una regresión de Cox.
2. Regresión lineal múltiple.
Es aquella que relaciona diversas variables cuantitativas con una variable cuantitativa.
Hay que tener en cuenta dos aspectos importantes:
a/ algunas variables pueden ser de control para evitar confusiones (si relaciono el IMC
co la edad hay que separar los factores que están relacionados con el IMC y la edad, ya
que si no la regresión puede ser espuria).
b/ se pueden usar variables independientes cualitativas como el sexo (hombre, mujer)
recodificándolas a variables Dummy o ficticias, de forma que una variable cualitativa
con p características se recodifica en p - 1 variables Dummy, las cuales sólo pueden
tomar dos valores; 1 (“sí”) ó 0 (“no”).
En el ejemplo de referencia estudiamos la relación entre el índice de masa corporal
(IMC), la edad y edad al cuadrado; como variables de control se usan fumar (cualitativa
de 4 niveles; no fumador, fumador, exfumador hace poco, exfumador hace mucho;
requiere por lo tanto 3 Dummy), estudios primarios (cualitativa de dos niveles; sí o no)
y actividad física (cuantitativa).
Es fundamental comprender que las interpretaciones de los parámetros del modelo
cambian totalmente; así, si la variable es cuantitativa tendríamos que “por cada unidad
que sube x, y sube…” y si la variable es cualitativa, tendríamos “diferencia respecto del
caso Dummy no codificado”.
Lo mejor es razonar el caso que viene resuelto.
Gráfico de regresión múltiple:
3.Modelo logit o regresión logística.
Un primer punto es recordar la diferencia entre odds (los que tienen, los que no) y tasa
de incidencia (los que tienen, total).
A partir de ello, se define el odds ratio (cociente de odds) y el riesgo relativo (cociente
de tasas).
Conforme más se parece el cociente a uno, menos afecta el factor (por ejemplo fumar) a
la incidencia de la enfermedad (tener cáncer de páncreas).
Dicho esto, ya podemos plantear la regresión logística como
Ln (p/1 – p) = Ln (odds) = a + bx + cy + cz = Logit (p).
Cada coeficiente de la regresión expresa el logaritmo neperiano de la razón de odds.
Lo mejor es interpretar un modelo; a partir del mismo se comprende el uso de regresión
logística en epidemiología de factores de riesgo o epidemiología clínica.
Se mide la posibilidad de responder sistemáticamente a un tratamiento teniendo en
cuenta PCR (1, la viremia se negativiza; 0, caso contrario) y la Edad (cuantitativa).
4.Regresión de Cox.
Se usa cuando la variable dependiente está relacionada con la supervivencia de los
individuos y se desea averiguar simultáneamente el efecto independiente de una serie de
variables explicativas o factores pronósticos sobre esta supervivencia, así como
comparar diferentes grupos de sujetos.
Esta regresión permite saber si una supervivencia más ventajosa es atribuida a un
tratamiento teniendo en cuenta la inexistencia (se indican aparte) de factores de
confusión.
Se usa la tasa de riesgo (Hazard) λ como probabilidad instantánea de fallecer en el
momento t. Posteriormente, se calcula el Hazard ratio con interpretación semejante al
caso estudiado en el modelo logit. Expresa cuántas veces es más rápida la ocurrencia de
la muerte o el suceso estudiado en un grupo o en otro. Es un cociente de dos
velocidades.
Para ello, analizamos un modelo en el cual se mide el riesgo de que pacientes
transplantados cardiacos desarrollen cáncer de piel según sean hombres o mujeres.
Descargar