A. Morillas: Análisis de la varianza (un factor). Notas de clase . p. 1 ANÁLISIS DE LA VARIANZA (UN FACTOR) Notas de clase Antonio Morillas 1 A. Morillas: Análisis de la varianza (un factor). Notas de clase . p. 2 ÍNDICE 1. Introducción. 2. Modelo de un factor completamente aleatorizado. 3. Procedimientos para comparaciones múltiples. 4. Verificación de las hipótesis básicas. 5. Análisis de la varianza no paramétrico. 2 A. Morillas: Análisis de la varianza (un factor). Notas de clase . p. 3 1. Introducción El análisis de la varianza (ANOVA, de su expresión inglesa), debido a R.A. Fisher, surge, poco después de la 1ª Guerra Mundial, como una técnica encaminada a comparar las medias de más de dos poblaciones, que son observadas en circunstancias experimentales no totalmente controlables u homogéneas. En concreto, inicialmente, parte de los trabajos de este autor en investigación agraria y, por ello, ha incorporado términos propios de esta campo en su desarrollo teórico: tratamiento, factor, unidad experimental, etc. El problema que se plantea Fisher es cómo estudiar si existen o no diferencias (en términos de media) en la respuesta o reacción que tienen un grupo de unidades experimentales ante distintos tratamientos con un determinado factor. Por ejemplo, ¿sería igual la cosecha de trigo (respuesta media), observada en diversos grupos de parcelas (unidades experimentales), si se les somete a distintos niveles (tratamientos) de abonado (factor)?. Si la respuesta es afirmativa y el experimento estadístico ha sido diseñado correctamente, podría concluirse que el nivel de abonado no afecta a la cosecha obtenida. Por el contrario, si hay diferencias significativas en la cosecha media obtenida para cada nivel de abonado, podemos deducir que hay, al menos, un nivel que determina que el volumen cosechado sea distinto de los demás (supongamos que superior) y procederemos a la identificación del nivel que produce esa mayor respuesta. Su singularidad respecto al contraste de la diferencia de medias poblacionales radica, además de que se emplea para comparar más de dos poblaciones, en que se considera que los resultados pueden verse expuestos a efectos de factores no controlables en el experimento: diferentes calidades de suelos, horas de insolación, pendientes, etc., en el ejemplo anterior. Por eso, un objetivo básico del método es aislar y evaluar la incidencia de los errores achacables al propio experimento. El ANOVA ha tenido un gran desarrollo y ha dado lugar a una rama con personalidad propia en el campo de la Estadística: el diseño de experimentos. El análisis de la varianza también puede ser contemplado como un caso especial de regresión (véase el Gráfico 1.1) en que la variable dependiente cuantitativa, Y, que se asume es continua, viene explicada por una variable categórica (cualitativa o 3 A. Morillas: Análisis de la varianza (un factor). Notas de clase . p. 4 cuantitativa, pero agrupada en clases, modalidades o categorías), X, que puede tomar k categorías y que se supone, en principio, se encuentra siempre bajo control del investigador, que decide tales categorías. La variable dependiente, Y, es la respuesta (observación o medida) obtenida para las k categorías (tratamientos o niveles) de la variable explicativa o factor, X, en cada una de las n unidades experimentales que constituyen el tamaño (muestra) del experimento. En el gráfico mencionado, puede observarse como la respuesta media de cada uno de los grupos de 5 unidades experimentales observadas es diferente para cada nivel de factor, mostrando, en este ejemplo, un mayor valor para el nivel o tratamiento C que para el A o el B. Gráfico 1.1 Hablaremos de análisis de la varianza de un factor (one-way), cuando sólo se contempla una sola variable explicativa. Al modelo de dos variables explicativas, siempre observadas por categorías, le llamaremos análisis de la varianza de dos factores (two-way), y así sucesivamente. En esta lección trataremos, exclusivamente, los modelos de uno y dos factores. El modelo más simple (véase Tabla 1) de diseño consiste en suponer que se tiene sólo un factor y que las n unidades experimentales se asignan en forma completamente aleatoria a cada uno de los k≥2 tratamientos (n= n1+ n2+...+ nj+... +nk). Los tamaños muestrales de cada tratamiento no tienen por qué ser iguales. Las respuestas individuales de cada una de las unidades experimentales serán llamadas yij . 4 A. Morillas: Análisis de la varianza (un factor). Notas de clase . p. 5 El objetivo es comparar los efectos medios o respuestas medias, Y. j , que producen los distintos tratamientos o niveles de factor. La hipótesis nula será que las medias poblaciones son iguales, y, por tanto, igual a la media global, frente a la alternativa de que al menos una no lo es: H0: µ1=µ2=...=µj=...µk = µ H1: no todas las µj son iguales Por hipótesis, se supondrá normalidad y varianza igual en las poblaciones. Si se acepta la hipótesis nula, por tanto, concluiremos diciendo que la respuesta es la misma en todas las unidades experimentales y que no se ve afectada por los distintos niveles de factor o tratamientos fijados1 por el investigador. Como es fácil de entender, el contraste estadístico hará uso de las medias muestrales, y se basará, además de esta de normalidad que acabamos de enunciar, en una serie de hipótesis que comentamos a continuación. Unidades Experimentales (n) Tratamientos (Var. Explicativa, X) Hipótesis Respuesta (Var. Dependiente, Y) Muestra: Respuesta observada Totales muestrales Medias muestrales Tabla 1: Análisis de la varianza ••••• ••••••• •••••• ...... • • • • • (n1) • • • • • • • (n2) • • • • • • (nk) X1 X2 Xk ...... Nivel 1 Nivel 2 Nivel k Y1 Y2 Yk ...... N(µ1 , σ) N(µ2 , σ) N(µk , σ) y12 y11 y1k y21 y22 y2k .. .. yi1 yi2 .. .. .. y n11 y n2 2 y nk k T.1 Y.1 T.2 Y.2 ...... ...... ...... .. yik T.k Y.k La realización correcta de un diseño experimental de este tipo tiene su fundamento en dos premisas fundamentales: aleatoriedad y repetición. La primera, en el proceso de asignación de las unidades experimentales a los distintos tratamientos, garantiza la imparcialidad y neutralidad ante la presencia de posibles efectos externos, no controlables por el investigador, que puedan perturbar el experimento. La segunda, mediante la observación de las unidades experimentales, que se supondrán homogéneas, 1 Sólo analizaremos aquí los modelos basados en esta premisa, llamados de efectos fijos. No se verá, por tanto, el modelo bajo la hipótesis de efectos aleatorios, donde los tratamientos se eligen al azar. 5 A. Morillas: Análisis de la varianza (un factor). Notas de clase . p. 6 sometidas a un mismo tratamiento, pondrá de manifiesto los cambios en la respuesta que no son atribuibles a variaciones en los niveles de factor. Es decir, las variaciones aleatorias o error experimental. En estos conceptos se basan los dos diseños básicos de modelos para el análisis de la varianza: • Diseño completamente aleatorio: todas las unidades experimentales son homogéneas y su asignación a los distintos tratamientos (o viceversa) se hace de forma totalmente aleatoria. • Diseño en bloques completamente aleatorio: no todas las unidades son homogéneas, pero es posible agruparlas en bloques homogéneos y asignarles, en cada uno de ellos, de forma totalmente aleatoria, los tratamientos correspondientes. Se trata de limitar el error experimental, evitando, en la forma mencionada, la heterogeneidad de las unidades experimentales en el análisis. Antes de pasar a exponer algunos de los modelos más importantes, digamos que la exigencia de que el investigador planee anticipadamente el experimento, hace que esta metodología tenga pocas posibilidades de aplicarse con rigor a ciencias no experimentales. 2. Modelo de un factor completamente aleatorizado Se corresponde con el tipo de modelo formulado en el apartado anterior. Una sola variable explicativa, o factor, con, al menos, dos categorías o niveles (tratamientos), que producen una respuesta observable en las distintas unidades experimentales o elementos muestrales. Se supone que estos son homogéneos y que se asignan en forma aleatoria a los distintos tratamientos. Se trata, por tanto, de un diseño completamente aleatorizado. El objetivo es comprobar si hay diferencias significativas en la repuesta media para los distintos niveles de factor. Como dijimos, es una extensión del contraste de la diferencia de medias de dos poblaciones normales, con varianzas desconocidas, pero iguales. El objetivo, por tanto, es realizar el contraste siguiente: H0: µ1=µ2=...=µj=...µk = µ 6 A. Morillas: Análisis de la varianza (un factor). Notas de clase . p. 7 H1: no todas las µj son iguales Si rechazamos la hipótesis nula, es que podremos distinguir los efectos que producen los distintos tratamientos. Si la aceptásemos, cualquier discrepancia en las respuestas medias sería achacable al azar, producto del error experimental. La respuesta de la unidad experimental i ante el tratamiento j, yij , será igual a la respuesta media del grupo de las nj unidades experimentales (homogéneas) sometidas a este tratamiento, µj , más el error experimental o efecto aleatorio producido, εij . Puede representarse mediante la siguiente ecuación: yij = µj + εij El efecto diferencial, τj , del tratamiento j respecto al efecto medio global o del conjunto de la muestra, µ , puede escribirse como sigue: τj = µj - µ y el modelo quedaría expresado en los siguientes términos: yij = µ + τj + εij , para j=1, 2,...,k ; i=1, 2,..., nj [1] Se supone que los errores son independientes y se distribuyen normalmente, con media cero y varianza constante: εij ∼ N(0 , σ2) para j=1, 2,...,k ; i=1, 2,..., nj Si trabajamos con la hipótesis de efectos fijos, es decir, si admitimos que los niveles de factor son seleccionados a priori por el investigador, la distribución de la respuesta será la misma que la del error (µ y τj serían constantes). Por tanto, se distribuirá normal e independientemente, pero su media estará desplazada a µj (µ + τj = µj): 7 A. Morillas: Análisis de la varianza (un factor). Notas de clase . yij ∼ N(µj , σ2) para p. 8 j=1, 2,...,k ; i=1, 2,..., nj Las inferencias realizadas con este modelo sólo serán válidas para los niveles que se han seleccionado previamente2. Esta hipótesis, junto con la de unidades experimentales homogéneas, hace que se pueda considerar que se trabaja con la misma población original, pero tratada en k formas diferentes. Las hipótesis de normalidad e independencia de la respuesta, junto con la de varianza constante, necesitan de una verificación previa a la aplicación del análisis. Se ha comprobado que este resulta muy robusto ante la violación de la hipótesis de normalidad, pero que, sin embargo, es muy sensible a la presencia de valores extremos en las muestras (outliers). Por otro lado, si hay diferencias apreciables en las varianzas de los distintos grupos, el test puede resultar afectado. Si, por ejemplo, existe asociación entre los tamaños muestrales, nj , y las varianzas correspondientes, σ 2j , se ha demostrado que el valor muestral del estadístico (veremos que es una F ) tiende a tomar valores muy grandes y, por tanto, a rechazar la hipótesis nula, que, como se ha dicho, es la de igualdad de medias o, de forma equivalente, que los efectos diferenciales son todos nulos: H0 : τ1 = τ2 = ...= τj =...= τk =0 El modelo dado por la ecuación [1], dado que τj = (µj - µ) y εij = (yij - µj ), puede escribirse como sigue: yij = µ + (µj - µ) + (yij - µj ) o, de otra forma, (yij - µ) = (µj - µ) + (yij - µj ) [2] Si observamos con detenimiento, esta ecuación nos está diciendo que la diferencia respecto a la media global de cualquier observación, (yij - µ), se puede descomponer en dos factores: En el modelo de efectos aleatorios, se considera que τj ∼ N(0, σ2). Las inferencias serían válidas para todo el conjunto de la población de niveles. 2 8 A. Morillas: Análisis de la varianza (un factor). Notas de clase . • p. 9 La parte correspondiente a la diferencia inducida por el tratamiento, evaluada por la diferencia de la media del grupo de unidades experimentales sometidas a ese tratamiento a la media global del experimento: (µj - µ). • La diferencia observada en cada una las unidades experimentales sometidas a ese mismo tratamiento respecto a la media dentro del mismo: (yij - µj ). Por las hipótesis vertidas anteriormente (homogeneidad de las unidades experimentales y aleatoriedad en su asignación), esta diferencia será de tipo aleatorio, no explicada por el nivel de factor aplicado o tratamiento, y recogerá el error experimental. Si hubiera un tratamiento que produce resultados diferenciados, la diferencia debida al mismo debería ser suficientemente mayor que la provocada por el error aleatorio. Este será el razonamiento en que, como se verá más adelante, se apoyará el test utilizado para la verificación de la hipótesis de medias iguales. Como no será posible trabajar con los parámetros poblacionales µ y µj , habrá que estimarlos a partir de las correspondientes medias muestrales, que, suponiendo σ2 igual para todos los grupos o niveles, son los mejores estimadores de las correspondientes medias poblacionales. Les llamaremos, respectivamente, Y.. y Y. j . Incorporando a la ecuación [2] estas estimaciones: (yij - Y.. ) = (Y. j − Y.. ) + (yij - Y. j ) Elevando al cuadrado ambos miembros de la igualdad y sumando para i y para j, tendremos: nj k ∑∑ ( y j =1 i =1 k nj k ij nj [ ] − Y.. ) =∑∑ (Y. j − Y.. ) + ( yij − Y.. ) = 2 2 j =1 i =1 k nj k nj = ∑∑ (Y. j − Y.. ) + ∑∑ ( yij − Y. j ) + 2∑∑ (Y. j − Y.. )( yij − Y. j ) j =1 i =1 2 j =1 i =1 2 j =1 i =1 Puede comprobarse que el último sumando de esta última expresión siempre será nulo: 9 A. Morillas: Análisis de la varianza (un factor). Notas de clase . p. 10 nj (Y. j − Y.. )( yij − Y. j ) = ∑ (Y. j − Y.. ) ∑ ( yij − Y. j ) = 0 ∑∑ j =1 i =1 j =1 i =1 k nj k ya que la expresión entre corchetes es la suma de las diferencias respecto a su media de los valores de las observaciones del grupo o tratamiento j. Por tanto, finalmente, queda: k nj ∑∑ ( y j =1 i =1 ij k nj k nj − Y.. ) = ∑∑ (Y. j − Y.. ) + ∑∑ ( yij − Y. j ) 2 2 j =1 i =1 2 [3] j =1 i =1 Esta es la ecuación fundamental del análisis de la varianza. Nos dice que la suma total de cuadrados (STC) de las desviaciones en la respuesta de las unidades experimentales, con respecto a la media global del experimento, se descompone en dos sumandos: • El primero, representa la suma de cuadrados de las desviaciones respecto a la respuesta media global producidas por los distintos tratamientos (SCTR), en términos de la diferencia de sus correspondientes respuestas medias respecto a dicha media global. Es decir, la suma de cuadrados de las diferencias entre grupos. • El segundo, recoge la suma de cuadrados de las desviaciones en la respuesta de cada unidad experimental con respecto a la media obtenida dentro del tratamiento (grupo, muestra) a que ha sido sometida. Es decir, la suma de cuadrados de los errores experimentales (SCE) observados dentro de cada grupo. Así, pues, de la expresión STC = SCTR + SCE , puede concluirse que las variaciones totales en la respuesta (STC) se explican por los efectos de las variaciones inducidas por los distintos tratamientos (SCTR), más una componente residual que recoge las variaciones debidas al error experimental (SCE). Si las respuestas medias para los distintos tratamientos son iguales entre sí, entonces SCTR=0, y todas las variaciones en la respuesta se deben, exclusivamente, al error experimental (aleatorio). Para un valor grande de SCTR, mayor serán las diferencias existentes entre las medias de los tratamientos y la global. Los distintos niveles de factor (valores o modalidades de la variable explicativa), en tal caso, explicarían, en principio, las variaciones en la respuesta (variable dependiente). 10 A. Morillas: Análisis de la varianza (un factor). Notas de clase . p. 11 Si todas las respuestas son iguales dentro de todos y cada uno de los tratamientos o grupos, entonces SCE=0. Absolutamente todas las variaciones en la respuesta se deberían al efecto de los tratamientos. Ambos sumandos, dada una suma total de cuadrados, juegan de forma inversa: a un mayor valor de SCTR le corresponde un valor menor de SCE, y viceversa. Cuanto mayor sea el primero respecto al segundo, tantas más razones habrá para rechazar la hipótesis nula de que las respuestas medias son iguales. Por consiguiente, el cociente SCTR/SCE , puede ser un estadístico adecuado para llevar a cabo el contraste de dicha hipótesis3. No es excesivamente complicado demostrar que k nj k k SCTR σ 2 =χ 2 k −1 . Veamos: [ ] SCTR = ∑∑ (Y. j − Y.. ) 2 = n j ∑ (Y. j − Y.. ) 2 = ∑ n j (Y. j − µ ) − (Y.. − µ ) = j =1 i =1 j =1 2 j =1 k k j =1 j =1 = ∑ n j (Y. j − µ ) 2 + n(Y.. − µ ) 2 − 2∑ n j (Y. j − µ )(Y.. − µ ) = k = ∑ n j (Y. j − µ ) 2 − n(Y.. − µ ) 2 , ya que j =1 Por consiguiente, SCTR σ2 k ∑n j =1 Y −µ = ∑ .j j =1 σ / n j k j (Y. j − µ )(Y.. − µ ) = n(Y.. − µ ) 2 2 Y − µ 2 − .. , es una suma de los σ / n cuadrados de variables independiente y normalmente distribuidas4, con µ=0 y σ=1. Se trata, por tanto, de una distribución Chi-cuadrado con k-1 grados de libertad. Tampoco k nj es difícil demostrar SCE = ∑∑ ( yij − Y. j ) 2 , y se sabe que j =1 i =1 que SCE σ 2 =χ 2 n−k . Se ha visto que n j 1 1 SCE j , por lo ( yij − Y. j ) 2 = sˆ j = n j − 1 ∑ nj −1 i =1 2 Se puede demostrar que E(SCTR/k-1)=σ2+(1/k-1)∑jnjτj2, que es mayor que E(SCE/n-k)=σ2. La región crítica del test estará, por tanto, situada a la derecha de la distribución de este estadístico. 3 4 Las Y. j son medias muestrales provenientes de una distribución N(µ , σ2) y, por tanto, su distribución es N(µ , σ2/nj). 11 A. Morillas: Análisis de la varianza (un factor). Notas de clase . que k 2 j =1 j ∑ (n j −1)sˆ p. 12 = SCE . Si dividimos por σ2 , teniendo en cuenta que las k muestras son independientes, tendremos lo siguiente: k ∑ (n j − 1) sˆ 2j σ2 j =1 ya que k ∑ (n j =1 j = SCE σ2 →χ 2 n−k − 1) = n − k . Se puede demostrar que SCTR y SCE son independientes, por lo que, ( SCTR / σ 2 ) / k − 1 ( SCE / σ 2 ) / n − k = χ 2 / k −1 CMTR → 2k −1 → Fk −1,n − k CME χ n −k / n − k siendo, CMTR y CME los cuadrados medios de los tratamientos y los cuadrados medios del error, respectivamente5. Así, pues, el test de la F de Snedecor será el adecuado para contrastar la hipótesis de que las respuestas medias de los tratamientos son iguales, frente a la alternativa de que al menos una no lo es: H0: µ1=µ2=...=µj=...=µk=µ H1: no todas las medias son iguales Cuanto mayor sea la suma de cuadrados explicadas por los tratamientos, o variación entre grupos, en relación a la explicada por los errores, o variaciones dentro de los grupos, más evidente es que las respuestas medias a los diferentes tratamientos no son iguales. Rechazaremos la hipótesis nula con valores suficientemente grandes de la F observada, situándose la región crítica del test, por tanto, en la cola derecha de la distribución F. La F observada vendrá dada por la siguiente expresión: k Fobs = CMTR = CME nj ∑∑ (Y .j − Y.. ) 2 / k − 1 ij − Y. j ) 2 / n − k j =1 i =1 nj k ∑∑ ( y j =1 i =1 Pueden obtenerse fórmulas de cálculo más sencillas para las diferentes sumas de cuadrados que intervienen en el análisis, desarrollando convenientemente las Obsérvese que SCTR estima σ2 , a través de la distribución de las medias, [k. (σ2/k)= σ2], mientras que SCE hace lo mismo en la distribución de las respuestas. La distribución muestral de un ratio de este tipo es una distribución F central, si la hipótesis nula de igualdad es cierta. La hipótesis alternativa es que esta F no es central sino tumbada hacia la derecha (parámetro de no centralidad, τ 2j , significativamente 5 ∑ distinto de cero), que es, precisamente, el contraste ya visto anteriormente. 12 A. Morillas: Análisis de la varianza (un factor). Notas de clase . p. 13 expresiones iniciales. Dejamos su obtención como ejercicio para el alumno, que debe obtener las siguientes expresiones finales: nj k k k T. 2j j =1 nj SCTR = ∑ ∑ (Y. j − Y.. ) = ∑ n Y − nY.. = ∑ 2 j =1 i =1 nj k 2 j .j j =1 nj k 2 k − nj T..2 n STC = ∑∑ ( y ij − Y.. ) = ∑∑ y − nY.. = ∑∑ y ij2 − 2 j =1 i =1 j =1 i =1 2 ij 2 j =1 i =1 T..2 n SCE = STC − SCTR Es usual presentar los resultados obtenidos en forma de una tabla, cuyo contenido es el siguiente: Fuente de variación Grados de libertad Tabla ANOVA Suma de cuadrados k -Tratamientos (Entre grupos) k-1 -Error (Dentro grupos) n-k ∑∑ (Y j =1 i =1 k n-1 .j nj ∑∑ ( y − Y.. ) 2 j =1 i =1 Fobs = − Y. j ) 2 ij − Y.. ) 2 ⇒ η2 =R2=(SCTR/STC) nj ∑∑ ( y SCTR/k-1 F observada ij j =1 i =1 k Total nj Cuadrados medios CMTR CME SCE/n-k El sígnificado de η2 (eta cuadrado) es similar al de R2 en el análisis de regresión, ya que da el porcentaje de variabilidad en la respuesta que viene explicado por el factor o variable explicativa. Finamente, como se pone de manifiesto en la nota a pié de página número 3, hay que señalar que los cuadrados medios del error (SCE/n-k), es el mejor estimador de la varianza poblacional (σ2). 3. Procedimientos para comparaciones múltiples. Si la hipótesis nula, de igualdad de medias, resulta rechazada, la cuestión inmediata que surge es como localizar cuáles son los grupos o tratamientos que tienen medias diferentes. Es necesario, por tanto, realizar un análisis ex post, con objeto de encontrar la media o medias que resultan ser diferentes y por las que la hipótesis nula es rechazada. 13 A. Morillas: Análisis de la varianza (un factor). Notas de clase . p. 14 Hay diversas propuestas para llevar a cabo este procedimiento de comparación entre múltiples medias: Mínima Diferencia Significativa (LSD, en inglés), Bonferroni, Tukey, Scheffé, Duncan, ...). El primero no garantiza el mantenimiento del nivel de significación para el conjunto del experimento. Los demás son soluciones de compromiso entre el cumplimiento de esta garantía y la pérdida de potencia del test que generalmente supone su aplicación. Vamos a ver, a continuación, el procedimiento de la Mínima Diferencia Significativa (MDS), propuesto por Fisher. Sean Y. j e Y.l , respectivamente, las medias muestrales de los grupos o tratamientos j y l . Su diferencia será un estadístico muestral cuya distribución, como ya conocemos, será la siguiente: (Y. j − Y.l ) − ( µ j − µ l ) σ (Y ≈ N (0,1) . j −Y. l ) dónde, σ (Y . j −Y. l ) = σ 2 Y. j +σ 2 Y. l = σ Y2 .j nj + σ Y2 .l nl =σ 1 1 + n j nl suponiendo que se cumple la hipótesis, formulada anteriormente, de que la respuesta se distribuye normalmente con media µ y varianza σ2 , constante e igual en todos los grupos o tratamientos (homoscedasticidad). Como σ2 es desconocida, la estimaremos mediante los cuadrados medios de los errores o error cuadrático medio, que se demuestra es su mejor estimador insesgado. Es decir, sˆ 2 = SCE . Por lo tanto, según se sabe, n−k (Y. j − Y.l ) − ( µ j − µ l ) 1 1 sˆ + n j nl ≈ t n −k Mediante este estadístico, se puede establecer un intervalo de confianza del 100(1-α)% para cualquiera diferencia de medias: 14 A. Morillas: Análisis de la varianza (un factor). Notas de clase . p. 15 1 1 + (Y. j − Y. j ) ± t n −k ,α / 2 . sˆ n j nl Si el intervalo contiene el valor cero, la diferencia de medias no será significativa. Es posible plantear este procedimiento de otra forma. Supongamos que H0 es cierta (por tanto, µj = µl ), y sea tn-k,α/2 el valor del estadístico correspondiente al punto crítico del test, con un nivel de significación α. Se puede afirmar que en este punto, según la fórmula que expresa la distribución de tn-k, la diferencia de medias viene dada por la siguiente ecuación: Y. j − Y.l = t n −k ,α / 2 . sˆ 1 1 + n j nl Puesto que α, nj y nl son constantes, punto crítico del test y diferencia de medias se determinan mutuamente, pudiendo afirmarse que esta es la discrepancia máxima permitida en cualquier pareja de medias para no considerarlas como diferentes, dado un nivel de significación α para realizar el contraste. Así, pues, puede afirmarse que la diferencia mínima (MDS) a partir de la cual estamos dispuestos a rechazar la igualdad entre las dos medias consideradas, viene dada por la expresión: MDS = t n −k ,α / 2 . sˆ 1 1 + n j nl Cualquier valor superior nos llevaría a rechazar la hipótesis de igualdad de las dos medias sometidas a comparación. Esta expresión también puede ser escrita en la forma que sigue: 1 1 1 1 MDS = + . sˆ 2 . t n2− k ;α / 2 = + . CME . F1, n − k ;α n n j nl j nl Es preciso obtener el valor de esta expresión para cada una de las k(k-1)/2 comparaciones repetidas de medias que son necesarias realizar, lo que en la práctica supone repetir ese número de veces el contraste de la t que ya se viera en capítulos anteriores. 15 A. Morillas: Análisis de la varianza (un factor). Notas de clase . p. 16 Sin embargo, hay un caso especial en que es posible simplificar todo este procedimiento. Si se trata de un diseño experimental equilibrado (igual número de observaciones o unidades experimentales en cada grupo o tratamiento), entonces resulta que nj = nl = m , la igualdad anterior quedaría como sigue: MDS = t n −k ;α / 2 . sˆ 2 m = 2 . CME . F1,n − k ;α m En tal caso, los cálculos se simplifican bastante, ya que el valor obtenido para la MDS, con el nivel de significación dado para obtener el valor de la F, sirve como única referencia para contrastar todas las diferencias de medias. El intervalo de confianza único sería el siguiente: (Y. j − Y.l ) ± MDS Si el valor cero está dentro del intervalo formado, aceptaremos la hipótesis nula, de igualdad de medias. En caso contrario, la rechazaremos. Visto de otra forma, sólo si Y. j − Y.l ≤ MDS aceptaremos H0. Es evidente que, en este caso, los cálculos se simplificarían enormemente. El procedimiento lógico es, en primer lugar, ordenar las medias, de menor a mayor valor. A continuación, se comienzan las comparaciones por las dos medias más alejadas entre sí, continuando con este criterio hasta que se encuentre una diferencia no significativa. En este momento puede ahorrarse el esfuerzo de continuar con los contrastes, puesto que no será posible encontrar ninguna pareja de medias que sea diferente, al ser su diferencia siempre menor que la primera hallada como no significativa. Sin embargo, este método de la MDS tiene un inconveniente. Obsérvese que si el error de Tipo I en el contraste se estableciera como α=0,05 y hubiera k grupos, el número esperado de diferencias que resultarían significativas, a pesar de que la hipótesis nula de igualdad fuese cierta, sería 0,05[k(k-1)/2], ya que α es la probabilidad de rechazar la hipótesis nula siendo cierta y [k(k-1)/2] el número total de comparaciones que se pueden realizar. Bastaría con que k tomase un valor suficientemente grande para que se pudiesen extraer falsas conclusiones, encontrándose excesivas parejas con diferencias significativas. Ello se debe a que el error de Tipo I en los sucesivos 16 A. Morillas: Análisis de la varianza (un factor). Notas de clase . p. 17 contrastes con el estadístico t, es el error de cada comparación en particular, pero no es el error para el conjunto del experimento. Por ejemplo, si tuviéramos cinco tratamientos, suponiendo que α=0,05, la probabilidad de rechazar la hipótesis nula en una comparación específica, siendo falsa, sería (1-α)=0,95. Si suponemos que los tests son independientes, tal probabilidad para el conjunto del experimento (10 comparaciones) vendría dada por (0,95)10=0,60. El verdadero valor global de α, para todas las comparaciones, sería de 0,4 y no el 0,05 requerido. Su autor recomienda, por tanto, que sólo se aplique si se rechaza la hipótesis nula, de igualdad de medias, con el test F, para un nivel α de significación (test de la MDS “protegido”). En estas circunstancias se ha demostrado que es un test bastante efectivo. Se han aportado procedimientos alternativos que intentan reducir el error de Tipo I para el conjunto del experimento y generalizar la posibilidad de comparaciones entre subconjuntos de medias. Los de Bonferroni, Scheffé y Tukey, quizás sean los más conocidos y vienen incorporados en la mayoría de los paquetes estadísticos para ordenador personal. Cada uno debería aplicarse en el caso para el que está más indicado, careciendo de sentido la aplicación indiscriminada y simultánea de todos ellos. A continuación, vamos a definir los tests propuestos por estos autores. Aproximación de Bonferroni: Se puede demostrar que si α es el nivel de significación propugnado para todo el experimento y α* el correspondiente a cada contraste entre dos medias particulares, se cumple que α≤α*[k(k-1)/2]. Con base en esta desigualdad, Bonferroni propone que para cada una de las comparaciones se tome el nivel de significación dado por α* = α /[k(k-1)/2] Por tanto, para un nivel global de significación α, el intervalo de confianza para la igualdad de dos medias se definiría como sigue: (Y. j − Y.l ) ± t n −k ,α * / 2 . sˆ 1 1 + n j nl Si el número de comparaciones ([k(k-1)/2]) es relativamente grande, para un valor de α dado, lo normal es que α* sea muy pequeño. Por lo tanto, rechazar la igualdad de las dos medias se hace bastante más difícil que en las comparaciones 17 A. Morillas: Análisis de la varianza (un factor). Notas de clase . p. 18 individuales del método anterior (MDS). Suele aconsejarse utilizar este test de Bonferroni cuando el número de comparaciones no es muy elevado, dejando para estos casos otros procedimientos como el de Scheffé, por ejemplo. Aproximación de Scheffé: Es el procedimiento más conservador para contrastar si las diferencias de medias son significativas y persigue que el error de Tipo I para el experimento en su conjunto sea α en todos los posibles contrastes que se puedan realizar entre las medias, no sólo por parejas, sino, también, entre subconjuntos de medias. En este sentido es el más flexible, aunque está más indicado para contrastes planificados (diseñados ex ante por el investigador). El intervalo de confianza que propone para ello viene dado por la siguiente expresión: 1 1 (Y. j − Y.l ) ± sˆ. ( k − 1). Fk −1,n −k ;α . + n j nl Obsérvese el parecido de esta expresión con la formulada para la MDS, cuando se utiliza el estadístico F en los cálculos. En este caso, aparece con los grados de libertad de SCTR, k-1, y viene multiplicada por este mismo valor. Aproximación de Tukey: Esta alternativa utiliza para las comparaciones entre medias la distribución de rangos studentizada y, en principio, supone que el experimento es equilibrado, lo que es una restricción para su aplicación generalizada6; es decir, que los tamaños de las k muestras son iguales (m). El rango studentizado se define como la distribución muestral del rango de la muestra dividido por la desviación éstándar estimada. Si sˆ 2 = CME y el rango se basa en las medias de muestras de tamaño m, este estadístico se define como sigue: q= (Ymax − Ymin ) sˆ 2 m 6 Hay quien sostiene que, para tamaños muestrales no muy distintos, este test es muy robusto y es posible su utilización. En tal caso, hay que hacer m=n/k , siendo n el tamaño del experimento. 18 A. Morillas: Análisis de la varianza (un factor). Notas de clase . p. 19 Si se toma un valor crítico de esta distribución para una comparación entre parejas de medias, obtendríamos el nivel de significación apropiado para el peor de los casos posibles de diferencias entre medias. Por tanto, parece razonable aceptar que tal nivel sería el adecuado para todas las comparaciones posibles entre medias, es decir, para el conjunto del experimento. La distribución de este estadístico depende del número de medias (k), de los grados de libertad del error cuadrático medio (gl=n-k) y del nivel de significación (α). Conocido el valor crítico, qα(k,gl), se puede calcular el estadístico llamado W de Tukey o, también, “diferencia honestamente significativa”, como sigue: W = qα ( k , gl ) CME m Tomando este valor como referencia, cualquier pareja de medias cuya diferencia sea mayor al mismo se aceptará como significativamente diferentes. 19 A. Morillas: Análisis de la varianza (un factor). Notas de clase . p. 20 4. Verificación de las hipótesis básicas. Se ha visto como la comparación de las múltiples medias en el análisis de la varianza concluye con un test, basado en la distribución F de Snedecor. La validez de este test, sin embargo, depende del cumplimiento de las hipótesis básicas que se han formulado sobre el modelo. Así, la violación de la hipótesis de normalidad y/o independencia en la respuesta y en los errores echaría por tierra la distribución Chicuadrado que se obtuvo para las sumas de cuadrados, y, por tanto, el test F realizado finalmente. La existencia de heteroscedasticidad (varianzas distintas en los tratamientos) puede hacer que el valor de las sumas de cuadrados no se deba exclusivamente a los distintos niveles de factor. Si la asignación de las unidades experimentales no se hace al azar, puede que los errores no se distribuyan en forma aleatoria, etc. Hay un enfoque sencillo, gráfico, para estudiar el cumplimiento de estas hipótesis, que es observar el comportamiento de los errores. De cualquier forma, es posible aplicar cualquiera de los test de normalidad y aleatoriedad, ya estudiados en el contexto de los contrastes no paramétricos. Veamos algunas propuestas simples, incorporadas en la mayoría de los paquetes estadísticos. a) Normalidad. Como se acaba de comentar, una alternativa válida sería hacer el contraste de Kolmogorov-Smirnov-Lilliefors. Otra vía de análisis es la utilización del análisis exploratorio de datos, utilizando instrumentos tales como los diagramas de barras, gráficos de tallos y hojas (stem and leaf), para observar la forma de una distribución, o los de cajas (box-and-wisker), que suelen ser bastante útiles para detectar valores extraños. Estos análisis es conveniente realizarlos mediante la distribución de los errores o residuos (yij - Yi. ), ya que, al ser yij=µ+τj+εij, los valores observados en la respuesta tendrán las características de las distribución de (τj+εij) y sólo la distribución de los residuos (estimación de los errores) nos podrá informar sobre el cumplimiento o no de las hipótesis básicas del modelo formulado. 20 A. Morillas: Análisis de la varianza (un factor). Notas de clase . p. 21 Se suelen utilizar, también, los llamados diagramas o gráficos Q-Q (cuantilcuantil), en los que, en general, los cuantiles de una muestra se representan en relación a sus valores esperados en una distribución 3.5 RESIDUOS ESPERADOS 2.5 normal. Este gráfico debería dar lugar a una 1.5 línea recta y estar comprendidos en el 0.5 -0.5 intervalo (-3,+3), si los datos proceden de -1.5 -2.5 -3.5 -3.5 -2.5 -1.5 -0.5 0.5 1.5 2.5 3.5 RESIDUOS OBSERVADOS 3.5 residuos RESIDUOS ESPERADOS 2.5 observados, previamente estandarizados (εij / (CME)1/2), se colocan en 1.5 0.5 -0.5 el eje de abscisas y los esperados, según la -1.5 distribución normal tipificada, se toman en el -2.5 -3.5 -3.5 una población distribuida normalmente. Los -2.5 -1.5 -0.5 0.5 1.5 2.5 RESIDUOS OBSERVADOS Figura 4.1 3.5 eje de ordenadas. Una nube de puntos próxima a una línea recta, hará plausible la hipótesis de normalidad en los residuos y, por tanto, en la respuesta. Por el contrario, cualquier desviación de esta pauta de comportamiento indicará una desviación de la hipótesis de normalidad. Además, valores muy alejados del recorrido propio de una normal tipificada, (-3,+3), pueden indicar la presencia de valores extremos en la muestra (outliers), también detectables, como se ha dicho anteriormente, mediante los gráficos de cajas (box-and-whisker plots). La figura 4.1 recoge dos casos de análisis de residuos. En el primero de ellos, la hipótesis de normalidad es aceptable; en el segundo, además del comportamiento no aleatorio de los residuos, su alejamiento de la recta, indicaría una desviación de la normalidad. El test F es muy robusto ante la violación de la hipótesis de normalidad. Los efectos, por tanto, del incumplimiento de esta hipótesis no suelen ser, en general, importantes. Tales efectos se manifiestan, especialmente, ante una desviación fuerte en la asimetría de la distribución o la existencia de valores extremos. Claro que, en tales casos, las medias no deberían de ser utilizadas como valores representativos de la tendencia central en la población y carecería de interés hacer inferencias sobre ellas. Por otro lado, si el tamaño muestral de los tratamientos es suficientemente grande, siempre se puede aplicar el teorema central del límite a la distribución muestral de la media, que, como se sabe, se distribuirá normalmente, aunque la población de origen no sea normal. En cualquier caso, pueden intentarse transformaciones de los 21 A. Morillas: Análisis de la varianza (un factor). Notas de clase . p. 22 datos que conduzcan a la normalidad o, finalmente, acudir al análisis de la varianza no paramétrico, mediante el test de Kruskal-Wallis, basado en la comparación múltiple de las medianas, que veremos más adelante. b)Homoscedasticidad (igualdad de varianzas). Si las varianzas de los grupos no son iguales, las sumas de cuadrados obtenidas podrían tomar valores distintos sólo porque la variabilidad respecto a la media (varianza) en cada grupo es diferente y no porque los niveles medios de factor difieran de uno a otro grupo o tratamiento. En este caso, no todas las poblaciones tendrán la misma varianza y no se debería usar la varianza del conjunto del experimento como una estimación del correspondiente parámetro poblacional, que se supone igual pata todas ellas. En consecuencia, el test F (cociente entre dos estimadores de varianzas que se suponen iguales) deja de ser válido. Hay que decir que aquí, también, el DESVIACIONES ESTANDAR test F se comporta en forma robusta, especialmente si los tamaños de las muestras son similares, siendo, como máximo, la mayor el doble de la menor (la MEDIAS (r=0,96) distribución muestral de las varianzas, especialmente para muestras pequeñas, es DESVIACIONES ESTANDAR muy dispersa, por lo que importantes diferencias muestrales en las varianzas pueden no ser estadísticamente significativas). Los problemas graves se producen cuando hay una relación entre MEDIAS (r=0,05) medias y varianzas. Figura 4.2 Una forma sencilla de detectar posibles problemas de este tipo es mediante el gráfico desviación típica-media (véase la figura 4.2), que pone en evidencia la posible existencia de correlación entre las varianzas y las medias de los tratamientos. Otros procedimientos aplicables son la 22 A. Morillas: Análisis de la varianza (un factor). Notas de clase . p. 23 comparación de la dispersión de los residuos por tratamientos, mediante los correspondientes gráficos de cajas o, si las muestras son muy pequeñas y lo anterior no es significativo, la representación de la secuencia de los mismos que, en caso de violación de esta hipótesis de homoscedasticidad, suele dar una distribución asimétrica. De existir, puede afirmarse que es muy negativo para la fiabilidad del test F, puesto que tiende a inflar el nivel de significación, rechazando la igualdad de medias. Por ejemplo, puede ocurrir que la única media diferente a las demás, la mayor de todas, sea la procedente de la muestra que, también, presenta mayor varianza. El test F podría dar como significativa la diferencia de esta media, mientras que un test t en esa muestra sobre el valor poblacional de la media, proponiendo como tal en la hipótesis nula alguna de las observadas en los otros grupos, no arrojaría diferencias estadísticamente significativas, dada la gran variabilidad que existe en el mismo y el consiguiente reflejo que este hecho tendría en el tamaño del intervalo de confianza obtenido. Este hecho suele ocurrir cuando hay valores extremos (outliers) en los datos. Basta con que existan uno o dos valores de este tipo en una muestra con pocas observaciones, para que se eleve fuertemente la media y, también, la varianza. Ello conduciría a detectar, inadecuadamente, una media diferente a las demás y un valor observado de la F superior a lo normal, provocado por la gran varianza (cuadrados medios) de esta muestra o tratamiento. Sin embargo, eliminando los valores extraños, la hipótesis nula de igualdad de medias sería, probablemente, aceptada. En cualquier caso, si se piensa que se puede estar en presencia de varianzas distintas, es recomendable realizar un test de hipótesis para verificarla. Hay diferentes test para contrastar la hipótesis de igualdad de varianzas: Cochran, Bartlett-Box, Hartley, entre otros. Todos ellos descansan en la hipótesis de normalidad. Uno de los más utilizados es este último, llamado Fmax de Hartley, que será el que veremos a continuación. Se basa, el test de Hartley, en el cociente entre la mayor y la menor de la varianzas muestrales. Bajo la hipótesis nula, de que las varianzas son iguales, este autor obtuvo los valores críticos del test, en función del número de varianzas incluídas en el test, k, y de n − 1 , siendo n el tamaño muestral medio de los tratamientos o muestras (si no es entero se tomará sólo la parte entera): 23 A. Morillas: Análisis de la varianza (un factor). Notas de clase . H= p. 24 sˆmax → Fmax;k ,n −1 sˆmin Cuanto mayor sea este cociente, mayor será la posibilidad de rechazar la hipótesis de igualdad de varianzas. Los valores críticos del test están tabulados. Como se acaba de decir, el cumplimiento de la hipótesis de normalidad es una exigencia para la utilización del test. En caso de incumplimiento, debe aplicarse otro procedimiento. El estadístico C de Cochran es muy similar al anterior y, también, está tabulado. Su definición es la siguiente: C= 2 sˆmax k ∑ sˆ 2 j j =1 Por último, el estadístico B de Bartlett, de complicada expresión que no reproducimos, sigue una distribución χ k2−1 . Una ulterior transformación posibilita una aproximación (Bartlett-Box) a una distribución F. Los tres contrastes suelen venir en los programas estadísticos más conocidos, por lo que basta observar el nivel de significación (p-value) obtenido y, con esta información, tomar la decisión de aceptar o rechazar la hipótesis nula, que en todos los casos es la de igualdad de las varianzas. Si las diferencias entre varianzas son producidas por la existencia de algún tipo de relación entre la respuesta y alguna característica de las unidades experimentales (por ejemplo, magnitudes económicas que varían en porcentajes, mayor variabilidad de la longitud de una planta grande que de una pequeña, etc.), es muy posible la relación entre la desviación estándar y la respuesta media. En este caso, puede ser útil recurrir a transformar los valores de las observaciones, intentando que cumplan las hipótesis básicas. En este sentido, se pueden realizar algunas transformaciones que tiendan a equilibrar las varianzas. Por ejemplo, si la media es proporcional a σ, el modelo logarítmico sobre las yij evitaría el problema. Si la proporción fuese respecto a σ2, se debería tomar la raíz cuadrada de yij . En caso de datos expresados en proporciones o porcentajes, se aconseja tomar arcsen( y ij ). Estas transformaciones suelen venir incluidas en las opciones de algunos paquetes estadísticos. 24 A. Morillas: Análisis de la varianza (un factor). Notas de clase . p. 25 c) Independencia. Otra hipótesis básica que se debería contrastar, porque, como las anteriores, puede afectar al test F utilizado en la 0.25 tabla ANOVA, es si las muestras RESIDUOS 0.15 tomadas 0.05 para cada de tratamientos son -0.05 observaciones -0.15 aleatorias. Si esta hipótesis no se cumple, -0.25 0 1 2 3 4 5 6 7 8 9 10 11 12 OBSERVACIÓN no es posible o grupo garantizar que las respuestas, yij , sean independientes. 3.5 2.5 RESIDUOS 1.5 Cualquiera de los tests estudiados 0.5 en otras lecciones (test de rachas, por -0.5 -1.5 ejemplo) para detectar la aleatoriedad, -2.5 -3.5 0 1 2 3 4 5 6 7 8 9 10 11 12 sería de aplicación a este fin. OBSERVACIÓN Figura 4.3 Generalmente, se utilizan los residuos para llevarlos a cabo. El empleo de gráficos de residuos, de nuevo, puede ser útil para detectar un posible comportamiento no aleatorio de los mismos y, por tanto, de la respuesta: si se distribuyen de forma aleatoria, sin sistemática alguna, a lo largo del eje de abscisas, y su media es aproximadamente cero, podremos deducir que existe independencia. Sin embargo, un comportamiento según cierto modelo, deducible de la visión del gráfico, debe hacernos pensar en la posibilidad de un comportamiento no aleatorio en la respuesta (véase la figura 4.3). 25 A. Morillas: Análisis de la varianza (un factor). Notas de clase . p. 26 5. Análisis de la varianza no paramétrico. Cuando la hipótesis de normalidad no se cumple, pero se supone que los k≥2 tratamientos tienen la misma distribución, existe la posibilidad de verificar si hay una respuesta diferenciada ante los tratamientos, utilizando un test no paramétrico de localización para k muestras aleatorias independientes. Los niveles de respuesta se miden, ahora, mediante las correspondientes medianas. Para el diseño de un factor completamente aleatorizado suele utilizarse el test de Kruskal-Wallis, mientras que para el modelo en bloques el test más generalizado es el de Friedman. Test de Kruskal-Wallis El test de Kruskal-Wallis es un test no paramétrico que se utiliza para comparar tres o más muestras. La hipótesis a contrastar es que todas las poblaciones tienen la misma función de distribución, frente a la alternativa de que al menos dos difieren en su localización (mediana). Es un test análogo al utilizado en el análisis de la varianza (ANOVA) para un diseño completamente aleatorizado, por lo que puede considerarse un ANOVA no paramétrico, pero que no depende, como aquel, de la hipótesis de que todas las poblaciones que se someten a comparación se distribuyen normalmente. Sólo se supondrá que las poblaciones tienen la misma distribución. Se puede considerar como una extensión lógica del test de Wilcoxon-Mann-Whitney al caso de más de dos (k) poblaciones, pudiéndose obtener dicho test a partir de este de Kruskal-Wallis sin más que particularizar para k=2. Su finalidad, como acabamos de decir, es la verificación de la igualdad de las medianas, M, de los k grupos o tratamientos. La hipótesis a contrastar es, por lo tanto, H0 : M1= M2=...= Mk H1 : no todas son iguales El desarrollo del test es relativamente fácil y exige menos cálculos que los necesarios para completar una tabla ANOVA. Los pasos a seguir para la aplicación del test son los siguientes: 26 A. Morillas: Análisis de la varianza (un factor). Notas de clase . p. 27 Test de Kruskal-Wallis Muestras (Tratamientos) 1 2 .. k y11(r11) y12(r12) .. y1k(r1k) y21(r21) y22(r22) .. y2k(r2k) .. .. .. .. y n11 ( rn11 ) y n2 2 ( rn2 2 ) .. y nk k ( rnk k ) Suma rangos R.1 R.2 .. R.k Medias rangos R.1 R.2 k nj j =1 i =1 j =1 R.k k R.. = ∑ R. j = ∑∑ rij = 1 + 2 + ... + n = n(n + 1) 2 1.- De ser cierta la hipótesis nula, puede afirmarse que las distintas muestras provienen todas de una misma población. Por tanto, podemos considerar las k n = ∑ n j observaciones del experimento como elementos de una muestra única que j =1 ordenaremos de menor a mayor. 2.- Se asigna el correspondiente rango, rij , a cada una de las observaciones, yij. De existir valores iguales, se sigue el mismo criterio que en el test no paramétrico de Wilcoxon, visto en otra lección: asignarle a todos ellos la media de los valores de sus respectivos rangos. 3.- Se calcula para cada muestra (tratamiento) la suma de los rangos, R.j . 4.- Se obtiene el valor del estadístico de Kruskal-Wallis, que se define como sigue7: 1 H= 2 s k R.2j n(n + 1) 2 − ∑ , con 4 j =1 n j s2 = n 1 j k 2 n(n + 1) 2 ∑∑ rij − n − 1 i =1 j =1 4 7 El test aplica las fórmulas usuales del ANOVA a los rangos, que sustituyen a las observaciones en los cálculos. Esto hace que se simplifiquen algo las expresiones de los correspondientes cuadrados medios. Sin embargo, el test estadístico es diferente a la F usual, ya que se basa en el cociente entre SCTR y STC. 27 A. Morillas: Análisis de la varianza (un factor). Notas de clase . p. 28 Si no se repite ningún valor en las muestras (mismo rango), esta expresión se convierte en otra de más simple manejo8: 2 k R 12 H= ∑ . j − 3(n + 1) n( n + 1) j =1 n j De este estadístico existen tablas que dan los valores críticos, para los tamaños ordenados de las k muestras y para diferentes niveles de significación. Además, puede demostrarse que para nj > 5, si la hipótesis nula es cierta, puede aproximarse una distribución Chi-cuadrado con k-1 grados de libertad. La cola de la derecha puede ser utilizada como región crítica del contraste. k Conceptualmente, el test parte del estadístico V = ∑ n j ( R. j − R.. ) 2 , que viene a j =1 ser algo similar, formalmente, a la suma de cuadrados de los tratamientos, utilizando los valores de los rangos en vez de las respuestas observadas, y, por tanto, R . j y R .. son, respectivamente, la media de los rangos obtenidos por los elementos de la muestra jésima y la media de los rangos del conjunto del experimento o muestra combinada. Si H0 es cierta, estas diferencias cuadráticas tenderán a ser nulas y V estaría próximo a cero. Por el contrario, si no fuese cierta, serían grandes y V tomaría un valor tanto más alto cuanto mayores fuesen las diferencias entre las medias muestrales y la global de la muestra conjunta (media del experimento en ANOVA). Tomaríamos, por tanto, la cola derecha de la distribución χ 2 k −1 . No es demasiado complicado demostrar que multiplicando V por 12 , se n(n + 1) obtiene la expresión del estadístico H definido anteriormente. Recuérdese, para ello, que la suma total de rangos en la muestra combinada será global sería n(n + 1) y, por tanto, la media 2 (n + 1) . Valores altos de H, por encima del punto crítico dado en las tablas, 2 serán indicadores de que existe, al menos, una mediana que es significativamente diferente a las demás. 8 En este caso, ∑∑ r 2 ij se puede calcular mediante [n(n+1)(2n+1)]/6 . Si hay pocas repeticiones, la 28 A. Morillas: Análisis de la varianza (un factor). Notas de clase . p. 29 La existencia de una diferencia en la localización de alguna de las poblaciones, para un nivel α de significación, se pondrá en evidencia siempre que: R. j − nj R.l n − 1 − H obs > tα / 2; n − k s 2 nl n −1 1 1 + n j nl donde Hobs representa el valor muestral del estadístico H . Test de Friedman Para el caso de un diseño en bloques, se puede utilizar un test no paramétrico, llamado test de Friedman, que es una adaptación del caso anterior a las peculiaridades de este diseño de análisis de la varianza. Los pasos a dar son los siguientes: 1. Se ordenan las respuestas observadas para las distintas muestras o tratamientos dentro de cada uno de los bloques y se les asigna un rango que, lógicamente, irá de 1 a k (número de tratamientos, igual al número de observaciones por bloque). Como en el caso anterior, le llamaremos rij a estos rangos. 2. Se obtiene la suma de rangos para cada muestra o tratamiento. Como cada tratamiento es asignado sólo a una unidad experimental de cada bloque, esta suma constará de a sumandos (a=número de bloques). Llamaremos R.j a esta suma. 3. En estas circunstancias, el test queda definido como sigue: HF = . k 12 R.2j − 3a (k + 1) → χ k2−1 ∑ ak (k + 1) j =1 Valores altos del estadístico conducirán a rechazar la hipótesis de que las distribuciones de los tratamientos tienen igual localización (mediana). Hay que decir, que existe una alternativa más reciente, propuesta por Iman y Davenport, que está basada en un test F en vez de la aproximación con la χ2, cuya expresión es la siguiente: aproximación sigue siendo buena. 29 A. Morillas: Análisis de la varianza (un factor). Notas de clase . p. 30 1 k 2 ak (k + 1) 2 ∑ R. j − 4 a j =1 →F T = (a − 1) a k ( k −1),( a −1)( k −1) k 1 2 2 rij − ∑ R. j ∑∑ a j =1 i =1 j =1 siempre que la hipótesis nula, de igualdad de localización de las poblaciones sea cierta y se trabaje con muestras grandes. Si no hay observaciones repetidas, ∑∑ r 2 ij = ak (k + 1)(2k + 1) / 6 , por similitud con lo dicho en la nota a pié de página del test anterior. Este test es superior al realizado mediante HF . Es posible realizar comparaciones múltiples, basadas en las sumas de rangos de los tratamientos. Para un nivel α de significación, se puede afirmar que las distribuciones de dos tratamientos difieren en localización siempre que: R.i − R.l > tα / 2;( a −1)( k −1) 2aDobs (a − 1)(k − 1) donde Dobs es el valor observado para el denominador del estadístico T . 30