Capítulo 9 Análisis de la varianza (un factor): ANOVA 9.1. Introducción Veíamos cómo contrastar la igualdad de medias en dos poblaciones normales e independientes. En ocasiones necesitamos contrastar la igualdad de medias de un número mayor de poblaciones para detectar posibles diferencias significativas entre ellas en cuanto a una variable o característica: H0 : µ1 = µ2 = .... = µI H1 : Alguna distinta, siendo I el número de poblaciones. Surge así el análisis de la varianza. El análisis de la varianza es un procedimiento creado por Fisher en 1925 para descomponer la variabilidad de un experimento en componentes independientes que puedan asignarse a causas distintas. El problema general que vamos a estudiar es el siguiente: disponemos de n elementos que se diferencian en un factor: por ejemplo, alumnos de distintas clases (factor clase), coches de distintas marcas (factor marca), componentes producidos por distintas máquinas (factor máquina), etc. En cada elemento observamos una característica continua (X) que varía aleatoriamente de un individuo a otro: notas de Estadística de los alumnos, consumo de gasolina, tiempo de vida 141 142 Capítulo 9. Análisis de la varianza (un factor): ANOVA de los componentes, etc. A esta característica se le llama variable respuesta. Nuestro objetivo será conocer si existe o no relación entre la variable respuesta y el factor: ¿habrá diferencias en las notas de los distintos grupos de Estadística?, ¿tendrán coches similares de distintas marcas el mismo consumo de gasolina?, ¿tendrán los componentes fabricados por las distintas máquinas la misma duración?. Vamos a centrarnos en este ejemplo de las máquinas para ver y desarrollar el modelo inmerso en un problema del análisis de la varianza. Supongamos que se desea comprobar si la duración de piezas fabricadas por un grupo de I máquinas es la misma, es decir, la duración no depende de la máquina. Supongamos además que la duración de las piezas producidas por una misma máquina varía debido a muchos factores no controlables como por ejemplo la pureza de la materia prima, desajustes aleatorios de la máquina, la habilidad del operario, etc. Es decir, la duración de las piezas producidas por cada máquina será una variable aleatoria. Denotamos por yij la duración de la pieza j producida por la máquina i. Si para cada máquina i medimos la duración a una muestra de ni piezas, PI tendremos un total de n = i=1 ni observaciones: 9.2. Máq1 Máq2 MáqI y11 .. . y21 .. . yi1 .. . y1j .. . y2j .. . y1n1 y2n2 ... yij .. . yinI El modelo Vamos a ajustar a nuestras observaciones un modelo matemático de la forma yij = µi + uij , con el fin de poder tratarlas estadísticamente. Según este modelo vamos a admitir que la duración de las piezas fabricadas por una misma máquina i oscila aleatoriamente alrededor de un valor desconocido µi que caracteriza a la máquina i (duración media de sus piezas) y que las diferencias entre los valores observados para esta máquina, yij , y su media, µi , son el resultado de múltiples factores que no controlamos y que influyen en la variable respuesta, en este caso en la duración. Las englobamos en un término uij llamado error experimental o perturbación, uij = yij − µi . 143 9.3. Contraste de igualdad de medias Hipótesis del modelo: E(uij ) = 0 ∀i, j o E(yij ) = µi . V ar(uij ) = σ 2 ∀i, j (homoscedasticidad). E(uij urk ) = 0 ∀i 6= r o j 6= k. (incorrelación). uij → N (0, σ 2 ) o yij → N (µi , σ 2 ) (normalidad). las dos hipótesis anteriores implican independencia. En resumen: la variable respuesta en cada grupo sigue una distribución Normal, la varianza es la misma en todos los grupos y los grupos son independientes. El paso siguiente sería estimar los parámetros del modelo. Estimación de los parámetros del modelo: Los parámetros a estimar son: µi , i = 1, ..., I, y σ 2 . Utilizamos para ello el método de máxima verosimilitud, y resultan: − ˆ µi = yi. = Xni j=1 yij , i = 1, .., I, ni ´ XI Xni ³ − 2 yij − yi. ˆ j=1 i=1 σ2 = , n − ˆ Los residuos del modelo son uij = eij = yij − yi. , y se utilizan sobre todo a la hora de comprobar si se verifican o no las hipótesis del modelo. Si no se verifican, este modelo no sería el adecuado. 9.3. Contraste de igualdad de medias Hemos visto que los yij → N (µi , σ 2 ) y son independientes. Por lo tanto los grupos (máquinas) sólo difieren en las medias, las varianza es la misma en todos. Esto significa que contrastar si los grupos son estadísticamente iguales equivale a contrastar si sus medias lo son: Delia Montoro Cazorla. H0 : µ1 = µ2 = .... = µI H1 : Dpto. Alguna distinta de Estadística e I.O. Universidad de Jaén. 144 Capítulo 9. Análisis de la varianza (un factor): ANOVA 9.4. Descomposición de la variabilidad Según se comentó al principio, el análisis de la varianza es un procedimiento para descomponer la variabilidad total presente en un experimento en componentes independientes que puedan asignarse a causas distintas. Concretamente, según el modelo se llega a que la variabilidad total en el experimento es igual a la suma de la variabilidad existente dentro de los grupos más la variabilidad existente entre los grupos. − − − − yij − y.. = (yi. − y.. ) + (yij − yi. ), X XX XX − − − (yij − y.. )2 = ni (yi. − y.. )2 + e2ij i j i i j ↓ V T = V E + V NE V T : Variabilidad total V E : Variabilidad explicada por el modelo; variabilidad entre grupos V N E : Variabilidad no explicada por el modelo, o residual; variabilidad dentro de los grupos. La medida R2 = VE VT indica la variabilidad que explica el modelo de entre toda la presente en el experimento. Toma valores entre 0 y 1. Un valor próximo a 0 indicaría que el modelo no es válido. 9.5. Tabla Anova. Contraste de la F El contraste básico del análisis de la varianza utiliza la descomposición de la variabilidad V T = V E + V N E. Tabla ANOVA: Fuentes de variabilidad Entre grupos (VE) Dentro de grupos (VNE) Total (VT) S. cuadrados P − − V E = i ni (yi. − y.. )2 P P V N E = i j e2ij = P = i ni σ 2ni P P − V T = i j (yij − y.. )2 = = nσ 2n G. libert. Varianza I −1 Se = n−I SR n−1 Sy = ˆ 2 ˆ 2 VE I −1 V NE , = n−I ˆ 2 VT n−1 145 9.5. Tabla Anova. Contraste de la F − siendo yi. y σ2ni respectivamente la media y varianza de los datos de la muestra del grupo − i , y y.. y σ 2n la media y varianza del total de las observaciones. La media total puede calcularse de la siguiente forma: − y.. = I X − ni yi. i=1 n Contraste de la F : H0 : µ1 = µ2 = .... = µI H1 : Alguna distinta, El estadístico de contraste (bajo H0 ) es: ˆ 2 F = Se ˆ 2 SR → FI−1,n−I Rechazamos H0 cuando F > F1−α,I−1,n−I . En tal caso, podremos decir que no se han detectado diferencias significativas entre los grupos en cuanto a la variable respuesta, para un nivel del significación del αx100 %. Si rechazamos en el contraste anterior H0 estamos diciendo que no todas las medias de los diferentes grupos son iguales simultáneamente, sin embargo puede ocurrir que algunas de las medias sí coincidan. Ejemplo 9.1: Un ingeniero de electrónica está interesado en estudiar el efecto sobre la conductividad de una válvula electrónica que tienen tres tipos diferentes de recubrimiento para los tubos de rayos catódicos utilizados en un dispositivo de visualización de un sistema de telecomunicaciones. Se obtienen los siguientes datos: Tipo de recubrimiento Conductividad 1 143 141 150 146 2 152 149 137 143 3 134 133 132 127 Contrastar con un nivel de significación del 5 % si el tipo de recubrimiento tiene algún efecto sobre la conductividad. Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén. 146 Capítulo 9. Análisis de la varianza (un factor): ANOVA Se supone que las muestras proceden de poblaciones normales e independientes con la misma varianza. Solución: Queremos comprobar si la conductividad media de la válvula será la misma con los tres tipos de recubrimiento, en cuyo caso el tipo de recubrimiento no tendría ningún efecto sobre la conductividad. Planteamos el contraste: H0 : µ1 = µ2 = µ3 H1 : Alguna distinta y seguidamente realizamos todos los cálculos necesarios para rellenar la tabla Anova y concluir en el contraste. Comenzamos con el cálculo de las medias y varianzas en las muestras: − Muestra Media (yi. ) Varianza (σ 2ni ) Tamaño (ni ) Tipo 1 145 11.5 4 Tipo 2 145.25 33.188 4 Tipo 3 131.5 7.25 4 , − y la media y varianza totales resultan: y.. = 140,583 y σ2n = 58,576 Calculamos ahora las variabilidades explicada, no explicada y total. X V NE = ni σ 2ni = 4(11,5 + 33,188 + 7,25) = 207,752 i V T = nσ 2n = 12(58,576) = 702,912 V E = V T − V N E = 495,160 Las varianzas explicada y no explicada son entonces: ˆ 2 Se = ˆ 2 SR = VE 495,160 = = 247,58 I −1 2 V NE 207,752 = = 23,084, n−I 9 y el estadístico resulta: ˆ 2 F = Se ˆ 2 SR = 247,58 = 10,725 23,084 Ahora concluimos: como F = 10,725 es mayor que F0,95,2,9 = 4,26, rechazamos H0 . Existen por tanto diferencias significativas entre los tres tipos de rucubrimiento, es decir, el tipo de recubrimiento influye en la conductividad de la válvula. 147 9.6. Ejercicios 9.6. Ejercicios 1. Un fabricante está interesado en estudiar la resistencia a la tensión de una fibra sintética, y sospecha que puede estar relacionada con el porcentaje de algodón en su composición. Con este fin, estudia la resistencia de la fibra considerando 5 niveles de porcentaje de algodón en su composición. Los datos observados se muestran en la siguiente tabla. Porcentaje de algodón Tensión de ruptura 15 7 7 15 11 9 20 12 17 12 18 18 25 14 18 18 19 19 30 19 25 22 19 23 35 7 10 11 15 11 Contrastar al 5 % de significación si el fabricante está acertado en su sospecha. 2. Un ingeniero de electrónica está interesado en estudiar el efecto sobre la conductividad de una válvula electrónica que tienen cinco tipos diferentes de recubriminento para los tubos de rayos catódicos utilizados en un dispositivo de visualización de un sistema de telecomunicaciones. Se obtienen los siguientes datos: Tipo de recubrimiento Conductividad 1 143 141 150 146 2 152 149 137 143 3 134 133 132 127 4 129 127 132 129 5 147 148 144 142 Contrastar con un nivel de significación del 5 % si el tipo de recubrimiento tiene algún efecto sobre la conductividad. 3. Un artículo publicado en el Journal of the Association of Asphalt Paving Technologists (1998) describe un experimento para determinar el efecto de las burbujas de aire sobre la resistencia del asfalto. Para fines del experimento, las burbujas se controlan en tres niveles. bajo (2-4 %), medio (4-6 %) y alto (6-8 %). Los datos obtenidos aparecen en la Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén. 148 Capítulo 9. Análisis de la varianza (un factor): ANOVA tabla siguiente. Resistencia del asfalto Bajo Burbujas de aire Medio Alto 106 90 103 90 79 88 92 95 80 69 94 91 70 83 87 83 78 80 62 69 76 85 69 85 ¿Afectan de manera significativa los diferentes niveles de burbujas de aire la resistencia del asfalto?. Tomar α = 0,05 Suponer que las muestras proceden de poblaciones normales, independientes, con la misma varianza. 4. La tabla muestra las medidas hechas por Heyl de la constante G gravitatoria con bolas hechas de oro, platino y vidrio. Contrastar la hipótesis de que los tres materiales tienen la misma constante G. Tomar un nivel de significación del 5 %. Oro 6.683 6.681 6.676 6.678 6.679 Platino 6.661 6.661 6.667 6.667 6.664 Vidrio 6.678 6.671 6.675 6.672 6.674 6.672 5. Un artículo publicado en el Material Research Bulletin (1991) investigó cuatro métodos diferentes para preparar el compuesto superconductor P bM o6 S8 . Los autores sostienen que la presencia de oxígeno durante el proceso de preparación afecta la temperatura de transición Tc de superconducción del material. Los métodos de preparación 1 y 2 utilizan técnicas que están diseñadas para eliminar la presencia de oxígeno, mientras que los métodos 3 y 4 permiten que el oxígeno esté presente. Para cada método se toman 5 observaciones de Tc (en 0 K). Los resultados son: Método Temperatura de transición Tc 1 14.8 14.8 14.7 14.8 14.9 2 14.6 15.0 14.9 14.8 14.7 3 12.7 11.6 12.4 12.7 12.1 4 14.2 14.4 14.4 12.2 11.7 149 9.6. Ejercicios a. ¿Tiene algún efecto la presencia de oxígeno durante la preparación del compuesto en la temperatura de transición?. Realizar el contraste con un nivel de significación del 5 %. b. ¿Existen diferencias significativas entre métodos de un mismo tipo?. Tomar α = 0,01. 6. Tres profesores dan clases teóricas en una misma autoescuela. Se desea contrastar, si existen diferencias significativas en la forma de enseñanza de los tres profesores. Para ello se seleccionan tres muestras de alumnos y se anota el número de preguntas correctas en el examen. Prof. 1 Prof. 2 Prof. 3 43 48 29 35 47 31 44 44 28 46 46 42 39 39 31 44 45 36 38 49 35 42 48 36 45 45 39 Contrastar al 5 % de significación si existen diferencias entre los profesores. 7. Un grupo de químicos están interesados en estudiar la cantidad de radón liberado en las duchas. Para ello realizan un experimento en el que se utiliza agua enriquecida con radón, y se prueban tres diámetros diferentes para los orificios de las alcachofas. La siguiente tabla recoge el radón liberado (en %) para cada diámetro: Diámetro 1 80 83 83 84 85 84 81 Diámetro 2 74 75 76 74 75 78 76 Diámetro 3 60 62 59 61 62 63 64 En base a los datos obtenidos, ¿podemos afirmar que el tamaño del orificio afecta el porcentaje de radón liberado?. Realizar el contraste con un nivel de significación del 5 %. Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén. 150 Capítulo 9. Análisis de la varianza (un factor): ANOVA Nota: Suponer para todos los ejercicios normalidad, independencia, e igualdad de varianzas en las poblaciones.