Análisis de Varianza de un Factor: Práctica con R Commander

ASIGNATURA: COMPLEMENTOS DE ESTADISTICA Titulación: Máster en Ingeniería Industrial Práctica 1: Análisis de la varianza de un factor 1. Introducción El menú Estadı́sticos → Medias → ANOVA de un factor... permite llevar a cabo de manera automática todos los cálculos relacionados con el análisis de la varianza de un solo factor, ası́ como la comprobación de las hipótesis del modelo. Para ilustrar los comandos necesarios, resolveremos paso a paso el ejemplo siguiente: Ejemplo 1 Una compañı́a algodonera, interesada en maximizar el rendimiento de la semilla de algodón, desea comprobar si dicho rendimiento depende del tipo de fertilizante utilizado para tratar la planta. A su disposición tiene 5 tipos de fertilizantes. Para comparar su eficacia fumiga, con cada uno de los fertilizantes, un cierto número de parcelas de terreno de la misma calidad y de igual superficie. Al recoger la cosecha se mide el rendimiento de la semilla (peso por unidad de superficie), obteniéndose las siguientes observaciones: Fertilizante 1 2 3 4 5 51 56 48 47 43 Rendimiento 49 50 49 51 60 56 56 57 50 53 44 45 48 49 44 43 46 47 45 50 46 La variable respuesta (Y ) que nos interesa corresponde con el rendimiento de la semilla y el factor es el tipo de fertilizante aplicado. La observación yij hace referencia al rendimiento medido en la j-ésima parcela en la que se aplicó el fertilizante i, para i = 1, . . . , 5 y j = 1, . . . , ni . Para la formulación del modelo de análisis de la varianza se parte de la hipótesis que las variables aleatorias Yij son independientes con distribución N(µi , σ 2 ). Importamos los datos del archivo fertilizante.txt. En la primera variable están los datos observados para el rendimiento y en la segunda el tipo de fertilizante utilizado (de 1 a 5). Para cada variable se tendrán 26 datos. Lo primero que debemos hacer es asegurarnos que el factor está definido como tal y no como variable numérica (podemos comprobar que esto es ası́ seleecionando el menú Estadı́sticos → Medias 1 → ANOVA de un factor... y viendo si la opción está o no activa). Recordemos que para convertir una variable numérica en factor debemos seleccionar Datos → Modificar variables del conjunto de datos activo → Convertir variable numérica en factor..., eligiendo como variable a modificar el fertilizante y usando números para los niveles del factor. El paso preliminar al análisis numérico de los datos será una inspección visual de gráficos. Para visualizar los datos utilizamos un diagrama de puntos y una gráfica de medias, que se pueden seleccionar en el menú Gráficas. Como variable explicativa elegimos el fertilizante y como variable explicada el rendimiento. Pulsamos “Aceptar” y obtenemos los gráfico que se muestran en las Figuras 1a y 1b 54 52 44 46 45 48 50 mean of Rendimiento 50 Rendimiento 55 56 58 60 Plot of Means 1 2 3 4 5 1 2 3 4 5 Fertilizante (a) Diagrama de puntos. Observaciones frente a nivel del factor (b) Gráfica de las medias. Figura 1. Gráficas para inspección visual de los datos En el primer gráfico podemos ver cómo se distribuyen los datos para cada nivel del factor y se puede apreciar si la distribución en cada nivel se puede considerar normal o si la dispersión de los datos es homogénea entre niveles. El gráfico de las medias nos da una información similar, uniendo las medias en cada nivel del factor y proporcionando intervalos de confianza para tener una idea, de nuevo, de la dispersiı́on de los datos. A continuación pasaremos a hacer el análisis numérico de los datos. Vamos al menú que aparece en la Figura 2 y aparece la ventana de la Figura 3. Seleccionamos la variable fertilizante en “Grupos” y el rendimiento como “Variable explicada”. Los resultados en forma de tabla ANOVA aparecen en la ventana de R Commander (Figura 4). En la tabla ANOVA se muestran las sumas de cuadrados, grados de libertad y medias cuadráticas para el factor y los residuos, ası́ como el estadśtico F (en este caso F = 23.565) y el p-valor asociado al test de hipótesis. Encontramos un p-valor muy pequeño (p = 1.649e−07), con lo que podemos rechazar la hipótesis nula y afirmar con mucha confianza que el tipo de fertilizante influye en el rendimiento. De 2 Figura 2. Figura 3. Figura 4. esta información podemos obtener también la estimación de la varianza del modelo (que sabemos que es la media cuadrática residual, con un valor de 4.667 en este caso). 3 2. 2.1. Comprobación de las hipótesis del modelo Diagnósticos gráficos Una vez obtenidos los resultados del análisis de la varianza, conviene comprobar si se cumplen las hipótesis de normalidad y homocedasticidad de los residuos. Para ello haremos uso de la gráficas básicas de diagnóstico proporcionadas por R Commander. Seleccionamos Modelos → Gráficas → Gráficas básicas de diagnóstico. Aparecerán los gráficos mostrados en la Figura 5 aov(Rendimiento ~ Fertilizante) Normal Q−Q 15 48 50 52 54 2 1 −2 −1 0 1 2 Scale−Location Residuals vs Leverage 3 Theoretical Quantiles 0.5 48 50 52 54 0.5 2 14 1 1.0 20 0 15 −2 −1 Standardized residuals 1.5 0 56 14 46 20 15 Fitted values 0.0 Standardized residuals 46 −1 2 0 −2 −4 Residuals 8 14 −2 4 14 Standardized residuals 3 6 Residuals vs Fitted 56 20 Cook’s distance 0.00 Fitted values 0.05 0.10 0.15 15 0.20 0.25 Leverage Figura 5. Nos interesan las dos gráficas de la parte superior. En la de la izquierda podemos observar los residuos frente a las medias (o valores ajustados). Como no se observa ningún patrón seguido por los datos, podemos decir que no hay problemas de homocedasticidad. En el gráfico de la derecha aparece un gráfico cuantil-cuantil (Q-Q plot) de los residuos, en el que se observa una tendencia lineal, que nos lleva a poder decir que también se está cumpliendo la hipótesis de normalidad. 4 2.2. Diagnósticos numéricos Además del uso de gráficas, conviene realizar diagnósticos numéricos para la comprobación de las hipótesis del modelo. R Commander lleva incorporados dos test de igualdad de varianzas (hipótesis de homocedasticidad) que podemos aplicar: El test de Levene y el test de Bartlett. El test de Levene es menos sensible a la falta de normalidad que el de Bartlett. Sin embargo, si estamos seguros de que los datos provienen de una distribución normal, entonces el test de Bartlett es el mejor. Encontramos ambos tests en el siguiente menú: Estadı́sticos → Varianzas → Test de Bartlett / Test de Levene.... De nuevo seleccionamos la variable fertilizante en “Grupos” y el rendimiento como “Variable explicada”. En ambos casos el p-valor obtenido debe ser superior al α para poder aceptar la igualdad de varianzas. En este caso obtenemos los resultados mostrados en la Figura 6. En ambos casos los p-valores (0.0883 y 0.1533) son superiores a α = 0.05 con lo que podemos aceptar la igualdad de varianzas, es decir, que hay homocedasticidad. Figura 6. Para el chequeo numérico de la hipótesis de normalidad debemos utilizar los residuos. Éstos han sido calculados directamente por R al realizar el análisis numérico y se encuentran en la memoria, pero no están visibles. Podemos aplicar un test de normalidad de Shapiro-Wilks y/o de Kolmogorov-Smirnov a los residuos escribiendo los siguientes comandos en la ventana de R Commander (hay que tener en cuenta el nombre del modelo ANOVA generado en nuestro caso particular, que aparece en azul en la parte superior derecha de la ventana de R Commander). shapiro.test(AnovaModel.1$res) ks.test(AnovaModel.1$res,‘‘pnorm’’,mean(AnovaModel.1$res),sd(AnovaModel.1$res)) Tras escribir esas lı́neas, colocar el cursor del ratón sobre cada una de ellas y pulsar “Ejecutar”. Se obtiene, para los test de Shapiro-Wilks y de Kolmogorov-Smirnov, unos p-valores de 0.65 y de 0.8793 5 respectivamente (Figura 7). Al tratarse de p-valores altos, no podemos rechazar la hipótesis de que los residuos siguen una distribución normal. Figura 7. Para comprobar la hipótesis de independencia, que deberı́a cumplirse si el diseño del experimento es adecuado, realizamos un test de Durbin-Watson (asumiendo que las medidas están tomadas en orden cronológico idéntico al orden de presentación de los datos), siguiendo la siguiente ruta: Modelos → Diagnósticos numéricos → Test de Durbin-Watson para autocorrelación.... En la ventana que aparece elegimos como hipótesis alternativa la bilateral (segunda opción) y tras pulsar aceptar observamos el p-valor que aparece en la ventana de resultados de R Commander. En nuestro caso es p = 0.3449, con lo que podemos aceptar la hipótesis de independencia de los residuos. 3. Comparaciones múltiples Como se ha confirmado la existencia de diferencias significativas entre los tipos de fertilizante, será conveniente hacer comparaciones por pares de las medias para cada tipo de fertilizante para determinar cuáles son los tipos de fertilizante estadı́sticamente diferentes o en cuánto oscilan esas diferencias. Para ello volvemos a realizar los pasos para el análisis de la varianza en Estadı́sticos → Medias → ANOVA de un factor..., activando esta vez la casilla “Comparaciones dos a dos de las medias”, que aparece en la ventana donde hay que seleccionar el factor y la variable respuesta (Figura 8). El método usado por R Commander para las comparaciones múltiples es el de Tukey. Al aceptar, aparece un gráfico de intervalos de confianza para la diferencia de medias 2 a 2 (Figura 9). Si ese intervalo corta a la lı́nea punteada vertical que pasa por el cero, significará que esos dos niveles del factor corresponden al mismo grupo, y viceversa. Con este gráfico es sencillo hacer una clasificación de los grupos. Aún as, en caso de tener muchos pares de medias, podemos ahorrarnos el trabajo de interpretar el gráfico mirando la información que ha aparecido en la ventana inferior de R Commander (Figura 10) 6 Figura 8. 95% family−wise confidence level ( 2−1 ( 3−1 ) ( 5−1 ) ( 3−2 ) ( 4−2 5−2 ) ( 4−1 ) ( ) ( 4−3 ) ( 5−3 ) ( 5−4 −15 ) −10 ) −5 0 5 10 Linear Function Figura 9. Esta última pantalla de información nos proporciona los valores lı́mites de los intervalos de confianza calculados (ası́ como las diferencias de medias muestrales), y nos da una clasificación, aunque no ordenada, de los grupos. Según la clasificación obtenida en este ejemplo el resultado serı́a: 7 Figura 10. Fertilizante 2 1 3 4 5 Media 57 50 48 47 45 Grupo A B B B C C C Con esta clasificación se observa que el fertilizante 2 es superior a los demás mientras que el 5 es el peor de todos. 8 4. Problemas propuestos 1. En 1879 el fı́sico A. A. Michelson realizó en cinco ensayos 100 determinaciones de la velocidad de la luz en el aire. El fichero luz.txt contiene esos datos en km/s, después de haberles restado 299000. a) Proponer un modelo estadı́stico para investigar si existen diferencias entre los distintos ensayos. b) Realizar la validación del modelo anterior. c) ¿Qué se puede decir sobre la homogeneidad de las mediciones entre los distintos grupos? d) Repetir el análisis con los datos de los cuatro últimos ensayos. Basándose en estos cuatro ensayos, ¿qué valor se estimarı́a para la velocidad de la luz en el aire? 2. Se quiere estudiar el nivel de bilirrubina en la sangre. Para ello se analiza cada semana la sangre de tres hombres jóvenes, midiendo la concentración de bilirrubina. Se ha realizado un test con anterioridad para asegurarse que la concentración de una semana no influye significativamente sobre la concentración de la semana siguiente. Los datos se encuentran en el fichero bilirrubi.txt. a) Proponer un modelo estadı́stico para estudiar si hay diferencias entre los niveles de bilirrubina de los tres individuos. b) Realizar una gráfica normal de las concentraciones de bilirrubina. ¿Parece aceptable la hipótesis de normalidad de las variables? c) Definir una nueva variable que sea igual al logaritmo de la concentración de bilirrubina y realizar de nuevo una gráfica normal para la variable transformada. ¿Qué ocurre ahora? d) Realizar un análisis de la varianza para el logaritmo de las concentraciones de los tres individuos, con comparaciones múltiples si fuese necesario. 3. El fenómeno de El Niño se refiere a corrientes oceánicas inusualmente calientes en el Pacı́fico que aparecen alrededor de Navidad y pueden durar varios meses. Efectos catastróficos como huracanes y tempestades se han relacionado con El Niño. Una hipótesis que fue emitida es que una fase caliente de El Niño tiende a disminuir el número de huracanes mientras que éste tiende a aumentar en una fase frı́a. Desde el National Hurricane Center se ha obtenido el número de huracanes y tempestades desde 1950 hasta 1995, ası́ como el tipo de corrientes de El Niño (calientes, frı́as o neutras). Después de haber importado los datos del fichero elnino.txt (Fuente: Exploring Statistics (1996) L. Kitchen, Duxbury press, p. 813 ), contestar a las siguientes preguntas: a) Construir diagramas de cajas para el número de tempestades asociadas con cada una de las tres fases de El Niño. ¿Qué conclusiones se pueden extraer? b) ¿Parecen razonables las hipótesis del modelo para el análisis de varianza para estos datos? Realizar el test F para el número de tempestades. c) ¿Cuál es la correlación entre el número de tempestades y el número de huracanes? d) Realizar el test F para el número de huracanes. ¿Son los resultados coherentes con los dos apartados anteriores? 9

Análisis de Varianza de un Factor: Práctica con R Commander

Documentos relacionados

Productos

Apoyo

Análisis de Varianza de un Factor: Práctica con R Commander

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib