INICIACIÓN A LA INVESTIGACIÓN EN ESTADÍSTICA E INVESTIGACIÓN OPERATIVA APLICADA EN INGENIERÍA Práctica de Análisis de la varianza Curso 2013-14 Los comandos precedidos por el símbolo “@” no están disponibles en los menús. Los comandos precedidos por el símbolo “€” son modificaciones en la ventana de instrucciones. > setwd("Practicas") > library(datsets) > data(iris) > library(multcomp, pos=4) > library(abind, pos=4) > AnovaModel.1 <­ aov(Sepal.Width ~ Species, data=iris) > summary(AnovaModel.1) Df Sum Sq Mean Sq F value Pr(>F) Species 2 11.345 5.6725 49.16 < 2.2e-16 *** Residuals 147 16.962 0.1154 --Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 > numSummary(iris$Sepal.Width , groups=iris$Species, statistics=c("mean", "sd") mean sd n setosa 3.428 0.3790644 50 versicolor 2.770 0.3137983 50 virginica 2.974 0.3224966 50 > .Pairs <­ glht(AnovaModel.1, linfct = mcp(Species = "Tukey")) > summary(.Pairs) # pairwise tests Simultaneous Tests for General Linear Hypotheses Multiple Comparisons of Means: Tukey Contrasts Fit: aov(formula = Sepal.Width ~ Species, data = iris) Linear Hypotheses: Estimate Std. Error t value Pr(>|t|) versicolor - setosa == 0 -0.65800 0.06794 -9.685 < 0.001 *** virginica - setosa == 0 -0.45400 0.06794 -6.683 < 0.001 *** virginica - versicolor == 0 0.20400 0.06794 3.003 0.00879 ** --Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 (Adjusted p values reported -- single-step method) > confint(.Pairs) # confidence intervals Simultaneous Confidence Intervals Multiple Comparisons of Means: Tukey Contrasts Fit: aov(formula = Sepal.Width ~ Species, data = iris) Estimated Quantile = 2.3676 95% family-wise confidence level Linear Hypotheses: Estimate lwr upr versicolor - setosa == 0 -0.65800 -0.81885 -0.49715 virginica - setosa == 0 -0.45400 -0.61485 -0.29315 virginica - versicolor == 0 0.20400 0.04315 0.36485 > cld(.Pairs) # compact letter display versicolor virginica setosa "a" "b" 95% family−wise confidence level "c" versicolor − setosa ( ) q > old.oma <­ par(oma=c(0,5,0,0)) > plot(confint(.Pairs)) > par(old.oma) ( virginica − setosa ) q ( virginica − versicolor q ) > remove(.Pairs)) −0.8 −0.6 −0.4 −0.2 0.0 0.2 Linear Function > iris$residuals.AnovaModel.1<­residuals(AnovaModel.1) > shapiro.test(iris$residuals.AnovaModel.1) Shapiro-Wilk normality test data: iris$residuals.LinearModel.2 W = 0.9895, p-value = 0.323 > tapply(iris$Sepal.Width, iris$Species, var, na.rm=TRUE) setosa versicolor virginica 0.14368980 0.09846939 0.10400408 > levene.test(iris$Sepal.Width, iris$Species) Levene's Test for Homogeneity of Variance Df F value Pr(>F) group 2 0.5902 0.5555 147 > plotMeans(iris$Sepal.Width, iris$Species, error.bars="conf.int", level=0.95) 0.4 3.0 3.2 l l 2.8 mean of iris$Sepal.Width 3.4 Plot of Means l setosa versicolor virginica iris$Species > dev.print(pdf, file="medias_Width.pdf", width=8.0, height=6.0, pointsize=14) X11cairo 2 > library(effects, pos=4) > trellis.device(theme="col.whitebg") > plot(allEffects(LinearModel.2), ask=FALSE) Species effect plot Sepal.Width 3.4 3.2 3 2.8 setosa versicolor Species > dev.print(pdf, file="anova_medias_Width.pdf", width=8.0, height=6.0, pointsize=14) X11cairo 2 > AnovaModel.2 <­ aov(Sepal.Length ~ Species, data=iris) > summary(AnovaModel.2) Df Sum Sq Mean Sq F value Pr(>F) Species 2 63.212 3 1.606 119.26 < 2.2e-16 *** Residuals 147 38.956 0.265 --Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 > numSummary(iris$Sepal.Length , groups=iris$Species, statistics=c("mean", "sd") mean sd n setosa 5.006 0.3524897 50 versicolor 5.936 0.5161711 50 virginica 6.588 0.6358796 50 > .Pairs <­ glht(AnovaModel.2, linfct = mcp(Species = "Tukey")) virginica > summary(.Pairs) # pairwise tests Simultaneous Tests for General Linear Hypotheses Multiple Comparisons of Means: Tukey Contrasts Fit: aov(formula = Sepal.Length ~ Species, data = iris) Linear Hypotheses: Estimate Std. Error t value Pr(>|t|) versicolor - setosa == 0 0.930 0.103 9.033 <1e-08 *** virginica - setosa == 0 1.582 0.103 15.366 <1e-08 *** virginica - versicolor == 0 0.652 0.103 6.333 <1e-08 *** --Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 (Adjusted p values reported -- single-step method) > confint(.Pairs) # confidence intervals Simultaneous Confidence Intervals Multiple Comparisons of Means: Tukey Contrasts Fit: aov(formula = Sepal.Length ~ Species, data = iris) Estimated Quantile = 2.3674 95% family-wise confidence level Linear Hypotheses: Estimate versicolor - setosa == 0 0.9300 virginica - setosa == 0 1.5820 virginica - versicolor == 0 0.6520 lwr 0.6863 1.3383 0.4083 upr 1.1737 1.8257 0.8957 95% family−wise confidence level > cld(.Pairs) # compact letter display versicolor virginica setosa versicolor − setosa "a" "b" "c" ( ) q > old.oma <­ par(oma=c(0,5,0,0)) virginica − setosa ( q ) > plot(confint(.Pairs)) > par(old.oma) virginica − versicolor ( ) q > remove(.Pairs)) 0.4 0.6 0.8 1.0 1.2 Linear Function > iris$residuals.AnovaModel.2 <­ residuals(AnovaModel.3) > shapiro.test(iris$residuals.AnovaModel.2) Shapiro-Wilk normality test data: iris$residuals.AnovaModel.3 W = 0.9879, p-value = 0.2189 1.4 1.6 1.8 > tapply(iris$Sepal.Length, iris$Species, var, na.rm=TRUE) setosa versicolor virginica 0.1242490 0.2664327 0.4043429 > levene.test(iris$Sepal.Length, iris$Species) Levene's Test for Homogeneity of Variance Df F value Pr(>F) group 2 6.3527 0.002259 ** 147 --Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 > tapply(iris$Sepal.Length, iris$Species, median, na.rm=TRUE) setosa versicolor virginica 5.0 5.9 6.5 > kruskal.test(Sepal.Length ~ Species, data=iris) Kruskal-Wallis rank sum test data: Sepal.Length by Species Kruskal-Wallis chi-squared = 96.9374, df = 2, p-value < 2.2e-16 > library(agricolae, pos=4) @> kruskal(iris$Sepal.Length, iris$Species) Study: Kruskal-Wallis test's Ties or no Ties Value: 96.93744 degrees of freedom: 2 Pvalue chisq : 0 iris$Species, setosa versicolor virginica means of the ranks iris.Sepal.Length replication 29.64 50 82.65 50 114.21 50 t-Student: 1.976233 Alpha : 0.05 LSD : 10.20987 Means with the same letter are not significantly different Groups, Treatments and mean of the ranks a virginica 114.21 b versicolor 82.65 c setosa 29.64 > Boxplot(Sepal.Length~Species, data=iris, id.method="y") [1] "107" 8.0 7.5 7.0 6.5 6.0 5.5 5.0 Sepal.Length 4.5 107 setosa versicolor virginica Species > Datos <­ read.table("Practicas/ciruelas.csv", header=TRUE, sep=",", + na.strings="NA", dec=".", strip.white=TRUE) > AnovaModel.2 <­ aov(Dureza ~ Tratamiento, data=Datos) > summary(AnovaModel.2) Df Sum Sq Mean Sq F value Pr(>F) Tratamiento 3 0.03 0.0089 0.026 0.994 Residuals 196 68.07 0.3473 > numSummary(Datos$Dureza , groups=Datos$Tratamiento, statistics=c("mean", "sd")) mean sd % data:n Control_Humedo 2.9252 0.5237511 0 50 Menos_Seco 2.9216 0.5695804 0 50 Muy_Seco 2.8952 0.5821853 0 50 Seco 2.9142 0.6719940 0 50 Tratamiento effect plot 3.05 Dureza 3.00 2.95 2.90 2.85 2.80 2.75 Control_Humedo Menos_Seco Muy_Seco Tratamiento Seco SECUENCIA DE COMANDOS: Leer datos: Datos → ... Análisis de la varianza: Estadísticos → Medias → ANOVA de un factor... El procedimiento de carga depende del modo en que están guardados los datos. Análisis de la varianza de un factor. Validación del análisis de la varianza: Estadísticos → Ajuste de modelos → Modelo lineal... Análisis de la varianza de un factor. Modelos → Añadir las estadísticas de las observaciones a los datos... Almacenar los residuos del modelo. Estadísticos → Resúmenes → Test de normalidad de Shapiro-Wilk... Test de normalidad de los residuos. Estadísticos → Varianzas → Test de Levene... Test de homocedasticidad. Representaciones gráficas: Gráficas → Grafica de las medias... Límites de confianza de las medias. Modelos → Graficas → Gráfica de los efectos... Límites de confianza de las medias. Método no paramétrico: Estadísticos → Test no paramétricos → Test de Kruskal-Wallis... Análisis no paramétrico de la varianza. Herramientas → Cargar paquete(s)... Cargar el paquete agricolae. En la ventana de instrucciones. Ejecutar la función Kruskal.test. Almacenamiento en archivo de los gráficos (windows): - Marcar con botón derecho sobre el dibujo. - Seleccionar metafile o metarchivo. Los archivos “metafile” o “metarchivo” son dibujos en formato vectorial, lo que da alta calidad y bajo tamaño. Almacenamiento en archivo de la ventana de resultados: Fichero → Guardar los resultados como... Se guarda la ventana de resultados con todo el trabajo realizado y las anotaciones que se hayan hecho a los resultados.