C3 DISEÑO DE BLOQUES COMPLETOS AL AZAR Un diseño de Bloques completos al azar, DBCA es aquel que cumple con las siguientes condiciones: 1) Las unidades experimentales se distribuyen en grupos o bloques, de manera tal que las unidades experimentales dentro de cada bloque sean relativamente homogéneas y que el número de unidades experimentales dentro de un bloque sea igual al número de tratamientos por investigar; y 2) Los tratamientos se asignan al azar a las unidades experimentales dentro de cada bloque. Ejemplos 1. Doce individuos con sobrepeso participaron en un análisis para comparar tres dietas para reducción de peso. Los individuos formaron grupos de acuerdo con el peso inicial y a cada uno de los tres sujetos de cada grupo se le asignó, al azar, una de las tres dietas de reducción de peso. Al terminar el periodo experimental se consideró la pérdida de peso en kilogramos como sigue: Peso inicial (kgs) 75 a 90 91 a 100 101 a 115 Más de 115 Regimen A B C 6.0 7.5 7.5 9.0 12.0 11.5 12.5 16.5 11.5 12.5 12.0 15.5 Luego, es necesario eliminar las diferencias debidas al peso inicial, para responder la pregunta ¿estos datos proporcionan suficiente evidencia para indicar una diferencia en los efectos de la dieta? 2. Tres diferentes soluciones para lavar están siendo comparadas con el objetivo de estudiar su efectividad en el retraso del crecimiento de bacterias en envases de leche de cinco galones. El análisis se realiza en un laboratorio donde hay cuatro empleados destinados a efectuar la prueba. Como los empleados son una fuente de variabilidad potencial, el experimentador decide usar un diseño de bloques completos al azar. Las observaciones (unidades de tiempo hasta que las bacterias aparecen) se presentan a continuación. Las conclusiones apropiadas, van a surgir del análisis adecuado, tomando en cuenta la variabilidad debida a los empleados. Solución 1 2 3 1 15 16 10 Empleados 2 3 22 18 24 21 7 9 4 35 32 15 Ventajas Este diseño presenta ventajas, • En general es posible agrupar las unidades experimentales de modo que se logre mayor precisión con respecto a un Diseño completamente al azar • La única restricción sobre el número de tratamiento por bloque y tratamiento es la disponibilidad de unidades experimentales • Si se pierde información de todo un bloque o por contratiempo los datos de un bloque completo es inutilizable estos datos puede omitirse, porque el resto mantiene la misma estructura de un diseño de bloques completos al azar. • La pérdida de la información de alguna unidad es subsanable, puede ser estimada. El Modelo Aditivo Lineal El modelo aditivo Lineal del Diseño de Bloques Completo al Azar con una observación por unidad experimental, La observación Yij puede representarse por el modelo siguiente: Yij = + i + j + ij ; i = 1, 2, , t y j = 1, 2, ,b donde: Yij : es la respuesta obtenida de la unidad experimental del j -ésimo bloque sujeta al tratamiento i . : El efecto de la media común. i : El verdadero efecto del i -ésimo tratamiento. j : El verdadero efecto del j -ésimo bloque. ij : Es una variable aleatoria no observable llamado error Para el proceso de inferencia se asume que ij son variables aleatorias independientes que se distribuye normalmente con media cero y variancia común 2 . Modelo I (efectos fijos) Se asume que los niveles de los factores son fijados por el investigador y estos efectos son desviaciones con respecto a la media. Entonces se cumple: b t i = 0 , j =1 i =1 j =0 Modelo II (efectos aleatorios) Los niveles de los factores son elegidos aleatoriamente de poblaciones grandes. Entonces los i son variables aleatorias independientes distribuidas normalmente con media cero y variancia 2 , los j son variables aleatorias independientes distribuidas normalmente con media cero y variancia 2 , Modelo III (Modelo mixto) Los niveles de los tratamientos son fijados por el investigador y los niveles de los bloques son elegidos al azar en este caso se cumple que t i =1 i = 0; y los j son variables aleatorias independientes distribuidas normalmente con media cero y variancia 2 , Representación de los datos Bloques Tratamientos 1 1 Y11 2 Y12 b Y1b Total Y1• 2 Y21 Y22 Y2b Y2• t Yt1 Yt 2 Ytb Yt • Total Y•1 Y•2 Y•b Y•• donde b Yi• = Yij , para i = 1, 2, j =1 t t ,t; Y• j = Yij , para j = 1, 2, i =1 ,b; b Y•• = Yij i =1 j =1 Estimación de Parámetros para el Modelo I Los estimadores de los parámetros pueden ser encontrados aplicando el método de los mínimos cuadrados. Con este método se obtiene: ˆ = Y•• = Y•• 1 t b = Yij ; ˆi = Yi• − Y•• , para i = 1, 2, tb tb i =1 j =1 ˆ j = Y• j − Y•• , para j = 1, 2, ,t; ,b donde: b Y Yi• = i• = b t Y j =1 ij , Y• j = b Y• j t = Y i =1 ij t Residual o residuo eij = Yij − Yi• − Y• j + Y•• ANÁLISIS DE VARIANCIA La variación total puede ser descompuesta de la siguiente forma: t b t b t b t b (Yij − Y• )2 = (Yi• − Y•• )2 + (Y• j − Y•• )2 + (Yij − Yi• − Y• j + Y•• )2 i =1 j =1 i =1 j =1 i =1 j =1 t t i =1 j =1 donde: b b SCTotal = (Yij − Y•• )2 = Yij2 − Y••2 es la medida de la variación total. bt i =1 j =1 i =1 j =1 t Yi•2 Y••2 es una medida de la variación entre − bt i =1 b tratamientos. b t SCTrat = (Yi• − Y•• )2 = i =1 j =1 t b b Y•2j j =1 t SCBloq = (Y• j − Y•• ) = 2 i =1 j =1 t − Y••2 es una medida de la variación existente tb entre bloques b SCE = (Yij − Yi• − Y• j + Y•• )2 = SCTotal − SCTrat − SCBloq , es la variación i =1 j =1 debido a otros factores no considerados en el modelo. Cuadrados Medios Los cuadrados Medios se definen como el cociente entre la suma de los cuadrados sobre sus respectivos grados de libertad: CMBloq = SCBloq , b −1 CMTrat = SCTrat SCE , CME = t −1 ( b − 1)( t − 1) Luego, se tiene el siguiente cuadro de ANVA Fuente de Variación Bloques SC GL CM SCBloq b-1 CMBloq Tratamientos SCTrat t-1 CMTrat 2 + Error Total (b-1)(t-1) bt-1 CME 2 SCE SCTotal Cuadrados Medios Esperados Modelo I Modelo II b t 2 + t 2 2 2 + j b − 1 j =1 b t 2 i t − 1 i =1 2 + b2 2 Prueba de Hipótesis (Modelo I) H 0 : 1 = 2 = = t = 0 equivalente a H1 : i 0 , para al menos un i H 0 : 1 = 2 = = t H1 : al menos dos i son diferentes Nivel de Significación Fc = CMTrat ~ F( t −1,( b −1)( t −1)) / si la Hp es cierta CME Nota: Como los bloques son fijados y no cumple con el principio de aleatorización no se puede realizar pruebas de hipótesis sobre los efectos de bloques. En lugar de esto se puede encontrar eficiencia relativa respecto a un diseño completamente al azar, el cual se define: SCBloq + b(t − 1)CME tb − 1 ER = CME Si ER 1 entonces el Diseño de Bloques Completos al Azar es más eficiente que un Diseño Completamente al azar. Ejemplo: Se llevó a cabo un experimento para señalar los méritos de 5 tipos de gasolinas. Debido a que es inevitable la variación en eficiencia de vehículo a vehículo, se realizó un experimento con 5 automóviles, que de aquí en adelante llamaremos bloques. Se dispone de las siguientes descripciones de las 5 tratamientos: A: Control B: Control + aditivo X elaborado por la compañía I C: Control + aditivo Y elaborado por la compañía I D: Control + aditivo U elaborado por la compañía II E: Control + aditivo V elaborado por la compañía II Los tipos de gasolinas fueron probadas en cada carro en orden aleatorio. Los datos, en Km/litros, se dan continuación: Tratamiento Gasolina A B C D E Total 1 8 10 8 9 10 45 Bloques (vehículo) 2 3 4 5 7 9 8 8 9 41 6 8 9 8 8 39 6 7 9 8 7 37 7 9 10 7 9 42 Total 34 43 44 40 43 204 Modelo Aditivo Lineal: Yij = + i + j + ij ; i = 1, 2, 3, 4 y 5 y j = 1, 2, 3, 4 y 5 donde: Yij : es rendimiento en Km/litro obtenido del j -ésimo vehículo con el i -ésimo tipo de de gasolina. : El efecto de la media común. i : El verdadero efecto del i -ésimo tipo de gasólina j : El verdadero efecto del j -ésimo vehículo. ij : Son los efectos no observado del j-ésimo vehículo con el i-ésimo tipo de gasolina llamado error Una posible aleatorización de los tratamientos dentro de los bloques sería: > library(agricolae) > design.rcbd(c("A","B","C","D","E"), 5, serie = 2, seed = 0) $parameters $parameters$design [1] "rcbd" $parameters$trt [1] "A" "B" "C" "D" "E" $parameters$r [1] 5 $parameters$serie [1] 2 $parameters$seed [1] 1301693141 $parameters$kinds [1] "Super-Duper" $parameters[[7]] [1] TRUE $sketch [,1] [1,] "E" [2,] "C" [3,] "B" [4,] "C" [5,] "D" [,2] "A" "D" "A" "B" "C" [,3] "D" "B" "E" "E" "A" [,4] "C" "A" "C" "D" "B" [,5] "B" "E" "D" "A" "E" $book plots block c("A", "B", "C", "D", "E") 1 101 1 E 2 102 1 A 3 103 1 D 4 104 1 C 5 105 1 B 6 201 2 C 7 202 2 D 8 203 2 B 9 204 2 A 10 205 2 E 11 301 3 B 12 302 3 A 13 303 3 E 14 304 3 C 15 305 3 D 16 401 4 C 17 402 4 B 18 403 4 E 19 404 4 D 20 405 4 A 21 501 5 D 22 502 5 C 23 503 5 A 24 504 5 B 25 505 5 E Ejemplo de cálculo de algunos efectos estimado y residual 34 204 − = −1.36 5 25 41 204 ˆ2 = Y•2 − Y•• = − = 0.04 5 25 e12 = Y12 − Y1• − Y•2 + Y•• = 7 − 6.8 − 8.2 + 8.16 = 0.16 ˆ1 = Y1• − Y•• = Cuadro de ANVA 5 5 Y i =1 j =1 5 Y j =1 2 •j 2 ij = 82 + 7 2 + 5 Y + 92 = 1696 , i =1 = 452 + 412 + b SCBloq = j =1 2 i• = 342 + 432 + + 422 = 8360 Y 2 8360 ( 204 ) − •• = − = 7.36 t tb 5 25 2 Y•2j Y 2 Y 2 8390 ( 204 ) SCTrat = i• − •• = − = 13.36 bt 5 25 i =1 b 2 t ( 204) = 31.36 Y2 SCTotal = Yij − •• = 1696 − bt 25 i =1 j =1 SCE = SCTotal − SCTrat − SCBloq = 31.36 − 7.36 − 13.36 = 10.64 t 2 b 2 Fuente de Variación Carros Gasolinas Error Total SC GL CM Fc 7.36 13.36 10.64 31.36 4 4 16 24 1.84 3.34 0.665 5.0226 H p : 1 = 2 = 3 = 4 = 5 H a : al menos dos i son diferentes = 0.05 Fc = CMTrat 3.34 = = 5.0226 CME 0.665 F( 0.95,4,4) = 3.01 , como Fc F( 0.95,4,4) , se rechaza la H p . + 432 = 8390 , > > > > library(agricolae) treatments <- c("A","B","C","D","E") planb <- design.rcbd(treatments, 5, serie = 1, seed = 0)$book planb plots block treatments 1 11 1 B 2 12 1 D 3 13 1 C 4 14 1 E 5 15 1 A 6 21 2 D 7 22 2 E 8 23 2 A 9 24 2 C 10 25 2 B 11 31 3 C 12 32 3 A 13 33 3 E 14 34 3 B 15 35 3 D 16 41 4 C 17 42 4 B 18 43 4 A 19 44 4 D 20 45 4 E 21 51 5 D 22 52 5 E 23 53 5 A 24 54 5 C 25 55 5 B > #fix(planb) > planb$rendimiento<c(9,10,8,10,8,9,8,8,9,7,9,6,8,8,8,6,9,7,7,8,9,7,7,10,9) > #fix(planb) > planb plots block treatments rendimiento 1 11 1 B 9 2 12 1 D 10 3 13 1 C 8 4 14 1 E 10 5 15 1 A 8 6 21 2 D 9 7 22 2 E 8 8 23 2 A 8 9 24 2 C 9 10 25 2 B 7 11 31 3 C 9 12 32 3 A 6 13 33 3 E 8 14 34 3 B 8 15 35 3 D 8 16 41 4 C 6 17 42 4 B 9 18 43 4 A 7 19 44 4 D 7 20 45 4 E 8 21 51 5 D 9 22 23 24 25 52 53 54 55 5 5 5 5 E A C B 7 7 10 9 Usando el archivo ya armado > planb<-read.table("dbca_ejem.txt",T) > planb block treatment rendimiento 1 1 D 9 2 1 B 10 3 1 C 8 4 1 E 10 5 1 A 8 6 2 B 9 7 2 D 8 8 2 C 8 9 2 E 9 10 2 A 7 11 3 C 9 12 3 A 6 13 3 B 8 14 3 D 8 15 3 E 8 16 4 A 6 17 4 C 9 18 4 E 7 19 4 B 7 20 4 D 8 21 5 E 9 22 5 D 7 23 5 A 7 24 5 C 10 25 5 B 9 > planb$block<-factor(planb$block) > planb$treatment<-factor(planb$treatment) > str(planb) 'data.frame': 25 obs. of 3 variables: $ block : Factor w/ 5 levels "1","2","3","4",..: 1 1 1 1 1 2 2 2 2 2 ... $ treatment : Factor w/ 5 levels "A","B","C","D",..: 4 2 3 5 1 2 4 3 5 1 ... $ rendimiento: num 9 10 8 10 8 9 8 8 9 7 ... > mod<-lm(rendimiento~block+treatments,planb) > anva<-anova(mod) > anva Analysis of Variance Table Response: rendimiento Df Sum Sq Mean Sq F value Pr(>F) block 4 7.36 1.840 2.7669 0.063664 . treatment 4 13.36 3.340 5.0226 0.008138 ** Residuals 16 10.64 0.665 --Signif. codes: > > > > > > > > > > > 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 cm<- anva$Mean sc<-anva$Sum rendimiento<-planb$rendimiento vehiculo<-planb$block tipos<-planb$treatment nt<-tapply(rendimiento,vehiculo,length) t<-nt[1] nb<-tapply(rendimiento,tipos,length) b<-nb[1] ER<-((sc[1]+b*(t-1)*cm[3])/(t*b-1))/cm[3] ER 1 1.294486 Como ER>1 el uso de bloques ha sido efectivo para reducir el error experimental Comparaciones Múltiples (Modelo I) Si se define que i = + i entonces un estimador de i esta dado por ˆ i = Yi• = la variancia de Yi • , para i = 1, 2, var Yi• = 2 b , t está dado por: , y su estimado está dado por: SY2i• = la variancia de Yi• − Yl • , para i l y i, l = 1, 2, var Yi• − Yl • = 1 b Yij , b j =1 CME b , t , está dado por: 2CME 2 2 y su estimado está dado por SY2i• −Yl• = b b Prueba de t Hipótesis Caso A Bilateral Caso B Unilateral a la Derecha Caso C Unilateral a La Izquierda H a : i − l k H a : i − l k H a : i − l k H p : i − l = k Para i l ; i, l = 1, 2, H p : i − l k ,t Nivel de significación Estadística de prueba: H p : i − l k tc = Decisión Se Acepta Yi• − Yl • − k ~ t( gle) / H p es verdadera SYi• −Yl• Caso A Hp Se Rechaza t , gle 2 Hp tc t tc t 1− , gle 2 , gle 2 ó tc t 1− , gle 2 Caso B Caso C tc t(1− ; gle) tc t( ; gle) tc t(1− ; gle) tc t( ; gle) Diferencia Mínima de Significación (DMS), también se le conoce con el nombre de diferencia límite de significación H p : i = l H a : i l Para i l , i, l = 1, 2, ,t Nivel de significación Entonces si definimos DMS ( i, l ) = t S Yi• −Yl• 1− ,GLE 2 Luego, un criterio para examinar si existe diferencia significativa entre medias de tratamiento se puede usar este criterio de la diferencia mínima significante ( DMS ( i, l ) ) . Esto es, se rechaza H 0 si Yi• − Yl • DMS ( i, l ) Para i l , i, l = 1, 2, ,t Ejemplo: Con los datos del ejemplo de gasolina, suponga que fue planeado realizar la comparación entre la gasolina D y E. Realice la prueba de t a un nivel de significación = 0.05 , para realizar esta comparación Las medias de los rendimientos está dado por: YA• = 6.8 , YB• = 8.6 , YC• = 8.8 , YD• = 8.0 , YE• = 8.6 H p : D = E o H p : D − E = 0 H a : D E o H a : D − E 0 = 0.05 tc = T( 0.975,16) = 2.22 , SY2D• −YE• = 2CME 2 ( 0.665 ) = = 0.266 b 5 YD• − YE • − k 8 − 8.6 − 0 = = -1.16335 . Se acepta H p SYD• −YE• 0.266 Con lenguaje R > > > > > > gasolina<-read.table("gasolina.txt",T) str(gasolina) rendimiento<-gasolina[,1] vehiculo<-factor(gasolina[,2]) tipos<-factor(gasolina[,3]) modeg<-lm(rendimiento~vehiculo+tipos) El lenguaje R da unos estimados de efectos para los dos factores. Para el caso de gasolina viene hacer la diferencia de la medias de tratamientos de B, C, D y E con respecto a la media de tratamiento de A, respectivamente. > mediat<-tapply(rendimiento,tipos,mean) > mediat a b c d e 6.8 8.6 8.8 8.0 8.6 > mediaD<-mediat[4] > mediaE<-mediat[5] > esdmedia<-sqrt(2*(deviance(modeg)/df.residual(modeg))/5) > esdmedia a 0.5157519 > tc<-(mediaD-mediaE-0)/esdmedia > tc d -1.16335 > pvalue<-2*pt(tc,df.residual(modeg)) > pvalue d 0.2617441 No se rechaza H0 Prueba de Tukey-Cramer (Tukey HSD) Planteamiento de hipótesis H p : i = l H a : i l Para i l , i, l = 1, 2, ,t Nivel de significación Cálculo del Valor Crítico: w = q ( t , GLE ) 1 SY −Y 2 i• l • donde: q ( t , GLE ) =amplitud estudiantizada para la prueba de Tukey t = número de tratamiento a comparar GLE = Grados de libertad del error Se rechaza H 0 aun nivel de significación , si Yi• − Yl • w Ejemplo: Con los datos del ejemplo de gasolina, realice la prueba de Tukey a un nivel de significación = 0.05 , para realizar esta comparación H p : i = i H a : i i para i, i = A, B, C , D, E , i i = 0.05 , q ( 0.95,5,16 ) = 4.34 CME = 0.665 w = q ( 0.95,5,16 ) Comparación B-A C-A D-A E-A C-B D-B E-B D-C E-C E-D CME 0.665 = ( 4.34 ) = 1.582762 5 5 Yi − Yi SYi• −Yl• 1.8 2 1.2 1.8 0.2 0.6 0 0.8 0.2 0.6 0.5157519 0.5157519 0.5157519 0.5157519 0.5157519 0.5157519 0.5157519 0.5157519 0.5157519 0.5157519 w 1.582762 1.582762 1.582762 1.582762 1.582762 1.582762 1.582762 1.582762 1.582762 1.582762 Significancia significativo significativo No significativo significativo No significativo No significativo No significativo No significativo No significativo No significativo > > > > library(multcomp) amod<-aov(rendimiento~vehiculo+tipos) comptipos<-glht(amod,linfct=mcp(tipos="Tukey")) confint(comptipos) Simultaneous Confidence Intervals Multiple Comparisons of Means: Tukey Contrasts Fit: aov(formula = modeg) Quantile = 3.065 95% family-wise confidence level Linear Hypotheses: Estimate b - a == 0 1.800e+00 c - a == 0 2.000e+00 d - a == 0 1.200e+00 e - a == 0 1.800e+00 c - b == 0 2.000e-01 d - b == 0 -6.000e-01 e - b == 0 6.661e-16 d - c == 0 -8.000e-01 e - c == 0 -2.000e-01 e - d == 0 6.000e-01 lwr upr 2.192e-01 3.381e+00 4.192e-01 3.581e+00 -3.808e-01 2.781e+00 2.192e-01 3.381e+00 -1.381e+00 1.781e+00 -2.181e+00 9.808e-01 -1.581e+00 1.581e+00 -2.381e+00 7.808e-01 -1.781e+00 1.381e+00 -9.808e-01 2.181e+00 > summary(comptipos) Simultaneous Tests for General Linear Hypotheses Multiple Comparisons of Means: Tukey Contrasts Fit: aov(formula = modeg) Linear Hypotheses: Estimate Std. Error t value Pr(>|t|) b - a == 0 1.800e+00 5.158e-01 3.490 0.0218 * c - a == 0 2.000e+00 5.158e-01 3.878 0.0100 * d - a == 0 1.200e+00 5.158e-01 2.327 0.1869 e - a == 0 1.800e+00 5.158e-01 3.490 0.0218 * c - b == 0 2.000e-01 5.158e-01 0.388 0.9947 d - b == 0 -6.000e-01 5.158e-01 -1.163 0.7712 e - b == 0 6.661e-16 5.158e-01 0.000 1.0000 d - c == 0 -8.000e-01 5.158e-01 -1.551 0.5467 e - c == 0 -2.000e-01 5.158e-01 -0.388 0.9947 e - d == 0 6.000e-01 5.158e-01 1.163 0.7712 --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Adjusted p values reported -- single-step method) Se ha encontrados diferencias significativas entre las siguientes comparaciones de medias de rendimientos: - Entre la media de los rendimientos obtenidos con la gasolina tipo B y A - Entre la media de los rendimientos obtenidos con la gasolina tipo C y A - Entre la media de los rendimientos obtenidos con la gasolina tipo E y A Entre las otras comparaciones no se ha encontrados diferencias significativas a un nivel de significación del 10º% A 6.8 D 8.0 B 8.6 E 8.6 C 8.8 De acuerdo a estos resultados se puede recomendar las gasolina tipo B, E y C por tener los mayores rendimientos Prueba de Dunnett (comparaciones de todas las medias de tratamientos con un control o testigo) H p : i = 1 H a : i 1 , para i = 2, ,t Donde: 1 = es la media del tratamiento testigo o de control Nivel de significación Valor Crítico: d = t Dunnet ( , p, GLE ) SYi −Y1 , para i = 2, ,t donde : tDunnet ( , t , GLE ) = t de Dunnett con un nivel de significación . p = número de tratamiento a comparar con el control GLE = Grados de libertad del error Se rechaza H 0 aun nivel de significación , si Yi• − Y1• d , para i = 2, ,t Ejemplo: En el ejemplo de la gasolina suponga que A es el tratamiento Control. Realice la prueba de Dunnett a un nivel = 0.05 H p : i = A H a : i A , para i = B, C , D, E YA• = 6.8 , SY2i −YA = YB• = 8.6 , YC• = 8.8 , YD• = 8.0 , YE• = 8.6 ; 2CME 2 ( 0.665 ) = = 0.266 b 5 d = tDunnet ( 0.05, 4,16 ) SYi −YA = (2.34)( 0.266) = 1.206859 Comparación Yi• − YA• d = t Dunnet ( 0.5, 4,16 ) SYi• −YA• B-A C-A D-A E-A 1.8 2.0 1.2 1.8 1.206859 1.206859 1.206859 1.206859 > amod<-aov(rendimiento~vehiculo+tipos) > comptipos<-glht(amod,linfct=mcp(tipos="Dunnett")) > confint(comptipos) Simultaneous Confidence Intervals Multiple Comparisons of Means: Dunnett Contrasts Fit: aov(formula = rendimiento ~ vehiculo + tipos) Estimated Quantile = 2.7086 95% family-wise confidence level Linear Hypotheses: Estimate lwr upr b - a == 0 1.8000 0.4030 3.1970 c - a == 0 2.0000 0.6030 3.3970 d - a == 0 1.2000 -0.1970 2.5970 e - a == 0 1.8000 0.4030 3.1970 > summary(comptipos) Simultaneous Tests for General Linear Hypotheses Multiple Comparisons of Means: Dunnett Contrasts Fit: aov(formula = rendimiento ~ vehiculo + tipos) Linear Hypotheses: Estimate Std. Error t value Pr(>|t|) b - a == 0 1.8000 0.5158 3.490 0.01017 * c - a == 0 2.0000 0.5158 3.878 0.00465 ** d - a == 0 1.2000 0.5158 2.327 0.10292 e - a == 0 1.8000 0.5158 3.490 0.01026 * significativo significativo No significativo significativo --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Adjusted p values reported -- single-step method) La prueba de Duncan Planteamiento de hipótesis H 0 : i = i H a : i i Para i i , i, i = 1, 2, ,t Nivel de significación Cálculo del Valor Crítico: vd = d ( p, GLE ) 1 SY −Y 2 i i donde: d ( p, GLE ) =amplitud estudiantizada para la prueba de Duncan p = número de medias muestrales ordenadas de menor a mayor comprendidas entre ellas inclusive. GLE = Grados de libertad del error 2CME SYi −Yi = b Se rechaza H 0 a un nivel de significación , si Yi − Yi vd H p : i = i H a : i i para i, i = A, B, C , D, E , i i = 0.05 , CME = 0.665 2CME 2*0.665 SYi −Yi = = = 0.5157519 b 5 p 2 3 4 5 3.00 3.15 3.23 3.30 d0.05 ( p,16 ) > tapply(rendimiento,tipos,mean) Yi − Yi Comparación B-A C-A D-A E-A C-B D-B E-B D-C E-C E-D SYi• −Yl• 1.8 2 1.2 1.8 0.2 0.6 0 0.8 0.2 0.6 0.5157519 0.5157519 0.5157519 0.5157519 0.5157519 0.5157519 0.5157519 0.5157519 0.5157519 0.5157519 p d0.05 ( p,16 ) 3 5 2 4 3 2 2 4 2 3 3.15 3.30 3.00 3.23 3.15 3.00 3.00 3.23 3.00 3.15 > library(agricolae) > modeg<-lm(rendimiento~vehiculo+tipos) > anva<-aov(modeg) > compd<-duncan.test(anva,"tipo") > compd $statistics Mean CV MSerror 8.16 9.99357 0.665 $parameters Df ntr 16 5 $Duncan Table CriticalRange 2 2.997999 1.093345 3 3.143802 1.146519 4 3.234945 1.179757 5 3.297445 1.202550 $means rendimiento a 6.8 b 8.6 c 8.8 d 8.0 e 8.6 $comparison NULL $groups trt means 1 c 8.8 2 b 8.6 3 e 8.6 4 d 8.0 5 a 6.8 M a a a a b std 0.8366600 1.1401754 0.8366600 0.7071068 1.1401754 r Min Max 5 6 8 5 7 10 5 8 10 5 7 9 5 7 10 vd 1.148779 1.203482 1.094075 1.177954 1.148779 1.094075 1.094075 1.177954 1.094075 1.148779 Significancia significativo significativo significativo significativo No significativo No significativo No significativo No significativo No significativo No significativo > compd<-duncan.test(anva,"tipo",group=FALSE) > compd $statistics Mean CV MSerror 8.16 9.99357 0.665 $parameters Df ntr 16 5 $Duncan Table CriticalRange 2 2.997999 1.093345 3 3.143802 1.146519 4 3.234945 1.179757 5 3.297445 1.202550 $means rendimiento a 6.8 b 8.6 c 8.8 d 8.0 e 8.6 std 0.8366600 1.1401754 0.8366600 0.7071068 1.1401754 $comparison Difference a - b -1.8 a - c -2.0 a - d -1.2 a - e -1.8 b - c -0.2 b - d 0.6 b - e 0.0 c - d 0.8 c - e 0.2 d - e -0.6 r Min Max 5 6 8 5 7 10 5 8 10 5 7 9 5 7 10 pvalue sig. LCL UCL 0.004810 ** -2.9797573 -0.6202427 0.002516 ** -3.2025505 -0.7974495 0.033440 * -2.2933451 -0.1066549 0.004019 ** -2.9465185 -0.6534815 0.703287 -1.2933451 0.8933451 0.245475 -0.5465185 1.7465185 1.000000 -1.0933451 1.0933451 0.144077 -0.3797573 1.9797573 0.460428 -0.9465185 1.3465185 0.261744 -1.6933451 0.4933451 $groups NULL A 6.8 D 8.0 B 8.6 E 8.6 C 8.8 Prueba de t con contraste: Suponga que se desean probar la Hipótesis Caso A Bilateral Caso B Unilateral a la Derecha Caso C Unilateral a La Izquierda t t t H 0 : Ci i k H 0 : Ci i = k H 0 : Ci i k i =1 i =1 i =1 t t t H1 : Ci i k H1 : Ci i k H1 : Ci i k i =1 i =1 i =1 a un nivel de significación Estadística de Prueba Q−k t= t bCME Ci2 t t i =1 i =1 ~ t(GLE ) / H 0 es verdadera, siendo Q = CiYi. = bCiYi. i =1 Luego, Decisión Se Acepta Caso A t Hp Se Rechaza , gle 2 tc t tc t Hp , gle 2 1− , gle 2 ó tc t 1− , gle 2 Caso B Caso C tc t(1− ; gle) tc t( ; gle) tc t(1− ; gle) tc t( ; gle) Prueba de Scheffé t H 0 : Ci i = 0 contra i =1 t H a : Ci i 0 i =1 Nivel de significación Valor Crítico de la prueba VCS = SLˆ donde: t Lˆ = CiYi. i =1 (GLTrat ) F(1− ,GLTrat ,GLE ) S Lˆ = t 1 CME Ci2 b i =1 Se acepta H 0 , si L̂ VCS Se rechaza H 0 , si L̂ VCS El Método de Bonferroni Hipótesis: H 0 : i = l H a : i l , para i l , y i, l = 1, 2, .t VCB ( i, l ) = t S Y −Y ,GLE i . l . 1− 2 nc donde: SYi . −Yl . = Se rechaza H 0 para i l , y i, l = 1, 2, 2CME b . t , si Yi. − Yl . VCB ( i, l ) Ejemplo: Con los datos del ejemplo de gasolina, use la prueba de t para probar el siguiente contraste a un nivel de significación = 0.05 : ( B, C , D, E ) versus A. H p : B + C + D + E = 4 A H p : B + C + D + E − 4 A = 0 H a : B + C + D + E − 4 A 0 H a : B + C + D + E 4 A H a : B + C + D + E 4 A = 0.05 T( 0.975,16) = 2.11 , se acepta H p si: −2.12 tc 2.12 caso contrario se rechaza. 5 Q = b CiYi• = 5 ( −4 )( 6.8) + (1)(8.6 ) + (1)(8.8) + (1)(8.0 ) + (1)(8.6 ) = 34 i =1 Q tc = = t bCME C i =1 2 i 34 ( 5)( 0.665) ( ( −4 ) Como tc 2.12 , se rechaza 2 +1 +1 +1 +1 2 2 2 2 ) = 4.16934 Hp . Con lenguaje R > > > > > vmedia<-tapply(rendimiento,tipos,mean) ci<-c(-4,1,1,1,1) q<-5*ci%*%vmedia tc<-q/sqrt(5*(deviance(modeg)/16)*sum(ci^2)) tc [,1] [1,] 4.169348 > pvalue<-2*(1-pt(tc,16)) > pvalue [,1] [1,] 0.000723429 Ejemplo: Con los datos del ejemplo de gasolina, use la prueba de Scheffé para probar el siguiente contraste a un nivel de significación = 0.05 : ( B, C , D, E ) versus A H p : B + C + D + E − 4 A = 0 H a : B + C + D + E − 4 A 0 = 0.05 F( 0.95,4,16) = 3.01 t Lˆ = CiYi. = ( −4 )( 6.8) + (1)(8.6 ) + (1)(8.8) + (1)(8.0 ) + (1)(8.6 ) = 6.8 i =1 Lˆ = 6.8 S Lˆ = ( ) t 1 1 2 CME Ci2 = ( 0.665) ( −4 ) + 12 + 12 + 12 + 12 = 1.630951 b 5 i =1 VCS = SLˆ (GLTrat ) F(1− ,GLTrat ,GLE ) = (1.630951) ( 4)( 3.01) = 5.659188 Como L̂ VCS , se rechaza H p . Con Lenguaje R > absl<-abs(ci%*%vmedia) > absl [,1] [1,] 6.8 > sl<-sqrt((1/5)*(deviance(modeg)/16)*sum(ci^2)) > sl [1] 1.630951 > vcs<-sl*sqrt(4*qf(0.95,4,16)) > vcs [1] 5.656289 Análisis de residuales > > > > > gasolina<-read.table("gasolina.txt",T) rendimiento<-gasolina[,1] vehiculo<-factor(gasolina[,2]) tipos<-factor(gasolina[,3]) modeg<-lm(rendimiento~vehiculo+tipos) 24 7.5 9.0 0 23 3 24 -2 -1 0 1 2 Theoretical Quantiles Scale-Location Constant Leverage: Residuals vs Factor Levels 6.0 7.5 9.0 Fitted values 1 23 -1 3 -3 1.0 24 23 Standardized residuals Fitted values 0.0 Standardized residuals 6.0 3 Normal Q-Q -2 0.5 23 -1.5 Residuals Residuals vs Fitted Standardized residuals > par(mfrow=c(2,2)) > plot(modeg) 3 vehiculo : 4 3 2 Shapiro-Wilk normality test > library(car) > ncvTest(modeg) 5 1 Factor Level Combinations > ri<-rstandard(modeg) > shapiro.test(ri) data: ri W = 0.9362, p-value = 0.1207 24 Non-constant Variance Score Test Variance formula: ~ fitted.values Chisquare = 3.160140 Df = 1 p = 0.07545673 De acuerdo al gráfico de los valores predicho (o valores ajustado) versus los residuos, se puede observar que conforme los valores predichos aumenta la variabilidad de los residuos también aumenta (en forma de embudo), y también se puede observar que el lowes de la raíz cuadrada de valores absolutos de residuales estandarizados (estudiantizados internamente) en función de los valores predichos tiene una tendencia sistemática creciente. Por último, en el cuarto gráfico se puede observar que el único residual estandarizado que sobrepasa los límites 2 es el de la observación 3, siendo este el único valor extremo Todo esto indica que es probable que no se cumpla con el supuesto de homogeneidad de variancia. También, el gráfico de probabilidad normal de los residuos estandarizado nos da evidencia de que posiblemente el supuesto de normalidad no se cumpla causado posiblemente por los valor extremo o de las observaciones con residuos estandarizados cercanos al límite 2 , pero al realizar la prueba de Shapiro Wilk esta se acepta para niveles de significación menores a 0.1207. Asimismo, al realizar la prueba de Homogeneidad de variancia, ésta resulta significativa a un nivel de significación del 10%, esto es que se encontrado suficiente evidencia para afirmar que no se cumple con este supuesto. Una alternativa es realizar transformaciones para estabilizar la variancia y realizar el análisis con los datos transformados, ya que el incumplimiento de este supuesto hace que las pruebas de hipótesis realizadas en el ANVA y pruebas de comparación no tengan validez.