Subido por Mayker Córdova

DBCA

Anuncio
C3
DISEÑO DE BLOQUES COMPLETOS AL AZAR
Un diseño de Bloques completos al azar, DBCA es aquel que cumple con las siguientes
condiciones:
1) Las unidades experimentales se distribuyen en grupos o bloques, de manera tal que
las unidades experimentales dentro de cada bloque sean relativamente homogéneas y
que el número de unidades experimentales dentro de un bloque sea igual al número
de tratamientos por investigar; y
2) Los tratamientos se asignan al azar a las unidades experimentales dentro de cada
bloque.
Ejemplos
1. Doce individuos con sobrepeso participaron en un análisis para comparar tres dietas para
reducción de peso. Los individuos formaron grupos de acuerdo con el peso inicial y a
cada uno de los tres sujetos de cada grupo se le asignó, al azar, una de las tres dietas de
reducción de peso. Al terminar el periodo experimental se consideró la pérdida de peso
en kilogramos como sigue:
Peso inicial
(kgs)
75 a 90
91 a 100
101 a 115
Más de 115
Regimen
A
B
C
6.0
7.5
7.5
9.0
12.0
11.5
12.5
16.5
11.5
12.5
12.0
15.5
Luego, es necesario eliminar las diferencias debidas al peso inicial, para responder la
pregunta ¿estos datos proporcionan suficiente evidencia para indicar una diferencia
en los efectos de la dieta?
2. Tres diferentes soluciones para lavar están siendo comparadas con el objetivo de estudiar
su efectividad en el retraso del crecimiento de bacterias en envases de leche de cinco
galones. El análisis se realiza en un laboratorio donde hay cuatro empleados destinados
a efectuar la prueba. Como los empleados son una fuente de variabilidad potencial, el
experimentador decide usar un diseño de bloques completos al azar. Las observaciones
(unidades de tiempo hasta que las bacterias aparecen) se presentan a continuación. Las
conclusiones apropiadas, van a surgir del análisis adecuado, tomando en cuenta la
variabilidad debida a los empleados.
Solución
1
2
3
1
15
16
10
Empleados
2
3
22
18
24
21
7
9
4
35
32
15
Ventajas
Este diseño presenta ventajas,
•
En general es posible agrupar las unidades experimentales de modo que se logre mayor
precisión con respecto a un Diseño completamente al azar
•
La única restricción sobre el número de tratamiento por bloque y tratamiento es la
disponibilidad de unidades experimentales
•
Si se pierde información de todo un bloque o por contratiempo los datos de un bloque
completo es inutilizable estos datos puede omitirse, porque el resto mantiene la misma
estructura de un diseño de bloques completos al azar.
•
La pérdida de la información de alguna unidad es subsanable, puede ser estimada.
El Modelo Aditivo Lineal
El modelo aditivo Lineal del Diseño de Bloques Completo al Azar con una observación por
unidad experimental, La observación Yij puede representarse por el modelo siguiente:
Yij =  +  i +  j +  ij ; i = 1, 2,
, t y j = 1, 2,
,b
donde:
Yij : es la respuesta obtenida de la unidad experimental del j -ésimo bloque sujeta al
tratamiento i .
 : El efecto de la media común.
 i : El verdadero efecto del i -ésimo tratamiento.
 j : El verdadero efecto del j -ésimo bloque.
 ij : Es una variable aleatoria no observable llamado error
Para el proceso de inferencia se asume que  ij son variables aleatorias independientes que se
distribuye normalmente con media cero y variancia común  2 .
Modelo I (efectos fijos)
Se asume que los niveles de los factores son fijados por el investigador y estos efectos son
desviaciones con respecto a la media. Entonces se cumple:
b
t

 i = 0 ,
j =1
i =1
j
=0
Modelo II (efectos aleatorios)
Los niveles de los factores son elegidos aleatoriamente de poblaciones grandes. Entonces los
 i son variables aleatorias independientes distribuidas normalmente con media cero y
variancia 2 , los  j son variables aleatorias independientes distribuidas normalmente con
media cero y variancia  2 ,
Modelo III (Modelo mixto)
Los niveles de los tratamientos son fijados por el investigador y los niveles de los bloques
son elegidos al azar en este caso se cumple que
t

i =1
i
= 0;
y los  j son variables aleatorias independientes distribuidas normalmente con media cero y
variancia  2 ,
Representación de los datos
Bloques
Tratamientos
1
1
Y11
2
Y12
b
Y1b
Total
Y1•
2
Y21
Y22
Y2b
Y2•
t
Yt1
Yt 2
Ytb
Yt •
Total
Y•1
Y•2
Y•b
Y••
donde
b
Yi• =  Yij , para i = 1, 2,
j =1
t
t
,t;
Y• j =  Yij , para j = 1, 2,
i =1
,b;
b
Y•• =  Yij
i =1 j =1
Estimación de Parámetros para el Modelo I
Los estimadores de los parámetros pueden ser encontrados aplicando el método de los
mínimos cuadrados. Con este método se obtiene:
ˆ = Y•• =
Y•• 1 t b
=  Yij ; ˆi = Yi• − Y•• , para i = 1, 2,
tb tb i =1 j =1
ˆ j = Y• j − Y•• , para j = 1, 2,
,t;
,b
donde:
b
Y
Yi• = i• =
b
t
Y
j =1
ij
, Y• j =
b
Y• j
t
=
Y
i =1
ij
t
Residual o residuo
eij = Yij − Yi• − Y• j + Y••
ANÁLISIS DE VARIANCIA
La variación total puede ser descompuesta de la siguiente forma:
t
b
t
b
t
b
t
b
 (Yij − Y• )2 =  (Yi• − Y•• )2 +  (Y• j − Y•• )2 + (Yij − Yi• − Y• j + Y•• )2
i =1 j =1
i =1 j =1
i =1 j =1
t
t
i =1 j =1
donde:
b
b
SCTotal =  (Yij − Y•• )2 =  Yij2 −
Y••2
es la medida de la variación total.
bt
i =1 j =1
i =1 j =1
t
Yi•2 Y••2
es una medida de la variación entre
−
bt
i =1 b
tratamientos.
b
t
SCTrat =  (Yi• − Y•• )2 = 
i =1 j =1
t
b
b
Y•2j
j =1
t
SCBloq =  (Y• j − Y•• ) = 
2
i =1 j =1
t
−
Y••2
es una medida de la variación existente
tb
entre bloques
b
SCE =  (Yij − Yi• − Y• j + Y•• )2 = SCTotal − SCTrat − SCBloq , es la variación
i =1 j =1
debido a otros factores no considerados en el
modelo.
Cuadrados Medios
Los cuadrados Medios se definen como el cociente entre la suma de los cuadrados sobre
sus respectivos grados de libertad:
CMBloq =
SCBloq
,
b −1
CMTrat =
SCTrat
SCE
, CME =
t −1
( b − 1)( t − 1)
Luego, se tiene el siguiente cuadro de ANVA
Fuente de
Variación
Bloques
SC
GL
CM
SCBloq
b-1
CMBloq
Tratamientos SCTrat
t-1
CMTrat
2 +
Error
Total
(b-1)(t-1)
bt-1
CME
2
SCE
SCTotal
Cuadrados Medios Esperados
Modelo I
Modelo II
b
t
 2 + t 2
2
2 +

 j
b − 1 j =1
b t 2
 i
t − 1 i =1
 2 + b2
2
Prueba de Hipótesis (Modelo I)
H 0 : 1 =  2 =
= t = 0
equivalente a
H1 :  i  0 , para al menos un i
H 0 : 1 = 2 =
= t
H1 : al menos dos i son diferentes
Nivel de Significación 
Fc =
CMTrat
~ F( t −1,( b −1)( t −1)) / si la Hp es cierta
CME
Nota: Como los bloques son fijados y no cumple con el principio de aleatorización no se
puede realizar pruebas de hipótesis sobre los efectos de bloques. En lugar de esto se puede
encontrar eficiencia relativa respecto a un diseño completamente al azar, el cual se define:
SCBloq + b(t − 1)CME
tb − 1
ER =
CME
Si ER  1 entonces el Diseño de Bloques Completos al Azar es más eficiente que un Diseño
Completamente al azar.
Ejemplo: Se llevó a cabo un experimento para señalar los méritos de 5 tipos de gasolinas.
Debido a que es inevitable la variación en eficiencia de vehículo a vehículo, se realizó un
experimento con 5 automóviles, que de aquí en adelante llamaremos bloques. Se dispone de
las siguientes descripciones de las 5 tratamientos:
A: Control
B: Control + aditivo X elaborado por la compañía I
C: Control + aditivo Y elaborado por la compañía I
D: Control + aditivo U elaborado por la compañía II
E: Control + aditivo V elaborado por la compañía II
Los tipos de gasolinas fueron probadas en cada carro en orden aleatorio. Los datos, en
Km/litros, se dan continuación:
Tratamiento
Gasolina
A
B
C
D
E
Total
1
8
10
8
9
10
45
Bloques (vehículo)
2
3
4
5
7
9
8
8
9
41
6
8
9
8
8
39
6
7
9
8
7
37
7
9
10
7
9
42
Total
34
43
44
40
43
204
Modelo Aditivo Lineal:
Yij =  +  i +  j +  ij ; i = 1, 2, 3, 4 y 5 y j = 1, 2, 3, 4 y 5
donde:
Yij : es rendimiento en Km/litro obtenido del j -ésimo vehículo con el
i -ésimo tipo de de gasolina.
 : El efecto de la media común.
 i : El verdadero efecto del i -ésimo tipo de gasólina
 j : El verdadero efecto del j -ésimo vehículo.
 ij : Son los efectos no observado del j-ésimo vehículo con el i-ésimo tipo de
gasolina llamado error
Una posible aleatorización de los tratamientos dentro de los bloques sería:
> library(agricolae)
> design.rcbd(c("A","B","C","D","E"), 5, serie = 2, seed = 0)
$parameters
$parameters$design
[1] "rcbd"
$parameters$trt
[1] "A" "B" "C" "D" "E"
$parameters$r
[1] 5
$parameters$serie
[1] 2
$parameters$seed
[1] 1301693141
$parameters$kinds
[1] "Super-Duper"
$parameters[[7]]
[1] TRUE
$sketch
[,1]
[1,] "E"
[2,] "C"
[3,] "B"
[4,] "C"
[5,] "D"
[,2]
"A"
"D"
"A"
"B"
"C"
[,3]
"D"
"B"
"E"
"E"
"A"
[,4]
"C"
"A"
"C"
"D"
"B"
[,5]
"B"
"E"
"D"
"A"
"E"
$book
plots block c("A", "B", "C", "D", "E")
1
101
1
E
2
102
1
A
3
103
1
D
4
104
1
C
5
105
1
B
6
201
2
C
7
202
2
D
8
203
2
B
9
204
2
A
10
205
2
E
11
301
3
B
12
302
3
A
13
303
3
E
14
304
3
C
15
305
3
D
16
401
4
C
17
402
4
B
18
403
4
E
19
404
4
D
20
405
4
A
21
501
5
D
22
502
5
C
23
503
5
A
24
504
5
B
25
505
5
E
Ejemplo de cálculo de algunos efectos estimado y residual
34 204
−
= −1.36
5
25
41 204
ˆ2 = Y•2 − Y•• = −
= 0.04
5
25
e12 = Y12 − Y1• − Y•2 + Y•• = 7 − 6.8 − 8.2 + 8.16 = 0.16
ˆ1 = Y1• − Y•• =
Cuadro de ANVA
5
5
 Y
i =1 j =1
5
Y
j =1
2
•j
2
ij
= 82 + 7 2 +
5
Y
+ 92 = 1696 ,
i =1
= 452 + 412 +
b
SCBloq = 
j =1
2
i•
= 342 + 432 +
+ 422 = 8360
Y 2 8360 ( 204 )
− •• =
−
= 7.36
t
tb
5
25
2
Y•2j
Y 2 Y 2 8390 ( 204 )
SCTrat =  i• − •• =
−
= 13.36
bt
5
25
i =1 b
2
t
( 204) = 31.36
Y2
SCTotal =  Yij − •• = 1696 −
bt
25
i =1 j =1
SCE = SCTotal − SCTrat − SCBloq = 31.36 − 7.36 − 13.36 = 10.64
t
2
b
2
Fuente de
Variación
Carros
Gasolinas
Error
Total
SC
GL
CM
Fc
7.36
13.36
10.64
31.36
4
4
16
24
1.84
3.34
0.665
5.0226
H p : 1 = 2 = 3 = 4 = 5
H a : al menos dos i son diferentes
 = 0.05
Fc =
CMTrat 3.34
=
= 5.0226
CME
0.665
F( 0.95,4,4) = 3.01 , como Fc  F( 0.95,4,4) , se rechaza la H p .
+ 432 = 8390 ,
>
>
>
>
library(agricolae)
treatments <- c("A","B","C","D","E")
planb <- design.rcbd(treatments, 5, serie = 1, seed = 0)$book
planb
plots block treatments
1
11
1
B
2
12
1
D
3
13
1
C
4
14
1
E
5
15
1
A
6
21
2
D
7
22
2
E
8
23
2
A
9
24
2
C
10
25
2
B
11
31
3
C
12
32
3
A
13
33
3
E
14
34
3
B
15
35
3
D
16
41
4
C
17
42
4
B
18
43
4
A
19
44
4
D
20
45
4
E
21
51
5
D
22
52
5
E
23
53
5
A
24
54
5
C
25
55
5
B
> #fix(planb)
> planb$rendimiento<c(9,10,8,10,8,9,8,8,9,7,9,6,8,8,8,6,9,7,7,8,9,7,7,10,9)
> #fix(planb)
> planb
plots block treatments rendimiento
1
11
1
B
9
2
12
1
D
10
3
13
1
C
8
4
14
1
E
10
5
15
1
A
8
6
21
2
D
9
7
22
2
E
8
8
23
2
A
8
9
24
2
C
9
10
25
2
B
7
11
31
3
C
9
12
32
3
A
6
13
33
3
E
8
14
34
3
B
8
15
35
3
D
8
16
41
4
C
6
17
42
4
B
9
18
43
4
A
7
19
44
4
D
7
20
45
4
E
8
21
51
5
D
9
22
23
24
25
52
53
54
55
5
5
5
5
E
A
C
B
7
7
10
9
Usando el archivo ya armado
> planb<-read.table("dbca_ejem.txt",T)
> planb
block treatment rendimiento
1
1
D
9
2
1
B
10
3
1
C
8
4
1
E
10
5
1
A
8
6
2
B
9
7
2
D
8
8
2
C
8
9
2
E
9
10
2
A
7
11
3
C
9
12
3
A
6
13
3
B
8
14
3
D
8
15
3
E
8
16
4
A
6
17
4
C
9
18
4
E
7
19
4
B
7
20
4
D
8
21
5
E
9
22
5
D
7
23
5
A
7
24
5
C
10
25
5
B
9
> planb$block<-factor(planb$block)
> planb$treatment<-factor(planb$treatment)
> str(planb)
'data.frame':
25 obs. of 3 variables:
$ block
: Factor w/ 5 levels "1","2","3","4",..: 1 1 1 1 1 2 2 2 2 2
...
$ treatment : Factor w/ 5 levels "A","B","C","D",..: 4 2 3 5 1 2 4 3 5 1
...
$ rendimiento: num 9 10 8 10 8 9 8 8 9 7 ...
> mod<-lm(rendimiento~block+treatments,planb)
> anva<-anova(mod)
> anva
Analysis of Variance Table
Response: rendimiento
Df Sum Sq Mean Sq F value
Pr(>F)
block
4
7.36
1.840 2.7669 0.063664 .
treatment 4 13.36
3.340 5.0226 0.008138 **
Residuals 16 10.64
0.665
--Signif. codes:
>
>
>
>
>
>
>
>
>
>
>
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
cm<- anva$Mean
sc<-anva$Sum
rendimiento<-planb$rendimiento
vehiculo<-planb$block
tipos<-planb$treatment
nt<-tapply(rendimiento,vehiculo,length)
t<-nt[1]
nb<-tapply(rendimiento,tipos,length)
b<-nb[1]
ER<-((sc[1]+b*(t-1)*cm[3])/(t*b-1))/cm[3]
ER
1
1.294486
Como ER>1 el uso de bloques ha sido efectivo para reducir el error experimental
Comparaciones Múltiples (Modelo I)
Si se define que i =  +  i entonces un estimador de i esta dado por
ˆ i = Yi• =
la variancia de Yi • , para i = 1, 2,
var Yi•  =
2
b
, t está dado por:
, y su estimado está dado por: SY2i• =
la variancia de Yi• − Yl • , para i  l y i, l = 1, 2,
var Yi• − Yl •  =
1 b
 Yij ,
b j =1
CME
b
, t , está dado por:
2CME
2 2
y su estimado está dado por SY2i• −Yl• =
b
b
Prueba de t
Hipótesis
Caso A Bilateral
Caso B Unilateral a la Derecha
Caso C Unilateral a La Izquierda
H a : i − l  k
H a : i − l  k
H a : i − l  k
H p : i − l = k
Para i  l ; i, l = 1, 2,
H p : i − l  k
,t
Nivel de significación 
Estadística de prueba:
H p : i − l  k
tc =
Decisión
Se Acepta
Yi• − Yl • − k
~ t( gle) / H p es verdadera
SYi• −Yl•
Caso A
Hp
Se Rechaza
t 

 , gle 
2

Hp
 tc  t
tc  t 


1− , gle 
 2


 , gle 
2

ó tc  t


1− , gle 
 2

Caso B
Caso C
tc  t(1− ; gle)
tc  t( ; gle)
tc  t(1− ; gle)
tc  t( ; gle)
Diferencia Mínima de Significación (DMS), también se le conoce con el nombre de
diferencia límite de significación
H p : i = l
H a : i  l
Para i  l , i, l = 1, 2,
,t
Nivel de significación 
Entonces si definimos
DMS ( i, l ) = t
S

 Yi• −Yl•
1− ,GLE 
 2

Luego, un criterio para examinar si existe diferencia significativa entre medias de tratamiento
se puede usar este criterio de la diferencia mínima significante ( DMS ( i, l ) ) . Esto es, se
rechaza H 0 si
Yi• − Yl •  DMS ( i, l )
Para i  l , i, l = 1, 2,
,t
Ejemplo: Con los datos del ejemplo de gasolina, suponga que fue planeado realizar la
comparación entre la gasolina D y E. Realice la prueba de t a un nivel de significación
 = 0.05 , para realizar esta comparación
Las medias de los rendimientos está dado por:
YA• = 6.8 ,
YB• = 8.6 , YC• = 8.8 , YD• = 8.0 , YE• = 8.6
H p : D = E o H p : D − E = 0
H a : D  E o H a : D − E  0
 = 0.05
tc =
T( 0.975,16) = 2.22 , SY2D• −YE• =
2CME 2 ( 0.665 )
=
= 0.266
b
5
YD• − YE • − k 8 − 8.6 − 0
=
= -1.16335 . Se acepta H p
SYD• −YE•
0.266
Con lenguaje R
>
>
>
>
>
>
gasolina<-read.table("gasolina.txt",T)
str(gasolina)
rendimiento<-gasolina[,1]
vehiculo<-factor(gasolina[,2])
tipos<-factor(gasolina[,3])
modeg<-lm(rendimiento~vehiculo+tipos)
El lenguaje R da unos estimados de efectos para los dos factores. Para el caso de gasolina
viene hacer la diferencia de la medias de tratamientos de B, C, D y E con respecto a la media
de tratamiento de A, respectivamente.
> mediat<-tapply(rendimiento,tipos,mean)
> mediat
a
b
c
d
e
6.8 8.6 8.8 8.0 8.6
> mediaD<-mediat[4]
> mediaE<-mediat[5]
> esdmedia<-sqrt(2*(deviance(modeg)/df.residual(modeg))/5)
> esdmedia
a
0.5157519
> tc<-(mediaD-mediaE-0)/esdmedia
> tc
d
-1.16335
> pvalue<-2*pt(tc,df.residual(modeg))
> pvalue
d
0.2617441
No se rechaza H0
Prueba de Tukey-Cramer (Tukey HSD)
Planteamiento de hipótesis
H p : i = l
H a : i  l
Para i  l , i, l = 1, 2,
,t
Nivel de significación 
Cálculo del Valor Crítico:
w = q ( t , GLE )
1
SY −Y
2 i• l •
donde:
q ( t , GLE ) =amplitud estudiantizada para la prueba de Tukey
t = número de tratamiento a comparar
GLE = Grados de libertad del error
Se rechaza H 0 aun nivel de significación  , si
Yi• − Yl •  w
Ejemplo: Con los datos del ejemplo de gasolina, realice la prueba de Tukey a un nivel de
significación  = 0.05 , para realizar esta comparación
H p : i = i
H a : i  i para i, i = A, B, C , D, E , i  i
 = 0.05 ,
q ( 0.95,5,16 ) = 4.34
CME = 0.665
w = q ( 0.95,5,16 )
Comparación
B-A
C-A
D-A
E-A
C-B
D-B
E-B
D-C
E-C
E-D
CME
0.665
= ( 4.34 )
= 1.582762
5
5
Yi − Yi
SYi• −Yl•
1.8
2
1.2
1.8
0.2
0.6
0
0.8
0.2
0.6
0.5157519
0.5157519
0.5157519
0.5157519
0.5157519
0.5157519
0.5157519
0.5157519
0.5157519
0.5157519
w
1.582762
1.582762
1.582762
1.582762
1.582762
1.582762
1.582762
1.582762
1.582762
1.582762
Significancia
significativo
significativo
No significativo
significativo
No significativo
No significativo
No significativo
No significativo
No significativo
No significativo
>
>
>
>
library(multcomp)
amod<-aov(rendimiento~vehiculo+tipos)
comptipos<-glht(amod,linfct=mcp(tipos="Tukey"))
confint(comptipos)
Simultaneous Confidence Intervals
Multiple Comparisons of Means: Tukey Contrasts
Fit: aov(formula = modeg)
Quantile = 3.065
95% family-wise confidence level
Linear Hypotheses:
Estimate
b - a == 0 1.800e+00
c - a == 0 2.000e+00
d - a == 0 1.200e+00
e - a == 0 1.800e+00
c - b == 0 2.000e-01
d - b == 0 -6.000e-01
e - b == 0 6.661e-16
d - c == 0 -8.000e-01
e - c == 0 -2.000e-01
e - d == 0 6.000e-01
lwr
upr
2.192e-01 3.381e+00
4.192e-01 3.581e+00
-3.808e-01 2.781e+00
2.192e-01 3.381e+00
-1.381e+00 1.781e+00
-2.181e+00 9.808e-01
-1.581e+00 1.581e+00
-2.381e+00 7.808e-01
-1.781e+00 1.381e+00
-9.808e-01 2.181e+00
> summary(comptipos)
Simultaneous Tests for General Linear Hypotheses
Multiple Comparisons of Means: Tukey Contrasts
Fit: aov(formula = modeg)
Linear Hypotheses:
Estimate Std. Error t value Pr(>|t|)
b - a == 0 1.800e+00 5.158e-01
3.490
0.0218 *
c - a == 0 2.000e+00 5.158e-01
3.878
0.0100 *
d - a == 0 1.200e+00 5.158e-01
2.327
0.1869
e - a == 0 1.800e+00 5.158e-01
3.490
0.0218 *
c - b == 0 2.000e-01 5.158e-01
0.388
0.9947
d - b == 0 -6.000e-01 5.158e-01 -1.163
0.7712
e - b == 0 6.661e-16 5.158e-01
0.000
1.0000
d - c == 0 -8.000e-01 5.158e-01 -1.551
0.5467
e - c == 0 -2.000e-01 5.158e-01 -0.388
0.9947
e - d == 0 6.000e-01 5.158e-01
1.163
0.7712
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Adjusted p values reported -- single-step method)
Se ha encontrados diferencias significativas entre las siguientes comparaciones de medias de
rendimientos:
- Entre la media de los rendimientos obtenidos con la gasolina tipo B y A
- Entre la media de los rendimientos obtenidos con la gasolina tipo C y A
- Entre la media de los rendimientos obtenidos con la gasolina tipo E y A
Entre las otras comparaciones no se ha encontrados diferencias significativas a un nivel de
significación del 10º%
A
6.8
D
8.0
B
8.6
E
8.6
C
8.8
De acuerdo a estos resultados se puede recomendar las gasolina tipo B, E y C por tener los
mayores rendimientos
Prueba de Dunnett (comparaciones de todas las medias de tratamientos con un control o
testigo)
H p : i = 1
H a : i  1 , para i = 2,
,t
Donde: 1 = es la media del tratamiento testigo o de control
Nivel de significación 
Valor Crítico:
d  = t Dunnet ( , p, GLE ) SYi −Y1 , para i = 2,
,t
donde :
tDunnet ( , t , GLE ) = t de Dunnett con un nivel de significación  .
p = número de tratamiento a comparar con el control
GLE = Grados de libertad del error
Se rechaza H 0 aun nivel de significación  , si
Yi• − Y1•  d  , para i = 2,
,t
Ejemplo: En el ejemplo de la gasolina suponga que A es el tratamiento Control. Realice la
prueba de Dunnett a un nivel  = 0.05
H p : i =  A
H a : i   A , para i = B, C , D, E
YA• = 6.8 ,
SY2i −YA =
YB• = 8.6 , YC• = 8.8 , YD• = 8.0 , YE• = 8.6 ;
2CME 2 ( 0.665 )
=
= 0.266
b
5
d  = tDunnet ( 0.05, 4,16 ) SYi −YA = (2.34)( 0.266) = 1.206859
Comparación
Yi• − YA•
d  = t Dunnet ( 0.5, 4,16 ) SYi• −YA•
B-A
C-A
D-A
E-A
1.8
2.0
1.2
1.8
1.206859
1.206859
1.206859
1.206859
> amod<-aov(rendimiento~vehiculo+tipos)
> comptipos<-glht(amod,linfct=mcp(tipos="Dunnett"))
> confint(comptipos)
Simultaneous Confidence Intervals
Multiple Comparisons of Means: Dunnett Contrasts
Fit: aov(formula = rendimiento ~ vehiculo + tipos)
Estimated Quantile = 2.7086
95% family-wise confidence level
Linear Hypotheses:
Estimate lwr
upr
b - a == 0 1.8000
0.4030 3.1970
c - a == 0 2.0000
0.6030 3.3970
d - a == 0 1.2000 -0.1970 2.5970
e - a == 0 1.8000
0.4030 3.1970
> summary(comptipos)
Simultaneous Tests for General Linear Hypotheses
Multiple Comparisons of Means: Dunnett Contrasts
Fit: aov(formula = rendimiento ~ vehiculo + tipos)
Linear Hypotheses:
Estimate Std. Error t value Pr(>|t|)
b - a == 0
1.8000
0.5158
3.490 0.01017 *
c - a == 0
2.0000
0.5158
3.878 0.00465 **
d - a == 0
1.2000
0.5158
2.327 0.10292
e - a == 0
1.8000
0.5158
3.490 0.01026 *
significativo
significativo
No significativo
significativo
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Adjusted p values reported -- single-step method)
La prueba de Duncan
Planteamiento de hipótesis
H 0 : i = i
H a : i  i 
Para i  i , i, i = 1, 2,
,t
Nivel de significación 
Cálculo del Valor Crítico:
vd = d ( p, GLE )
1
SY −Y
2 i i
donde:
d ( p, GLE ) =amplitud estudiantizada para la prueba de Duncan
p = número de medias muestrales ordenadas de menor a mayor comprendidas entre
ellas inclusive.
GLE = Grados de libertad del error
2CME
SYi −Yi =
b
Se rechaza H 0 a un nivel de significación  , si
Yi − Yi  vd
H p : i = i
H a : i  i para i, i = A, B, C , D, E , i  i
 = 0.05 ,
CME = 0.665
2CME
2*0.665
SYi −Yi =
=
= 0.5157519
b
5
p
2
3
4
5
3.00
3.15
3.23
3.30
d0.05 ( p,16 )
> tapply(rendimiento,tipos,mean)
Yi − Yi
Comparación
B-A
C-A
D-A
E-A
C-B
D-B
E-B
D-C
E-C
E-D
SYi• −Yl•
1.8
2
1.2
1.8
0.2
0.6
0
0.8
0.2
0.6
0.5157519
0.5157519
0.5157519
0.5157519
0.5157519
0.5157519
0.5157519
0.5157519
0.5157519
0.5157519
p
d0.05 ( p,16 )
3
5
2
4
3
2
2
4
2
3
3.15
3.30
3.00
3.23
3.15
3.00
3.00
3.23
3.00
3.15
> library(agricolae)
> modeg<-lm(rendimiento~vehiculo+tipos)
> anva<-aov(modeg)
> compd<-duncan.test(anva,"tipo")
> compd
$statistics
Mean
CV MSerror
8.16 9.99357
0.665
$parameters
Df ntr
16
5
$Duncan
Table CriticalRange
2 2.997999
1.093345
3 3.143802
1.146519
4 3.234945
1.179757
5 3.297445
1.202550
$means
rendimiento
a
6.8
b
8.6
c
8.8
d
8.0
e
8.6
$comparison
NULL
$groups
trt means
1
c
8.8
2
b
8.6
3
e
8.6
4
d
8.0
5
a
6.8
M
a
a
a
a
b
std
0.8366600
1.1401754
0.8366600
0.7071068
1.1401754
r Min Max
5
6
8
5
7 10
5
8 10
5
7
9
5
7 10
vd
1.148779
1.203482
1.094075
1.177954
1.148779
1.094075
1.094075
1.177954
1.094075
1.148779
Significancia
significativo
significativo
significativo
significativo
No significativo
No significativo
No significativo
No significativo
No significativo
No significativo
> compd<-duncan.test(anva,"tipo",group=FALSE)
> compd
$statistics
Mean
CV MSerror
8.16 9.99357
0.665
$parameters
Df ntr
16
5
$Duncan
Table CriticalRange
2 2.997999
1.093345
3 3.143802
1.146519
4 3.234945
1.179757
5 3.297445
1.202550
$means
rendimiento
a
6.8
b
8.6
c
8.8
d
8.0
e
8.6
std
0.8366600
1.1401754
0.8366600
0.7071068
1.1401754
$comparison
Difference
a - b
-1.8
a - c
-2.0
a - d
-1.2
a - e
-1.8
b - c
-0.2
b - d
0.6
b - e
0.0
c - d
0.8
c - e
0.2
d - e
-0.6
r Min Max
5
6
8
5
7 10
5
8 10
5
7
9
5
7 10
pvalue sig.
LCL
UCL
0.004810
** -2.9797573 -0.6202427
0.002516
** -3.2025505 -0.7974495
0.033440
* -2.2933451 -0.1066549
0.004019
** -2.9465185 -0.6534815
0.703287
-1.2933451 0.8933451
0.245475
-0.5465185 1.7465185
1.000000
-1.0933451 1.0933451
0.144077
-0.3797573 1.9797573
0.460428
-0.9465185 1.3465185
0.261744
-1.6933451 0.4933451
$groups
NULL
A
6.8
D
8.0
B
8.6
E
8.6
C
8.8
Prueba de t con contraste:
Suponga que se desean probar la Hipótesis
Caso A Bilateral
Caso B Unilateral a la Derecha
Caso C Unilateral a La Izquierda
t
t
t
H 0 :  Ci i  k
H 0 :  Ci i = k
H 0 :  Ci i  k
i =1
i =1
i =1
t
t
t
H1 :  Ci i  k
H1 :  Ci i  k
H1 :  Ci i  k
i =1
i =1
i =1
a un nivel de significación 
Estadística de Prueba
Q−k
t=
t
bCME  Ci2
t
t
i =1
i =1
~ t(GLE ) / H 0 es verdadera, siendo Q =  CiYi. = bCiYi.
i =1
Luego,
Decisión
Se Acepta
Caso A
t 
Hp
Se Rechaza

 , gle 
2

 tc  t
tc  t 
Hp

 , gle 
2



1− , gle 
 2

ó tc  t


1− , gle 
 2

Caso B
Caso C
tc  t(1− ; gle)
tc  t( ; gle)
tc  t(1− ; gle)
tc  t( ; gle)
Prueba de Scheffé
t
H 0 :  Ci i = 0 contra
i =1
t
H a :  Ci i  0
i =1
Nivel de significación 
Valor Crítico de la prueba
VCS = SLˆ
donde:
t
Lˆ =  CiYi.
i =1
(GLTrat ) F(1− ,GLTrat ,GLE )
S Lˆ =
t
1
CME  Ci2
b
i =1
Se acepta H 0 , si
L̂  VCS
Se rechaza H 0 , si
L̂  VCS
El Método de Bonferroni
Hipótesis:
H 0 : i = l
H a : i  l , para i  l , y i, l = 1, 2,
.t
VCB ( i, l ) = t
S

 Y −Y
,GLE  i . l .
1−
 2 nc

donde:
SYi . −Yl . =
Se rechaza H 0 para i  l , y i, l = 1, 2,
2CME
b
. t , si
Yi. − Yl .  VCB ( i, l )
Ejemplo: Con los datos del ejemplo de gasolina, use la prueba de t para probar el siguiente
contraste a un nivel de significación  = 0.05 : ( B, C , D, E ) versus A.
H p : B + C + D + E = 4 A
H p :  B + C +  D +  E − 4  A = 0
H a :  B + C +  D +  E − 4  A  0
H a :  B + C +  D +  E  4  A
H a :  B + C +  D +  E  4  A
 = 0.05
T( 0.975,16) = 2.11 , se acepta H p si: −2.12  tc  2.12 caso contrario se rechaza.
5
Q = b CiYi• = 5 ( −4 )( 6.8) + (1)(8.6 ) + (1)(8.8) + (1)(8.0 ) + (1)(8.6 ) = 34
i =1
Q
tc =
=
t
bCME  C
i =1
2
i
34
( 5)( 0.665) ( ( −4 )
Como tc  2.12 , se rechaza
2
+1 +1 +1 +1
2
2
2
2
)
= 4.16934
Hp .
Con lenguaje R
>
>
>
>
>
vmedia<-tapply(rendimiento,tipos,mean)
ci<-c(-4,1,1,1,1)
q<-5*ci%*%vmedia
tc<-q/sqrt(5*(deviance(modeg)/16)*sum(ci^2))
tc
[,1]
[1,] 4.169348
> pvalue<-2*(1-pt(tc,16))
> pvalue
[,1]
[1,] 0.000723429
Ejemplo: Con los datos del ejemplo de gasolina, use la prueba de Scheffé para probar el
siguiente contraste a un nivel de significación  = 0.05 : ( B, C , D, E ) versus A
H p : B + C + D + E − 4 A = 0
H a :  B + C +  D +  E − 4  A  0
 = 0.05
F( 0.95,4,16) = 3.01
t
Lˆ =  CiYi. = ( −4 )( 6.8) + (1)(8.6 ) + (1)(8.8) + (1)(8.0 ) + (1)(8.6 ) = 6.8
i =1
Lˆ = 6.8
S Lˆ =
(
)
t
1
1
2
CME  Ci2 =
( 0.665) ( −4 ) + 12 + 12 + 12 + 12 = 1.630951
b
5
i =1
VCS = SLˆ
(GLTrat ) F(1− ,GLTrat ,GLE ) = (1.630951) ( 4)( 3.01) = 5.659188
Como L̂  VCS , se rechaza H p .
Con Lenguaje R
> absl<-abs(ci%*%vmedia)
> absl
[,1]
[1,] 6.8
> sl<-sqrt((1/5)*(deviance(modeg)/16)*sum(ci^2))
> sl
[1] 1.630951
> vcs<-sl*sqrt(4*qf(0.95,4,16))
> vcs
[1] 5.656289
Análisis de residuales
>
>
>
>
>
gasolina<-read.table("gasolina.txt",T)
rendimiento<-gasolina[,1]
vehiculo<-factor(gasolina[,2])
tipos<-factor(gasolina[,3])
modeg<-lm(rendimiento~vehiculo+tipos)
24
7.5
9.0
0
23
3
24
-2 -1
0
1
2
Theoretical Quantiles
Scale-Location
Constant Leverage:
Residuals vs Factor Levels
6.0
7.5
9.0
Fitted values
1
23
-1
3
-3
1.0
24
23
Standardized residuals
Fitted values
0.0
Standardized residuals
6.0
3
Normal Q-Q
-2
0.5
23
-1.5
Residuals
Residuals vs Fitted
Standardized residuals
> par(mfrow=c(2,2))
> plot(modeg)
3
vehiculo :
4 3 2
Shapiro-Wilk normality test
> library(car)
> ncvTest(modeg)
5 1
Factor Level Combinations
> ri<-rstandard(modeg)
> shapiro.test(ri)
data: ri
W = 0.9362, p-value = 0.1207
24
Non-constant Variance Score Test
Variance formula: ~ fitted.values
Chisquare = 3.160140
Df = 1
p = 0.07545673
De acuerdo al gráfico de los valores predicho (o valores ajustado) versus los residuos, se
puede observar que conforme los valores predichos aumenta la variabilidad de los residuos
también aumenta (en forma de embudo), y también se puede observar que el lowes de la raíz
cuadrada de valores absolutos de residuales estandarizados (estudiantizados internamente)
en función de los valores predichos tiene una tendencia sistemática creciente.
Por último, en el cuarto gráfico se puede observar que el único residual estandarizado que
sobrepasa los límites 2 es el de la observación 3, siendo este el único valor extremo Todo
esto indica que es probable que no se cumpla con el supuesto de homogeneidad de variancia.
También, el gráfico de probabilidad normal de los residuos estandarizado nos da evidencia
de que posiblemente el supuesto de normalidad no se cumpla causado posiblemente por los
valor extremo o de las observaciones con residuos estandarizados cercanos al límite 2 , pero
al realizar la prueba de Shapiro Wilk esta se acepta para niveles de significación menores a
0.1207.
Asimismo, al realizar la prueba de Homogeneidad de variancia, ésta resulta significativa a
un nivel de significación del 10%, esto es que se encontrado suficiente evidencia para afirmar
que no se cumple con este supuesto. Una alternativa es realizar transformaciones para
estabilizar la variancia y realizar el análisis con los datos transformados, ya que el
incumplimiento de este supuesto hace que las pruebas de hipótesis realizadas en el ANVA y
pruebas de comparación no tengan validez.
Descargar