Subido por julianjclc

Practica 3 2006

Anuncio
Capítulo 1
Prácticas y problemas de diseño
de experimentos.
1.1.
Problemas de diseño de experimentos con ordenador.
Problema 3.1. Datos apareados.
“El Ministerio de Trabajo desea saber si un plan de seguridad en el trabajo es efectivo
en la reducción del número de accidentes laborables y por tanto en la pérdida de horas de
trabajo debido a accidentes. Para ello se hace un seguimiento en 16 fábricas, observando las
horas de trabajo semanales pérdidas a causa de accidentes, antes y después de implantar
el plan de seguridad. Los datos obtenidos son los de la tabla adjunta. Analizar estos datos
y obtener conclusiones acerca del problema planteado”.
Fábrica
Antes
Después
Fábrica
Antes
Después
1
55
52
9
110
95
2
63
60
10
33
35
3
90
85
11
44
47
4
47
49
12
74
70
5
75
65
13
60
55
6
90
87
14
87
75
7
73
67
15
41
45
8
92
85
16
15
18
Desarrollo del Problema 3.1.
Este problema puede resolverse por dos métodos distintos pero equivalentes que llevan
a las mismas conclusiones.
En primer lugar y dado que el factor-tratamiento (plan de seguridad ) solo tiene dos
niveles (antes y después de implantar el plan) se puede considerar como un problema de
datos apareados. Se calcula la variable diferencia
Ydif = Yantes
y se contrasta la hipótesis de que E (Ydif ) = 0:
1
Ydespues ;
2
Modelos estadísticos aplicados. Juan Vilar
Con el Statgraphics se utiliza el siguiente módulo
comparacion > dos muestras > comparacion de muestras pareadas
Una vez introducidas las variables Yantes e Ydespues ; el módulo proporciona resultados
analíticos y grá…cos acerca de la variable diferencia Ydif . Utilizando el test de la t respecto
a la media de una muestra resuelve el contraste H0 : E (Ydif ) = 0:
¿Utilizando directamente los datos de la tabla podría resolverse el problema contrastando la hipótesis H0 : E (Yantes ) = E (Ydespues ) ; frente a la alternativa de que las medias
son diferentes?
Si se quiere resolver el problema de esta forma ¿cómo se debe recoger la muestra?,
¿los resultados obtenidos por ambos procedimientos son iguales?, ¿cuál de los dos procedimientos es mejor?
La resolución del problema también puede hacerse por una tabla ANOVA de un modelo
de diseño de experimentos con un factor tratamiento (plan de seguridad ) y un factor-bloque
(fábrica). Se siguen los siguientes pasos:
1. Con los datos del problema se crean tres variables de 32 observaciones:
? la variable respuesta Y;
? el factor (plan de seguridad ) con dos niveles (antes y después),
? el factor bloque “fábrica” con 16 niveles.
2. Se utiliza el siguiente módulo
comparacion > analisis de la varianza > anova factorial
sin interacción (máximo orden de interacción=1).
Este módulo proporciona un amplio estudio analítico y grá…co para responder al
problema planteado. ¿Cómo son el p valor del test de la t utilizado en la técnica
de datos apareados y el p valor del test de la F utilizado en la técnica de la tabla
ANOVA?
¿Es in‡uyente la variable bloque “fábrica”? En consecuencia ¿es adecuada la recogida
muestral para la resolución del problema?
3. Finalmente se contrastan las hipótesis básicas estructurales utilizando las técnicas
expuestas en el capítulo anterior.
Problema 3.2. (Diseño de experimentos en bloques completamente aleatorizados)
“Se ha realizado un diseño de experimentos para estudiar la calidad de las soldaduras,
el objetivo es determinar si existen diferencias entre las soldaduras según el elemento de
soldadura que se utilice entre tres posibles: níquel, hierro o cobre. Como pueden haber
Prácticas y problemas de diseño de experimentos.
3
diferencias signi…cativas entre los elementos a soldar se ha utilizado un diseño de bloques
completamente aleatorizados. Para ello se han utilizado diez lingotes (bloques) y de cada
uno de ellos se han soldado dos componentes utilizando los tres tipos de soldadura. Finalmente se mide la fuerza (expresada en 100 libras por pulgada cuadrada) necesaria para
romper la soldadura. Los resultados obtenidos son los de la tabla adjunta. En base a estos
datos estudiar la in‡uencia de factor “tipo de soldadura”, ¿cambian los resultados si no se
tiene en cuenta el bloque “lingote”? ”.
Níquel
Cobre
Hierro
B1
760 0
710 6
760 4
B2
660 3
740 1
730 4
B3
680 9
700 7
690 7
B4
740 7
750 4
740 7
B5
730 0
660 7
600 2
B6
720 7
650 0
610 2
B7
800 0
700 8
710 7
B8
830 6
760 2
570 0
B9
610 2
660 0
580 5
B10
620 6
720 0
660 3
Desarrollo del Problema 3.2.
Se utiliza el siguiente módulo
comparacion > analisis de la varianza > anova factorial
En este módulo al introducir como variable dependiente “resistencia”y los dos factores:
el factor-tratamiento tipo de soldadura y el factor-bloque lingote, se obtiene un completo
análisis de la varianza que comprende:
- la tabla ANOVA que permite contrastar la in‡uencia de los dos factores;
- la tabla de medias que calcula la media de cada nivel de cada uno de los factores, así
como intervalos de con…anza para las mismas;
- el test de rangos múltiples que permite obtener los grupos homogéneos en ambos
factores y las diferencias signi…cativas entre las medias de dos niveles de un factor, se
pueden utilizar diferentes métodos (LSD, Sche¤é, Tuckey,.. ).
El estudio grá…co que ofrece el módulo es bastante completo:
- el grá…co de puntos y el de medias permiten con…rmar gra…camente las conclusiones
que se deducen de la tabla ANOVA,
- los tres grá…cos de residuos permiten tener idea aproximada acerca del cumplimiento
de las hipótesis básicas del modelo,
- si en el módulo de opciones de analisis se eligen “interacciones de orden 2 ”, se
obtienen grá…cos de interacciones que pueden dar una idea aproximada acerca de la posible
existencia o no de interacciones.
También se puede calcular el l test de Tuckey sobre la no existencia de interacción
aunque con un mayor trabajo ya que el paquete no lo calcula directamente.
Como en el análisis de cualquier modelo estadístico se deben guardar los residuos y
analizar el cumplimeinto de las hipótesis básicas estructurales como se indicó en el capítulo
anterior. El estudio sobre la heterocedasticidad debe hacerse en relación a cada uno de los
dos factores.
4
Modelos estadísticos aplicados. Juan Vilar
¿Qué ocurre si no se tiene en cuenta el factor-bloque?
Se puede repetir el estudio introduciendo solamente el factor tipo de soldadura. Esto
puede hacerse en este módulo o en el siguiente
comparacion > analisis de la varianza > anova simple
Problema 3.3. (Diseño de experimentos de dos factores con interacción).
“Se desea analizar el efecto que sobre el tiempo medio de respuesta tienen dos factores:
“la distribución de los …cheros” de las que se consideran tres variantes codi…cadas como F1,
F2 y F3; y el “número de bu¤ ers del sistema”, también se consideran tres niveles: 10, 20 y
30 bu¤ers. Se ha hecho una prueba con cada una de las nueve combinaciones posibles, cada
prueba consistió en observar el sistema un día completo y calcular el tiempo de respuesta
media al compilar un programa en lenguaje C en ese período de tiempo. El experimento
se replicó tres veces. Los resultados obtenidos se presentan en la tabla adjunta. En base a
estos datos ¿existe in‡uencia de alguno de los dos factores en el tiempo de respuesta del
sistema informático?, ¿existe interacción entre ambos factores?”
F1
B10
20 7
20 4
20 3
B20
20 0
20 2
10 9
B30
10 8
10 5
10 6
F2
B10
20 9
30 4
30 3
B20
20 7
20 4
20 5
B30
20 2
10 9
20 3
F3
B10
30 7
30 4
30 9
B20
20 9
30 4
30 3
B30
30 5
30 4
30 8
Desarrollo del Problema 3.3.
El desarrollo de este problema es análogo al anterior, se utiliza el análisis
comparacion > analisis de la varianza > anova factorial
? Se introduce la variable dependiente “tiempo”y los dos factores “…chero”y “bu¤ ers”.
? En un primer estudio conviene introducir el factor “réplica” que indica el orden en
el que se repitió el experimento y se estudia el modelo de tres factores sin replicación. Si
el modelo se ha replicado correctamente la tabla ANOVA indicará que el factor “réplica”
no in‡uye.
? En este caso se deshecha el factor “réplica” y se repite el estudio considerando el
modelo de dos factores e interacción entre los dos factores (interacción de orden 2). Se
obtienen conclusiones según los resultados obtenidos.
? Se …naliza con el análisis de residuos.
Problema 3.4. (Diseño de experimentos en cuadrado latino).
“Se quiere estudiar la e…cacia de cuatro fármacos diferentes (F1, F2, F3 y F4) en el
tratamiento de una enfermedad. Para ello se observa el número de días que tardan en
curar enfermos tratados con estos fármacos. Se considera que el factor edad y el factor
peso pueden in‡uir en el experimento, por ello se controlan estos factores y se consideran
cuatro niveles de edad (E1, E2, E3 y E4) y cuatro de peso (P1, P2, P3 y P4). Los resultados
del experimento diseñado según la técnica del cuadrado latino son los de la tabla adjunta.
¿Qué conclusiones se deducen del experimento?”
Prácticas y problemas de diseño de experimentos.
P1
P2
P3
P4
10
8
7
6
E1
F1
F2
F3
F4
E2
F2
10 F1
60 5 F4
5 F3
90 5
7
80 5
7
6
5
E3
F4
F3
F1
F2
E4
F3
9 F4
8 F2
9 F1
110 5
Desarrollo del Problema 3.4.
Se deben introducir los datos de forma correcta en el …chero, una vez realizado ésto,
se utiliza el análisis anterior, siendo la variable respuesta “tiempo” y los tres factores
“peso”, “edad ” y “fármaco”. Al calcular la tabla ANOVA si alguno de los factores no es
signi…cativo se elimina del modelo y se calcula la nueva tabla ANOVA.
1.2.
Problemas resueltos de diseño de experimentos.
Problema 3.5. (Diseño de experimentos con bloques completamente aleatorizados)
“El servicio bibliotecario de una universidad está interesado en un programa para
gestionar la localización de un libro en la base de datos. Le ofrecen cinco programas para
tal …n: P1, P2, P3, P4, P5. En la universidad se dispone de cuatro tipos de ordenadores
y se desea saber si el tiempo de respuesta de los cinco programas ofertados es el mismo.
Para ello se diseña el siguiente experimento: se eligen diez libros al azar y se localizan
utilizando los cinco programas y los cuatro tipos de ordenadores. Los tiempos medio de
respuesta (en segundos) en cada caso son los de la tabla adjunta.”
Ord.1
Ord.2
Ord.3
Ord.4
Prog.1
10 3
20 2
10 8
30 9
Prog.2
10 6
20 4
10 7
40 4
Prog.3
00 5
00 4
00 6
20 0
Prog.4
10 2
20 0
10 5
40 1
Prog.5
10 1
10 8
10 3
30 4
Solución al Problema 3.5.
Cálculo de las medias condicionadas (según programa y según ordenador )
Ord.1
Ord.2
Ord.3
Ord.4
yj
^
j
Prog.1
10 3
20 2
10 8
30 9
20 3
00 340
Prog.2
10 6
20 4
10 7
40 4
20 525
00 565
Prog.3
00 5
00 4
00 6
20 0
00 875
10 085
Prog.4
10 2
20 0
10 5
40 1
20 2
00 240
Prog.5
10 1
10 8
10 3
30 4
10 9
00 060
yi
10 14
10 76
10 38
30 56
y = 10 96
P^
j =0
^i
00 82
00 20
00 58
+10 60
P
^i = 0
6
Modelos estadísticos aplicados. Juan Vilar
Siendo ^ i = yi y y ^ j = y j y
Factor …la ( ) = Factor-bloque ordenador, i = 1; 2; 3; 4:
Factor columna ( ) = Factor-tratamiento programa, j = 1; 2; 3; 4; 5:
Las predicciones de cada tratamiento (casilla) se calculan utilizando
y^ij = ^ + ^ i + ^ j = yi + y j
y ;
se obtiene
Predicciones
Ord.1
Ord.2
Ord.3
Ord.4
Prog.1
10 48
20 10
10 72
30 90
Prog.2
10 705
20 325
10 945
40 125
Prog.3
00 055
00 675
00 295
20 475
Prog.4
10 38
20 00
10 62
30 80
Prog.5
10 08
10 70
10 32
30 50
A partir de esta tabla se calculan los residuos
eij = yij
y^ij ;
obteniendo la siguiente tabla de residuos
Residuos
Ord.1
Ord.2
Ord.3
Ord.4
Prog.1
00 18
00 10
00 08
00 00
Prog.2
00 105
00 075
00 245
00 275
Prog.3
00 455
00 275
00 305
00 475
Prog.4
00 18
00 00
00 12
00 30
Prog.5
00 02
00 10
00 02
00 10
Observar que la suma de los residuos de cada …la y de cada columna es cero.
Cálculo de las sumas de cuadrados:
scT ( ) = scT (ordenador ) = 5
0
2
0
2
^ 2i
i=1
2
= 5 0 82 + 0 20 + 0 58 + 10 602 = 180 044:
scT ( ) = scT (programa) = 4
0
2
0
0
4
X
5
X
^
j
2
j=1
0
2
2
= 4 0 34 + 0 565 + 1 085 + 00 242 + 00 062 = 60 693:
De donde
scT = scT ( ) + scT ( ) = 180 044 + 60 693 = 240 737:
La variabilidad total es
scG =
4 X
5
X
y )2
(yij
i=1 j=1
=
10 3
10 96
= 250 688:
2
+ 10 6
10 96
2
+ : : : + 40 1
10 96
2
+ 30 4
10 96
2
Prácticas y problemas de diseño de experimentos.
7
Una forma alternativa de calcular la variabilidad total (scG) es la siguiente
1X X 2
scG = ns2Y = n
y
i
j ij
n
0
1
4 X
5
X
2A
= @
yij
20 10 962 :
y2
i=1 j=1
La suma de residuos al cuadrado se obtiene como
scR = scG
scT = 250 688
240 737 = 00 951:
El valor de scR también se puede calcular directamente
scR =
4 X
5
X
e2ij = 00 182 + 00 1052 + : : : + 00 302 + 00 102 = 00 951
i=1 j=1
La Tabla ANOVA que se obtiene es la siguiente
Efecto
scT ( ) : ordenador.
scT ( ): programa.
scT
scR
scG
Tabla ANOVA
Sum cuad. g.l. Varianza
180 044
3 s^2 = 60 015
60 693
4 s^2 = 10 673
240 737
7
0
0 951 12 s^2R = 00 079
250 688 19 s^2Y = 10 352
estadíst. F
F^ = 750 89
F^ = 210 11
p-valor
00 000
00 000
Contrastes que se deducen de esta tabla son los siguientes:
Sobre la in‡uencia del factor-tratamiento programa
(1)
H0
: “el factor-tratamiento programa no in‡uye”:
F^ =
s^2
s^2R
=
10 673
= 210 11
00 079
i
= 0;
j = 1; : : : ; 5:
val = 00 000:
F4;12 ? ) p
Se rechaza la hipótesis nula de no in‡uencia del factor programa.
Sobre la in‡uencia del factor-bloque ordenador.
(2)
H0
: “el factor-bloque ordenador no in‡uye”:
s^2
60 015
F^ = 2 = 0
= 750 89
0 079
s^R
F3;12 ? ) p
i
= 0;
i = 1; : : : ; 4:
val = 00 000:
Se rechaza la hipótesis nula de no in‡uencia del factor ordenador. Ha sido conveniente bloquear.
8
Modelos estadísticos aplicados. Juan Vilar
Coe…cientes de determinación.
- Porcentaje de variabilidad explicada por el factor-tratamiento programa
R2 ( ) =
scT ( )
180 044
= 0
= 00 70243 ) 700 243 %:
scG
25 688
- Porcentaje de variabilidad explicada por el factor-bloque ordenador
R2 ( ) =
60 693
scT ( )
= 0
= 00 26055 ) 260 055 %:
scG
25 688
- Porcentaje de variabilidad explicada por el modelo
R2 = R2 ( ) + R2 ( ) =
scT
= 00 96298 ) 960 298 %:
scG
Si no tiene en cuenta el factor-bloque ordenador se obtiene la siguiente tabla ANOVA
que se deduce de la anterior
Tabla ANOVA con sólo el factor-tratamiento programa ( )
Efecto
Sum cuad. g.l. Varianza
estadíst. F p-valor
0
2
0
scT ( ): programa.
6 693
4 s^ = 1 673
F^ = 10 32
00 307
scR
180 995 15 s^2R = 10 266
scG
250 688 19 s^2Y = 10 352
Tener en cuenta que si no utiliza el factor-bloque ordenador, el diseño de experimentos
es otro y la muestra recogida diferente. En cualquier caso los resultados del análisis no
deberían variar mucho respecto a los aquí obtenidos.
Al hacer el contraste
(1)
H0
: “el factor programa no in‡uye”:
i
= 0;
j = 1; : : : ; 5;
se obtiene
F^ =
s^2
s^2R
=
10 673
= 10 32 2 F4;15 ? ) p
10 266
val = 00 307
Se acepta la hipótesis nula de no in‡uencia del factor programa, en contradicción con
lo obtenido anteriormente.
A la vista de lo obtenido en este problema, es fundamental controlar los factores
in‡uyentes en la variable respuesta.
Las siguientes grá…cas permiten examinar las hipótesis básicas del modelo:
En la Figura 3.1. se observa el grá…co de residuos frente a predicciones.
En las Figuras 3.2. y 3.3. se presentan los grá…cos de interacciones por cada uno de los
dos factores. De ellos se deduce la no existencia de interacción entre ambos factores.
Prácticas y problemas de diseño de experimentos.
Figura 3.1. Grá…co de residuos.
Figura 3.2. Grá…co de interacción respecto a programa.
Figura 3.3. Grá…co de interacción respecto a ordenador.
9
10
Modelos estadísticos aplicados. Juan Vilar
Intervalos de con…anza al 90 % para los parámetros del modelo.
2;
Intervalo de con…anza para la varianza,
(I
1) s^2R
1) (J
2
(I 1)(J 1)
2
50 226 =
00 948
210 026
2
12
)
2
3 4 00 079
00 05
= 00 045
3 4 00 079
2
2
00 181 =
2
12
2
12
00 95 = 210 026
00 948
50 226
Intervalo de con…anza para los efectos (ordenador). Se hace para 2 :
r
1
^2
n
2
2I
^2
N
)
t(I 1)(J 1)
2;
n
s^R
I 1
r
( 00 82) 20
2
)
t12
00 079
3
r
( 00 82) 20
2
0
0
)
1 78 = t12 0 95
t12 00 95 = 10 78
00 079
3
)
2
00 82
2
10 78
=
320 68
00 82
00 054 =
00 874; 00 766 :
Intervalo de con…anza para los efectos (programa). Se hace para 3 :
^ r n
1
3
3
2J
^
N
)
t(I 1)(J 1)
3;
3
n
s^R
J 1
r
0 085)
20
(
1
3
t12
)
0
0 079
4
r
0 085)
(
1
20
3
)
10 78 = t12 00 95
t12 00 95 = 10 78
0
0 079
4
)
3
2
10 085
00 063 =
10 148; 10 022 :
Intervalos de con…anza para la diferencia de medias. Se hace para 1
3:
r
r
10 425 ( 1
4
(y 1 y 3 ) ( 1
I
3)
3)
t12
t(I 1)(J 1) )
0
2
s^R
2
0 079
r
4
10 425 ( 1
3)
0
10 78
1 78
0
2
0 079
(
1
3)
2 10 425
00 099 = (10 326; 10 524):
Prácticas y problemas de diseño de experimentos.
Al calcular grupos homogéneos de los ordenadores se obtienen dos grupos:
? O1
? O3 - O2 -O4
La existencia de estos grupos se puede observar en el grá…co de medias
Figura 3.4. Grá…co de medias de los ordenadores.
Al calcular grupos homogéneos de los programas se obtienen tres grupos:
? P3 - P4
? P5 - P4
? P1 - P2
Esto se observa en el siguiente grá…co de medias de los programas.
Figura 3.5. Grá…co de medias de los programas.
11
12
Modelos estadísticos aplicados. Juan Vilar
Problema 3.6. (Diseño de experimentos con dos factores e interacción)
“Una empresa dedicada a la fabricación de baterías está interesada en diseñar una
batería que sea relativamente insensible a la temperatura ambiente. Para ello decide probar
con tres materiales distintos: M1, M2, y M3. Para estudiar el efecto del material y la
temperatura se diseña el siguiente experimento: utilizando baterías fabricadas con los tres
materiales se observa la duración de las baterías en horas cuando éstas trabajan a tres
niveles de temperatura: baja, media y alta. El experimento se replicaba cuatro veces y los
resultados obtenidos son los de la tabla adjunta.
Analizar estos datos y estudiar la in‡uencia de los factores material y temperatura en
el rendimiento de la batería. Conclusiones.”
Material
M1
M2
M3
Baja
130
74
150
159
138
168
155
180
188
126
110
160
Temperatura
Media
Alta
34 40
20 70
80 75
82 58
136 122
25 70
106 115
58 45
174 120
96 104
150 139
82
60
Solución al Problema 3.6.
El modelo matemático a ajustar es el siguiente
yijk =
+
i
+
j
+(
)ij + "ijk
donde i es el efecto del factor material, i = 1; 2; 3 ) I = 3
j es el efecto del factor temperatura, j = 1; 2; 3 ) J = 3
( )ij es el efecto de la interacción entre ambos factores.
Para estimar estos parámetros se calculan las medias de cada casilla y las medias de
cada …la y cada columna.
yij
M1
M2
M3
yj
Baja
1340 75
1550 75
1440 0
1440 83
Medias
Media Alta
570 25
570 5
1190 75
490 5
1450 75
850 5
1070 58 640 17
yi
830 17
1080 33
1250 08
y = 1050 53
Se calculan los parámetros del modelo utilizando
^ i = yi
se obtiene
y ;
^ =yj
j
y ;
(d)ij = yij
yi
yj +y ;
Prácticas y problemas de diseño de experimentos.
13
Parámetros del modelo
(d)ij
M1
M2
M3
^
Baja
120 28
80 12
200 38
390 30
j
Media
270 95
90 37
180 62
20 05
Alta
150 69
170 47
10 78
410 35
^i
220 36
20 80
190 55
Se calculan las predicciones a partir de
y^ij = ^ + ^ i + ^ j + (d)ij = yij ;
se obtiene
Predicciones = Medias casilla
y^ij
Baja Media
Alta
0
0
M1 134 75
57 25
570 5
M2 1550 75 1190 75
490 5
0
0
M3
144 0 145 75
850 5
Los residuos se calculan como
eijk = yijk
y^ij ;
i; j = 1; 2; 3;
obteniendo
Residuos
Baja
200 25
600 75 450 25
50 75
320 25
30 25
290 75
60 0
340 0
240 0
160 0
40 75
M1
M2
M3
Media
170 25
220 75
170 75
0
16 25
20 25
130 75
40 75
280 25
250 75
40 25
60 75
230 25
Alta
370 5 120 5
240 5
00 5
0
24 5 200 5
80 5
40 5
100 5
180 5
30 5
250 5
Observar que la suma de residuos de cada casilla vale cero.
Cálculo de las sumas de cuadrados:
scT ( ) = scT (material ) = 3 4
220 362 + 20 82 + 190 552 = 10;6830 70:
390 32 + 20 052 + 410 352 = 39;1180 70:
1
120 282 + 270 972 + 150 692 +
C
B
) = scT (interacción) = 4 @ 80 122 + 90 372 + 170 472 + A = 9;6130 78:
200 382 + 180 622 + 10 782
scT ( ) = scT (temperatura) = 3 4
0
scT (
scT
= scT ( ) + scT ( ) + scT (
0
0
)
= 10;683 70 + 39;118 70 + 9;6130 78 = 59;4160 18:
14
Modelos estadísticos aplicados. Juan Vilar
scG =
3 X
3 X
4
X
(yijk
y )2
i=1 j=1 k=1
= ns2Y = n
1X X X 2
y
i
j
k ijk
n
scR = scG + scT = 77;6470 0
y2
= 77;6470 0:
59;4160 18 = 18;2300 7:
La suma de cuadrados de residuos también se puede calcular directamente
scR =
3 X
3 X
4
X
eijk =
3 X
3 X
4
X
(yijk
y^ij )2 =
i=1 j=1 k=1
i=1 j=1 k=1
40 752 + 200 252 + : : : + 30 52 + 250 52 =
= 18;2300 7:
Si se utiliza calculadora es más sencillo hacerlo por el método anterior.
La Tabla ANOVA que se obtiene en este problema es la siguiente:
Efecto
scT ( )
scT ( )
scT ( )
scT
scR
scG
Sum cuad.
10;6830 70
39;1180 70
9;6130 78
59;4160 18
18;2300 7
77;6470 0
Tabla ANOVA
g.l. Varianza
2
s^2 = 5;3410 86
2
s^2 = 19;5590 4
4 s^2 = 2;4030 44
8
27
s^2R = 6750 213
35 s^2Y = 2;2180 48
estadíst. F
70 91
280 97
30 56
p-valor
00 002
00 000
00 019
s^R = 250 98
s^Y = 470 10
Los coe…cientes de determinación que se obtienen son
R2 ( ) = R2 (material ) =
scT ( )
10;6830 70
=
= 00 1376 ) 130 76 %:
scG
77;6470 0
R2 ( ) = R2 (temperatura) =
scT ( )
39;1180 70
=
= 00 5038 ) 500 38 %:
scG
77;6470 0
R2 (
scT ( )
9;6130 78
=
= 00 1238 ) 120 38 %:
scG
77;6470 0
R2 =
) = R2 (interacción) =
scT
= R2 ( ) + R2 ( ) + R2 (
scG
)=
59;4160 18
= 00 7652 ) 760 52 %:
77;6470 0
Contrastes que se deducen la tabla ANOVA son los siguientes:
1. Sobre la in‡uencia del factor-tratamiento material
Prácticas y problemas de diseño de experimentos.
(1)
H0
: “el factor no in‡uye”:
s^2
5;3410 86
= 70 91
F^ = 2 =
6750 213
s^R
i
15
= 0;
i = 1; : : : ; 3:
F2;27 ? ) p
val = 00 002:
Se rechaza la hipótesis nula de no in‡uencia del factor material. Hecho que se observa
claramente en el grá…co de medias del factor material,
Figura 3.6. Grá…co de medias respecto a material.
Figura 3.7. Grá…co de medias respecto a la temperatura.
2. Sobre la in‡uencia del factor-tratamiento temperatura
(2)
H0
: “el factor temperatura no in‡uye”:
F^ =
s^2
s^2R
=
19;5590 4
= 280 97
6750 213
i
= 0;
F2;27 ? ) p
j = 1; : : : ; 3:
val = 00 000:
16
Modelos estadísticos aplicados. Juan Vilar
Se rechaza la hipótesis nula de no in‡uencia del factor temperatura. Esto se observa
en el grá…co de medias del factor temperatura (Figura 3.7.).
3. Sobre la in‡uencia de la interacción de los dos factores.
(3)
H0
: “la interacción de los dos factores no in‡uye”: (
F^
=
s^2
s^2R
=
2;4030 44
= 30 56
6750 213
F2;27 ? ) p
)ij = 0;
i; j = 1; : : : ; 3:
val = 00 019:
Se rechaza la hipótesis nula de no in‡uencia de la interacción de los factores para
niveles superiores a 00 02. Esto se puede observar en los grá…cos de interacciones (respecto
al factor material, Figura 3.8. y respecto al factor temperatura, Figura 3.9.).
Figura 3.8. Grá…co de interacciones respecto a material.
Figura 3.9. Grá…co de interacciones respecto a temperatura.
En la Figura 3.10. se presenta el grá…co de residuos frente a predicciones en el que no
se observa ningún problema.
Prácticas y problemas de diseño de experimentos.
17
Figura 3.10. Grá…co de residuos frente a predicciones.
Problema 3.7. (Diseño de experimentos en cuadrado latino).
“Para estudiar el efecto de la iluminación (A=natural, B=muy fuerte, C=escasa) en la
velocidad de lectura se realiza un experimento que consiste en contar el número de palabras
leídas en un minuto en distintos tipos de papel (b=blanco, c=en color, s=satinado) y diferente tipografía (g=letra grande, p=letra pequeña, n=normal). Los resultados obtenidos
son los de la tabla adjunta.
Analizar estos datos y estudiar la posible in‡uencia de los factores iluminación, tipos
de papel y diferente tipografía en la variable de interés velocidad de lectura”.
Letra
grande
normal
pequeña
Tipo de papel
satinado blanco color
258 A
230 C 240 B
235 B
270 A 240 C
220 C
225 B 260 A
Solución al Problema 3.7.
El modelo matemático-estadístico a ajustar es
yij(k) =
+
i
+
j
+
(k)
+ "ij(k) ;
donde el factor …la representa al factor tipo de letra, el factor columna representa al
factor tipo de papel y el factor letra (cuadrado latino) representa el factor iluminación.
Es un modelo con tres factores, cada uno de los cuales tiene tres niveles, se supone que no
existen interacciones entre los factores y puede resolverse con solo 32 = 9 observaciones
por medio del diseño fraccional de cuadrado latino.
Se calculan las medias y parámetros del modelo como sigue
y = 242
18
Modelos estadísticos aplicados. Juan Vilar
yi
2420 67
2480 33
2350 00
Medias y estimaciones
^ =yj
^ i = yi
y
yj
y k
y
j
0
0
0
+0 67
237 67
4 33
2620 67
+60 33
2410 67
00 33
2330 33
70 00
2460 67
+40 66
2300 00
^k = y k y
+200 67
80 67
120 00
A partir de estos valores se calculan las predicciones
y^ij(k) = ^ + ^ i + ^ j + ^(k) ;
i; j = 1; 2; 3;
obteniendo
Predicciones
2300 33 2380 67
2350 33 2680 67 2410 00
2180 67 2260 00 2600 33
2590 00
Los residuos son
eij(k) = yij(k)
y^ij(k) ;
i; j = 1; 2; 3;
se obtiene
Residuos
00 33
10 33
00 33
10 33
10 00
10 33
10 00
00 33
10 00
Cálculo de las sumas de cuadrados
scT ( ) = scT (tipo letra) = 3
scT ( ) = scT (papel ) = 3
40 332 + 00 332 + 40 662 = 1220 00:
scT ( ) = scT (iluminación) = 3
scT
00 672 + 60 332 + 72 = 2680 67:
200 672 + 80 672 + 122 = 1;9380 67:
= scT ( ) + scT ( ) + scT ( ) =
= 2680 67 + 1220 00 + 1;9380 67 = 2;3290 34:
La suma de cuadrados total es
scG =
3 X
3
X
yij(k)
y
2
= ns2Y = n
i=1 j=1
1X X 2
y
i
j ij(k)
n
La suma de cuadrados no explicada (residual) es
scR = scG
scT = 2;338
2;3290 34 = 80 67:
También scR puede calcularse directamente de los residuos
y 2 = 2;338
Prácticas y problemas de diseño de experimentos.
scR =
=
3 X
3
X
e2ij(k)
i=1 j=1
2
0
=
2
3 X
3
X
0
yij(k)
19
y^ij(k)
2
i=1 j=1
2
0
1 + 0 33 + 1 33 + 0 332 + 10 332 + 12 + 10 332 + 12 + 00 332
= 80 67:
Los coe…cientes de determinación son:
R2 ( ) = R2 (tipo letra) =
R2 ( ) = R2 (papel ) =
R2 ( ) = R2 (iluminación) =
R2 =
2680 67
scT ( )
=
= 00 1149 ) 110 49 %:
scG
2;338
scT ( )
1220 00
=
= 00 522 ) 50 22 %:
scG
2;338
scT ( )
1;9380 67
=
= 00 8292 ) 820 92 %:
scG
2;338
2;3290 34
sgT
= R2 ( ) + R2 ( ) + R2 ( ) =
= 00 9962 ) 990 62 %:
scG
2;338
La tabla ANOVA que se obtiene es la siguiente
Efecto
scT ( )
scT ( )
scT ( )
scT
scR
scG
Sum cuad.
2680 67
1220 00
1;9380 67
2;3290 34
80 66
2;3380 0
Tabla ANOVA
g.l. Varianza
2 s^2 = 1340 33
2
s^2 = 610 00
2 s^2 = 9690 33
6
2
s^2R = 40 33
8 s^2Y = 2920 25
estadíst. F
31
0
14 08
2230 69
p-valor
00 031
00 066
00 004
s^R = 20 08
s^Y = 170 09
De esta tabla se deducen los siguientes contrastes:
1. Sobre la in‡uencia del factor tipo de letra.
(1)
H0
: “el factor tipo de letra no in‡uye”:
s^2
1340 33
F^ = 2 = 0
= 31
4 33
s^R
F2;2 ? ) p
i
= 0;
i = 1; 2; 3:
val = 00 031:
Se rechaza para niveles de > 00 031 (por ejemplo = 00 05) la hipótesis nula de no
in‡uencia del factor tipo de letra. El grá…co de medias con…rma este hecho.
20
Modelos estadísticos aplicados. Juan Vilar
Figura 3.11. Grá…co de medias respecto al tipo de letra.
2. Sobre la in‡uencia del factor tipo de papel se obtiene,
(2)
H0
: “el factor tipo de papel no in‡uye”:
F^ =
s^2
s^2R
=
610 00
= 140 08
40 33
i
F2;2 ? ) p
= 0;
i = 1; 2; 3:
val = 00 066:
Se acepta para niveles de < 00 066 (por ejemplo = 00 05) la hipótesis nula de no
in‡uencia del factor tipo de papel. El grá…co de medias del factor tipo de papel es
Figura 3.11. Grá…co de medias respecto al tipo de papel.
3. Sobre la in‡uencia del factor tipo de iluminación, se deduce el siguiente contraste
(3)
H0
: “el factor tipo de iluminación no in‡uye”:
s^2
9690 33
F^ = 2 = 0
= 2330 39
4 33
s^R
F2;2 ? ) p
i
= 0;
i = 1; 2; 3:
val = 00 004:
Prácticas y problemas de diseño de experimentos.
21
Se rechaza para niveles de > 00 004 (por ejemplo = 00 05) la hipótesis nula de no
in‡uencia del factor tipo de iluminación. Esto puede observarse en el grá…co de medias del
factor
Figura 3.13. Grá…co de medias respecto al tipo de iluminación.
1.3.
Problemas propuestos de diseño de experimentos.
Problema 3.8.
“Los siguientes datos proporcionan la presión, sistólica y diastólica, de la sangre (en
mm Hg) de 15 pacientes con hipertensión moderada, medidas antes y después de probar
un nuevo fármaco. En base a estos datos ¿puede a…rmarse que el nuevo fármaco es efectivo
para bajar la tensión arterial?”
Pac
1
2
3
.
4
5
6
7
8
Sistólica
Ant Desp
210
201
169
165
187
166
160
157
167
147
176
145
185
168
206
180
Diastólica
Ant Desp
130
125
122
121
124
121
104
106
112
101
101
85
121
98
124
105
Pac
9
10
11
12
13
14
15
Sistólica
Ant Desp
173
147
146
136
174
151
201
168
198
179
148
129
154
131
Diastólica
Ant Desp
115
103
102
98
98
90
119
98
106
110
107
103
100
82
Problema 3.9.
“Una empresa desea contrastar si el lunes es el día de la semana en que se presentan
más bajas por enfermedad común. Para ello, en base a los datos de cinco años, se eligen
al azar 10 lunes, 10 martes, 10 miércoles, 10 jueves y 10 viernes, anotando el número de
bajas durante tales días. Los resultados obtenidos son los de la tabla adjunta
22
Modelos estadísticos aplicados. Juan Vilar
Día
Lunes
Martes
Miércoles
Jueves
Viernes
26
35
25
51
30
37
20
40
20
62
Muestreo 1
número de bajas
22 55 23 38
28 12 17 17
63 18 62 30
30 13 42 28
40 15 26 37
por día
46 25
57 42
38 23
17 73
52 12
25
25
37
25
16
23
63
26
22
25
Un segundo estudio se realizó en base al mismo experimento pero cambiando el esquema
del muestreo, ahora se eligieron al azar diez semanas completas de los cinco años. Los
resultados que se obtuvieron son los siguientes:
Día
Lunes
Martes
Miércoles
Jueves
Viernes
S1
40
32
42
20
26
Muestreo 2
Semana (número de bajas
S2 S3 S4 S5 S6 S7
32 56 65 18 43 30
51 34 35 23 22 45
30 29 30 15 30 42
32 30 40 21 28 46
27 27 17 23 37 53
por día)
S8 S9
51 46
35 32
51 31
36 36
22 15
S10
38
58
26
22
22
En base a estos datos:
1. Indicar los modelos matemáticos asociados a ambos tipos de muestreo.
2. Calcular en ambos casos la tabla ANOVA. Conclusiones.
3. Utilizando los dos tipos de muestreo ¿existe un día o más en que el número de bajas
por enfermedad común sea signi…cativamente mayor?
4. En ambos casos ¿se veri…can las hipótesis del modelo? En caso negativo, transformar
los datos y recalcular los modelos.
5. Comparar razonadamente ambos esquemas de muestreo. Proponer un modelo de
muestreo más adecuado”.
Problema 3.10.
“Se realiza un experimento para investigar el proceso de obtención de la penicilina,
siendo la variable de interés la producción obtenida. El estudio se centra en observar los
resultados de 4 variantes del proceso básico, denominadas tratamientos A, B, C y D. Se
quiere controlar una materia prima importante, el licor de maíz, para ello se utilizan cinco
mezclas de licor de maíz (bloques) con los que se realiza el experimento. Los resultados
observados son los de la tabla adjunta. En base a estos datos ¿in‡uye la variante del
proceso en la producción obtenida? ¿El resultado sería el mismo si no se tiene en cuenta
el tipo de maíz utilizado?”.
Prácticas y problemas de diseño de experimentos.
Bloque
Mezcla 1
Mezcla 2
Mezcla 3
Mezcla 4
Mezcla 5
23
Tratamientos
A B C D
89 88 97 94
84 77 92 79
81 87 87 85
87 92 89 84
79 81 80 88
Problema 3.11.
“Un experimento consiste en anotar las décimas de segundo que se tarda en parar el
cronómetro después de ponerlo en marcha. Para ello, se inicializa el cronómetro en 0:00:00,
se pone en marcha pulsando un botón para, después, pararlo pulsando el mismo botón. Se
anota el tiempo que se ha tardado en pararlo, ésto es, el tiempo que aparece indicado en
el cronómetro.
Con este experimento se desea estudiar la in‡uencia en la variable de interés (tiempo que
se tarda en detener el cronómetro en décimas de segundo) de dos factores: el tipo de reloj
utilizado (se han utilizado cuatro relojes: R1, R2, R3 y R4) y de la mano utilizada (derecha
(D) o izquierda (I)).
Todos los datos de este experimento han sido realizados por una sola persona que ha realizado cinco réplicas de cada tratamiento. Los datos obtenidos son los de la tabla adjunta.
En base a ellos estudiar la in‡uencia de los factores y analizar la existencia de interacción
entre los dos factores, ¿veri…can los residuos las hipótesis del modelo?”.
Reloj
Mano
Derecha
Izquierda
R1
11 11
16 12
11
17 17
11 17
16
R2
10 18
20 17
13
30 22
28 22
20
R3
18 16
17 20
15
21 25
22 23
26
R4
12 14
15 16
16
21 16
18 21
18
Problema 3.12.
“Se ha realizado un experimento para comprobar si existen diferencias signi…cativas
en el tiempo de ejecución entre tres programas que calculan el factorial de un número.
También se desea investigar si in‡uye en la variable de interés el intervalo al que pertenece
el número del que se calcula el factorial.
Los programas utilizados son tres:
- Recfact, que calcula el factorial de forma recursiva.
- Tailfact, calcula el factorial de usando tail-recursion.
- Loopfact, calcula el factorial utilizando un bucle en el que calcula en sucesivas iteraciones el producto …nal.
24
Modelos estadísticos aplicados. Juan Vilar
Los intervalos elegidos para hacer el estudio son de longitud cien unidades: [1,100],
[101,200], [201,300], [301,400], [401,500].
En el experimento se generaba para cada uno de los cinco intervalos diez números
aleatorios (diez réplicas) y para cada número se calculaba el tiempo de ejecución de los
tres programas que calculan el factorial.Los datos obtenidos del experimento son los de la
tabla adjunta.
Programa
Recfact
Tailfact
Loopfact
I.1.
10 6
70 9
70 8 110 8
80 5
40 5
50 7
20 8
0
82
40 6
30 2 110 7
100 9 170 0
10 7
70 9
0
5 9 110 2
60 1 110 9
100 7
10 7
110 0
30 2
0
7 8 110 7
60 0 110 6
50 9 160 7
I.2.
170 3 130 3
140 7 230 4
190 0 220 2
190 3 140 8
240 8 150 0
210 5 280 4
360 6 270 9
250 5 210 6
220 0 320 8
340 5 340 5
330 7 210 5
270 8 210 0
240 9 210 1
350 8 270 3
180 9 320 0
Intervalo
I.3.
280 8 350 2
310 9 290 2
320 0 310 0
290 9 310 1
340 5 260 5
460 3 510 6
520 6 430 7
430 0 390 5
470 6 440 8
460 4 470 8
420 5 460 4
460 7 410 8
500 3 430 5
380 4 450 1
450 2 510 3
I.4.
390 9 440 9
400 9 440 8
360 9 390 5
460 4 430 1
370 5 390 2
580 9 680 0
550 9 650 2
590 6 550 1
600 2 670 5
700 2 610 9
530 4 540 5
580 7 660 1
680 3 630 4
570 4 570 8
650 8 600 4
I.5.
510 5 510 7
520 6 500 1
550 1 500 6
490 0 560 6
490 1 550 9
850 6 740 1
760 6 840 7
780 2 790 6
830 5 750 8
770 6 740 1
720 4 760 3
740 6 770 4
820 6 750 8
720 2 830 5
740 0 810 3
Las variables en estudio son:
Programa: programa utilizado (1=Recfact, 2=Tailfact, 3=Loopfact)
Intervalo: intervalo del que se elegía el número (1,2,3,4, 5).
Réplica: réplica del experimento (1,...,10)
Tiempo: tiempo de ejecución en cada caso.
En base a estos datos,
1. Estudiar de la in‡uencia de los tres factores.
2. ¿Qué modelo estadístico se debe utilizar? ¿Se ajusta bien el modelo propuesto a
los datos? ¿Existe interacción entre los factores?, en caso a…rmativo interpretar la
interacción.
3. Analizar las hipótesis básicas del modelo.”
Problema 3.13.
“Se diseña un experimento para estudiar la in‡uencia del “tipo de cinta”(dos niveles)
y del “tipo de impresora”(dos niveles) en la variable “duración de la cinta en horas”. Los
datos se recogen en la tabla adjunta
Prácticas y problemas de diseño de experimentos.
Impresora I 1
Cinta A
Cinta B
0
0
17 1 15 2
190 4 170 2
160 5 160 7
180 9 200 7
0
14 9
200 1
25
Impresora I 2
Cinta A
Cinta B
0
0
12 3 11 6
150 6 160 1
130 8 120 1
170 2 180 3
0
10 8
160 7
En base a estos datos
1. Escribir el modelo matemático asociado al problema y las hipótesis que se suponen.
2. Calcular la tabla ANOVA y obtener los contrastes que se deducen.
3. Si suponemos que la interacción es nula ¿cómo in‡uye en la tabla ANOVA? ¿Se
modi…can las conclusiones?
4. Calcular un intervalo de con…anza al 90 % para la duración media de la cinta con la
impresora I1.”
Problema 3.14.
“Se realiza un experimento para estudiar el efecto del tipo de material y el tratamiento
empleado en el desgaste de unas piezas mecánicas. Los datos obtenidos son los de la tabla
adjunta. En base a estos datos analizar la in‡uencia de los dos factores (diseño anadidado
o jerarquizado)”.
Material
Tratamiento
Réplica 1
Réplica 2
A
a
23
25
B
b
30
31
a
42
44
C
b
45
50
a
37
38
D
b
39
39
a
41
42
E
b
44
49
a
20
25
b
24
30
Problema 3.15.
“Se realiza un experimento para comparar la energía que se requiere para llevar a
cabo tres actividades físicas: correr, pasear y montar en bicicleta. La variable de interés
es Y =“número de kilocalorías consumidas por kilómetro recorrido”. Se cree que las diferencias metabólicas entre los individuos puede afectar al número de kilocalorías requeridas
para llevar a cabo una determinada actividad y se quiere controlar esta variable extraña.
Para ello se seleccionan ocho individuos al azar y se les pide que hagan las tres actividades
mencionadas. Se mide el número de kilocalorías consumidas por kilómetro obteniendo los
datos de la tabla adjunta. Las actividades se realizan en orden aleatorio con tiempo de
recupeación entre una y otra. ¿Puede pensarse que no in‡uye la actividad realizada en el
número de kilocalorías consumidas?.”
Correr
Caminar
Pedalear
B.1.
10 4
10 1
00 7
B.2.
10 5
10 2
00 8
B.3.
10 8
10 3
00 7
B.4.
10 7
10 3
00 8
B.5.
10 6
00 7
00 1
B.6.
10 5
10 2
00 7
B.7.
10 7
10 1
00 4
B.8
20 0
10 3
00 6
26
Modelos estadísticos aplicados. Juan Vilar
Problema 3.16.
“Se están investigando los efectos que sobre la resistencia del papel produce el porcentaje de concentración de …bra de madera (hardwood) en la pulpa, la presión del tanque
y el tiempo de cocción de la pulpa. Se seleccionan tres niveles de concentración de madera
y de presión, y dos niveles de tiempo de cocción. Por tanto, los factores son: concentración
porcentual de …bra que se estudia a tres niveles (2, 4 y 8); presión durante el tiempo de
cocción que se estudia a tres niveles (400, 500 y 650); y tiempo de cocción que se estudia
a dos niveles, 3 y 4 horas.
Se realiza un experimento completamente aleatorizado con dos réplicas y se registran
los datos que se recogen en el …chero problema-3-16.
1.
Analizar los datos y obtener conclusiones.
2.
Obtener los grá…cos de residuos apropiados y comentar la adecuación del modelo.”
Descargar