Análisis de la varianza (un factor): ANOVA

Anuncio
Capítulo 9
Análisis de la varianza (un
factor): ANOVA
9.1.
Introducción
Veíamos cómo contrastar la igualdad de medias en dos poblaciones normales e independientes. En ocasiones necesitamos contrastar la igualdad de medias de un número mayor de
poblaciones para detectar posibles diferencias significativas entre ellas en cuanto a una variable
o característica:
H0
: µ1 = µ2 = .... = µI
H1
:
Alguna distinta,
siendo I el número de poblaciones. Surge así el análisis de la varianza.
El análisis de la varianza es un procedimiento creado por Fisher en 1925 para descomponer
la variabilidad de un experimento en componentes independientes que puedan asignarse a causas
distintas.
El problema general que vamos a estudiar es el siguiente: disponemos de n elementos que se
diferencian en un factor: por ejemplo, alumnos de distintas clases (factor clase), coches de distintas marcas (factor marca), componentes producidos por distintas máquinas (factor máquina),
etc. En cada elemento observamos una característica continua (X) que varía aleatoriamente de
un individuo a otro: notas de Estadística de los alumnos, consumo de gasolina, tiempo de vida
141
142
Capítulo 9. Análisis de la varianza (un factor): ANOVA
de los componentes, etc. A esta característica se le llama variable respuesta. Nuestro objetivo
será conocer si existe o no relación entre la variable respuesta y el factor: ¿habrá diferencias en
las notas de los distintos grupos de Estadística?, ¿tendrán coches similares de distintas marcas
el mismo consumo de gasolina?, ¿tendrán los componentes fabricados por las distintas máquinas
la misma duración?.
Vamos a centrarnos en este ejemplo de las máquinas para ver y desarrollar el modelo inmerso
en un problema del análisis de la varianza.
Supongamos que se desea comprobar si la duración de piezas fabricadas por un grupo de I
máquinas es la misma, es decir, la duración no depende de la máquina. Supongamos además que
la duración de las piezas producidas por una misma máquina varía debido a muchos factores
no controlables como por ejemplo la pureza de la materia prima, desajustes aleatorios de la
máquina, la habilidad del operario, etc. Es decir, la duración de las piezas producidas por cada
máquina será una variable aleatoria. Denotamos por yij la duración de la pieza j producida
por la máquina i. Si para cada máquina i medimos la duración a una muestra de ni piezas,
PI
tendremos un total de n = i=1 ni observaciones:
9.2.
Máq1
Máq2
MáqI
y11
..
.
y21
..
.
yi1
..
.
y1j
..
.
y2j
..
.
y1n1
y2n2
...
yij
..
.
yinI
El modelo
Vamos a ajustar a nuestras observaciones un modelo matemático de la forma yij = µi +
uij , con el fin de poder tratarlas estadísticamente. Según este modelo vamos a admitir que la
duración de las piezas fabricadas por una misma máquina i oscila aleatoriamente alrededor de
un valor desconocido µi que caracteriza a la máquina i (duración media de sus piezas) y que las
diferencias entre los valores observados para esta máquina, yij , y su media, µi , son el resultado
de múltiples factores que no controlamos y que influyen en la variable respuesta, en este caso
en la duración. Las englobamos en un término uij llamado error experimental o perturbación,
uij = yij − µi .
143
9.3. Contraste de igualdad de medias
Hipótesis del modelo:
E(uij ) = 0 ∀i, j o E(yij ) = µi .
V ar(uij ) = σ 2 ∀i, j (homoscedasticidad).
E(uij urk ) = 0 ∀i 6= r o j 6= k. (incorrelación).
uij → N (0, σ 2 ) o yij → N (µi , σ 2 ) (normalidad).
las dos hipótesis anteriores implican independencia.
En resumen: la variable respuesta en cada grupo sigue una distribución Normal, la varianza
es la misma en todos los grupos y los grupos son independientes.
El paso siguiente sería estimar los parámetros del modelo.
Estimación de los parámetros del modelo:
Los parámetros a estimar son: µi , i = 1, ..., I, y σ 2 . Utilizamos para ello el método de
máxima verosimilitud, y resultan:
−
ˆ
µi = yi. =
Xni
j=1
yij
, i = 1, .., I,
ni
´
XI Xni ³
− 2
yij − yi.
ˆ
j=1
i=1
σ2 =
,
n
−
ˆ
Los residuos del modelo son uij = eij = yij − yi. , y se utilizan sobre todo a la hora de
comprobar si se verifican o no las hipótesis del modelo. Si no se verifican, este modelo no sería
el adecuado.
9.3.
Contraste de igualdad de medias
Hemos visto que los yij → N (µi , σ 2 ) y son independientes. Por lo tanto los grupos (máquinas)
sólo difieren en las medias, las varianza es la misma en todos. Esto significa que contrastar si
los grupos son estadísticamente iguales equivale a contrastar si sus medias lo son:
Delia Montoro Cazorla.
H0
: µ1 = µ2 = .... = µI
H1
:
Dpto.
Alguna distinta
de Estadística e I.O. Universidad de Jaén.
144
Capítulo 9. Análisis de la varianza (un factor): ANOVA
9.4.
Descomposición de la variabilidad
Según se comentó al principio, el análisis de la varianza es un procedimiento para descomponer la variabilidad total presente en un experimento en componentes independientes que
puedan asignarse a causas distintas. Concretamente, según el modelo se llega a que la variabilidad total en el experimento es igual a la suma de la variabilidad existente dentro de los grupos
más la variabilidad existente entre los grupos.
−
−
−
−
yij − y.. = (yi. − y.. ) + (yij − yi. ),
X
XX
XX
−
−
−
(yij − y.. )2 =
ni (yi. − y.. )2 +
e2ij
i
j
i
i
j
↓
V T = V E + V NE
V T : Variabilidad total
V E : Variabilidad explicada por el modelo; variabilidad entre grupos
V N E : Variabilidad no explicada por el modelo, o residual; variabilidad dentro de los grupos.
La medida R2 =
VE
VT
indica la variabilidad que explica el modelo de entre toda la presente
en el experimento. Toma valores entre 0 y 1. Un valor próximo a 0 indicaría que el modelo no
es válido.
9.5.
Tabla Anova. Contraste de la F
El contraste básico del análisis de la varianza utiliza la descomposición de la variabilidad
V T = V E + V N E.
Tabla ANOVA:
Fuentes de variabilidad
Entre grupos (VE)
Dentro de grupos (VNE)
Total (VT)
S. cuadrados
P
−
−
V E = i ni (yi. − y.. )2
P P
V N E = i j e2ij =
P
= i ni σ 2ni
P P
−
V T = i j (yij − y.. )2 =
= nσ 2n
G. libert.
Varianza
I −1
Se =
n−I
SR
n−1
Sy =
ˆ 2
ˆ 2
VE
I −1
V NE ,
=
n−I
ˆ 2
VT
n−1
145
9.5. Tabla Anova. Contraste de la F
−
siendo yi. y σ2ni respectivamente la media y varianza de los datos de la muestra del grupo
−
i , y y.. y σ 2n la media y varianza del total de las observaciones.
La media total puede calcularse de la siguiente forma:
−
y.. =
I
X
−
ni yi.
i=1
n
Contraste de la F :
H0
: µ1 = µ2 = .... = µI
H1
:
Alguna distinta,
El estadístico de contraste (bajo H0 ) es:
ˆ 2
F =
Se
ˆ 2
SR
→ FI−1,n−I
Rechazamos H0 cuando F > F1−α,I−1,n−I . En tal caso, podremos decir que no se han
detectado diferencias significativas entre los grupos en cuanto a la variable respuesta, para
un nivel del significación del αx100 %.
Si rechazamos en el contraste anterior H0 estamos diciendo que no todas las medias de los
diferentes grupos son iguales simultáneamente, sin embargo puede ocurrir que algunas de las
medias sí coincidan.
Ejemplo 9.1: Un ingeniero de electrónica está interesado en estudiar el efecto sobre la
conductividad de una válvula electrónica que tienen tres tipos diferentes de recubrimiento para
los tubos de rayos catódicos utilizados en un dispositivo de visualización de un sistema de
telecomunicaciones. Se obtienen los siguientes datos:
Tipo de recubrimiento
Conductividad
1
143
141
150
146
2
152
149
137
143
3
134
133
132
127
Contrastar con un nivel de significación del 5 % si el tipo de recubrimiento tiene algún efecto
sobre la conductividad.
Delia Montoro Cazorla.
Dpto.
de Estadística e I.O. Universidad de Jaén.
146
Capítulo 9. Análisis de la varianza (un factor): ANOVA
Se supone que las muestras proceden de poblaciones normales e independientes con la misma
varianza.
Solución: Queremos comprobar si la conductividad media de la válvula será la misma con
los tres tipos de recubrimiento, en cuyo caso el tipo de recubrimiento no tendría ningún efecto
sobre la conductividad.
Planteamos el contraste:
H0
: µ1 = µ2 = µ3
H1
:
Alguna distinta
y seguidamente realizamos todos los cálculos necesarios para rellenar la tabla Anova y concluir
en el contraste. Comenzamos con el cálculo de las medias y varianzas en las muestras:
−
Muestra
Media (yi. )
Varianza (σ 2ni )
Tamaño (ni )
Tipo 1
145
11.5
4
Tipo 2
145.25
33.188
4
Tipo 3
131.5
7.25
4
,
−
y la media y varianza totales resultan: y.. = 140,583 y σ2n = 58,576
Calculamos ahora las variabilidades explicada, no explicada y total.
X
V NE =
ni σ 2ni = 4(11,5 + 33,188 + 7,25) = 207,752
i
V T = nσ 2n = 12(58,576) = 702,912
V E = V T − V N E = 495,160
Las varianzas explicada y no explicada son entonces:
ˆ 2
Se
=
ˆ 2
SR
=
VE
495,160
=
= 247,58
I −1
2
V NE
207,752
=
= 23,084,
n−I
9
y el estadístico resulta:
ˆ 2
F =
Se
ˆ 2
SR
=
247,58
= 10,725
23,084
Ahora concluimos: como F = 10,725 es mayor que F0,95,2,9 = 4,26, rechazamos H0 . Existen
por tanto diferencias significativas entre los tres tipos de rucubrimiento, es decir, el tipo de
recubrimiento influye en la conductividad de la válvula.
147
9.6. Ejercicios
9.6.
Ejercicios
1. Un fabricante está interesado en estudiar la resistencia a la tensión de una fibra sintética,
y sospecha que puede estar relacionada con el porcentaje de algodón en su composición.
Con este fin, estudia la resistencia de la fibra considerando 5 niveles de porcentaje de
algodón en su composición. Los datos observados se muestran en la siguiente tabla.
Porcentaje de algodón
Tensión de ruptura
15
7
7
15
11
9
20
12
17
12
18
18
25
14
18
18
19
19
30
19
25
22
19
23
35
7
10
11
15
11
Contrastar al 5 % de significación si el fabricante está acertado en su sospecha.
2. Un ingeniero de electrónica está interesado en estudiar el efecto sobre la conductividad
de una válvula electrónica que tienen cinco tipos diferentes de recubriminento para los
tubos de rayos catódicos utilizados en un dispositivo de visualización de un sistema de
telecomunicaciones. Se obtienen los siguientes datos:
Tipo de recubrimiento
Conductividad
1
143
141
150
146
2
152
149
137
143
3
134
133
132
127
4
129
127
132
129
5
147
148
144
142
Contrastar con un nivel de significación del 5 % si el tipo de recubrimiento tiene algún
efecto sobre la conductividad.
3. Un artículo publicado en el Journal of the Association of Asphalt Paving Technologists
(1998) describe un experimento para determinar el efecto de las burbujas de aire sobre
la resistencia del asfalto. Para fines del experimento, las burbujas se controlan en tres
niveles. bajo (2-4 %), medio (4-6 %) y alto (6-8 %). Los datos obtenidos aparecen en la
Delia Montoro Cazorla.
Dpto.
de Estadística e I.O. Universidad de Jaén.
148
Capítulo 9. Análisis de la varianza (un factor): ANOVA
tabla siguiente.
Resistencia del asfalto
Bajo
Burbujas de aire Medio
Alto
106
90
103
90
79
88
92
95
80
69
94
91
70
83
87
83
78
80
62
69
76
85
69
85
¿Afectan de manera significativa los diferentes niveles de burbujas de aire la resistencia
del asfalto?. Tomar α = 0,05
Suponer que las muestras proceden de poblaciones normales, independientes, con la misma
varianza.
4. La tabla muestra las medidas hechas por Heyl de la constante G gravitatoria con bolas
hechas de oro, platino y vidrio. Contrastar la hipótesis de que los tres materiales tienen
la misma constante G. Tomar un nivel de significación del 5 %.
Oro
6.683
6.681
6.676
6.678
6.679
Platino
6.661
6.661
6.667
6.667
6.664
Vidrio
6.678
6.671
6.675
6.672
6.674
6.672
5. Un artículo publicado en el Material Research Bulletin (1991) investigó cuatro métodos
diferentes para preparar el compuesto superconductor P bM o6 S8 . Los autores sostienen
que la presencia de oxígeno durante el proceso de preparación afecta la temperatura
de transición Tc de superconducción del material. Los métodos de preparación 1 y 2
utilizan técnicas que están diseñadas para eliminar la presencia de oxígeno, mientras que
los métodos 3 y 4 permiten que el oxígeno esté presente. Para cada método se toman 5
observaciones de Tc (en 0 K). Los resultados son:
Método
Temperatura de transición Tc
1
14.8
14.8
14.7
14.8
14.9
2
14.6
15.0
14.9
14.8
14.7
3
12.7
11.6
12.4
12.7
12.1
4
14.2
14.4
14.4
12.2
11.7
149
9.6. Ejercicios
a. ¿Tiene algún efecto la presencia de oxígeno durante la preparación del compuesto en
la temperatura de transición?. Realizar el contraste con un nivel de significación del
5 %.
b. ¿Existen diferencias significativas entre métodos de un mismo tipo?. Tomar α = 0,01.
6. Tres profesores dan clases teóricas en una misma autoescuela. Se desea contrastar, si
existen diferencias significativas en la forma de enseñanza de los tres profesores. Para ello
se seleccionan tres muestras de alumnos y se anota el número de preguntas correctas en
el examen.
Prof. 1
Prof. 2
Prof. 3
43
48
29
35
47
31
44
44
28
46
46
42
39
39
31
44
45
36
38
49
35
42
48
36
45
45
39
Contrastar al 5 % de significación si existen diferencias entre los profesores.
7. Un grupo de químicos están interesados en estudiar la cantidad de radón liberado en las
duchas. Para ello realizan un experimento en el que se utiliza agua enriquecida con radón,
y se prueban tres diámetros diferentes para los orificios de las alcachofas. La siguiente
tabla recoge el radón liberado (en %) para cada diámetro:
Diámetro 1
80
83
83
84
85
84
81
Diámetro 2
74
75
76
74
75
78
76
Diámetro 3
60
62
59
61
62
63
64
En base a los datos obtenidos, ¿podemos afirmar que el tamaño del orificio afecta el
porcentaje de radón liberado?. Realizar el contraste con un nivel de significación del 5 %.
Delia Montoro Cazorla.
Dpto.
de Estadística e I.O. Universidad de Jaén.
150
Capítulo 9. Análisis de la varianza (un factor): ANOVA
Nota: Suponer para todos los ejercicios normalidad, independencia, e igualdad de varianzas en las poblaciones.
Descargar