ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA
P. Reyes / Sept. 2007
ANÁLISIS DE VARIANZA
ANOVA DE UNA VÍA
Elaboró: Dr. Primitivo Reyes Aguilar
Septiembre de 2007
Mail: [email protected]
Tel. 58 83 41 67 / Cel. 044 55 52 17 49 12
Página 1 de 26
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA
P. Reyes / Sept. 2007
CONTENIDO
1. ANOVA
2. Ejercicios
3. Teoría de experimentos de un solo factor
Página 2 de 26
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA
P. Reyes / Sept. 2007
ANALISIS DE VARIANZA DE UN FACTOR (ANOVA 1 VIA)
El análisis de la varianza de un factor (ANOVA) es una metodología para analizar la variación
entre muestras y la variación al interior de las mismas mediante la determinación de varianzas.
Es llamado de una vía porque analiza un variable independiente o Factor ej: Velocidad. Como
tal, es un método estadístico útil para comparar dos o más medias poblacionales. El ANOVA de
un criterio nos permite poner a prueba hipótesis tales como:
H 0  1   2  3  ....   k
H1 : Al menosdos medias poblacionales son diferentes.
Los supuestos en que se basa la prueba t de dos muestras que utiliza muestras independientes
son:
1. Ambas poblaciones son normales.
2. Las varianzas poblacionales son iguales, esto es,  12   22 .
El estadístico tiene una distribución muestral resultando:
Fc 
sb2
sw2
El valor crítico para la prueba F es:
F (k  1, k (n  1))
Donde el número de grados de libertad para el numerador es k-1 y para el denominador es k(n1), siendo  el nivel de significancia.
k = número de muestras.
Por ejemplo:
Ejemplo: Se tienen 14 empleados seleccionados al azar que se someten a
3 diferentes cursos de entrenamiento: Programa 1, Programa 2 y Programa 3.
Página 3 de 26
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA
P. Reyes / Sept. 2007
Como los empleados se seleccionan aleatoriamente para cada programa
el diseño se denomina DISEÑO COMPLETAMENTE ALEATORIZADO
Se observa el aprovechamiento de los empleados en los programas:
TRATAMIENTOS
I
c=1
c=3
c=2
J
Programa
Programa 1
2
Programa 3
r=1
85
80
82
r=2
72
84
80
r=3
83
81
85
r=4
80
78
90
r=5
**
82
88
Medias
80.00
81.00
85.00
Xj
Media de medias o media
total
82.14
TIPOS DE VARIACIÓN Y SUMAS DE CUADRADOS
1. Variación total entre los 14 empleados, su puntuación no fue igual con todos
VARIACIÓN TOTAL RESPECTO A LA MEDIA GENERAL
r
SCT  
i 1
c
 ( Xij  X )
2
j 1
SCT = (85-82.14)2 + (72-82.14)2+(83-82.14)2+.....+(88-82.14)2
SCT = 251.7
2. Variación entre los diferentes tratamientos o Variación entre muestras
o variación
entre programa 1, programa 2 y programa 3
EFECTO DE LA MEDIA DE CADA TRATAMIENTO RESPECTO A LA MEDIA GENERAL
Página 4 de 26
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA
P. Reyes / Sept. 2007
r
SCTR   rj ( X j  X ) 2
j 1
SCTR = 4(79.5 - 81.3333)2 + 5(81 - 81.3333)2 + 5(85 - 81.333)2
SCTR = 65.71
3. Variación dentro de un tratamiento o muestra o programa dado que no todos los
empleados dentro de un mismo programa obtuvieron los mismos puntajes. Se denomina
Variación dentro de los tratamientos.
VARIACIÓN DENTRO DEL TRATAMIENTO O VARIACIÓN DEL ERROR
CADA VALOR RESPECTO A LA MEDIA DE SU TRATAMIENTO
r
SCE  
i 1
c
(X
j 1
ij
 X j )2
SCE = SCT - SCTR = 186
4. GRADOS DE LIBERTAD
Grados de libertad totales = n - 1 = 14-1 = 13
Grados de libertad de los tratamientos = c - 1 = 3 - 1 = 2
Grados de libertad del error = gl. Totales - gl. Tratamientos = 13 - 2 = 11
gl SCT = gl SCTR + gl SCE
gl SCE = gl SCT - gl SCTR = (n -1) - (c - 1) = n -c
5. CUADRADOS MEDIOS (Suma Cuadrados/ Grados libertad)
CMT = Cuadrado medio total = SCT / (n-1) =
19.4
CMTR = Cuadrado medio del tratamiento = SCTR / (c -1) =
32.9
CME = Cuadrado medio del error = SCE/ gle.=
16.9
Página 5 de 26
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA
P. Reyes / Sept. 2007
6. ESTADÍSTICO DE PRUEBA Fc Y ESTADÍSTICO F CRÍTICO DE ALFA
Fc = CMTR / CME=
1.946745562
Falfa, gl .numerador , gl .deno minador  F ,c1,nc
Cálculo de F con Excel
=DISTR.F.INV(ALFA, GL. TR, GL. ERR) =DISTR.F.INV(0.05, 2, 11) = 3.982297957
ZONA DE
NO RECHAZAR
RECHAZO
Distr. F
Como Fc es menor a Falfa no se rechaza Ho y las medias son iguales.
7. VALOR P DE Fc
P = distr.f(Fc, gl. SCTr, gl. SCE) = distr.f(1.946, 2, 11) = 0.18898099
Como P es mayor a alfa no se rechaza Ho
CONCLUSION: NO HAY SUFICIENTE EVIDENCIA PARA RECHAZAR HO, LAS MEDIAS DE
LOS TRATAMIENTOS SON IGUALES
Página 6 de 26
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA
P. Reyes / Sept. 2007
TABLA DE ANOVA
FUENTE DE VARIACIÓN
SUMA DE
GRADOS DE
CUADRADO
CUADRADOS LIBERTAD
MEDIO
VALOR F
Entre muestras (tratam.)
SCTR
c-1
CMTR
CMTR/CME
Dentro de muestras (err.)
SCE
n-c
CME
Variación total
SCT
n-1
CMT
Regla: No rechazar si la F de la muestra es menor que la F de Excel para una cierta alfa
USO DE EXCEL:

En el menú herramientas seleccione la opción Análisis de datos, en funciones para
análisis seleccione Análisis de varianza de un factor.

En Rango de entrada seleccionar la matriz de datos (todas las columnas a la vez).

Alfa = 0.05

En Rango de salida indicar la celda donde se iniciará la presentación de resultados.
RESUMEN
Grupos
Análisis de varianza de un factor
Cuenta
Suma
Promedio
Varianza
Programa 1
4
320
80 32.666667
Programa 2
5
405
81
5
Programa 3
5
425
85
17
Grados
ANÁLISIS DE VARIANZA
de
Promedio de
Suma
Variaciones
cuadrados
Entre grupos
65.71428571
libertad
Cuadrados
Total
186
251.7142857
Probabilidad
F crítica
2 32.85714286 1.9431644 0.18937731 3.98229796
Dentro de
grupos
Fc
11 16.90909091
13
Página 7 de 26
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA
P. Reyes / Sept. 2007
USO DE MINITAB

Stat > ANOVA > One Way (Unstacked)

en Responses in separate columns Indicar las columnas de datos

En Confidence Level 95%

Seleccionar Comparisons Tukey 5%

OK
One-way ANOVA: Programa 1, Programa 2, Programa 3
Source
Factor
Error
Total
DF
2
11
13
S = 4.112
SS
65.7
186.0
251.7
MS
32.9
16.9
F
1.94
R-Sq = 26.11%
P
0.189
R-Sq(adj) = 12.67%
Individual 95% CIs For Mean Based on
Pooled StDev
Level
Programa 1
Programa 2
Programa 3
N
4
5
5
Mean
80.000
81.000
85.000
StDev
5.715
2.236
4.123
----+---------+---------+---------+----(------------*------------)
(----------*-----------)
(-----------*----------)
----+---------+---------+---------+----77.0
80.5
84.0
87.5
Pooled StDev = 4.112
NOTA: Si los Intervalos de confianza se traslapan, las medias son iguales estadísticamente
Tukey 95% Simultaneous Confidence Intervals
All Pairwise Comparisons
Individual confidence level = 97.94%
Programa 1 subtracted from:
Programa 2
Programa 3
Lower
-6.451
-2.451
Center
1.000
5.000
Upper
8.451
12.451
--------+---------+---------+---------+(------------*-----------)
(-----------*------------)
--------+---------+---------+---------+-6.0
0.0
6.0
12.0
Upper
11.025
--------+---------+---------+---------+(-----------*----------)
--------+---------+---------+---------+-6.0
0.0
6.0
12.0
Programa 2 subtracted from:
Programa 3
Lower
-3.025
Center
4.000
NOTA: Si el cero se encuentra en el intervalo de confianza de la diferencia entre medias, este
par de medias no son diferentes.
Página 8 de 26
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA
P. Reyes / Sept. 2007
2. EJERCICIOS:
1. Cuatro catalizadores que pueden afectar la concentración de un componente en una mezcla
líquida de tres componentes están siendo investigado.
Se obtienen las siguientes concentraciones:
Catalizador
A
B
C
D
58.2
56.3
50.1
52.9
57.2
54.5
54.2
49.9
58.4
57
55.4
50
55.8
55.3
51.7
54.9
2. Para determinar si existe diferencia significativa en el nivel de Matemáticas de 4 grupos de
estudiantes de Ingeniería se realizó un examen aleatorio a 6 individuos por grupo. Determine
cuales son los grupos en los cuales existen diferencias a un 95% de nivel de confianza.
A
75
93
78
71
63
76
B
78
91
97
82
85
77
C
55
66
49
64
70
68
D
64
72
68
77
56
95
3. Las calificaciones en el examen a 18 empleados de tres unidades de negocio
Se muestran a continuación:
Probar si no hay diferencia entre las unidades a un 5% de nivel de significancia.
A
B
C
85
71
59
75
75
64
82
73
62
76
74
69
Página 9 de 26
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA
71
69
75
85
82
67
P. Reyes / Sept. 2007
4. Probar si hay diferencia en los tiempos de servicio de 4 unidades de negocio para el mismo
servicio a un nivel de significancia del 5%.
A
B
C
D
5.4
8.7
11.1
9.9
7.8
7.4
10.3
12.8
5.3
9.4
9.7
12.1
7.4
10.1
10.3
10.8
8.4
9.2
9.2
11.3
7.3
9.8
8.8
11.5
Página 10 de 26
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA
P. Reyes / Sept. 2007
3. TEORÍA DE EXPERIMENTOS DE UN SOLO FACTOR
En esta parte se analiza el caso en que se desea conocer el efecto de un solo factor o variable
independiente sobre la característica de calidad que sé esta analizando. Esto implica que a fin de
poder detectar su efecto, este factor se debe de variar manteniendo el resto de los factores en un
valor fijo.
Experimentos sin restricciones en la aleatoriedad.
Cuando se desea analizar el efecto de un factor sobre una variable dependiente o característica
de calidad es necesario el variar el "nivel” valor de ese factor. A cada diferente nivel al cual se
realiza el experimento se le conoce como tratamiento. Por ejemplo si el factor es el proveedor los
diferentes niveles o serian proveedor A, proveedor B, proveedor C, etc. , si el factor es el tipo de
proceso los tratamientos serian proceso 1, proceso 2. Si el factor es temperatura los diferentes
niveles serian por ejemplo 10, 20, 30 y 40 °C,etc.
Por otro lado en cada nivel del factor se efectúan una serie de pruebas, a cada una de estas
pruebas se les conoce como replicaciones. EL factor se considera fijo.
Ejemplo 1: Suponga que se desea saber si los ejes que surten cuatro proveedores tienen
diferente resistencia a la tracción. Para ello se decide llevar a cabo un experimento de un solo
factor donde la variable dependiente es la resistencia a la tracción del eje medida en Kgs/cm 2 y el
factor es el proveedor. El factor tiene cuatro niveles o tratamientos diferentes. Uno para cada
proveedor (llámelos I, II, III, IV) se decide probar 5 ejes de cada proveedor haciendo un total de
20 pruebas ejecutadas en la misma maquina de prueba y con él mismo operario (recuerde que el
resto de los factores se deben de mantener a un nivel fijo).
Para que el experimento sea aleatorio se numeran los ejes del 1 al 20 y se selecciona al azar un
número entre 1 y 20. Según él numero seleccionado es el siguiente eje que se prueba. De esta
manera, el siguiente eje a probar es seleccionado sin ninguna restricción. Suponga. que los
resultados de experimento se muestran en la tabla siguiente:
Página 11 de 26
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA
P. Reyes / Sept. 2007
Proveedor
I
II
III IV
56 64 45 42
55 61 46 39
62 50 45 45
59 55 39 43
60 56 43 41
El proveedor = factor
Tratamiento = I, II, III, IV
Con cinco replicaciones en cada tratamiento.
Observando la tabla se "ve" que existen evidentemente diferencias entre la resistencia de los
ejes de un proveedor a otro. Pero también existen entre los ejes de un mismo proveedor,
entonces, ¿la diferencia detectada entre, los ejes de un proveedor y otro existe realmente? O ¿la
diferencia es debida al azar?, La herramienta estadística conocida como análisis de varianza
(ANOVA) puede ayudar a despejar esta duda.
Para esto suponga un caso general como sigue: Si define Yij como el valor correspondiente
de la variable dependiente o característica de calidad de la i-ésima observación o replicación
bajo el tratamiento j, los resultados de un experimento de un solo factor con k tratamientos y n
replicas u observaciones por tratamiento seria:
Tratamiento
Observaciones
Totales
Promedios
(nivel)
1
Y11
Y12
...
Y1n
Y1.
Y..
2
Y21
Y22
...
Y2n
Y2.
Y 2.
3
Y31
Y32
...
Y3n
Y3.
Y 3.
...
...
...
...
...
...
...
K
Yk1
Yk2
...
Ykn
Yk.
Yk.
Página 12 de 26
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA
P. Reyes / Sept. 2007
Este caso se puede representar mediante el modelo estadístico lineal:
Yij  μ  τj  εij
Donde  representa la media general, j representa el efecto del tratamiento j, y ij es el error
aleatorio al hacer la observación ij.
Esto es, se supone que todos los datos en general pertenecen a una misma población con
media  excepto que existan desviaciones para diferentes tratamientos del mismo factor. Por
su parte ij representa el error aleatorio o medida de la variabilidad natural dentro de cada
tratamiento.
Generalmente se supone que:
n
 τ  0;
j
j 1
Y que el error aleatorio sigue una distribución normal con media cero y varianza 2, esto denota:
εij  N(0, σ 2 )
Sean Yi. El total de las observaciones bajo el i-esimo tratamiento, y
Yi.
el promedio de las
observaciones bajo el i-esimo tratamiento. Similarmente sean Y.. La suma de todas las
observaciones y
Y..
la media general de todas las observaciones.
Expresado matemáticamente esto es:
n
Yi.   Yij
i 1
Yi.  Yi./n con i  1,2,..., n
n
k
Y..    Yij
i 1 j 1
Y..  Y../n
Página 13 de 26
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA
P. Reyes / Sept. 2007
N = kn es él numero total de observaciones
Las hipótesis en este caso son:
Ho: j = 0; para todo valor de j.
H1: j  0; para al menos un valor de j.
Ho significa que el factor (los niveles bajo estudio) no tiene efecto sobre la variable dependiente
y H1 que si lo tiene, esto es que existe diferencia, estadística. Recuerde también que la hipótesis
nula se asume como cierta a menos que los datos indiquen lo contrario.
Descomposición de la suma total de cuadrados
La denominación de análisis de varianza resulta de descomponer la variabilidad total de los
datos en sus partes componentes. La suma total de cuadrados corregida es:
 Yij  Y..  n Yi.  Y..   Yij  Yi.
k
n
2
j 1 i 1
k
j 1
2
k
n
2
j 1 i 1
SST  SStr  SSE
Donde:
La ecuación anterior muestra la variabilidad total de los datos, medida por la suma total corregida
de los cuadrados. SStr se denomina suma de cuadrados debida a los tratamientos (es decir,
entre tratamientos), SSE es la suma de cuadrados debido al error (es decir, dentro de los
tratamientos)
SST = Suma de cuadrados total: con N -1 grados de libertad
SStr = Suma de cuadrados debido a los tratamientos, con k - 1 grados de libertad.
SSE = Suma de cuadrados debido al error aleatorio k grados de libertad.
Para simplificar los cálculos:
Página 14 de 26
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA
k
P. Reyes / Sept. 2007
n
SST   (Yij 2 
j  1 i 1
Y..2
Y..2 )
n
k
 Yi.2 Y..2 

SStr   

N 
j 1  n
SSE  SST  SStr
El análisis de varianza será:
Fuente
De error
Variación
entre tratamientos
Variación dentro de
Tratamientos o error
Total
SS
G.L.
MS F0
SStr k – 1 MStr MStr/MSE
SSE N – k MSE
SST N – 1
Si F0 > F,k-1,N-k, H0 debe ser rechazada. Donde F, k-1,N-k es el valor de la variable F con
un nivel de significancia (error tipo I), k-1 grados de libertad en el numerador y N-k grados de
libertad en el denominador. Bajo la hipótesis nula la relación MStr/MSE sigue una función de
densidad F, por lo tanto si F0 es mayor que F, k-1,N-k existirá una diferencia significativa y el
factor afecta la respuesta de la característica de calidad en los niveles bajo estudio.
Si Ho no puede ser rechazada la conclusión es por lo tanto que el factor bajo estudio no
afecta la respuesta. Sin embargo, si Ho es rechazada y existe diferencia significativa entre los
diferentes tratamientos de un solo factor el siguiente paso es el analizar en detalle cual de los
tratamientos es el mejor y cuales son iguales.
Aplicando el ANOVA a los datos del ejemplo 2.2 se tiene:
Totales Promedios
I
II
III
IV
56
64
45
42
55
61
46
39
62
50
45
45
59
55
39
43
Yi
292
286
218
210
58.4
57.2
43.6
42
1006
40.24
60
56
43
41
Y..=
Página 15 de 26
Yi.
Y ..
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA
4
5
 Yij
2
P. Reyes / Sept. 2007
 562  552  ...  412  51940
j1 i1
Entonces, calculando las sumas de cuadrados tenemos que:
SST = 51,940 – (10062)/20 = 1338.2
SStr = 2922/5 + 2862/5 + 2182/5 + 2102/5 –10062/20 = 1,135.0
SSE = SST – SStr = 1338.2 – 1135.0 = 203.2
MStr = SStr/(k-1) = 1135.0/(3 - 1) = 378.2
MSE = SSE/(n-k) = 203.2/(20-4) = 12.70
Esto se resume en la siguiente tabla:
Fuente
De error
SS
Factor o tratamientos SStr=1135
G.L.
MS
k – 1 = 3 MStr =378.3
Error
SSE=203.2 N – k = 16 MSE=12.7
Total
SST=1338.2 N – 1 = 19
F0
MStr/MSE
= 29.79
Donde F0= MStr/MSE = 378.3/12.70=29.79 con 3 grados de libertad en el numerador y 16 grados
de libertad en el denominador.
Si el nivel de aceptación (error tipo I) lo fijamos en 5%, esto es,  = 0.05, de la tabla de la
función F se tiene que:
Página 16 de 26
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA
P. Reyes / Sept. 2007
F,3,16 = 3.24
Dado que F0 = 29.79 > 3.24= F0.05,3,16
Se concluye que Ho se rechaza y el factor proveedor afecta la variable resistencia a la
tracción.
Experimentos con un solo factor y diferente número de lecturas por tratamiento (o caso
desbalanceado)
Cuando por alguna razón él numero de lecturas que se tienen bajo cada tratamiento es
diferente, digamos Zi observaciones en el tratamiento j, el análisis se puede llevar a cabo de una
manera similar con las siguientes formulas para k tratamientos:
k
n
2
SST   Yij 2 - Y.. ; con N - 1 grados de libertad
N
j 1 i 1
Yi. 2 Y ..2

; con k - 1 grados de libertad
N
j 1 ni
k
SStr  
SSE  SST - SStr; con N - k grados de libertad
Es, sin embargo, deseable que él numero de muestras sea igual bajo cada tratamiento, puesto
que el poder de la prueba se maximiza cuando él numero de muestras es igual.
Ejemplo 2: El tiempo de respuesta en milisegundos fue determinado para tres tipos diferentes
de circuitos y los resultados son:
tr
I
II
III
9
20
6
Observaciones
12
10
8
23
30
5
8
16
15
13
Y..
Totales
Yi
67
73
35
175
Promedios
Yi.
11.17
24.33
8.75
14.75

Y ..
Con un nivel de significación de  = 0.05. ¿Tiene los circuitos diferente tiempo de respuesta?
Página 17 de 26
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA
P. Reyes / Sept. 2007
k = 3; n1 = 6; n2 = 3; n3 = 4; N = 6 + 3 + 4 = 13
k
n
SST   (Yij2  Y..2 /N) 
j  1 i 1
1752
9  12  ...  8  16 

13
2993  2355.76  637.24
2
2
2
2
k
SStr   (Yi.2 /ni  Y..2 /N) 
j 1
672 732 352 1752



 474.98
6
3
4
13
SSE  SST - SStr  637.24 - 474.98  162.29
La tabla ANOVA es:
Fuente
SS
De error
G.L.
MS
Factor o tratamientos SStr=474.98 k – 1 = 2 MStr =237.49
Error
SSE=162.29 N – k = 10 MSE=16.22
Total
SST=637.24 N – 1 = 12
F0
MStr/MSE
= 14.64
Dado que F.05,2,10 = 4.10, se concluye que los circuitos muestran diferentes tiempos de
respuesta.
Estimación de parámetros del modelo
A continuación, se desarrollan estimadores para los parámetros del modelo de clasificación en
un sentido:
Página 18 de 26
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA
P. Reyes / Sept. 2007
Yij  μ  τi  εij
Usando el método de los mínimos cuadrados, las soluciones de las ecuaciones normales son:
μ̂  Y..
τ̂i  Yi.  Y..
con i  1,2,3,...,k
Y es posible determinar fácilmente un intervalo de confianza para estimar la media del i-ésimo
tratamiento. Dicha i-ésimo media es:
i =  + i
Un estimador puntual para i podría ser μ̂i  μ̂  τ̂i  Yi. ahora si se supone que los errores están
distribuidos normalmente, las Yi. son NID(0,2/n), entonces podría usarse la distribución normal
para definir el intervalo de confianza buscado si se conoce . Al usar MSE como estimación de,
2, el intervalo de confianza se debe basar en la distribución t., por tanto, un intervalo de
confianza de (1-)100% para la media del i-ésimo tratamiento,  es:

MS E 
Y
i
.

t
α
/
2
,
N

k


n 

un intervalo de confianza del (1-)100% para la diferencia de las medias de dos tratamientos
cualesquiera, por ejemplo i-j, será:

2MSE 
Y
i
.

Y
j
.

t
α
/
2
,
N

k

.
n


Ejemplo 3: Al usar los datos del ejemplo 2.3, las estimaciones de la media general y de los
efectos de los tratamientos son μ̂  376 25  15.04; y
Página 19 de 26
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA
P. Reyes / Sept. 2007
τ̂1  Y1.  Y..  9.80  15.04  5.24
τ̂ 2  Y 2.  Y..  15.40  15.04  0.36
τ̂3  Y 3.  Y..  17.60  15.04  2.56
τ̂ 4  Y 4.  Y..  21.60  15.04  6.56
τ̂5  Y 5.  Y..  10.80  15.04  4.24
usando la formula para calcular el intervalo de confianza del 95% para la media del tratamiento 4
es:

MSE 
8.06
Y
i
.

t

/
2
,
N

k

  21.60  2.086
n 
5

o, bien.
21.60  2.65
por tanto, el intervalo deseado es 18.95    24.25
Estimación de la variable de respuesta
La descomposición de la variabilidad en las observaciones por medio del análisis de variancia,
es una relación puramente algebraica.
Yij  μ  τi  εij
El residuo de la observación i del tratamiento j se define mediante:
 ij
eij  Yij  Ŷ
en donde
Ŷij
es una estimación de la observación Yij correspondiente calculada por:
Página 20 de 26
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA
P. Reyes / Sept. 2007
Ŷij  μ̂i  τ̂i
Ŷij  Y..  ( Yi.  Y..)
Ŷij  Yi.
La ecuación anterior muestra un resultado que se intuye fácilmente, ya que la estimación de
cualquier observación del i-ésimo tratamiento es igual al promedio del tratamiento
correspondiente. El examen de los residuos debe ser automático en el análisis de variancia. Si
el modelo es adecuado, los residuos no deben tener estructura.
Comparación de medias de tratamientos individuales
Supongamos que al efectuar un análisis de variancia para un modelo de efectos fijos la: hipótesis
nula es rechazada. Se concluye que existe diferencia entre las medias, aunque no se especifique
exactamente cual de ellas es diferente. En esta situación puede ser útil realizar comparaciones
adicionales entre grupos de medias de los tratamientos. La media del i-ésimo tratamiento se
define mediante i =  + i y su estimación es Yi. . Las comparaciones entre medias de
tratamientos se realizan en términos de los totales de tratamientos Yi. O de los promedios de
tratamientos Yi. . Los procedimientos para efectuar estas comparaciones se conocen como
métodos de comparación múltiple.
Método de la Mínima Diferencia Significativa (LSD, del inglés least significant difference)
Supongamos que después de haber rechazado la hipótesis nula, con base en una prueba F de
análisis de variancia, se desea probar Ho: i = j para toda i  j. Esto puede hacerse empleando
la estadística t:
to 
Yi.  Yj.
 1 1
MS E  
 ni nj 
Página 21 de 26
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA
P. Reyes / Sept. 2007
Suponiendo una hipótesis alterna bilateral, la pareja de medias i, j se consideran diferentes
Sí Yi.  Yj.  tα / 2, N  k MS E(1/ ni  1/ nj La cantidad:
 1 1
LSD  tα/2, N  k MS E  
 ni nj 
Se denomina mínima diferencia significativa. Si el diseño es balanceado, entonces n1 = n2 = nk =
n.
Para usar el procedimiento de la LSD, simplemente se comparan las diferencias observadas
entre cada par de promedios con el valor correspondiente de la LSD. Si, se concluye que las
medias poblacionales i = j son diferentes.
Ejemplo 4: Para ilustrar este procedimiento, si se usan los datos del Ejemplo 2.3 el valor de la
LSD con  = .05 es:
1 1
LSD  tα/2, N  k MSE   
 n i nj 
2.086
2(8.06)
 3.75
5
Por tanto, una pareja de medias difieren significativamente si el valor absoluto de la diferencia
de promedios en los tratamientos correspondientes es mayor que 3.75. Los cinco promedios
de tratamiento son:
Y1.  9.8
Y2.  15.4
Y3.  16.6
Y4.  21.6 Y5.  10.8
Y las diferencias de los promedios son:
Página 22 de 26
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA
P. Reyes / Sept. 2007
Y1.  Y 2.  9.8  15.4  5.6 *
Y1.  Y 3.  9.8  17.60  7.8 *
Y1.  Y 4.  9.8  21.6  11.8 *
Y1.  Y 5.  9.8  10.8  1.0
Y 2.  Y 3.  15.4  17.6  2.2
Y 2.  Y 4.  15.4  21.6  6.2 *
Y 2.  Y 5.  15.4  10.8  4.6 *
Y 3.  Y 4.  17.6  21.6  4.0 *
Y 3.  Y 5.  17.6  10.8  6.8 *
Y 4.  Y 5.  21.6  10.8  10.8 *
Los valores marcados con asterisco indican parejas de medias que son significativamente
diferentes. Resulta útil graficar los datos como se muestra en la Fig. 4, subrayando las parejas
de medias que no difieren en forma significativa. Claramente los únicos pares que no difieren
significativamente son 1 y 5, y 2 y 3. El tratamiento 4 produce una resistencia a la tensión de
manera significativamente mayor que los otros tratamientos.
Y 1. Y 5.
9.8 10.8
Y 2 . Y 3.
15.4 17.6
Y 4.
21.6
Figura 4. Resul tados del procedi mineto LSD
Fig. 4
Comparación de Tratamientos con un Control
En muchos experimentos, uno de los tratamientos es un control, y al analista puede interesarle
su comparación con las k -1 medias de tratamiento con el control. Por tanto, sólo deben
realizarse k -1 comparaciones. Un procedimiento para hacerlas fue desarrollado por Dunnett
(1964). Supongamos que el tratamiento k es el control. Se desean probar las hipótesis:
Ho : μi  μk
H1 : μi  μk
Página 23 de 26
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA
P. Reyes / Sept. 2007
Para i = 1, 2,..., k -1. El procedimiento de Dunnett es una modificación de la prueba t. Para cada
hipótesis se calculan las diferencias que se observan en las medias muéstrales:
Yi.  Yk. coni  1,2,...,k - 1
La hipótesis nula Ho: i = k es rechazada con un nivel de error tipo I según alfa sí:
1 1
Yi.  Yk.  dα(k  1, f) MS E  
 ni nk 
En donde la constante d (k -1, f) se encuentra en la Tabla IX del Apéndice del texto de Diseño y
Análisis de Experimentos de Douglas C. Montgomery (son posibles tanto pruebas unilaterales
como bilaterales). Hay que notar que alfa constituye el nivel de significación conjunto asociado a
las k -1 pruebas.
Ejemplo 5: Para ilustrar la prueba de Dunnett, considérense los datos del Ejemplo 3, y su
póngase que el tratamiento 5 es el control. En este ejemplo, k = 5, k -1 = 4, f = 20, ni = n = 5, y
con un nivel del 5% se encuentra en la Tabla IX del Apéndice que d 0.05 (4,20) = 2.65. Por tanto,
la diferencia crítica es:
d.05(4,20)
2MSE
2(8.06)
 2.65
 4.76
n
5
(Hay que notar que esta es una simplificación de la Ecuación anterior y que resulta de un diseño
balanceado.) En consecuencia, un tratamiento debe considerarse significativamente diferente del
control si la diferencia es mayor que 4.76. Las diferencias observadas son:
1 vs 5; Y1.  Y5.  9.8  10.8  1.0
2 vs 5; Y 2.  Y 5.  15.4  10.8  4.6
3 vs 5; Y 3.  Y 5.  17.6  10.8  6.8
4 vs 5; Y 4.  Y 5.  21.6  10.8  10.8
Página 24 de 26
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA
P. Reyes / Sept. 2007
Sólo las diferencias Y3.  Y5.; Y4.  Y5. indican una diferencia significativa al ser comparadas
con el control; por tanto, se concluye que 3 = 5 y 4 = 5. Es conveniente usar más
observaciones para el tratamiento de control (es decir, n k) que para los otros tratamientos (o sea,
n, suponiendo el mismo número de observaciones en los otros k -1 tratamientos) cuando se
comparan tratamientos con un control. Debe elegirse la razón nk / n aproximadamente igual a la
raíz cuadrada del número total de tratamientos. En otras palabras, se elige n k/n =
k
Suposiciones del análisis de varianza
Al aplicar un análisis de varianza se hacen las siguientes suposiciones siguientes:
1. El proceso esta en control estadístico (estable). Esto es, se pueden repetir y las causas
de variación se han eliminado.
2. La distribución de la población que se muestra es normal.
3. La varianza de los errores dentro de los k niveles del factor es la misma: esto es, la
variabilidad natural dentro de cada tratamiento es la misma de un tratamiento a otro.
Grafica de residuos contra el valor ajustado de ŷij
Si el modelo es correcto y las suposiciones se satisfacen, los residuos no deben tener algún
patrón, ni deben estar relacionados con alguna variable, incluyendo la respuesta Y ij. Una
comprobación sencilla consiste en graficar los residuos contra los valores ajustados ŷij (debe
recordarse que para el modelo en un sentido ŷij - yi. , el promedio del tratamiento i-ésimo). En
esta grafica no debe revelarse ningún patrón obvio en la siguiente figura se grafican los residuos
contra los valores ajustados de los datos de la resistencia a la tensión del ejemplo 2.3 Ningún
patrón inusual es evidente.
Página 25 de 26
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA
P. Reyes / Sept. 2007
Grafica de residuos contra valores ajustados
Un efecto que en ocasiones revela la grafica es el de una varianza variable. Algunas veces la
varianza de las observaciones lo hace. Esto resulta cuando el error es proporcional a la magnitud
de la observación (comúnmente esto sucede en instrumentos de medición – el error es
proporcional a la escala de la lectura). Si este es el caso, los residuos aumenta a medida que Yij
lo hace, y la grafica de los residuos contra Yij parecerá un embudo que se ensancha o un
altavoz. La varianza variable también ocurre en casos cuyos datos no tienen distribución normal
y están sesgados, porque en las distribuciones sesgadas la varianza tiende a ser función de la
media.
Página 26 de 26
Descargar

an_lisis_de_varianza.. - Contacto: 55-52-17-49-12

Estadística descriptiva

Estadística descriptiva

Desviación estándarMétodos estadísticosVarianzaMedidas de tendencia centralPromedio matemático y geométricoTabla dinámica

Análisis avanzado de datos

Análisis avanzado de datos

CultivosGráfico Box PlotBiologíaEstadísticaVariables

Con el fin de decidir cuantas cajas para atención a... construirán en el futuro, una cadena de

Con el fin de decidir cuantas cajas para atención a... construirán en el futuro, una cadena de

PromedioDesviación típicaMedidas de dispersiónTablas de distribuciónEstadísticaRecta de regresiónMedia

PRÁCTICA 1 DE ORDENADOR (ANÁLISIS DE LA VARIANZA − I)

PRÁCTICA 1 DE ORDENADOR (ANÁLISIS DE LA VARIANZA − I)

Box-plotGráficos de resíduosPaquete estadístico SPSSModelosEstadísticaVarianzaHistogramas

Álgebra, Análisis y Estadística

Álgebra, Análisis y Estadística

Matrices y determinantesEstudio de una función: continuidad, derivabilidad, máximos y mínimosMatriz inversaProbabilidad

Fórmulas de intervalos de confianza en dos poblaciones

Fórmulas de intervalos de confianza en dos poblaciones

Grados de libertadNormalT-studentDistribucionesEstadísticaVarianza

Distribuciones muestrales

Distribuciones muestrales

Desviación típicaTeorema central del límiteMuestreoBiologíaVarianzaMedia