Pruebas de Hipótesis-ANOVA

Anuncio
Pruebas de Hipótesis-ANOVA
Curso de Seminario de Tesis
Profesor QF Jose Avila Parco
Año 2016
Análisis de la Varianza de un factor
(ANOVA)
• El análisis de la varianza (ANOVA) es una técnica estadística paramétrica de
contraste de hipótesis. El ANOVA de un factor sirve para comparar varios
grupos en una variable cuantitativa. Se trata, por tanto, de una generalización
de la Prueba T para dos muestras independientes al caso de diseños con
más de dos muestras.
• A la variable categórica (nominal u ordinal) que define los grupos que
deseamos comparar la llamamos independiente o factor y la representamos
por VI. A la variable cuantitativa (de intervalo o razón) en la que deseamos
comparar los grupos la llamamos dependiente y la representamos por VD.
• La hipótesis nula que se pone a prueba en el ANOVA de un factor es que las
medias poblacionales (las medias de la VD en cada nivel de la VI) son
iguales. Si las medias poblacionales son iguales, eso significa que los grupos
no difieren en la VD y que, en consecuencia, la VI o factor es independiente
de la VD.
18/08/2016
QF JOSE AVILA PARCO
2
ANOVA
Condiciones:
Cada muestra debe ser independiente de las otras.
Cada muestra debe haber sido seleccionada al azar de la
población de donde proviene.
Las población de donde provienen las muestras debe tener
distribución normal.
Las varianzas de cada población deben ser iguales.
18/08/2016
QF JOSE AVILA PARCO
3
ANOVA
Ejemplo
Una Directora de un Instituto, preocupada de explicar los problemas de
comportamiento de sus estudiantes, se dispuso a hacer un estudio para
establecer si existían diferencias en ese aspecto según estado civil de los
padres, entre otras variables.
Para ese fin, solicitó a los padres de 45 estudiantes la aplicación del Child
Behavior Checklist, versión para padres. El CBCL (Achenbach, 1991) es un
instrumento conformado por 113 ítems que comprenden problemas
específicos, agrupados en síndromes que exploran dos tipos de anomalías de
conducta: externalización (agresión, delincuencia y trastornos de conducta) e
internalización (aislamiento, preocupaciones somáticas, depresión y ansiedad).
Además, (Friedrich et al., 1986) seis de sus ítems conforman la escala de
problemas sexuales, la que sólo se aplica a jóvenes de ambos sexos.
Los ítems son categorizados 0=no es cierto o nunca observado, 1=es cierto
algunas veces o de cierta manera, 2=muy cierto o a menudo cierto. El puntaje
total se obtiene a partir de la suma de los parciales.
18/08/2016
QF JOSE AVILA PARCO
4
ANOVA
Paso 1: Obtiene los siguientes datos
CASADO
SEPARADO
VIUDO
SOLTERO
10
23
78
22
19
62
70
70
36
90
48
48
55
30
68
28
45
73
62
45
41
30
29
30
30
40
38
55
41
28
68
45
32
43
60
50
46
54
61
42
38
49
58
66
15
19
25
30
62
60
55
28
63
5
18/08/2016
QF JOSE AVILA PARCO
ANOVA
Paso 2: Calculamos la media de cada grupo y la media global
CASADO
SEPARADO
VIUDO
SOLTERO
10
23
78
22
19
62
70
70
36
90
48
48
55
30
68
28
45
73
62
45
41
30
29
30
30
40
38
55
41
28
68
45
Mg
32
43
60
50
46
54
61
42
38
49
58
66
15
19
25
30
62
60
55
28
63
35,21
46,27
58,18
45,08
45,53
6
18/08/2016
QF JOSE AVILA PARCO
ANOVA
Paso 3: Calculamos la suma de cuadrados de las desviaciones de cada observación
respecto a la media global, suma que denominaremos Suma de Cuadrados Total
(SCT) y que refleja la variabilidad total. Si se divide por el tamaño total de muestra se
obtiene la varianza total.
SCT   xi  M g 
2
18/08/2016
QF JOSE AVILA PARCO
7
ANOVA
CASADO
SEPARADO
VIUDO
SOLTERO
1262,26
507,52
1054,41
553,58
703,75
271,32
598,86
598,86
90,79
1977,73
6,11
6,11
89,71
241,13
504,98
307,24
0,28
754,69
271,32
0,28
20,51
241,13
273,18
241,13
241,13
30,56
56,68
89,71
20,51
307,24
504,98
0,28
183,01
6,39
209,43
20,00
0,22
71,77
239,37
12,45
56,68
12,05
155,54
419,09
931,98
703,75
421,41
241,13
271,32
209,43
89,71
307,24
305,26
SCT   xi  M g   16695,208
2
16695,208
8
18/08/2016
QF JOSE AVILA PARCO
ANOVA
Paso 4: Calculamos la suma de cuadrados de las desviaciones entre la media de cada
grupo y la media general. Esta es la suma de cuadrados explicada por el factor
considerado, a la que denominaremos Suma de cuadrados del factor (SCF) o
variabilidad explicada.
SC F   nK M K  M g 
2
• Siendo:
 media global
nk  número de sujetos en el grupo k
M K  media aritmética del grupo k
Mg
En la literatura científica también se denomina a la SCF como SC Entre los
grupos (SS Between) o SC del Modelo (SS Model)
18/08/2016
QF JOSE AVILA PARCO
9
ANOVA
CASADO
SEPARADO
VIUDO
SOLTERO
MEDIA GLOBAL
MEDIA
35,21
46,27
58,18
45,08
45,53
n
14
15
11
13
(x-X)2
106,38
0,55
160,11
0,20
n(x-X)2
1489,305
8,178
1761,226
2,649
3261,358
SC F   nK M K  M g   3261,358
2
18/08/2016
QF JOSE AVILA PARCO
10
ANOVA
Paso 5: Calculamos la suma de cuadrados de las desviaciones entre cada dato y la
media de su grupo. Esta es la suma de cuadrados no explicada, a la que
denominaremos Suma de cuadrados residual (SCR) o variabilidad residual.


SC R    xik  M k 


• Siendo:
2
xik  cada dato i del grupo k
___
xk  media aritmética del grupo k
En la literatura científica también se denomina a la SCR como SC Dentro de los
grupos (SS Within)
Si SCT  SCF  SCR  SCR  SCT  SCF
11
18/08/2016
QF JOSE AVILA PARCO
ANOVA
CASADO
SEPARADO
VIUDO
SOLTERO
635,76
541,34
392,76
532,54
262,90
247,54
139,67
621,16
0,62
1912,60
103,67
8,54
391,47
264,60
96,40
291,62
95,76
714,67
14,58
0,01
33,47
264,60
851,58
227,31
27,19
39,27
407,31
98,47
33,47
333,67
96,40
0,01
10,33
10,67
3,31
24,24
116,33
59,80
7,94
9,47
7,76
7,47
0,03
437,78
408,62
743,47
403,08
27,19
247,54
222,70
391,47
333,67
280,00
2



SCR    xik  M k   13433,850


13433,850
12
18/08/2016
QF JOSE AVILA PARCO
ANOVA
Paso 6: Calculamos las medias cuadráticas, para lo cual necesitamos
conocer los grados de libertad correspondiente a cada suma de
cuadrados de las desviaciones
•
•
•
•
•
Cada suma de cuadrados tiene sus propios grados de libertad.
La SCT es el número total de casos menos uno, es decir n-1;
La SCF es el número de grupos menos uno, es decir, k-1 y
La SCR es el número total de datos menos k, es decir,
n-k.
En el análisis de la varianza, se define una media cuadrática como el
cociente entre la suma de cuadrados y sus correspondientes grados
de libertad:
13
18/08/2016
QF JOSE AVILA PARCO
ANOVA
Grados de libertad
Factor, Entre los grupos (between)
(k-1): (4 - 1) = 3
Residual, Dentro de los grupos (within)
(n-k): 53-4 = 49
Total = (n – 1): 53 - 1 = 52
glSCT  glSCF  glSCR
14
18/08/2016
QF JOSE AVILA PARCO
ANOVA
Medias Cuadráticas
SC F
3261,358
MC F 
 1087,119
MC F 
3
k 1
SC R MC  13433,850  274,160
R
MC R 
49
nk
SCT
16695,208
MCT 
MCT 
52
n 1
15
18/08/2016
QF JOSE AVILA PARCO
ANOVA
Paso 7: Calculamos el estadístico F de Snedecor, que nos informará si
tenemos “pruebas suficientes” para rechazar o aceptar la hipótesis nula.
SC F
2
MC F
S F
k

1
F

 2
SC R
MC R
S R
nk
En nuestro caso
1087,119
F
 3,965
274,160
18/08/2016
QF JOSE AVILA PARCO
16
ANOVA
Paso 8: Con el fin de informar los resultados, se procede a generar el
cuadro resumen del ANOVA.
FUENTE DE VARIACIÓN
SUMA DE CUADRADOS (SC)
GRADOS DE LIBERTAD (gl)
MEDIA DE CUADRADOS (MC)
FACTOR
SC ENTRE
k-1
SC Entre / k-1
RESIDUAL
SC DENTRO
n-k
SC Dentro/ n-k
TOTAL
SC TOTAL
n-1
F calculado
MC Entre/MC
Dentro
En nuestro caso
FUENTE DE VARIACIÓN
SUMA DE CUADRADOS (SC)
GRADOS DE LIBERTAD (gl)
MEDIA DE CUADRADOS (MC)
F calculado
FACTOR
3261,358
3
1087,119
3,965
RESIDUAL
13433,850
49
274,160
TOTAL
16695,208
52
17
18/08/2016
QF JOSE AVILA PARCO
ANOVA
Paso 9) Se procede a establecer la probabilidad de error tipo I o alfa
asociada a nuestro valor F.
Procedimiento:
•
•
Encuentre el valor crítico en una distribución F, con k-1 grados de
libertad en el numerador (en las columnas) y n-k grados de
libertad en el denominador (en las filas), que deje una probabilidad
de  en la cola superior de la distribución.
Rechace la hipótesis nula si el estadístico F calculado en el Paso
7 es mayor o igual que el valor crítico F(k-1, n-K) que
encontramos en la tabla de F.
18/08/2016
QF JOSE AVILA PARCO
18
ANOVA
REGLAS DE DECISIÓN
H 0 : 1  2  ...k
H1 : (1  2  ...k )
Las reglas de decisión en este procedimiento son las siguientes:
Rechace H 0 si Fobs  F( )
No rechace H 0 si Fobs  F( )
18/08/2016
QF JOSE AVILA PARCO
19
ANOVA
Si desarrollamos el contraste en nuestro ejemplo, tenemos los siguientes
valores:
glF (k 1)  3
glR (n  k )  49
F  3,965
En la tabla correspondiente, ubicamos los valores (k-1) en las columnas; y
(n-k) en las filas y el punto de intersección nos informa el valor F con el
cual compararemos el Fobs
18/08/2016
QF JOSE AVILA PARCO
20
ANOVA
Los valores críticos de F son:
F0.10  2,28
F0.05  2,92
F0.025  3,59
F0.01  5,24
Al realizar la comparación de Fobs con F, se observa que
Fobs  F0.05
3,965  2,920
Paso 10) Se concluye sobre la Hipótesis nula.
Por lo tanto, podemos rechazar la hipótesis nula, al 2,5% y aceptamos que
existe evidencia empírica suficiente para afirmar que existen diferencias
significativas entre las medias de, al menos, dos de los grupos de padres.
18/08/2016
QF JOSE AVILA PARCO
21
ANOVA
A partir de los resultados expuestos sabemos que las
cuatro categorías de la variable independiente presentan
resultados diferentes.
Pero no sabemos exactamente entre que categoría se
presentan dichas diferencias, pues ANOVA no nos informa
al respecto. Nos dice que hay diferencias significativas,
pero no entre que pares
18/08/2016
QF JOSE AVILA PARCO
22
ANOVA
•Podemos tener varias preguntas:
¿Los hijos de padres casados presentan menos
problemas específicos que los de padres
separados?
¿Los hijos de padres viudos presentan más
problemas específicos que los de padres
separados?
¿Existen diferencias entre los hijos de padres
solteros y los de padres separados
•El ANOVA de un factor no responde estas
preguntas
23
18/08/2016
QF JOSE AVILA PARCO
Descargar