Resolución del problema ANOVA A:D Tipo de documento Formación Autor Juan Carlos Medina Fecha 17 de enero de 2005 A:D Resolución de problema ANOVA Indice 1. Definición previa: Análisis de la varianza de un factor .......................................... 3 2. Resolución del problema ................................................................................. 4 3. Conclusión ................................................................................................... 7 4. Resumen: puntos a seguir en la realización de ANOVA de un factor........................ 8 5. Ejercicio planteado ........................................................................................ 8 Página 2 de 8 Juan Carlos Medina Calvo ([email protected]) Resolución de problema ANOVA A:D 1. Definición previa: Análisis de la varianza de un factor Antes de comenzar con el desarrollo del problema, recordemos lo que es un análisis de la varianza. El análisis de la varianza (ANOVA) es una técnica estadística que nos permite comparar las medidas de varios grupos de población definidos a través de una variable. Pongamos un ejemplo, estamos interesados en comparar las medidas de las puntuaciones de estadística en función del color del pelo de los alumnos, siendo los posibles valores esta variable “morenos, castaños y rubios”. La prueba t para muestras independientes no tiene la capacidad de realizar este tipo de contrastes ya que, como sabemos, la variable que diferencia a los grupos debe ser dicotómica (es decir únicamente puede tomar dos valores) y en nuestro caso existen 3. En el ejemplo, la hipótesis nula a plantear sería "las medidas de las puntuaciones no depende del color del pelo del alumno". Generalizando, el análisis de la varianza siempre establece la hipótesis nula como que todas las medidas de los posibles grupos son iguales. H0 : µ1 =µ2 =µ3 = ...= µn La base matemática que subyace detrás un análisis de la varianza tiene que ver con la comparación entre las varianzas de cada uno de los grupos y su comparación con las varianzas dentro de cada grupo. Para realizar está comparación se utiliza la F de Fischer. (Recordemos que la distribución F de Fisher depende de dos parámetros (n1 y n2 ) y gráficamente es similar a la χ2.) En este caso hablamos de ANOVA de un factor ya que únicamente aparece una variable que marque las posibles diferencias entre medias (en el caso del ejemplo, “color del pelo”). Página 3 de 8 Juan Carlos Medina Calvo ([email protected]) Resolución de problema ANOVA A:D 2. Resolución del problema Estamos estudiando si existencia de ruido afecta al éxito de la realización de una tarea. Tenemos tres grupos de sujetos: grupo uno que realiza la tarea con cierto nivel de ruido, grupo dos que realiza la tarea con el doble de ruido que la anterior y grupo 3 que realiza la tarea sin ruido. La siguiente tabla nos muestra las puntuaciones obtenidas por cada individuo en función del nivel de ruido. Puntuaciones Media Grupo 1 Grupo 2 Grupo 3 6 6 7 3 4 6 0 10 12 1 2 3 2.5 5.5 7 La media total de la población analizada es 5 (calculada como suma de valores partido entre el nº total de casos (12). Nota: la variabilidad no es mas que la “distancia” entre cada uno de los valores que toma la variable y la media Como hemos definido anteriormente, nos interesa comparar la variabilidad dentro de cada grupo con la variabilidad entre grupos. Para ello descomponemos la variabilidad total de la siguiente forma: Variabilidad Total = Variabilidad Intergrupos + Variabilidad Intragrupo Con el fin de rechazar la Hipótesis nula (H0 : µ1 =µ2 =µ3 ) , nos interesa que la variabilidad total pueda ser explicada en su mayoría por la variabilidad intragrupo. Es decir, nos conviene que la variabilidad total dependa de la variabilidad que existe dentro de los grupos y no entre las posibles diferencias entre grupos (variabilidad Intergrupos). Detallemos el proceso de cálculo para el primero de los individuos analizados (n11 =6). Variabilidad total = valor de la variable – valor de la media total = 6-5=1 Variabilidad intragrupo = valor de la variable – valor de la media del grupo = 6-2,5 = 3,5 Página 4 de 8 Juan Carlos Medina Calvo ([email protected]) Resolución de problema ANOVA A:D Variabilidad intergrupo = valor de la media del grupo – valor de la media total =2,5-5=-2, 5 Es decir, hemos descompuesto la variabilidad del sujeto n11 como: 1 (Variabilidad total)=3,5 (Variabilidad intragrupo) – 2,5 Variabilidad intergrupo Con la misma metodología se realiza para cada uno de los valores que aparecen en el enunciado del ejercicio la descomposición de la variabilidad. La tabla siguiente muestra la descomposición de la variabilidad para cada uno de los sujetos analizados: Puntuacion 6 3 0 1 6 4 10 2 7 6 12 3 Grupo Media grupo 1 1 1 1 2 2 2 2 3 3 3 3 Variabilidad total 2,5 2,5 2,5 2,5 5,5 5,5 5,5 5,5 7,0 7,0 7,0 7,0 Suma Variabilidad Variabilidad Intergrupo (entre intragrupo grupos) (dentro grupo) 1,0 -2,0 -5,0 -4,0 1,0 -1,0 5,0 -3,0 2,0 1,0 7,0 -2,0 -2,5 -2,5 -2,5 -2,5 0,5 0,5 0,5 0,5 2,0 2,0 2,0 2,0 3,5 0,5 -2,5 -1,5 0,5 -1,5 4,5 -3,5 0,0 -1,0 5,0 -4,0 0,0 0,0 0,0 Como era de esperar, la suma es cero. Con el fin de evitar esto, elevamos todas ellas al cuadrado, por lo que la tabla nos queda como: Página 5 de 8 Juan Carlos Medina Calvo ([email protected]) Resolución de problema ANOVA A:D Puntuacion Grupo 6 3 0 1 6 4 10 2 7 6 12 3 Media grupo 1 1 1 1 2 2 2 2 3 3 3 3 (Variabilidad 2,5 2,5 2,5 2,5 5,5 5,5 5,5 5,5 7,0 7,0 7,0 7,0 Suma (Variabilidad (Variabilidad 1,0 4,0 25,0 16,0 1,0 1,0 25,0 9,0 4,0 1,0 49,0 4,0 Intergrupo)2 6,3 6,3 6,3 6,3 0,3 0,3 0,3 0,3 4,0 4,0 4,0 4,0 intragrupo)2 12,3 0,3 6,3 2,3 0,3 2,3 20,3 12,3 0,0 1,0 25,0 16,0 140,0 42,0 98,0 total)2 Hagamos un inciso y recordemos que el cálculo de la varianza (poblacional) viene dada por la siguiente expresión: σ 2 ∑ ( x − µ) = 2 i N Mientras que la muestral, tiene la forma: s 2 ∑(x = i − x )2 N −1 Como decíamos al principio, la idea es comparar las varianzas intergrupos y varianzas intragrupos. En realidad, casi la totalidad de los cálculos los tenemos realizados ya que: Varianza intergrupos = (Variabilidad intergrupo)2 / numero de grupos –1 De igual forma tenemos: Varianza intragrupos = (Variabilidad intragrupo)2 / grados de libertad. En este caso, los grados de libertad vienen definidos como la suma del número de casos por grupo –1. Nos queda entonces: Grados de libertad varianza intragrupo = (4-1)+ (4-1)+ (4-1)=3 + 3 + 3 = 9 Calculemos las varianzas: Varianza intergrupos = 42 / 2 = 21 Varianza intragrupos = 98 / 9 = 10,89 Página 6 de 8 Juan Carlos Medina Calvo ([email protected]) Resolución de problema ANOVA A:D Para ver la relación entre ambas, utilizamos el estadístico F de Fisher: F = Varianza intergrupos/ Varianza intragrupos = 21/10,89=1,929 El valor es mayor que uno, lo que significa que el numerador es mayor que el denominador o, dicho de otra forma, la varianza intergrupal es mayor que la intragrupal. El valor del estadístico de contraste es F0,05 , 2 , 9 = 4,25 (valor extraído de las tablas de la distribución F de Ficher-Snedecor) donde los parámetros de la F son: Nivel de significación = 0,05 n1 = grados de libertad intergrupal = nº grupos –1 (en nuestro caso 2) n2 = grados de libertad intragrupal = 9 Veamos el aspecto gráficamente: Región de aceptación Región de rechazo 1,9 F0,05 , 2 , 9 = 4,25 La salida que nos proporciona SPSS es: ANOVA Puntuaciones Inter-grupos Suma de cuadrados 42,000 Intra-grupos Total 98,000 140,000 gl 2 9 11 Media cuadrática 21,000 F 1,929 Sig. ,201 10,889 3. Conclusión Como nuestro valor del estadístico cae dentro de la zona de aceptación, no podemos rechazar la hipótesis nula y concluimos que las medias son iguales en los distintos grupos, es decir, el ruido no influye de forma significativa a las puntuaciones obtenidas. Página 7 de 8 Juan Carlos Medina Calvo ([email protected]) Resolución de problema ANOVA A:D 4. Resumen: puntos a seguir en la realización de ANOVA de un factor A pesar de que pueda parecer largo el desarrollo, realmente se trata de realizar cuatro o cinco puntos. Veamos: • Calcular la varianza intergrupo: i. • Σ (media del grupo – media total) 2 / (nº de grupos –1) Calcular la varianza intragrupo: i. Σ (valor de cada observación – media del grupo)2 / Σ (nº de casos del grupo –1) • Calcular F: i. • Varianza intergrupo / varianza intragrupo Definir las regiones de aceptación y rechazo mediante las tablas: i. F a , n1 , n2 5. Ejercicio planteado Siguiendo la misma metodología, realizar el siguiente ejercicio 9.1 del libro “Curso y ejercicios de estadística” (Quesada), página 415. Página 8 de 8 Juan Carlos Medina Calvo ([email protected])