Soluciones Práctica 6.1 (ANOVA simple) EJERCICIO 1. Planteamiento Variable cuantitativa: Fondos Variable cualitativa/Factor: Región HO: µ centro=µ norte=µ sur H1: alguna µ sea ≠ Statgraphics Comparación/Análisis de la Varianza/ANOVA simple → Fondos → Región →Centros<>”MADRID” Solución p-valor = 0.0074 Como es menor que α (0.04), rechazamos H0; por tanto podemos afirmar que sí hay diferencias significativas entre el tamaño de las colecciones en función de la región en que se encuentre la biblioteca. EJERCICIO 2. Los requisitos del modelo ANOVA son: 1.- Normalidad en cada nivel del factor. 2.- Homocedasticidad (igualdad de varianzas en todos los niveles del factor). 3.- Independencia de las observaciones. Estos requisitos se traducen en que los residuos son una variable aleatoria, de distribución normal y media cero. En la práctica, vamos a comprobar: (1) normalidad de los residuos; (2) homocedasticidad; (3) aleatoriedad de los residuos (salvo que los datos hayan sido reordenados, y en consecuencia se haya perdido el orden en que fueron recogidos). (1) Normalidad de los residuos. Desde la ventana de ANOVA, Botón Guardar Resultados + Residuos. Con esto, los residuos se incorporan a la hoja de datos. Para contrastar su normalidad, Descripción + Distribuciones + Ajuste de distribuciones; Datos= fondos. El contraste que estamos realizando es HO: variable RESIDUOS es normal H1: variable RESIDUOS no es normal 1 El test chi-cuadrado arroja un p-valor de 0’6597; el de Kolmogorov-Smirnov, de 0’9954; y todos los tests de normalidad proporcionan p-valores muy altos (0’857, 0’896, 0’859, 0’669); por lo tanto, aceptamos la normalidad de los residuos. Gráficamente, desde la ventana de ANOVA simple botón de Opciones gráficas + Residuo frente a número de fila. El gráfico es menos claro, pero en cualquier caso no vemos nada rara que pudiera contradecir la normalidad. (2) Homocedasticidad. Desde la ventana de ANOVA simple, botón amarillo + Contraste de varianza. El contraste que realizamos es: H0: σ centro = σ norte= σ sur H1: alguna σ es distinta Todos los p-valores son mayores de 0’04 (0’36, 0’39, 0’56). En consecuencia, aceptamos la homocedasticidad. Gráficamente, Botón de Opciones Gráficas + Residuo frente a nivel de factor. Se observa que la dispersión es similar en todos los niveles (es decir, en las tres regiones); es interesante observar que si se incluye MADRID en el estudio, la homocedasticidad se rompe (se ve muy bien en el gráfico). (3) Independencia de las observaciones Los datos están ordenados alfabéticamente por provincias, con lo cuál previsiblemente el orden en que han sido recogidos se ha perdido. No tiene por tanto sentido que nos planteemos esta hipótesis. Se recuerda no obstante que en general esta hipótesis debe venir garantizada por un correcto proceso de muestreo y una correcta elección del modelo. En cualquier caso, y siempre que los datos guarden el orden en que hayan sido observados, se puede contrastar realizando un análisis de aleatoriedad sobre los residuos. Por lo tanto, en principio concluimos que las hipótesis se cumplen, y por lo tanto las conclusiones del ANOVA resultan fiables. EJERCICIO 3. Desde el análisis de ANOVA simple → Icono amarillo → Contraste Múltiple de Rango a) ¿Entre qué niveles del factor se observan diferencias significativas? Entre Sur, por un lado, y Centro y Norte, por otro. b) ¿Qué grupos homogéneos podríamos establecer? Podríamos establecer dos grupos homogéneos: 1. Sur 2 2. Centro y Norte. c) Da una estimación puntual y un intervalo LSD para la media de cada grupo. Desde el análisis de ANOVA simple → Icono amarillo → Tabla de medias Estimación por intervalos MEDIAS Estimación puntual Sur 73680,4 [64081,5 83279,3] Norte 108146 [95910,1 120383,0] Centro 98481,1 [86944,6 110018,0] EJERCICIO 4 Dentro del análisis del ANOVA , botón amarillo + tabla de medias. Se recuerda que el efecto de un nivel se calcula restando la media total a la media de cada nivel. Así, se tiene: Centro= 8169,6 Norte= 17834,5 Sur= - 16631,1 La media global es 90311,5 El error experimental es la raíz cuadrada del cuadrado medio residual o intra-grupos (SCR); podemos encontrar el valor de SCR en la tabla de ANOVA; en este caso, su valor es 5,69029E8. La raíz cuadrada de este valor arroja un valor para el error experimental de 23854,328. EJERCICIO 5. Desde el análisis de ANOVA simple SCT = SCR + SCE 2,21049E10 = 1,53638E10 + 6’74107 E9 (6’74107 E9÷ 2,21049E10) x 100 = 30,49 % Calcular el porcentaje que supone SCE respecto a SCT El porcentaje resultante es elevado; no resulta extraño que el contraste de ANOVA haya rechazado la igualdad de medias en las tres regiones. EJERCICIO 6 La biblioteca de Cuenca produce un residuo de - 4477,11 3 Mayor residuo: buscamos el mayor residuo en valor absoluto. Para ello, por ejemplo vamos a Descripción + Datos Numéricos + Identificación de valores atípicos. Ahí vemos que el mayor residuo, en valor absoluto, es de 46852’6; vemos que corresponde al dato número 13, es decir, Gerona. EJERCICIO 7. Planteamiento Se trata del método de Kruskal-Wallis (contraste sobre la igualdad de medianas) H0= M centro=M norte=M sur H1 = alguna M sea ≠ Desde el análisis de ANOVA simple → Icono amarillo → Contraste de KruskalWallis. Obtenemos un p-valor =0,0124217 menor que α (0.04), y en consecuencia rechazamos H0. Por lo tanto, el contraste está avalando la existencia de diferencias significativas entre los tamaños medios de las colecciones de las bibliotecas de las distintas regiones. EJERCICIO 8 VARIABLE RESPUESTA: GASTOS FACTOR: REGIÓN Planteamiento H0: µ centro= µ norte= µ sur H1: alguna µ es distinta El contraste de ANOVA proporciona un p-valor de 0,1883 > 0,04; por lo tanto, aceptamos la hipótesis nula y decimos que no hay diferencias significativas entre las distintas regiones según el gasto medio. COMPROBACION DE LAS HIPOTESIS DEL MODELO: Normalidad: Contrastamos la normalidad de los residuos. Hay únicamente un p-valor (el correspondiente al contraste de curtosis, dentro de los tests de normalidad, que presenta un valor de 0’027) inferior a 0’04. Podríamos aceptar la normalidad (siendo muy estrictos cabría dudar de la normalidad, pero con seis p-valores aceptando es razonable aceptar). Homocedasticidad: 4 Realizando el contraste de varianza observamos que todos los p_valores son > 0,04 (el menor es de 0’44); por lo tanto podemos decir que se cumple el requisito de varianzas iguales. Residuos aleatorios Como en el primer ejercicio, no tiene especial sentido hacerlo. Dado que se cumplen los requisitos, el resultado del ANOVA es fiable. EJERCICIO 9. Desde el análisis de ANOVA simple → Icono amarillo → Contraste Múltiple de Rango Existe un único grupo homogéneo formado por los tres niveles del factor, que aparecer alineados: Sur, Norte y Centro. Ello es lógico ya que no aparecían diferencias significativas entre los distintos niveles del factor (las distintas regiones). Desde el análisis de ANOVA simple → Icono amarillo → Tabla de Medias MEDIAS Estimación puntual Estimación por intervalos Sur 6642,69 [5406.3 – 7879.08] Norte 8459,13 [6883.03 – 10035.2] Centro 8930,6 [7520.9 – 10340.3] Error experimental √ Cuadrado medio intragrupos √ 9,47218E6= 3.077,69069271 EJERCICIO 10 VARIABLE RESPUESTA: FONDOS2 FACTOR: REGIÓN H0: µ centro= µ norte= µ sur H1: alguna µ es distinta Obtenemos un p_valor = 0,9274 > 0,04; por tanto, aceptamos la hipótesis nula y decimos que no hay diferencias significativas entre las distintas regiones según el fondo audiovisual. Si comprobamos los requisitos se observa que los residuos no son normales, y tampoco se cumple la homocedasticidad (de hecho, esto se ve bien en el gráfico de residuos). Puesto que dos hipótesis del ANOVA no se están cumpliendo, recurrimos al contraste de Kruskal Wallis. En este contraste obtenemos un p_valor=0,55371, mayor por tanto 5 de 0,04, con lo cuál concluimos que no hay diferencias significativas entre las distintas regiones en cuanto al fondo audiovisual. VARIABLE RESPUESTA: PRESTAMOS FACTOR: REGIÓN H0: µ centro= µ norte= µ sur H1: alguna µ es distinta El contraste de ANOVA simple presenta un p_valor = 0,0571 > 0,04; por tanto aceptamos la hipótesis nula y decimos que no hay diferencias significativas entre las distintas regiones en cuanto al préstamo. Si comprobamos los requisitos se observa que falla la hipótesis de homocedasticidad. Para la hipótesis de normalidad, hay un p-valor que falla, y otro que está próximo al nivel de significación. En consecuencia, recurrimos a Kruskal-Wallis y obtenemos un P-valor = 0,159643, mayor de 0,04. En consecuencia, deducimos que no hay diferencias significativas entre las distintas regiones en cuanto al préstamo. 6