Soluciones Práctica 6.1

Anuncio
Soluciones Práctica 6.1 (ANOVA simple)
EJERCICIO 1.
Planteamiento
Variable cuantitativa: Fondos
Variable cualitativa/Factor: Región
HO: µ centro=µ norte=µ sur
H1: alguna µ sea ≠
Statgraphics
Comparación/Análisis de la Varianza/ANOVA simple
→ Fondos
→ Región
→Centros<>”MADRID”
Solución
p-valor = 0.0074 Como es menor que α (0.04), rechazamos H0; por tanto podemos
afirmar que sí hay diferencias significativas entre el tamaño de las colecciones en
función de la región en que se encuentre la biblioteca.
EJERCICIO 2.
Los requisitos del modelo ANOVA son:
1.- Normalidad en cada nivel del factor.
2.- Homocedasticidad (igualdad de varianzas en todos los niveles del factor).
3.- Independencia de las observaciones.
Estos requisitos se traducen en que los residuos son una variable aleatoria, de
distribución normal y media cero.
En la práctica, vamos a comprobar: (1) normalidad de los residuos; (2)
homocedasticidad; (3) aleatoriedad de los residuos (salvo que los datos hayan sido
reordenados, y en consecuencia se haya perdido el orden en que fueron recogidos).
(1) Normalidad de los residuos.
Desde la ventana de ANOVA, Botón Guardar Resultados + Residuos. Con esto, los
residuos se incorporan a la hoja de datos. Para contrastar su normalidad, Descripción +
Distribuciones + Ajuste de distribuciones; Datos= fondos. El contraste que estamos
realizando es
HO: variable RESIDUOS es normal
H1: variable RESIDUOS no es normal
1
El test chi-cuadrado arroja un p-valor de 0’6597; el de Kolmogorov-Smirnov, de
0’9954; y todos los tests de normalidad proporcionan p-valores muy altos (0’857,
0’896, 0’859, 0’669); por lo tanto, aceptamos la normalidad de los residuos.
Gráficamente, desde la ventana de ANOVA simple botón de Opciones gráficas +
Residuo frente a número de fila. El gráfico es menos claro, pero en cualquier caso no
vemos nada rara que pudiera contradecir la normalidad.
(2) Homocedasticidad.
Desde la ventana de ANOVA simple, botón amarillo + Contraste de varianza. El
contraste que realizamos es:
H0: σ centro = σ norte= σ sur
H1: alguna σ es distinta
Todos los p-valores son mayores de 0’04 (0’36, 0’39, 0’56). En consecuencia,
aceptamos la homocedasticidad.
Gráficamente, Botón de Opciones Gráficas + Residuo frente a nivel de factor. Se
observa que la dispersión es similar en todos los niveles (es decir, en las tres regiones);
es interesante observar que si se incluye MADRID en el estudio, la homocedasticidad se
rompe (se ve muy bien en el gráfico).
(3) Independencia de las observaciones
Los datos están ordenados alfabéticamente por provincias, con lo cuál previsiblemente
el orden en que han sido recogidos se ha perdido. No tiene por tanto sentido que nos
planteemos esta hipótesis.
Se recuerda no obstante que en general esta hipótesis debe venir garantizada por un
correcto proceso de muestreo y una correcta elección del modelo. En cualquier caso, y
siempre que los datos guarden el orden en que hayan sido observados, se puede
contrastar realizando un análisis de aleatoriedad sobre los residuos.
Por lo tanto, en principio concluimos que las hipótesis se cumplen, y por lo tanto las
conclusiones del ANOVA resultan fiables.
EJERCICIO 3.
Desde el análisis de ANOVA simple → Icono amarillo → Contraste Múltiple de Rango
a) ¿Entre qué niveles del factor se observan diferencias significativas? Entre Sur, por un
lado, y Centro y Norte, por otro.
b) ¿Qué grupos homogéneos podríamos establecer?
Podríamos establecer dos grupos homogéneos:
1. Sur
2
2. Centro y Norte.
c) Da una estimación puntual y un intervalo LSD para la media de cada grupo.
Desde el análisis de ANOVA simple → Icono amarillo → Tabla de medias
Estimación por
intervalos
MEDIAS
Estimación puntual
Sur
73680,4
[64081,5
83279,3]
Norte
108146
[95910,1
120383,0]
Centro
98481,1
[86944,6
110018,0]
EJERCICIO 4
Dentro del análisis del ANOVA , botón amarillo + tabla de medias. Se recuerda que el
efecto de un nivel se calcula restando la media total a la media de cada nivel. Así, se
tiene:
Centro= 8169,6
Norte= 17834,5
Sur= - 16631,1
La media global es 90311,5
El error experimental es la raíz cuadrada del cuadrado medio residual o intra-grupos
(SCR); podemos encontrar el valor de SCR en la tabla de ANOVA; en este caso, su
valor es 5,69029E8. La raíz cuadrada de este valor arroja un valor para el error
experimental de 23854,328.
EJERCICIO 5.
Desde el análisis de ANOVA simple
SCT = SCR + SCE
2,21049E10 = 1,53638E10 + 6’74107 E9
(6’74107 E9÷ 2,21049E10) x 100 = 30,49 %
Calcular el porcentaje que
supone SCE respecto a SCT
El porcentaje resultante es elevado; no resulta extraño que el contraste de ANOVA haya
rechazado la igualdad de medias en las tres regiones.
EJERCICIO 6
La biblioteca de Cuenca produce un residuo de - 4477,11
3
Mayor residuo: buscamos el mayor residuo en valor absoluto. Para ello, por ejemplo
vamos a Descripción + Datos Numéricos + Identificación de valores atípicos. Ahí
vemos que el mayor residuo, en valor absoluto, es de 46852’6; vemos que corresponde
al dato número 13, es decir, Gerona.
EJERCICIO 7.
Planteamiento
Se trata del método de Kruskal-Wallis (contraste sobre la igualdad de medianas)
H0= M centro=M norte=M sur
H1 = alguna M sea ≠
Desde el análisis de ANOVA simple → Icono amarillo → Contraste de KruskalWallis. Obtenemos un p-valor =0,0124217 menor que α (0.04), y en consecuencia
rechazamos H0. Por lo tanto, el contraste está avalando la existencia de diferencias
significativas entre los tamaños medios de las colecciones de las bibliotecas de las
distintas regiones.
EJERCICIO 8
VARIABLE RESPUESTA: GASTOS
FACTOR: REGIÓN
Planteamiento
H0: µ centro= µ norte= µ sur
H1: alguna µ es distinta
El contraste de ANOVA proporciona un p-valor de 0,1883 > 0,04; por lo tanto,
aceptamos la hipótesis nula y decimos que no hay diferencias significativas entre las
distintas regiones según el gasto medio.
COMPROBACION DE LAS HIPOTESIS DEL MODELO:
Normalidad:
Contrastamos la normalidad de los residuos. Hay únicamente un p-valor (el
correspondiente al contraste de curtosis, dentro de los tests de normalidad, que presenta
un valor de 0’027) inferior a 0’04. Podríamos aceptar la normalidad (siendo muy
estrictos cabría dudar de la normalidad, pero con seis p-valores aceptando es razonable
aceptar).
Homocedasticidad:
4
Realizando el contraste de varianza observamos que todos los p_valores son > 0,04 (el
menor es de 0’44); por lo tanto podemos decir que se cumple el requisito de varianzas
iguales.
Residuos aleatorios
Como en el primer ejercicio, no tiene especial sentido hacerlo.
Dado que se cumplen los requisitos, el resultado del ANOVA es fiable.
EJERCICIO 9.
Desde el análisis de ANOVA simple → Icono amarillo → Contraste Múltiple de
Rango
Existe un único grupo homogéneo formado por los tres niveles del factor, que aparecer
alineados: Sur, Norte y Centro. Ello es lógico ya que no aparecían diferencias
significativas entre los distintos niveles del factor (las distintas regiones).
Desde el análisis de ANOVA simple → Icono amarillo → Tabla de Medias
MEDIAS
Estimación puntual
Estimación por
intervalos
Sur
6642,69
[5406.3 – 7879.08]
Norte
8459,13
[6883.03 – 10035.2]
Centro
8930,6
[7520.9 – 10340.3]
Error experimental √ Cuadrado medio intragrupos
√ 9,47218E6= 3.077,69069271
EJERCICIO 10
VARIABLE RESPUESTA: FONDOS2
FACTOR: REGIÓN
H0: µ centro= µ norte= µ sur
H1: alguna µ es distinta
Obtenemos un p_valor = 0,9274 > 0,04; por tanto, aceptamos la hipótesis nula y
decimos que no hay diferencias significativas entre las distintas regiones según el fondo
audiovisual.
Si comprobamos los requisitos se observa que los residuos no son normales, y tampoco
se cumple la homocedasticidad (de hecho, esto se ve bien en el gráfico de residuos).
Puesto que dos hipótesis del ANOVA no se están cumpliendo, recurrimos al contraste
de Kruskal Wallis. En este contraste obtenemos un p_valor=0,55371, mayor por tanto
5
de 0,04, con lo cuál concluimos que no hay diferencias significativas entre las distintas
regiones en cuanto al fondo audiovisual.
VARIABLE RESPUESTA: PRESTAMOS
FACTOR: REGIÓN
H0: µ centro= µ norte= µ sur
H1: alguna µ es distinta
El contraste de ANOVA simple presenta un p_valor = 0,0571 > 0,04; por tanto
aceptamos la hipótesis nula y decimos que no hay diferencias significativas entre las
distintas regiones en cuanto al préstamo.
Si comprobamos los requisitos se observa que falla la hipótesis de homocedasticidad.
Para la hipótesis de normalidad, hay un p-valor que falla, y otro que está próximo al
nivel de significación. En consecuencia, recurrimos a Kruskal-Wallis y obtenemos un
P-valor = 0,159643, mayor de 0,04. En consecuencia, deducimos que no hay
diferencias significativas entre las distintas regiones en cuanto al préstamo.
6
Descargar