to get the file - OCW - Universidad de Murcia

Anuncio
M. Iniesta
Grado en Ciencia y Tecnología de los Alimentos
Universidad de Murcia
Práctica 9:
ANOVA con R-Commander
Objetivo
Mediante el ANOVA generalizamos las pruebas de análisis de dos medias mediante
dos muestras independientes al caso de tres o más medias. El objetivo en esta práctica
es estudiar la posible relación entre una variable cuantitativa y un factor con 3 o más
modalidades, de forma que al clasicar los datos de la primera en función de dichas
modalidades se generan muestras independientes. Se estudian las posibles diferencias
signicativas entre parejas de medias muestrales y de existir dichas diferencias en al
menos una pareja de medias se aceptará la hipótesis de relación entre dichas variables.
1. Grácos de cajas y de medias por grupos
En la práctica de Estadística Descriptiva vimos cómo hacer diagramas de caja y bigotes por grupos. La diferencia en comportamiento de tales grupos (submuestras) nos
lleva a sospechar que existe relación entre la variable de interés y la que ha provocado
la clasicación en grupos de observaciones. Sin embargo, esa herramienta está destinada
únicamente a hacer descripción de datos respecto a característica de promedio, de localización, de dispersión y de forma y a través de ella no es posible establecer diferencias
signicativas ni, por consiguiente, relaciones entre variables.
En la tercera parte de la asignatura estamos estudiando procedimientos (intervalos
de conanza y contrastes de hipótesis) para establecer conclusiones acerca de relaciones
entre variables. En la práctica de análisis de dos medias también hicimos grácas de
intervalos de medias por grupos, de forma que, cuando dichos intervalos no poseen ningún
punto en común podríamos establecer una hipótesis de relación que aceptábamos a partir
de un contraste de hipótesis o un intervalo de conanza para la diferencia entre las dos
medias.
En esta práctica usaremos el chero Houses.TXT y en particular vamos a analizar la
posible relación entre la variable Area y el tipo de vivienda (Type)
Plot of Means
350
●
200
mean of Casas$Area
250
200
100
150
Area
●
50
100
●
A
B
Type
Práctica 9
●
150
300
250
●
C
A
B
C
Casas$Type
Página: 1
M. Iniesta
Grado en Ciencia y Tecnología de los Alimentos
Universidad de Murcia
Los grácos anteriores muestran los diagramas de caja de la variable Area según el
tipo de vivienda (izquierda) y el gráco de medias (derecha).
Aprende a interpretar estas grácas. En la primera se describen los tres grupos de
viviendas, apreciando que los valores promedios de las viviendas tipo B son mayores
que los del tipo A y los del tipo C mayores que los del tipo B. Sin embargo, también
apreciamos que la dispersión de la muestra de viviendas del tipo B es mayor que la
de los tipos A y C y esto puede ocultar dichas diferencias haciendo que éstas sean no
signicativas. A la vista del gráco de medias, ello no ocurre entre los tipos A y B puesto
que dichos intervalos no presentan valores comunes, mientras que, efectivamente, dichas
diferencias aparecen como no signicativas entre los tipos B y C. Además, y esto en
principio parece curioso, el intervalo de conanza de la media del tipo C se construye
con un error de estimación mucho mayor que el del tipo B, cuando este tipo presentaba
mayor dispersión que el C. El motivo es que en el error de estimación no sólo interviene
la dispersión de la muestra, sino también el tamaño muestral. Forzosamente, el tamaño
muestral del grupo B es bastante mayor que el del grupo C que hace que se amortigüe
su acusada dispersión.
2. Análisis de la varianza y estadísticos por grupos
Los estadísticos por grupos y el análisis de la varianza se muestran con R-Commander
haciendo:
Estadísticos->Medias->ANOVA de un factor
Tipo A
Media
114.88
Desviación Típica 26.01
Tamaño muestral 25
Tipo B
193.89
53.95
119
Tipo C
238.66
30.82
6
También se obtiene el desglose de la varianza total en las distintas componentes y el
P-valor asociado a la prueba del estadístico F de Snedecor.
SC
g.l. CM
F
P-valor
Type (Explicada) 148703 2
74351 29.986 1.198e-11
Residual
364491 147 2480
Dicho P-valor nos lleva a rechazar la hipótesis nula y a aceptar la alternativa en el
siguiente test:
H0 : µA = µB = µC (Area no guarda relación con Type)
H1 : Alguna pareja de medias es distinta (Area sí guarda relación con Type)
Para conocer de dónde procede dicha relación veamos cual o cuales parejas de medias
son signicativamente distintas.
R-Commander nos da los intervalos de las diferencias posibles de medias indicando
la opción Comparaciones dos a dos de las medias. El resultado será numérico:
Pareja
B-A
C-A
C-B
Práctica 9
Diferencia media
79.01
123.78
44.76
95 % Intervalo de conanza
(53.45, 104.58)
(70.96, 176.60)
(-3.84, 93.38)
Página: 2
M. Iniesta
Grado en Ciencia y Tecnología de los Alimentos
Universidad de Murcia
y gráco:
Es decir, la relación se justica porque el área media de las viviendas tipo A es
signicativamente menor que las del tipo B y de las del tipo C. Aunque también se
aprecia que las diferencias entre las áreas medias de las viviendas de los tipos B y C no
son signicativas.
3. Prácticas
1. Crea una nueva variable que indique el precio de la vivienda en miles de euros,
haciendo Precio<- Price/1000.
a ) Realiza los grácos de caja y de medias para la variable Precio, agrupando
los datos en función de las modalidades de la variable Type. Interpreta las
características más elecuentes de dichos grácos.
b ) Analiza la posible relación de la variable Precio (precio de la vivienda en
miles de euros) en función de la variable Type mediante el P-valor asociado a
la prueba del estadístico F.
c ) En el caso de que exista relación signicativa, ¾qué parejas de medias son las
causantes de dicha relación?.
2. Crea una nueva variable para que el nº de baños (variable Baths) sean modalidades
de un factor. Llama a esta nueva variable Baños. Realiza los mismos apartados que
en la práctica anterior estudiando la posible relación de la variable Area en función
de la variable Baños.
Práctica 9
Página: 3
Descargar