M. Iniesta Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia Práctica 9: ANOVA con R-Commander Objetivo Mediante el ANOVA generalizamos las pruebas de análisis de dos medias mediante dos muestras independientes al caso de tres o más medias. El objetivo en esta práctica es estudiar la posible relación entre una variable cuantitativa y un factor con 3 o más modalidades, de forma que al clasicar los datos de la primera en función de dichas modalidades se generan muestras independientes. Se estudian las posibles diferencias signicativas entre parejas de medias muestrales y de existir dichas diferencias en al menos una pareja de medias se aceptará la hipótesis de relación entre dichas variables. 1. Grácos de cajas y de medias por grupos En la práctica de Estadística Descriptiva vimos cómo hacer diagramas de caja y bigotes por grupos. La diferencia en comportamiento de tales grupos (submuestras) nos lleva a sospechar que existe relación entre la variable de interés y la que ha provocado la clasicación en grupos de observaciones. Sin embargo, esa herramienta está destinada únicamente a hacer descripción de datos respecto a característica de promedio, de localización, de dispersión y de forma y a través de ella no es posible establecer diferencias signicativas ni, por consiguiente, relaciones entre variables. En la tercera parte de la asignatura estamos estudiando procedimientos (intervalos de conanza y contrastes de hipótesis) para establecer conclusiones acerca de relaciones entre variables. En la práctica de análisis de dos medias también hicimos grácas de intervalos de medias por grupos, de forma que, cuando dichos intervalos no poseen ningún punto en común podríamos establecer una hipótesis de relación que aceptábamos a partir de un contraste de hipótesis o un intervalo de conanza para la diferencia entre las dos medias. En esta práctica usaremos el chero Houses.TXT y en particular vamos a analizar la posible relación entre la variable Area y el tipo de vivienda (Type) Plot of Means 350 ● 200 mean of Casas$Area 250 200 100 150 Area ● 50 100 ● A B Type Práctica 9 ● 150 300 250 ● C A B C Casas$Type Página: 1 M. Iniesta Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia Los grácos anteriores muestran los diagramas de caja de la variable Area según el tipo de vivienda (izquierda) y el gráco de medias (derecha). Aprende a interpretar estas grácas. En la primera se describen los tres grupos de viviendas, apreciando que los valores promedios de las viviendas tipo B son mayores que los del tipo A y los del tipo C mayores que los del tipo B. Sin embargo, también apreciamos que la dispersión de la muestra de viviendas del tipo B es mayor que la de los tipos A y C y esto puede ocultar dichas diferencias haciendo que éstas sean no signicativas. A la vista del gráco de medias, ello no ocurre entre los tipos A y B puesto que dichos intervalos no presentan valores comunes, mientras que, efectivamente, dichas diferencias aparecen como no signicativas entre los tipos B y C. Además, y esto en principio parece curioso, el intervalo de conanza de la media del tipo C se construye con un error de estimación mucho mayor que el del tipo B, cuando este tipo presentaba mayor dispersión que el C. El motivo es que en el error de estimación no sólo interviene la dispersión de la muestra, sino también el tamaño muestral. Forzosamente, el tamaño muestral del grupo B es bastante mayor que el del grupo C que hace que se amortigüe su acusada dispersión. 2. Análisis de la varianza y estadísticos por grupos Los estadísticos por grupos y el análisis de la varianza se muestran con R-Commander haciendo: Estadísticos->Medias->ANOVA de un factor Tipo A Media 114.88 Desviación Típica 26.01 Tamaño muestral 25 Tipo B 193.89 53.95 119 Tipo C 238.66 30.82 6 También se obtiene el desglose de la varianza total en las distintas componentes y el P-valor asociado a la prueba del estadístico F de Snedecor. SC g.l. CM F P-valor Type (Explicada) 148703 2 74351 29.986 1.198e-11 Residual 364491 147 2480 Dicho P-valor nos lleva a rechazar la hipótesis nula y a aceptar la alternativa en el siguiente test: H0 : µA = µB = µC (Area no guarda relación con Type) H1 : Alguna pareja de medias es distinta (Area sí guarda relación con Type) Para conocer de dónde procede dicha relación veamos cual o cuales parejas de medias son signicativamente distintas. R-Commander nos da los intervalos de las diferencias posibles de medias indicando la opción Comparaciones dos a dos de las medias. El resultado será numérico: Pareja B-A C-A C-B Práctica 9 Diferencia media 79.01 123.78 44.76 95 % Intervalo de conanza (53.45, 104.58) (70.96, 176.60) (-3.84, 93.38) Página: 2 M. Iniesta Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia y gráco: Es decir, la relación se justica porque el área media de las viviendas tipo A es signicativamente menor que las del tipo B y de las del tipo C. Aunque también se aprecia que las diferencias entre las áreas medias de las viviendas de los tipos B y C no son signicativas. 3. Prácticas 1. Crea una nueva variable que indique el precio de la vivienda en miles de euros, haciendo Precio<- Price/1000. a ) Realiza los grácos de caja y de medias para la variable Precio, agrupando los datos en función de las modalidades de la variable Type. Interpreta las características más elecuentes de dichos grácos. b ) Analiza la posible relación de la variable Precio (precio de la vivienda en miles de euros) en función de la variable Type mediante el P-valor asociado a la prueba del estadístico F. c ) En el caso de que exista relación signicativa, ¾qué parejas de medias son las causantes de dicha relación?. 2. Crea una nueva variable para que el nº de baños (variable Baths) sean modalidades de un factor. Llama a esta nueva variable Baños. Realiza los mismos apartados que en la práctica anterior estudiando la posible relación de la variable Area en función de la variable Baños. Práctica 9 Página: 3