MATEMÁTICA Y ESTADÍSTICA 2014 Trabajo Práctico No. 11: Análisis de la Varianza (ANOVA) Contenido: Introducción al análisis de la varianza (ANOVA). Supuestos teóricos. Cálculo e interpretación de ANOVA. Diseño experimental. ANOVA de una vía. Comparaciones múltiples. Lecturas recomendadas: Spiegel, 1991. Cap.16: 375-410; Cap.17: 411-439. Sokal & Rohlf, 1979.Cap.8:195-226; Cap.9:227-280; Cap.13:405-443. Merodio, 1986. Cap.3: 39-48. Koch y Link, 1980. Cap.5: 132-148, 192-198 (ANOVA). Cap.8: 325-333 (DISEÑO EXPERIMENTAL). Alperin 2013, Cap. 7:110-124. Idea principal El Análisis de la Varianza (ANOVA) es un método muy importante que permite comparar más de dos grupos de muestras a partir de sus medias muestrales. El ANOVA se utiliza en diversas aplicaciones algunas de las cuales se vinculan con el diseño de experimentos. Cuando se realiza un experimento, o se mide una variable en el campo, siempre se incluye una variabilidad natural y un error experimental. Este último surge de la falta de control previo de la experiencia. El ANOVA permite diferenciar la fuente de variabilidad de las observaciones en estas dos componentes, cada uno interpretable en términos geológicos. En el caso de una única variable el test de significación que permite discriminar si existen o no diferencias entre grupos es un test de “F”. Esencialmente se calcula un cociente entre dos varianzas, la varianza entre los grupos de datos y una varianza ponderada promedio dentro de los grupos. Si la varianza entre grupos es significativamente mayor, debe existir una diferencia significativa entre las medias. Algunos conceptos asociados a este análisis son: Unidad experimental es la mínima porción del material experimental sobre el cual se puede realizar un tratamiento. Tratamientos o factores son el conjunto de acciones que se aplican a las unidades experimentales con la finalidad de observar como responden a éstas (variable independiente). Variable aleatoria, observada o respuesta es la medida u observación que se obtiene de cada una de las unidades experimentales. Réplicas o repeticiones son cada una de las realizaciones de un tratamiento. Para el desarrollo del TP se requieren las tabla de probabilidades “F”, Rangos Studentizados “q” y Fmax. 11.1) a) Indique cual de los siguientes diseños experimentales pueden ser analizados con un ANOVA modelo I. Un geocientífico está interesado en testear la hipótesis general que el tamaño medio de los sedimentos varía entre los lagos alpinos. Selecciona de un total de 21 lagos tres al azar (Lago Verónica, Lago Micheal y Lago Mónica) y toma 10 muestras de sedimentos de cada uno. Un geocientífico está interesado en testear la hipótesis general que el tamaño medio de los sedimentos varía entre tres lagos alpinos (Lago Verónica, Lago Micheal y Lago Mónica) y toma 10 muestras de sedimentos de cada uno. Un geólogo petrolero se pregunta si existen diferencias significativas en el rendimiento medio diario de petróleo de los únicos 6 pozos pertenecientes y operados por la Oil Company en el Golfo de México. b) Para los casos del inciso a que considere pertinentes indique cual es la variable dependiente y la independiente y presente una tabla resumen de ANOVA en donde consten las fuentes de variación y los grados de libertad. c) Recientemente durante la exposición de su trabajo en un congreso un geólogo muestra los resultados de un ANOVA de un factor, F=0,99. Luego afirma: “El cociente F no es significativo, no hace falta buscar en la tabla de probabilidades el valor”. Uno de los colegas del publico muy enojado le replica: “¿Está usted seguro? ¡Sería mejor que revise la tabla de probabilidades! ¿Quién tiene razón? ¿Por qué? 48 MATEMÁTICA Y ESTADÍSTICA 2014 11.2) Se obtuvieron 8 mediciones del volumen de producción (m3/día) de 3 pozos de YPF en la cuenca Neuquina. Es necesario identificar cual pozo produce significativamente más petróleo. La tabla muestra los resultados del muestreo: RYN1 157 184 143 135 163 103 152 129 RYN2 183 174 182 199 183 168 193 162 RYN3 149 193 129 146 126 132 143 154 a) Realizar una gráfica box-plot comparativa de los datos. (Incluir la media, el desvío estándar y los valores máximo y mínimo). b) Plantear Ho y H1, c) ¿Qué supuestos se requieren para realizar el análisis? Realizar una prueba de hipótesis para chequear la homogeneidad de varianzas. d) Si corresponde, realizar la prueba de Tukey. e) Realizar el ANOVA (α = 0,05). Interpretar geológicamente los resultados. -1 11.3) Se desea investigar la Capacidad de Intercambio Catiónico (CIC = cmol c . kg ) del horizonte superior de suelos que se desarrollan en 6 diferentes microambientes de la Pampa Húmeda: Interfluvio, Pendiente cóncava, Loma convexa, Vía de escurrimiento, Cubeta, Llanura aluvial. Se seleccionaron aleatoriamente 5 sitios de cada microambiente y se tomaron 5 muestras de cada uno que se analizaron en laboratorio, pero en 2 de ellas el material estaba contaminado y el dato se descartó. A continuación se presentan los 28 valores de CIC: Microambiente 2 2 n Media Suma (Suma) Suma de xj S 5 40,3 201,6 40642,6 8179,2 3,6 4 15,8 63,0 3969,0 1014,8 2,7 Cubeta Pendiente cóncava Loma convexa 38,4 40,8 40,8 36 14,4 15 13,8 19,8 18 8,4 14,4 22,2 9,6 5 14,5 72,6 5270,8 1186,9 5,8 Interfluvio 25,8 25,8 24,6 34,2 27,6 5 27,6 138,0 19044,0 3867,8 3,8 Llanura aluvial Vía de escurrimiento 36 39,6 43,2 40,2 4 39,8 159,0 25281,0 6346,4 3,0 16,8 18,6 22,2 24 5 19,7 98,4 9682,6 1979,3 3,3 45,6 16,8 a) Efectuar un análisis de la varianza. Utilice los estadísticos calculados que se presentan la tabla. Los datos se presentan a modo ilustrativo. b) Presente los resultados en una tabla resumen de ANOVA (plantear Ho y Ha, indicar fuentes de variación, grados de libertad, cuadrados medios, valor de F y su significación) y gráficamente con un diagrama box-plot. c) Evalúe e interprete geológicamente las diferencias entre grupos de medias con un test a posteriori (Tuckey). Considere los siguientes grupos de medias: G1 (Loma convexa, Pendiente cóncava, Vía de escurrimiento) y G2 (Llanura aluvial, Cubeta, Interfluvio). 11.4) Los aportes de los metales pesados al ciclo hidrológico pueden ser producto de la erosión y arrastrados al agua o de origen antrópico (vertido directo de residuos domésticos, actividades industriales, comerciales, etc.). Los sedimentos actúan como integradores y concentradores de metales pesados. En 2005 se realizo un muestreo de Metales Pesados en Sedimentos de tres lagunas costeras del Sur de Tamaulipas y Norte de Veracruz, México, embalses sujetos a diferentes intensidades y tipos de contaminación producto de diferentes actividades humana 49 MATEMÁTICA Y ESTADÍSTICA 2014 Las lagunas de Pueblo Viejo (LPV) de Veracruz, es una laguna de alta actividad comercial, en su parte norte descargan aguas residuales las casas que se encuentran en el perímetro de la laguna, así como cuenta con la entrada del estuario del río Pánuco. Las Marismas de Altamira (LPV) poseen gran productividad pesquera y en ellas y en ella encuentra en la zona industrial del puerto de Altamira. La Laguna de San Andrés (LSA) es de intensa actividad pesquera, si bien no presenta descargas urbanas recibe efluentes de granjas camaronícolas. La tabla muestra los datos de concentración de cobre en sedimentos (µg/g). LSA 3,21 0,65 1,97 1,56 0,48 1,87 0,77 LPV 17,65 18,64 22,72 21,26 20,17 20,05 18,18 LPV 8,21 2,17 1,98 5,98 2,58 2,5 4,72 a) Con un software estadístico se realizaron 3 pruebas para evaluar el supuesto de homogeneidad de varianzas. La tabla muestra los resultados hallados. ¿Existe homogeneidad de varianzas? Cu Hartley F-max 6,066 Cochran C 0,575 Bartlett Chi-sqr 4,031 df p 2 0,133234 b) Presente los resultados en una tabla resumen de ANOVA indicando fuente de variación, grados de libertad, cuadrados medios, valor de F y su significancia. Incluya un diagrama box-plot para mostrar datos y resultados. d) ¿Existen diferencias en la concentración de Cu en los sedimentos de las distintas lagunas? fundamente su respuesta. f) Evalúe en cuál/es laguna/s la concentración de Cu es mayor. Utilice una prueba a posteriori. g) Interprete ambientalmente los resultados. 11.5) La Isla de los Estados (IdE) se ubica en el extremo S de Argentina al E de la Isla Grande de Tierra del Fuego, constituye el extremo SE de la cordillera andina. La IdE tiene una longitud máxima de 75 km en sentido E-O y ancho promedio de 6 km en sentido N-S. La IdE es el único lugar de la Argentina cuyas costas están en su mayoría ocupadas por fiordos (artesas glaciares inundadas por el mar). Se realizo un inventario de los fiordos donde se relevaron diversos aspectos. Interesa conocer particularmente si el desarrollo de los fiordos es mayor en alguna dirección. En la tabla se presenta datos del largo (km) de los fiordos de IdE agrupados según su azimut en 4 categorías. N 0°-90° 4,0 5,3 5,0 0,4 1,1 N 90°-180° 1,8 0,9 1,4 N 180°-270° 1,7 3,3 2,9 3,0 6,3 1,0 2,15 0,75 N 270°-360° 7,1 5,2 1,9 a) Realizar una gráfica box-plot comparativa de los datos. (Incluir la media, el desvío estándar y los valores máximo y mínimo). b) Plantear Ho y H1, c) ¿Qué supuestos se requieren para realizar el análisis? Realizar una prueba de hipótesis para chequear la homogeneidad de varianzas. 50 MATEMÁTICA Y ESTADÍSTICA 2014 d) Si corresponde, realizar la prueba de Tukey. e) Realizar el ANOVA (α = 0,05). Interpretar geológicamente los resultados. 11.6) Los sistemas hidrotermales de baja temperatura (epitermales) que forman depósitos minerales de oro y plata suelen desarrollar, en áreas de descarga superficiales (hot-spring), sinter silíceos. Sin embargo, en algunas ocasiones, la silicificación de rocas laminadas (tufitas o calizas laminadas) producida en profundidad puede generar rocas similares a sinters. Los contenidos de Al (ppm) de los sinter silíceos son clave para descifrar el origen de las rocas. En una región donde se afloran estas rocas se realizo un muestreo en 5 sectores y las muestras se analizaron por aluminio. A continuación se presentan los resultados obtenidos con un programa estadístico. SECTOR A B C D E All Groups Summary df Effect Sector 4 p values Scheffe test A B C D E Means Al 14931,36 8254,17 4506,82 4761,96 58658,57 9304,29 MS Effect 4968281088 A: 14931,36 ,376459 ,617505 ,000000 Valid N 22 24 67 27 7 147 MS Error 58277708 F 85,2518 df Error 142 B: 8254,167 ,072498 ,072498 ,000012 ,000462 ,000000 Stand. Deviat. Al 14599,63 9363,48 4494,96 2902,12 6195,38 13885,18 C: 4506,821 ,000012 ,376459 ,999942 0,000000 D: 4761,963 ,000462 ,617505 ,999942 p-level 0.00 E: 58658,57 ,000000 ,000000 0,000000 0,000000 0,000000 a) Realice un diagrama de los pasos seguidos justificando porque se han llevado a cabo. Formule las hipótesis nula y alternativa utilizadas en todos los test realizados. b) Analice los resultados. Enuncie sus conclusiones geológicas. 51