Un geólogo a mapeado en un área 5 afloramientos de calizas que

Anuncio
MATEMÁTICA Y ESTADÍSTICA 2014
Trabajo Práctico No. 11: Análisis de la Varianza (ANOVA)
Contenido: Introducción al análisis de la varianza (ANOVA). Supuestos teóricos. Cálculo e
interpretación de ANOVA. Diseño experimental. ANOVA de una vía. Comparaciones múltiples.
Lecturas recomendadas: Spiegel, 1991. Cap.16: 375-410; Cap.17: 411-439. Sokal & Rohlf,
1979.Cap.8:195-226; Cap.9:227-280; Cap.13:405-443. Merodio, 1986. Cap.3: 39-48.
Koch y Link, 1980. Cap.5: 132-148, 192-198 (ANOVA). Cap.8: 325-333 (DISEÑO EXPERIMENTAL).
Alperin 2013, Cap. 7:110-124.
Idea principal
El Análisis de la Varianza (ANOVA) es un método muy importante que permite comparar más de dos
grupos de muestras a partir de sus medias muestrales. El ANOVA se utiliza en diversas aplicaciones
algunas de las cuales se vinculan con el diseño de experimentos.
Cuando se realiza un experimento, o se mide una variable en el campo, siempre se incluye una
variabilidad natural y un error experimental. Este último surge de la falta de control previo de la
experiencia. El ANOVA permite diferenciar la fuente de variabilidad de las observaciones en estas dos
componentes, cada uno interpretable en términos geológicos.
En el caso de una única variable el test de significación que permite discriminar si existen o no
diferencias entre grupos es un test de “F”. Esencialmente se calcula un cociente entre dos varianzas,
la varianza entre los grupos de datos y una varianza ponderada promedio dentro de los grupos. Si la
varianza entre grupos es significativamente mayor, debe existir una diferencia significativa entre las
medias.
Algunos conceptos asociados a este análisis son:
Unidad experimental es la mínima porción del material experimental sobre el cual se puede realizar
un tratamiento.
Tratamientos o factores son el conjunto de acciones que se aplican a las unidades experimentales
con la finalidad de observar como responden a éstas (variable independiente).
Variable aleatoria, observada o respuesta es la medida u observación que se obtiene de cada una
de las unidades experimentales.
Réplicas o repeticiones son cada una de las realizaciones de un tratamiento.
Para el desarrollo del TP se requieren las tabla de probabilidades “F”, Rangos
Studentizados “q” y Fmax.
11.1) a) Indique cual de los siguientes diseños experimentales pueden ser analizados con
un ANOVA modelo I.
 Un geocientífico está interesado en testear la hipótesis general que el tamaño medio
de los sedimentos varía entre los lagos alpinos. Selecciona de un total de 21 lagos
tres al azar (Lago Verónica, Lago Micheal y Lago Mónica) y toma 10 muestras de
sedimentos de cada uno.
 Un geocientífico está interesado en testear la hipótesis general que el tamaño medio
de los sedimentos varía entre tres lagos alpinos (Lago Verónica, Lago Micheal y
Lago Mónica) y toma 10 muestras de sedimentos de cada uno.
 Un geólogo petrolero se pregunta si existen diferencias significativas en el
rendimiento medio diario de petróleo de los únicos 6 pozos pertenecientes y
operados por la Oil Company en el Golfo de México.
b) Para los casos del inciso a que considere pertinentes indique cual es la variable
dependiente y la independiente y presente una tabla resumen de ANOVA en donde consten
las fuentes de variación y los grados de libertad.
c) Recientemente durante la exposición de su trabajo en un congreso un geólogo muestra
los resultados de un ANOVA de un factor, F=0,99. Luego afirma: “El cociente F no es
significativo, no hace falta buscar en la tabla de probabilidades el valor”.
Uno de los colegas del publico muy enojado le replica: “¿Está usted seguro? ¡Sería mejor
que revise la tabla de probabilidades!
¿Quién tiene razón? ¿Por qué?
48
MATEMÁTICA Y ESTADÍSTICA 2014
11.2) Se obtuvieron 8 mediciones del volumen de producción (m3/día) de 3 pozos de YPF en
la cuenca Neuquina. Es necesario identificar cual pozo produce significativamente más
petróleo. La tabla muestra los resultados del muestreo:
RYN1
157
184
143
135
163
103
152
129
RYN2
183
174
182
199
183
168
193
162
RYN3
149
193
129
146
126
132
143
154
a) Realizar una gráfica box-plot comparativa de los datos. (Incluir la media, el desvío
estándar y los valores máximo y mínimo).
b) Plantear Ho y H1,
c) ¿Qué supuestos se requieren para realizar el análisis? Realizar una prueba de hipótesis
para chequear la homogeneidad de varianzas.
d) Si corresponde, realizar la prueba de Tukey.
e) Realizar el ANOVA (α = 0,05). Interpretar geológicamente los resultados.
-1
11.3) Se desea investigar la Capacidad de Intercambio Catiónico (CIC = cmol c . kg ) del
horizonte superior de suelos que se desarrollan en 6 diferentes microambientes de la
Pampa Húmeda: Interfluvio, Pendiente cóncava, Loma convexa, Vía de escurrimiento,
Cubeta, Llanura aluvial. Se seleccionaron aleatoriamente 5 sitios de cada microambiente y
se tomaron 5 muestras de cada uno que se analizaron en laboratorio, pero en 2 de ellas el
material estaba contaminado y el dato se descartó. A continuación se presentan los 28
valores de CIC:
Microambiente
2
2
n
Media
Suma
(Suma)
Suma de xj
S
5
40,3
201,6
40642,6
8179,2
3,6
4
15,8
63,0
3969,0
1014,8
2,7
Cubeta
Pendiente
cóncava
Loma convexa
38,4
40,8
40,8
36
14,4
15
13,8
19,8
18
8,4
14,4
22,2
9,6
5
14,5
72,6
5270,8
1186,9
5,8
Interfluvio
25,8
25,8
24,6
34,2
27,6
5
27,6
138,0
19044,0
3867,8
3,8
Llanura aluvial
Vía de
escurrimiento
36
39,6
43,2
40,2
4
39,8
159,0
25281,0
6346,4
3,0
16,8
18,6
22,2
24
5
19,7
98,4
9682,6
1979,3
3,3
45,6
16,8
a) Efectuar un análisis de la varianza. Utilice los estadísticos calculados que se presentan la
tabla. Los datos se presentan a modo ilustrativo.
b) Presente los resultados en una tabla resumen de ANOVA (plantear Ho y Ha, indicar
fuentes de variación, grados de libertad, cuadrados medios, valor de F y su significación) y
gráficamente con un diagrama box-plot.
c) Evalúe e interprete geológicamente las diferencias entre grupos de medias con un test
a posteriori (Tuckey). Considere los siguientes grupos de medias: G1 (Loma convexa,
Pendiente cóncava, Vía de escurrimiento) y G2 (Llanura aluvial, Cubeta, Interfluvio).
11.4) Los aportes de los metales pesados al ciclo hidrológico pueden ser producto de la
erosión y arrastrados al agua o de origen antrópico (vertido directo de residuos domésticos,
actividades industriales, comerciales, etc.). Los sedimentos actúan como integradores y
concentradores de metales pesados.
En 2005 se realizo un muestreo de Metales Pesados en Sedimentos de tres lagunas
costeras del Sur de Tamaulipas y Norte de Veracruz, México, embalses sujetos a diferentes
intensidades y tipos de contaminación producto de diferentes actividades humana
49
MATEMÁTICA Y ESTADÍSTICA 2014
Las lagunas de Pueblo Viejo (LPV) de Veracruz, es una laguna de alta actividad comercial,
en su parte norte descargan aguas residuales las casas que se encuentran en el perímetro
de la laguna, así como cuenta con la entrada del estuario del río Pánuco.
Las Marismas de Altamira (LPV) poseen gran productividad pesquera y en ellas y en ella
encuentra en la zona industrial del puerto de Altamira.
La Laguna de San Andrés (LSA) es de intensa actividad pesquera, si bien no presenta
descargas urbanas recibe efluentes de granjas camaronícolas.
La tabla muestra los datos de concentración de cobre en sedimentos (µg/g).
LSA
3,21
0,65
1,97
1,56
0,48
1,87
0,77
LPV
17,65
18,64
22,72
21,26
20,17
20,05
18,18
LPV
8,21
2,17
1,98
5,98
2,58
2,5
4,72
a) Con un software estadístico se realizaron 3 pruebas para evaluar el supuesto de
homogeneidad de varianzas. La tabla muestra los resultados hallados. ¿Existe
homogeneidad de varianzas?
Cu
Hartley
F-max
6,066
Cochran
C
0,575
Bartlett
Chi-sqr
4,031
df
p
2
0,133234
b) Presente los resultados en una tabla resumen de ANOVA indicando fuente de variación,
grados de libertad, cuadrados medios, valor de F y su significancia. Incluya un diagrama
box-plot para mostrar datos y resultados.
d) ¿Existen diferencias en la concentración de Cu en los sedimentos de las distintas
lagunas? fundamente su respuesta.
f) Evalúe en cuál/es laguna/s la concentración de Cu es mayor. Utilice una prueba a
posteriori.
g) Interprete ambientalmente los resultados.
11.5) La Isla de los Estados (IdE) se ubica en el extremo S de Argentina al E de la Isla
Grande de Tierra del Fuego, constituye el extremo SE de la cordillera andina. La IdE tiene
una longitud máxima de 75 km en sentido E-O y ancho promedio de 6 km en sentido N-S.
La IdE es el único lugar de la Argentina cuyas costas están en su mayoría ocupadas por
fiordos (artesas glaciares inundadas por el mar).
Se realizo un inventario de los fiordos donde se relevaron diversos aspectos. Interesa
conocer particularmente si el desarrollo de los fiordos es mayor en alguna dirección.
En la tabla se presenta datos del largo (km) de los fiordos de IdE agrupados según su
azimut en 4 categorías.
N 0°-90°
4,0
5,3
5,0
0,4
1,1
N 90°-180°
1,8
0,9
1,4
N 180°-270°
1,7
3,3
2,9
3,0
6,3
1,0
2,15
0,75
N 270°-360°
7,1
5,2
1,9
a) Realizar una gráfica box-plot comparativa de los datos. (Incluir la media, el desvío
estándar y los valores máximo y mínimo).
b) Plantear Ho y H1,
c) ¿Qué supuestos se requieren para realizar el análisis? Realizar una prueba de hipótesis
para chequear la homogeneidad de varianzas.
50
MATEMÁTICA Y ESTADÍSTICA 2014
d) Si corresponde, realizar la prueba de Tukey.
e) Realizar el ANOVA (α = 0,05). Interpretar geológicamente los resultados.
11.6) Los sistemas hidrotermales de baja temperatura (epitermales) que forman depósitos
minerales de oro y plata suelen desarrollar, en áreas de descarga superficiales (hot-spring),
sinter silíceos. Sin embargo, en algunas ocasiones, la silicificación de rocas laminadas
(tufitas o calizas laminadas) producida en profundidad puede generar rocas similares a
sinters. Los contenidos de Al (ppm) de los sinter silíceos son clave para descifrar el origen
de las rocas. En una región donde se afloran estas rocas se realizo un muestreo en 5
sectores y las muestras se analizaron por aluminio. A continuación se presentan los
resultados obtenidos con un programa estadístico.
SECTOR
A
B
C
D
E
All Groups
Summary df Effect
Sector
4
p values
Scheffe test
A
B
C
D
E
Means Al
14931,36
8254,17
4506,82
4761,96
58658,57
9304,29
MS Effect
4968281088
A: 14931,36
,376459
,617505
,000000
Valid N
22
24
67
27
7
147
MS Error
58277708
F
85,2518
df Error
142
B: 8254,167
,072498
,072498
,000012
,000462
,000000
Stand. Deviat. Al
14599,63
9363,48
4494,96
2902,12
6195,38
13885,18
C: 4506,821
,000012
,376459
,999942
0,000000
D: 4761,963
,000462
,617505
,999942
p-level
0.00
E: 58658,57
,000000
,000000
0,000000
0,000000
0,000000
a) Realice un diagrama de los pasos seguidos justificando porque se han llevado a
cabo. Formule las hipótesis nula y alternativa utilizadas en todos los test realizados.
b) Analice los resultados. Enuncie sus conclusiones geológicas.
51
Descargar