Trabajo Práctico No

Anuncio
MATEMÁTICA Y ESTADÍSTICA
Trabajo Práctico No.12: Análisis de Correlación lineal simple
Contenido: Correlación lineal aplicaciones, cálculos e interpretación: Coeficiente de correlación “r” de
Pearson. Pruebas de significancia de “r”: prueba de “t”, uso de tablas. Límites de confianza de “r”.Test de
hipótesis sobre la población de “r”, Transformación de Fisher para “r” en “z”. Comparación de dos
coeficientes de correlación.
Lecturas recomendadas: Spiegel, 1991. Cap.13:289-321; Cap.14:322-356; Cap.17:411-439. Sokal &
Rohlf, 1979. Cap.4: 444-537; Cap.15:541-600. Zar, J. H., 1984. Cap. 19: 306-313. Merodio, 1986.
Cap.4: 57-65.
Idea principal
El objetivo de un estudio de dos variables cuantitativas simultáneamente, es obtener una medida
matemática de la relación entre las dos variables y dar una medida de la incertidumbre de la relación
hallada. En los casos en los que existe una relación funcional entre ambas variables se realiza análisis de
regresión. Si se trata de dos variables independientes se realiza un análisis de correlación.
La CORRELACIÓN estudia el comportamiento conjunto de dos variables aleatorias referidas a dos
características diferentes de un mismo objeto. La correlación es una técnica exploratoria que se usa para
examinar si los datos de dos variables están significativamente relacionados, en otras palabras, si los
valores de ambas variables cambian consistentemente juntos en algún sentido. Por ejemplo si el
incremento de una va acompañado por el decrecimiento de la otra. No existe ninguna expectativa que el
valor de una variable permita predecir el valor de la otra, o que no hay ninguna relación causal entre
ellas. El Coeficiente de Correlación mide la intensidad de la relación mutua entre ambas variables. Este
coeficiente considera que existe una relación lineal entre dos variables, pero ninguna de ellas se asume
que sea funcionalmente dependiente de la otra.
Los gráficos de dispersión en los que se representan pares (x,y) obtenidos de las observaciones, dan una
primera idea de la naturaleza de la relación entre dos variables. Ellos permiten analizar:
* El sentido, positivo o negativo. Se dice que la relación es positiva cuando a valores mayores de una
variable le corresponden en general valores mayores de la otra y negativa en el caso que a valores
menores de una variable le corresponden valores mayores de la otra
* La forma que podrá ser lineal, cuadrática etc. o en algunos casos no estar definida o clara.
* La intensidad, fuerte o débil, que esta dada por el grado de proximidad de los puntos a la gráfica que
supone describe el comportamiento de una función de la otra.
PARA EL DESARROLLO DEL TP SE REQUIERE EL USO DE LAS TABLAS DE VALORES CRÍTICOS DEL
COEFICIENTE DE CORRELACIÓN “R” DE PEARSON; TRANSFORMACIÓN F DE FISHER; ZR, PARA EL
COEFICIENTE DE CORRELACIÓN “R” DE PEARSON, TRANSFORMACIÓN F DE FISHER , Zr, EN EL
COEFICIENTE DE CORRELACIÓN “r” DE PEARSON .
12.1) a) Plantee un problema GEOLÓGICO que debería ser resuelto mediante la aplicación de
un análisis de correlación.
.................................................................................................................................................
.................................................................................................................................................
..........................................................................................................................................
b) Completar:
En un problema de correlación interesa explorar la relación de la variable “y” en función de
“x” y viceversa y lograr una medida de la intensidad de la relación entre ambas. El
coeficiente de correlación de Pearson es una medida de asociación lineal entre ambas
variables.
 El coeficiente de correlación varía entre ...........................................
 El signo del coeficiente de correlación indica ...........................................................
 La magnitud del coeficiente indica la .......................... de la correlación lineal. Si su
valor absoluto fuese 1, esto indicaría que..................................................................
y en el caso que fuera 0, indicaría que ......................................................................
c) Dados los siguientes valores del coeficiente de correlación: 0; -0,9; 0,7; 0,05;
¿Con qué gráfica asociaría mejor cada uno de ellos?
52
MATEMÁTICA Y ESTADÍSTICA
5.5
4.5
4.0
4.5
3.5
3.0
Y
Y
3.5
2.5
2.5
2.0
1.5
1.5
1.0
0.5
0.5
0.5
1.5
2.5
3.5
4.5
5.5
6.5
7.5
0.8
1.2
1.6
2.0
2.4
X
2.8
3.2
3.6
X
4.5
5.5
4.0
4.5
3.5
3.0
Y
Y
3.5
2.5
2.5
2.0
1.5
1.5
1.0
0.5
0.5
0.5
1.0
1.5
2.0
2.5
3.0
3.5
4.0
4.5
0.5
1.0
1.5
2.0
2.5
3.0
3.5
4.0
4.5
5.0
X
X
12.3) En las primeras etapas de exploración de yacimientos vetiformes de oro en la provincia
de Santa Cruz, se realizó un muestreo preliminar de la veta Carla aproximadamente cada 30
metros. En cada punto de muestreo se midió la potencia de la veta. La tabla muestra los
resultados de los análisis químicos (gr/t) y la potencia de la veta (m)
Ley (gr/t)
0.5
0.6
0.5
0.7
2
2
2
2
2
2.1
Potencia (m)
50
52
51
61
70
72
69
58
73
74
Ley (gr/t)
2.1
2.1
2.2
2.3
2.3
3.1
3.5
4.3
4.4
4.6
Potencia (m)
69
75
80
82
83
90
95
101
103
105
Ley (gr/t)
5.8
6.9
12.6
10.4
13.8
5.3
2.7
3.2
4.3
3.9
Potencia (m)
120
220
430
340
450
112
87
94
100
97
¿Existe alguna relación entre la potencia y la ley? Construya el gráfico bivariado de
dispersión. Realice una prueba de hipótesis para verificar que la relación potencia-ley se
encuentra en toda la veta.
12.4) El Complejo Volcánico Planchón- Peteroa se ubica en la Cordillera de Los Andes a los
35º 15´ L.S. y 70º 35´ L.O. incluye dos cumbres principales: al norte, el volcán Planchón
(3920 m s.n.m.) y 5 km al sur el volcán Peteroa (4107 m s.n.m.). Entre los cráteres
actualmente hay manifestaciones fumarólicas con emisiones difusas de dióxido de carbono
(flujo de CO2) asociadas a la actividad geotermal. Varios autores sostienen que el flujo de
CO2 puede incrementar notoriamente antes de una erupción. En 2010 se observo un
aumento de la actividad de las fumarolas. Con el objeto de monitorear el comportamiento del
volcán se realizó un muestreo de las emisiones de CO 2 (mol.m -2 dia-1) el área de Termas del
Azufre (flanco oriental del volcán) y se midió simultáneamente la temperatura de las
columnas de vapor (°C).
CO2
52
100
530
870
1200
1750
1803
1950
2400
2860
3000
3500
T
25
27
32
38
41
43
45
46
48
50
53
55
a) ¿Cómo es la distribución de la variable CO 2? Transforme los datos para
normalizarlos.
53
MATEMÁTICA Y ESTADÍSTICA
b) Construya el gráfico bivariado de dispersión, utilice los datos transformados. ¿Existe
alguna relación entre la concentración de CO2 y la temperatura del vapor? Realice
una prueba de hipótesis para verificar que la relación CO2 y la temperatura del vapor.
12.5) El glaciar alpino Argualas se ubica en el sudoeste de los Pirineos centrales,
anualmente presentas movimientos verticales y horizontales. Entre 1991 y 2000 se llevaron
a cabo mediciones de precisión (mm) del desplazamiento horizontal y vertical, del glaciar
utilizando 16 mojones de acero y “estación total”. En la tabla que se presenta a continuación
se indica el movimiento horizontal (MH) y vertical (MV) de los 16 mojones.
a) Construya el gráfico bivariado de dispersión (MH en el eje de las "x", MV en el eje de las "y")
¿Existe alguna relación entre los movimientos de estos puntos de control?. Realice una
prueba de hipótesis para verificar que la relación entre los movimientos se produce en todo el
glaciar.
Muestra
1
2
3
4
5
6
7
8
MH
0,13
0,26
2,49
3,6
2,25
2,05
1,37
0,72
MV
-0,23
-0,26
-0,62
-0,74
-1,44
-0,96
-0,60
-1,37
Muestra
9
10
11
12
13
14
15
16
MH
0,72
2,62
2,87
3,81
3,17
3,18
2,53
0,22
MV
-0,72
-1,72
-1,50
-1,45
-1,69
-1,70
-1,93
-0,43
b) Interesa conocer si la relación movimiento vertical-movimiento horizontal del glaciar Argulas
puede considerarse que es la misma que experimentan otros glaciares de los Pirineos cuyo
coeficiente de correlación es  = -0,73. Justifique su respuesta indicando hipótesis nula,
alternativa y nivel de significación de la prueba.
Se sugiere analizar las características de las relaciones sugeridas por el gráfico bivariado.
Realizar la transformación de Fisher del r calculado y de  y hacer el Test de hipótesis.
c) Se estudió también la relación entre los movimientos en glaciares de manto en 20 puntos de
control en la Antártida. El coeficiente de correlación calculado para esas estaciones es r =-0,69.
¿Pude considerarse que los movimientos que experimentan los glaciares alpinos y de manto
son semejantes, es decir pertenecen a la misma población? En caso afirmativo, ¿cuál es el
coeficiente de correlación de esa población? Justifique su respuesta indicando hipótesis nula,
alternativa y nivel de significación de la prueba.
Se sugiere realizar las transformaciones de Fisher para ambos r antes de hacer el Test de
hipótesis. Si acepta la hipótesis nula enunciada, calcule el coeficiente de correlación común. No
olvide expresar el resultado “z” como “r”.
12.6) Los cuerpos de agua ubicados en la zona sur del conurbano bonaerense entre Buenos
Aires y La Plata está surcada por una docena de arroyos que drenan la región en forma
perpendicular a la orilla del Río de la Plata. Estos cuerpos de agua son receptores de las
aguas residuales de la intensa actividad humana que presenta la región caracterizada por:
zonas con altas densidades poblacionales y de radicación industrial, zonas semi-rurales, con
baja densidad poblacional y algunas actividades productivas hortícolas intercaladas con
terrenos naturales.
En un trabajo de investigación se tomaron 56 muestras de agua de los arroyos. Una vez
obtenida la muestra se determinaron en el lugar la temperatura, la conductividad eléctrica, el
pH, y el oxígeno disuelto. Las botellas se transportaron en una conservadora en frío hasta
llegar al laboratorio. Allí se analizó el contenido de materia orgánica, (demanda química de
oxígeno, DQO y demanda bioquímica de oxígeno, DBO5).
La tabla que se presenta a continuación muestra los coeficientes de correlación entre las
variables.
Describa como son las relaciones entre variables (+, -) completando el triangulo superior
derecho de la tabla e indique que relaciones son significativas realizando pruebas de
hipótesis.
54
MATEMÁTICA Y ESTADÍSTICA
Temp.
Temp.
Ox. Dis.
pH
CE
DQO
DBO5
1
Ox. Dis.
0.1280
1
pH
0.0603
0.7812
1
CE
0.1303
-0.4427
-0.2701
1
DQO
DBO5
0.1049
0.0388
-0.3166
-0.3474
-0.2162
-0.2312
0.3795
0.3720
1
0.9515
1
12.7) En un trabajo de campo realizado en una quebrada en la Puna Argentina se ha medido el
espesor, en metros, de 2 secuencias rocosas (A y B). Los espesores de ambas unidades
aumentan paulatinamente desde el inicio de la quebrada hacia aguas arriba. Las medidas
efectuadas en cada estación se indican a continuación.
Estación
1
2
3
4
5
6
Espesor (m)
Unidad A
Unidad B
(x)
(y)
50
50
60
85
70
110
75
140
80
170
90
200
Espesor total (%)
Unidad A
Unidad B
(x’)
(y’)
50,0
50,0
41,4
58,6
38,9
61,1
34,9
65,1
32,0
68,0
31,0
69,0
¿Puede Ud. asegurar que existe algún tipo de vinculación entre el espesor de ambas
secuencias? Justifique su respuesta utilizando argumentos estadísticos. Para responder puede
seguir los pasos indicados a continuación:
a) Calcule la media, la desviación estándar y el coeficiente de variación de cada una de las
variables (x e y).
b) Realice un diagrama de dispersión x (en abscisas) e y (en ordenadas). ¿Cuáles son las
características de las relaciones sugeridas por el gráfico obtenido?
c) Calcule el coeficiente de correlación de Pearson (r).
d) Efectúe una prueba de significación del coeficiente de correlación (r). Utilice la tabla
disponible para tal fin.
d) Los datos obtenidos fueron convertidos a porcentajes de manera que cada par de valores
expresa la proporción relativa de cada unidad en una misma estación (columna x’e y’ de la
tabla de datos). ¿Puede Ud. afirmar que los resultados obtenidos con los datos originales y los
datos transformados son los mismos? Justifique su respuesta utilizando argumentos
estadísticos.
 Realice un diagrama de dispersión x’- y’ ¿Cuáles son las características de las
relaciones sugeridas por el gráfico obtenido?
 Calcule el coeficiente de correlación de Pearson (r) y realice una prueba de significación
para el mismo.
El problema de la suma constante: uno de las prácticas habituales en el tratamiento de datos es su
transformación de forma que para un espécimen o individuo la suma de todas las componentes
individuales sea constante (i.e. 100%).como sucede cuando se estudia la composición geoquímica
de rocas y minerales. Datos expresados como parte del todo (porcentajes o partes por millón –ppm-)
se conocen como datos composicionales. Este es un mecanismo sencillo que permite realizar
comparaciones entre muestras, sin embargo puede conducir a resultados espurios e inducir a
interpretaciones erróneas de los datos.
Esto se produce pues los porcentajes son razones numéricas complejas que contienen variables en
su denominador que representan todos los constituyentes a ser examinados. Esto trae aparejado
que los componentes de porcentajes no sean libres de variar independientemente. A medida que la
proporción de un componente aumenta, la proporción de uno o más de los otros componentes debe
decrecer. Por ejemplo si se analiza el quimismo de una roca y el contenido en sílice fuera 61,5%,
entonces el contenido de alúmina no podrá ser cualquier valor, estará restringido a ser igual ó menor
55
MATEMÁTICA Y ESTADÍSTICA
que (100 – 61,5)%. El siguiente óxido que forme parte de esta roca se verá también restringido por el
contenido de los dos elementos anteriores.
Una de los problemas que se producen al analizar datos composicionales es que se introduce un
sesgo negativo en las correlaciones, como se acaba de demostrar con los datos del ejercicio.
(Aitchison, 1986; Rollinson, 1993)
56
MATEMÁTICA Y ESTADÍSTICA
Trabajo Práctico No.13: Regresión lineal simple
Contenido: Regresión lineal simple aplicaciones, cálculos e interpretación: recta de regresión. Test de
hipótesis sobre el coeficiente de regresión: ANOVA de la regresión, test de “t”. Límites de confianza del
coeficiente de regresión.
Lecturas recomendadas: Spiegel, 1991. Cap.13:289-321; Cap.14:322-356; Cap.17:411-439. Sokal &
Rohlf, 1979.Cap.14:444-537; Cap.15:541-600. Zar, J.H., 1984, Cap. 17: 261-273. Merodio, 1986. Cap.4:
57-65. Davis, 1973. Cap.5: 192-222.
Idea principal
El análisis de REGRESIÓN enfoca el problema de explorar y modelar la relación existente entre una
variable aleatoria, respuesta, “y”, llamada variable dependiente y otra variable, controlada por el
investigador “x”, explicativa denominada variable independiente. Esto significa que la magnitud de una
de las variables (la dependiente) está determinada ó es función de la magnitud de la segunda variable (la
independiente). Cuando la relación puede expresarse a través de una recta se denomina regresión lineal,
y se agrega el adjetivo de simple pues sólo considera el caso de 2 variables. En la practica la regresión
se puede usar en situaciones donde la variable dependiente es difícil medirla o cuesta muy caro hacerlo,
pero puede ser estimada por otra variable con la que está relacionada por una función lineal.
Para el desarrollo del TP se requiere el uso de las tablas de probabilidades “t” y “F”.
13.1) a) Complete con la variable dependiente o independiente según corresponda
Variable respuesta
Variable explicativa
Presión litostática
Tamaño de los cristales en rocas plutonicas
Pendiente de sedimentos
Densidad de un magma
Selección de sedimentos epiclasticos
Granulometría de cenizas volcánicas
13.2) En las altas latitudes, los días que nieva son esperados por los alumnos de primaria y
secundaria por que existen grandes posibilidades que se suspendan las clases. Un director de
escuela en El Bolsón (Chubut) formuló la hipótesis que podría haber una relación entre la
cantidad de nieve caída durante las 24 horas previas y el número de días que se suspenden
las clases. El director analizó los siguientes datos
Nieve caída (cm)
Días de escuela cerrada




3
5
6
13
9
16
12
14
15
18
18
23
21
20
24
32
27
29
30
28
¿Cuál fue su conclusión?
Calcule la ecuación de la recta (y=a + bx), donde a representa la ordenada al origen y b
la pendiente o coeficiente de regresión. En un diagrama bivariado dibuje los datos y la
recta calculada.
¿Cuánta variabilidad de los días de escuela cerrada es explicada por la recta
calculada?
Realice una prueba de hipótesis que le permita asegurar al director de la escuela que la
tasa de nieve caída es significativamente distinta de 0.
13.3) Durante el 12 y el 15 agosto de 1991 el volcán Hudson, ubicado en el sur de Chile, hizo
erupción. Sus cenizas cubrieron parte de la Patagonia argentina y chilena provocando un gran
impacto sobre la agricultura, economía y diversos aspectos psico-sociales de las comunidades
rurales.
Evaluar el impacto de las cenizas sobre la economía del lugar es muy complejo y requiere
analizar numerosas variables, la densidad de las cenizas (g/ml) y la distancia al volcán (km)
son solo un par de ellas. La tabla presenta datos de estas dos variables tomadas en campos de
la Patagonia que fueron cubiertos por las cenizas
57
MATEMÁTICA Y ESTADÍSTICA
Densidad
Distancia
Densidad
Distancia
Densidad
Distancia
0,61
19
0,82
48
1,03
98
0,54
19
0,8
48
0,99
98
0,54
20
0,79
65
1,02
100
0,61
20
0,87
65
1,06
145
0,75
29
0,86
65
1,05
120
0,82
35
0,93
65
1,19
121
0,65
35
0,8
70
1,1
35
0,91
35
1,18
90
0,93
98
a) Se necesita determinar si la densidad de las cenizas está en función a la distancia al volcán.
Para contestar la pregunta realice un análisis de regresión:
i) Construya el gráfico bi-variado de dispersión de las variables X e Y. Incluya un punto más
cuyas coordenadas correspondan a los promedios de cada una de las variables.
ii) Calcule la ecuación de la recta (y=a + bx), donde a representa la ordenada al origen y b la
pendiente o coeficiente de regresión.
iii) Estime la densidad de las cenizas para una distancia de 110 km del volcán.
iv) Trace la recta de regresión sobre el gráfico de dispersión de ambas variables.
v) Calcule la varianza explicada y la no explicada (%) por la regresión.
vi) Efectúe un ANOVA sobre la significancia de la varianza explicada y no explicada por la
regresión.
vii) Interprete geológicamente los resultados.
b) También interesa establecer si la densidad de las cenizas aumenta a medida que nos
alejamos del volcán.
Se recomienda realizar un test de “t” sobre el coeficiente de regresión. Analice detenidamente
si se trata de un test a 1 cola (¿superior o inferior?), o a 2 colas. Justifique su elección.
Interprete geológicamente los resultados.
13.4) En un intento de interpretar las condiciones ambientales en las que se desarrolló una
cuenca sedimentaria del Paleozoico inferior se ha estudiado un largo testigo que atraviesa una
espesa sucesión estratigráfica de esta edad. Se trata de una unidad clástica constituida por
capas de arcillas intercaladas con arenas, perteneciente a un ambiente marino offshore (aguas
afuera). El geólogo ha postulado que la cuenca se ha llenado paulatinamente, y que la línea de
costa ha avanzado en dirección a la perforación, conforme a ello, el espesor de las capas de
arena ha aumentado. La unidad contiene cientos de capas por lo que se optó por medir el
espesor de las capas de arena que se encuentran a intervalos regulares de 10 cm. A
continuación se muestran las estimas de los parámetros (a y b) de una regresión como así
también sus respectivos errores y los resultados del ensayo de hipótesis efectuados a los
parámetros y la regresión realizados con un software estadístico. Interprete geológicamente
los resultados.
Regression Statistics
Multiple R
0.7627
R Square
0.5817
Adjusted R Square
0.5730
Standard Error
2.5239
Observations
50
Parametros Coefficients Standard Error t Stat P-value
Intercept
4.25
0.72
5.86 4.09E-07
Intervalo
0.02
0
8.17 1.22E-10
ANOVA
df
SS
MS
F
Significance F
Regression
1
425.18
425.18
66.75
1.22 E-10
Residual
48
305.76
6.37
Total
49
730.94
58
Descargar