I. Estadística Descriptiva de dos variables Objetivo: Estudiar la posible asociación entre dos variables Herramientas: A. Estadísticos: Covarianza, Coeficiente de correlación B. Representaciones gráficas: Diagramas de dispersión, rectas de regresión Guión • II.1 Diagramas de Dispersión • II.2 Medidas de Asociación Covarianza Coeficiente de correlación • II.3 Regresión Regresión lineal Regresión No lineal 2 Diagrama de dispersión Variable explicativa x Variable respuesta y Suponemos que la variable y depende de la variable x. A veces solo queremos ver si hay asociación y de que tipo Diagrama de dispersión Gráfico en el que se representan los puntos (x_i, y_i) Cerebro CI Escalado Grados Consumo Cerebro CI ¿Qué se observa en el diagrama de dispersión? Asociación: fuerte o débil Asociación: negativa o positiva Asociación: lineal o no lineal 3. Medidas de Asociación Covarianza muestral : Muestra la relación entre los datos cov x , y 1 n n ( xi x )( yi y ) i 1 1 n ( xiyi ) xy n i1 Asociación positiva cov >0 Asociación negativa cov <0 No Asociación cov ~0 ¡Depende de las Unidades! 3 Regresión • Regresion Lineal Se trata de buscar la recta que aproxima mejor los datos P¿Como se halla la recta de regresión? • Se busca una recta y=a+bx, tales que los coeficientes a y b minimizen, ECM 1 n n ( yi bxi ) 2 a i 1 Respuesta (Derivando) a cov xy y y x vx y cov xy (x vx b cov x , y vx x) • Recta de Regresión 3. Medidas de Asociación Coeficiente de correlación (Pearson) : Muestra la relación (lineal) entre los datos r Covx , y v xv y Asociación fuerte y positiva r~ 1 Asociación fuerte y negativa r ~-1 No Asociación r ~0 Relación entre la recta de Regresión y el coeficiente de correlación 2 E.CM E .CM vy 1 n vy (1 r ) 1 n n ( yi i 1 y) 2 n ( yi i 1 cov xy y ( x xi )) 2 vx x cov xy v cov xy 2 ( ) (x vx vy (cov x , y ) 2 vx xi ) 2 2( yi v y v yr 2 y )( x cov xy xi ) vx Coeficiente de correlación • No depende de las unidades • No es robusto (depende de datos atípicos) • r 2 =% de la variacion de y que se debe a la variación de x • Solo mide relaciones lineales 3 Regresión no lineal • Regresion No Lineal Se trata de buscar una curva que aproxime los datos de la mejor manera posible. Puede ser exponencial polinomial,etc ¿Como se calcula? y ae bx Ln( y ) Ln( a ) bx z Se hace la regresión de la nueva variable Z sobre X ¿Cómo hacemos regresión logaritmica? z y a Ln( x ) Y a bLn( x ) Se hace la regresión de la variable Y sobre Z ¿Cómo hacemos regresión potencial? z W y a( x) b Ln(Y ) Ln(a ) bLn( x ) Se hace la regresión de la variable W sobre Z ¿Cómo se predice el futuro con los modelos de regresión? y f ( x) Modelo de Regresión ¿Que valor predice para un valor x de la variable respuesta? Concentración de NO2 en una ciudad de Noruega (tabla parcial de datos) Concent Cars 3.71844 7.6912 9.2 3.10009 7.69894 3.31419 4.81218 4.38826 6.95177 4.3464 7.51806 -1.3 4.16044 7.67183 4.01277 5.52545 2.15176 4.68213 3.157 7.15618 2.37955 4.74493 3.83298 5.81114 4.48187 8.10892 4.0483 8.31385 12.2 4.00186 5.22036 3.2308 6.40853 -0.9 4.67189 7.3192 -8.5 2.73437 6.6174 6.5 3.49651 7.76938 3.67122 6.4677 -1.1 3.67377 7.65064 3.15274 7.75061 3.42751 5.18178 4.32413 7.63964 3.65584 8.00703 Temp WindSp 4. 8 6.4 3.5 -3.7 0.9 -7.2 1.7 2.6 -0.1 2.6 1.6 -7.9 1.6 -4.1 3.8 -12.7 5.2 -1.6 3 -3.1 1.8 1 1.2 4 -2.8 -1.5 2.4 3 0.1 0.8 2.9 4.1 4.2 7.1 2.5 1 0.8 3.4 8.2 4.5 0.2 0.4 -2.1 4.3 -2.8 6 TempDiff WindDir 74.4 20 600 -0.3 56 14 -0.1 281.3 4 1.2 74 65 11 115 0.3 224.2 19 0.3 211.9 5 -0.1 63.1 4 -0.1 64.5 12 0.4 58.3 3 0.3 78 1.5 215 230.4 17 572 0.9 82.7 5 235 1 282.4 20 447 88 24 186 19. 3 10 277 6 -0.4 70 12 0.2 307 0.2 230 -0.2 41.4 11 -0.2 62.5 15 Hour Day 196 513 23 143 527 502 453 462 554 2 18 55 47 556 69 550 142 167 14 5 432 453 32 112 Análisis con todos los datos r = 0.5121 Correlación con parte de los datos r = 0.774 ¡Cuidado! • Correlaciones y datos atípicos • Correlaciones y heterogeneidad • Correlaciones espurias