Métodos Estadísticos II Regresión y correlación Mario de la Rosa 2014 1 Regresión y correlación El objetivo es transformar una serie de datos en una ecuación de línea recta de la forma y = mx +b. Existe una correlación fuerte entre los datos si el coeficiente es mayor a 0.80 2014 2 MÉTODO DE LOS MÍNIMOS CUADRADOS Regresión es método de investigación de la relación entre una variable llamada dependiente y una o varias variables llamadas independientes. Lo que se quiere con el método de mínimos cuadrados es que el pronóstico tenga los errores ei mínimos. yj . . e. i xi . y = a + b*x ¿ a , b? 3 Independencia - Dependencia Cuando se estudian dos características simultáneamente sobre una muestra, se puede considerar que una de ellas influye sobre la otra de alguna manera. Por ejemplo la altura y el peso o las horas de estudio y la calificación en un examen. El objetivo principal de la regresión es descubrir el modo en que se relacionan. Dos variables pueden considerarse: • • • Variables independientes No tienen relación (una de ellas no sirve para explicar los movimientos de la otra) Dependencia funcional Y=f(x) Dependencia estadística Independencia estadística - Dependencia estadística Grado de asociación entre dos variables Dependencia funcional + 4 GRÁFICOS DE DISPERSIÓN: Permiten ver si hay asociación de variables Dadas dos variables X y Y tomadas sobre el mismo elemento de la población, el diagrama de dispersión es simplemente un gráfico de dos dimensiones, donde en un eje (abscisa) se sitúa una variable y en el otro eje (ordenada) se sitúa la otra variable. Si las variables están correlacionadas, el gráfico mostraría algún nivel de correlación (tendencia) entre las dos variables. Si no hay ninguna correlación, el gráfico presentaría una figura sin forma, una nube de puntos dispersos en el gráfico. Asociación positiva. Si aumenta X aumenta Y 5 GRÁFICOS DE DISPERSIÓN / RECTA DE REGRESIÓN La relación entre dos variables métricas puede ser representada mediante la línea de mejor ajuste a los datos. Esta recta se le denomina recta de regresión, que puede ser negativa o positiva, la primera con tendencia decreciente y la segunda creciente. 6 GRÁFICOS DE DISPERSIÓN / RECTA DE REGRESIÓN Para el cálculo de la recta de regresión se aplica el método de mínimos cuadrados entre dos variables. Esta línea es la que hace mínima la suma de los cuadrados de los residuos, es decir, es aquella recta en la que las diferencias elevadas al cuadrado entre los valores calculados por la ecuación de la recta y los valores reales de la serie, son las menores posibles. y = a + bx 7 Recta de regresión yn yˆ i yn 1 y3 u3 yi y1 Pendiente es la Tangente del ángulo ui yi y2 Intercepto Ordenada al origen x1 x2 x3 xi xn 1 yi a bxi ui xn ˆi ui yi y 8 Error Llamemos a “u” perturbación o error, siendo la diferencia que hay entre el valor observado de la variable exógena (y) y el valor estimado que obtendremos a través de la recta de regresión . y i a bxi La metodología para la obtención de la recta será hacer mínima la suma de los cuadrados de las perturbaciones. ¿Por qué se elevan al cuadrado? Porque la suma de las desviaciones tiende a cero. 9 En el modelo de regresión lineal simple la función elegida para aproximar la relación entre las variables es una recta, es decir , donde a, b son los parámetros. A esta recta la llamaremos RECTA DE REGRESIÓN DE Y SOBRE X. Se deduce la ecuación usando el método de los mínimos cuadrados. Dado un valor de X, tenemos los dos valores de Y, el observado, yi , y el teórico, yi* = a + bxi. Hemos de minimizar los errores cometidos: 10 Pendiente Negativa Nula Positiva 11 El objetivo último de la regresión es la predicción de una variable para un valor determinado de la otra. La predicción de Y para X = x0 será simplemente el valor obtenido en la recta de regresión de Y sobre X al sustituir el valor de x por x0. La fiabilidad de esta predicción será tanto mayor cuando mayor sea la correlación entre las variables (es decir mayor sea R2 ) Dado un valor de la variable “X” que no ha sido observado, estimar el correspondiente valor de “Y” 12 A partir de los datos, calcular el pronóstico para el año 2010, 2012 y 2014 Pronóstico 2010 2012 2014 Principales indicadores económicos en México, de 1990 a 2009 Indicadores Producto Interno Bruto (PIB) en miles de millones de pesos, (precios constantes) 1990 $ 1995 2000 5,252.54 $ 5,660.09 $ 7,381.31 $ 2005 2009 8,113.68 $ 8,345.65 PIB per cápita en pesos (precios constantes) $ 63,111.72 $62,099.78 $75,345.64 $ 78,056.40 $ 77,596.82 Inflación con base en el Índice Nacional de Precios al Consumidor (a diciembre de cada año) 29.93% 51.97% 8.96% 3.33% 3.57% Nota: El año base de precios constantes es 2003. Fuente: Para PIB: Fondo Monetario Internacional. 2010. World Economic Outlook Database October 2010. Consultado en: http://www.imf.org (27/10/2010).Para Inflación: Banco de México. 2010. Consultado en http://www.banxico.org.mx/PortalesEspecializados/inflacion/inflacion.html#ANUAL (27/10/2010). 13 Utilizar la función PRONÓSTICO con los datos de: 1. Año de pronóstico 2. Datos de información 3. Periodos de tiempo 14 2010 Pronóstico 2012 correlación 2014 $ 8,798.15 $80,888.73 $ 9,160.40 $82,780.23 $ 9,522.65 $84,671.73 0.97 0.90 Utilizar la función COEF.DE.CORREL con los datos de: 1. Datos de información 2. Periodos de tiempo -0.76 GOOD -1 -0.9 GOOD NO GOOD 0 Correlación -0.9 +1 15 Resultado Pronóstico Indicadores Producto Interno Bruto (PIB) en miles de millones de pesos, (precios constantes) PIB per cápita en pesos (precios constantes) Inflación con base en el Índice Nacional de Precios al Consumidor (a diciembre de cada año) correlación 2010 2012 2014 $ 8,798.15 $ 9,160.40 $ 9,522.65 0.97 $80,888.73 $82,780.23 $84,671.73 0.90 -0.76 La inflación tiene una correlación no aceptable de 0.76, por lo que no se calculó, sin embargo los otros tienen una correlación de 0.90 y 0.97. 16 Resultado PIB y = 181.1x - 35526 $9 500,00 $8 500,00 $7 500,00 $6 500,00 PIB $5 500,00 Линейная (PIB) $4 500,00 1985 1990 1995 2000 2005 2010 Año Название оси PIB PER CAPITA y = 945.7x - 2E+06 $85 000,00 $80 000,00 $75 000,00 $70 000,00 $65 000,00 $60 000,00 $55 000,00 PIB PER CAPITA Линейная (PIB PER CAPITA) 1985 1990 1995 2000 2005 2010 Año 17 FIN