TEMA 6: MODELOS DE REGRESIÓN: REGRESIÓN LINEAL SIMPLE MA. ISABEL CHÁVEZ CASTRO CONTENIDO GENERAL • Introducción • Diagrama de dispersión: • Ecuación de regresión lineal simple: cálculo de las coeficientes lineales (método de los mínimos cuadrados) • Covarianza: Fórmula y análisis MODELOS DE REGRESIÓN Todos los días, se deben tomar decisiones personales y profesionales basadas en predicciones de sucesos que pueden darse en el futuro. Para hacer estos pronósticos, se basan en la relación (intuitiva y calculada) entre lo que ya se sabe y lo que se debe estimar. Si los responsables de la toma de decisiones pueden determinar cómo lo conocido se relaciona con el evento futuro, pueden ayudar considerablemente al proceso de toma de decisiones. Ése es el objetivo de este tema: cómo determinar la relación entre variables. MODELOS DE REGRESIÓN «Los análisis de regresión y correlación nos mostrarán cómo determinar tanto la naturaleza como la fuerza de una relación entre dos variables». De esta forma, se aprende a pronosticar, con cierta precisión, el valor de una variable desconocida basándonos en observaciones anteriores de ésa y otras variables. En el análisis de regresión, se desarrolla una ecuación de estimación, esto es, una fórmula matemática que relaciona las variables conocidas con la variable desconocida. MODELOS DE REGRESIÓN Una vez que se conoce el patrón de esta relación, podremos aplicar el análisis de correlación para determinar el grado en el que las variables se relacionan. El análisis de correlación por lo tanto nos indica qué tan bien la ecuación de estimación describe realmente la relación. a) Tipos de relaciones Los análisis de regresión y de correlación se basan en la relación, o asociación, entre dos (o más) variables. La variable (o variables) conocida(s) se llaman variable(s) independiente(s); la que tratamos de predecir es la variable dependiente. MODELOS DE REGRESIÓN El gráfico a continuación nos muestra los tipos de relación que podrían darse entre la variables dependientes e independientes. De manera general X es la variable independiente e Y es la variable dependiente. MODELOS DE REGRESIÓN b) Diagramas de Dispersión: El primer paso para determinar si existe una relación entre dos variables es examinar la gráfica de los datos observados (o conocidos). Esta gráfica, o dibujo, se llama diagrama de dispersión. Un diagrama de dispersión nos puede dar dos tipos de información: • Visualmente, podemos identificar patrones que indiquen que las variables están relacionadas. • Si esto sucede, podemos ver qué tipo de línea, o ecuación de estimación, describe esta relación. MODELOS DE REGRESIÓN El diagrama de dispersión se representa utilizando puntos, los tipos de diagramas de puntos se describe en el gráfico siguiente: MODELOS DE REGRESIÓN Como se puede observar, en los diagramas de dispersión (que suelen llamarse también gráfico de correlación), ambas variables se representan como un punto en el plano cartesiano (plano x-y). Con base al comportamiento de las variables se pueden definir tres tipos de correlación: a) Positiva: Se presenta cuando una variable aumenta o disminuye y la otra también, respectivamente. Hay una relación proporcional. b) Negativa: Se presenta cuando una variable se comporta de forma contraria o a la otra, es decir que si una variable aumenta, la otra disminuye. Hay una relación inversa proporcional MODELOS DE REGRESIÓN c) Nula: Si no encuentras un comportamiento entre las variables, existe una correlación nula. Desde otra perspectiva, existe otra clasificación para determinar la correlación estadística entre dos variables. • Sin correlación: La misma correlación nula • Fuerte correlación positiva: Cuando el valor de una variable se incrementa o disminuye con una relación muy similar a la otra variable. • Débil correlación positiva: Cuando el valor de una variable se incrementa o disminuye en menor relación a la otra variable, por ejemplo, que el valor de x se incremente ligeramente al incrementar el valor de y. MODELOS DE REGRESIÓN • Fuerte correlación negativa: Cuando el valor de una variable aumenta claramente en relación a una disminución de la otra variable. • Débil correlación negativa: Cuando el valor de una variable aumenta levemente en relación a la disminución de la otra variable. • Relación compleja: Parece haber algún tipo de relación entre ambas variables, pero no es muy evidente tornando la detección de la relación compleja. MODELOS DE REGRESIÓN Para realizar un gráfico de dispersión, deberíamos tomar los siguientes pasos: • Paso 1: Determinar cuál es la situación. Si no se entiende qué es lo que esta ocurriendo, no se puede establecer las variables a estudiar. • Paso 2: Determinar las variables a estudiar. Si se determinó las variables a estudiar, es porque se considera que puede existir una relación entre ellas que permita caracterizar la situación. • Paso 3: Recolectar los datos de las variables: Si ya se proporciona, perfecto. Si no, definimos un período de tiempo para conseguir los datos de las variables antes definidas. Hay que recordar que los datos de las dos variables deben estar dados en el mismo período de tiempo. MODELOS DE REGRESIÓN Paso 4: Ubicar los valores en el eje respectivo. Por lo general, la variable independiente es aquella que no está influenciada por la otra y se ubica en el eje x. La variable dependiente que es la que se ve afectada por la otra variable se ubica en el eje y. Así pues, procedemos a ubicar los valores en el plano cartesiano de acuerdo a su variable (x, y) El diagrama de dispersión es una de las siete herramientas básicas en los procesos de calidad y es quizás uno de los primeros gráficos que se aprenden de primero en la formación estadística. MODELOS DE REGRESIÓN c) Estimación mediante la recta de regresión: En los diagramas de dispersión que se presentaron se puede observar las llamadas líneas de regresión que se logran ajustando las líneas visualmente entre los puntos de datos. Lo que se quiere realmente es aprender a calcular la línea de regresión de manera más precisa, usando una ecuación que relaciona las dos variables matemáticamente. En el presente tema se abarca únicamente relaciones lineales entre dos variables, es decir, la representación de la ecuación para una línea recta donde la variable dependiente Y está determinada por la variable independiente X. De allí que se habla de regresión lineal simple. MODELOS DE REGRESIÓN La ecuación de la recta viene dada de la siguiente manera: MODELOS DE REGRESIÓN Para poder encontrar esta ecuación se debe tener al menos dos puntos que forman parte de la recta. La pendiente (b) se calcula usando la ecuación: Donde (X1, Y1) y (X2, Y2) son dos puntos que forman parte de la recta. El valor de la ordenada en y (a), se calcula reemplazando el valor de la pendiente y uno de los puntos en la ecuación. MODELOS DE REGRESIÓN Independientemente de este proceso, es necesario estudiar un método que se usa comúnmente para determinar el modelo de regresión lineal simple (incluso este es el que utilizan las computadoras para el análisis) que se llama MÉTODO DE LOS MÍNIMOS CUADRADOS. Este proceso se da porque de manera general no todos los puntos están sobre la recta. Para un especialista en estadística, la línea tendrá un “buen ajuste” si minimiza el error entre los puntos estimados en la recta y los puntos observados reales que se utilizaron para trazarla. MODELOS DE REGRESIÓN Para este método usamos lo que se llama línea de estimación, en donde 𝑌 se utiliza para simbolizar los valores individuales de los puntos estimados, esto es, aquellos puntos que están en la línea de estimación cuya ecuación es: MODELOS DE REGRESIÓN Para poder hallar los valores de a y b en esta ecuación se deberán utilizar las siguientes ecuaciones: MODELOS DE REGRESIÓN Donde: MODELOS DE REGRESIÓN Para saber que tan buena es nuestra aproximación, se utiliza el análisis de correlación, el mismo que nos indicará el grado en que la una variable está relacionada linealmente con la otra. Los estadísticos han desarrollado dos medidas para describir la correlación entre dos variables: el coeficiente de determinación y el coeficiente de correlación. El coeficiente de determinación es la principal forma en que podemos medir el grado, o fuerza, de la asociación que existe entre dos variables, X y Y. MODELOS DE REGRESIÓN Al coeficiente de determinación se lo denota como 𝑟 2 o 𝑅2 y su fórmula de cálculo es: MODELOS DE REGRESIÓN Es importante saber que el resultado del coeficiente de determinación oscila entre 0 y 1. Cuanto más cerca de 1 se sitúe su valor, mayor será el ajuste del modelo a la variable que estamos intentando explicar. De forma inversa, cuanto más cerca de cero, menos ajustado estará el modelo y, por tanto, menos fiable será. El coeficiente de correlación en cambio, se identifica como r y es igual a la raíz cuadrada del coeficiente de determinación: 𝑟 = 𝑟2 MODELOS DE REGRESIÓN r es más difícil de interpretar que 𝑟 2 . r representa el cómo x e y se encuentran relacionados, mientras que 𝑟 2 representa que porcentaje de la variación de Y está explicada por la recta de regresión. A continuación se presentan algunos ejemplos de la interpretación gráfica entre r y 𝑟 2 MODELOS DE REGRESIÓN El siguiente cuadro representa los datos obtenidos comparando los gastos incurridos en repuestos en función de la antigüedad de los camiones de una empresa constructora: MODELOS DE REGRESIÓN Se pide encontrar la ecuación de regresión lineal que represente a los mismos. Paso 1: Identificar las variables La variable independiente (x) es: antigüedad del camión. La variable dependiente (y) es: gastos en reparaciones. Paso 2: Identificar que ecuación necesitamos MODELOS DE REGRESIÓN Debemos encontrar los valores de a y b para la ecuación. Utilizaremos las ecuaciones que se describieron. A continuación se presentan los cálculos correspondientes: (n en este caso es 4) Cálculos hechos en Excel: MODELOS DE REGRESIÓN Realizando los reemplazos y cálculos correspondiente tenemos: 78 − 4(3)(6) 78 − 72 6 3 𝑏= = = = = 𝟎, 𝟕𝟓 2 44 − 4(3) 44 − 36 8 4 𝑎 = 6 − 0,75 3 = 6 − 2,25 = 𝟑, 𝟕𝟓 Entonces la ecuación de estimación para regresión lineal es: 𝒀 = 𝟑, 𝟕𝟓 + 𝟎, 𝟕𝟓𝑿 Esta ecuación nos permitirá predecir los valores que puede tener Y si se tiene algún valor de X considerado. MODELOS DE REGRESIÓN Podemos encontrar adicionalmente el valor de 𝑟 2 para lo cual también reemplazamos los datos que se han calculado adicionando el factor 𝑌 2 . Una vez encontrado este valor se podría manifestar si el modelo es el adecuado o no. Recuerde que mientras más se acerque a 1, más adecuado es el modelo lineal que se ha encontrado. MODELOS DE REGRESIÓN COVARIANZA: Una medida de la dependencia lineal es la covarianza. La covarianza es el valor que refleja en qué cuantía dos variables aleatorias varían de forma conjunta respecto a sus medias. Su fórmula es: 𝑛 𝑖 𝑥𝑖 − 𝑥 𝑦𝑖 − 𝑦 𝑐𝑜𝑣 𝑥, 𝑦 = 𝑛−1 donde n es el número de datos que dispone, 𝑥 es el valor promedio de la variable independiente e 𝑦 es el valor promedio de la variable dependiente. MODELOS DE REGRESIÓN • Si hay relación lineal positiva, la covarianza será positiva y grande. • Si hay relación lineal negativa, la covarianza será negativa y grande en valor absoluto. • Si hay no hay relación entre las variables o la relación es marcadamente no lineal, la covarianza será próxima a cero. PERO la covarianza depende de las unidades de medida de las variables, por lo que, no es comparable entre distintos pares de variables. MODELOS DE REGRESIÓN Para poder hacer comparaciones se estandariza la covarianza, generando lo que se conoce como coeficientes de correlación. Existen diferentes tipos, de entre los que destacan el coeficiente de Pearson, Rho de Spearman y Tau de Kendall. Las principales diferencias entre estos tres coeficientes de asociación son: • La correlación de Pearson funciona bien con variables cuantitativas que tienen una distribución normal. En el libro Handbook of Biological Statatistics se menciona que sigue siendo bastante robusto a pesar de la falta de normalidad. Es más sensible a los valores extremos que las otras dos alternativas. MODELOS DE REGRESIÓN • La correlación de Spearman se emplea cuando los datos son ordinales, de intervalo, o bien cuando no se satisface la condición de normalidad para variables continuas y los datos se pueden transformar a rangos. Es un método no paramétrico. • La correlación de Kendall es otra alternativa no paramétrica para el estudio de la correlación que trabaja con rangos. Se emplea cuando se dispone de pocos datos y muchos de ellos ocupan la misma posición en el rango, es decir, cuando hay muchas ligaduras. MODELOS DE REGRESIÓN • Correlación de Pearson: El coeficiente de correlación de Pearson es la covarianza estandarizada, y su ecuación difiere dependiendo de si se aplica a una muestra, Coeficiente de Pearson muestral (r), o si se aplica la población Coeficiente de Pearson poblacional (ρ). MODELOS DE REGRESIÓN Este coeficiente se usa cuando: • La relación que se quiere estudiar entre ambas variables es lineal (de lo contrario, el coeficiente de Pearson no la puede detectar). • Las dos variables deben de ser cuantitativas. Toma valores entre [-1, +1], siendo +1 una correlación lineal positiva perfecta y -1 una correlación lineal negativa perfecta. MUCHAS GRACIAS 26-07-2021