Subido por María Fernanda Salgado Lombeida

Tema 6

Anuncio
TEMA 6: MODELOS DE REGRESIÓN:
REGRESIÓN LINEAL SIMPLE
MA. ISABEL CHÁVEZ CASTRO
CONTENIDO GENERAL
• Introducción
• Diagrama de dispersión:
• Ecuación de regresión lineal simple:
cálculo de las coeficientes lineales
(método de los mínimos cuadrados)
• Covarianza: Fórmula y análisis
MODELOS DE REGRESIÓN
Todos los días, se deben tomar decisiones personales
y profesionales basadas en predicciones de sucesos
que pueden darse en el futuro. Para hacer estos
pronósticos, se basan en la relación (intuitiva y
calculada) entre lo que ya se sabe y lo que se debe
estimar.
Si los responsables de la toma de decisiones pueden
determinar cómo lo conocido se relaciona con el
evento futuro, pueden ayudar considerablemente al
proceso de toma de decisiones. Ése es el objetivo de
este tema: cómo determinar la relación entre
variables.
MODELOS DE REGRESIÓN
«Los análisis de regresión y correlación nos mostrarán
cómo determinar tanto la naturaleza como la fuerza
de una relación entre dos variables».
De esta forma, se aprende a pronosticar, con cierta
precisión, el valor de una variable desconocida
basándonos en observaciones anteriores de ésa y
otras variables.
En el análisis de regresión, se desarrolla una
ecuación de estimación, esto es, una fórmula
matemática que relaciona las variables conocidas
con la variable desconocida.
MODELOS DE REGRESIÓN
Una vez que se conoce el patrón de esta relación,
podremos aplicar el análisis de correlación para
determinar el grado en el que las variables se
relacionan.
El análisis de correlación por lo tanto nos indica qué tan
bien la ecuación de estimación describe realmente la
relación.
a) Tipos de relaciones
Los análisis de regresión y de correlación se basan en
la relación, o asociación, entre dos (o más) variables.
La variable (o variables) conocida(s) se llaman
variable(s) independiente(s); la que tratamos de
predecir es la variable dependiente.
MODELOS DE REGRESIÓN
El gráfico a continuación nos muestra los tipos de
relación que podrían darse entre la variables
dependientes e independientes.
De manera
general X es la variable independiente e Y es la
variable dependiente.
MODELOS DE REGRESIÓN
b) Diagramas de Dispersión:
El primer paso para determinar si existe una relación entre
dos variables es examinar la gráfica de los datos
observados (o conocidos).
Esta gráfica, o dibujo, se llama diagrama de dispersión.
Un diagrama de dispersión nos puede dar dos tipos de
información:
• Visualmente, podemos identificar patrones que
indiquen que las variables están relacionadas.
• Si esto sucede, podemos ver qué tipo de línea, o
ecuación de estimación, describe esta relación.
MODELOS DE REGRESIÓN
El diagrama de dispersión se representa utilizando
puntos, los tipos de diagramas de puntos se describe
en el gráfico siguiente:
MODELOS DE REGRESIÓN
Como se puede observar, en los diagramas de dispersión
(que suelen llamarse también gráfico de correlación),
ambas variables se representan como un punto en el
plano cartesiano (plano x-y).
Con base al comportamiento de las variables se pueden
definir tres tipos de correlación:
a) Positiva: Se presenta cuando una variable aumenta o
disminuye y la otra también, respectivamente. Hay
una relación proporcional.
b) Negativa:
Se presenta cuando una variable se
comporta de forma contraria o a la otra, es decir que
si una variable aumenta, la otra disminuye. Hay una
relación inversa proporcional
MODELOS DE REGRESIÓN
c) Nula: Si no encuentras un comportamiento entre las
variables, existe una correlación nula.
Desde otra perspectiva, existe otra clasificación para
determinar la correlación estadística entre dos variables.
• Sin correlación: La misma correlación nula
• Fuerte correlación positiva: Cuando el valor de una
variable se incrementa o disminuye con una relación
muy similar a la otra variable.
• Débil correlación positiva: Cuando el valor de una
variable se incrementa o disminuye en menor relación a
la otra variable, por ejemplo, que el valor de x se
incremente ligeramente al incrementar el valor de y.
MODELOS DE REGRESIÓN
• Fuerte correlación negativa: Cuando el valor de
una variable aumenta claramente en relación a
una disminución de la otra variable.
• Débil correlación negativa: Cuando el valor de una
variable aumenta levemente en relación a
la disminución de la otra variable.
• Relación compleja: Parece haber algún tipo de
relación entre ambas variables, pero no es muy
evidente tornando la detección de la relación
compleja.
MODELOS DE REGRESIÓN
Para realizar un gráfico de dispersión, deberíamos tomar
los siguientes pasos:
• Paso 1: Determinar cuál es la situación. Si no se entiende
qué es lo que esta ocurriendo, no se puede establecer
las variables a estudiar.
• Paso 2: Determinar las variables a estudiar. Si se
determinó las variables a estudiar, es porque se
considera que puede existir una relación entre ellas que
permita caracterizar la situación.
• Paso 3: Recolectar los datos de las variables: Si ya se
proporciona, perfecto. Si no, definimos un período de
tiempo para conseguir los datos de las variables antes
definidas. Hay que recordar que los datos de las dos
variables deben estar dados en el mismo período de
tiempo.
MODELOS DE REGRESIÓN
Paso 4: Ubicar los valores en el eje respectivo. Por lo
general, la variable independiente es aquella que no
está influenciada por la otra y se ubica en el eje x. La
variable dependiente que es la que se ve afectada
por la otra variable se ubica en el eje y. Así pues,
procedemos a ubicar los valores en el plano
cartesiano de acuerdo a su variable (x, y)
El diagrama de dispersión es una de las siete
herramientas básicas en los procesos de calidad y es
quizás uno de los primeros gráficos que se aprenden
de primero en la formación estadística.
MODELOS DE REGRESIÓN
c) Estimación mediante la recta de regresión:
En los diagramas de dispersión que se presentaron se
puede observar las llamadas líneas de regresión que se
logran ajustando las líneas visualmente entre los puntos
de datos. Lo que se quiere realmente es aprender a
calcular la línea de regresión de manera más precisa,
usando una ecuación que relaciona las dos variables
matemáticamente.
En el presente tema se abarca únicamente relaciones
lineales entre dos variables, es decir, la representación
de la ecuación para una línea recta donde la variable
dependiente Y está determinada por la variable
independiente X. De allí que se habla de regresión
lineal simple.
MODELOS DE REGRESIÓN
La ecuación de la recta viene dada de la siguiente
manera:
MODELOS DE REGRESIÓN
Para poder encontrar esta
ecuación se debe tener al
menos dos puntos que
forman parte de la recta.
La
pendiente
(b)
se
calcula
usando
la
ecuación:
Donde (X1, Y1) y (X2, Y2)
son dos puntos que
forman parte de la
recta.
El valor de la ordenada
en y (a), se calcula
reemplazando el valor
de la pendiente y uno
de los puntos en la
ecuación.
MODELOS DE REGRESIÓN
Independientemente de este proceso, es necesario
estudiar un método que se usa comúnmente para
determinar el modelo de regresión lineal simple
(incluso este es el que utilizan las computadoras para
el análisis) que se llama MÉTODO DE LOS MÍNIMOS
CUADRADOS.
Este proceso se da porque de manera general no
todos los puntos están sobre la recta.
Para un especialista en estadística, la línea tendrá un
“buen ajuste” si minimiza el error entre los puntos
estimados en la recta y los puntos observados reales
que se utilizaron para trazarla.
MODELOS DE REGRESIÓN
Para este método usamos lo que se llama línea de
estimación, en donde 𝑌 se utiliza para simbolizar los
valores individuales de los puntos estimados, esto es,
aquellos puntos que están en la línea de estimación
cuya ecuación es:
MODELOS DE REGRESIÓN
Para poder hallar los valores de a y b en esta
ecuación se deberán utilizar las siguientes
ecuaciones:
MODELOS DE REGRESIÓN
Donde:
MODELOS DE REGRESIÓN
Para saber que tan buena es nuestra aproximación,
se utiliza el análisis de correlación, el mismo que nos
indicará el grado en que la una variable está
relacionada linealmente con la otra.
Los estadísticos han desarrollado dos medidas para
describir la correlación entre dos variables: el
coeficiente de determinación y el coeficiente de
correlación.
El coeficiente de determinación es la principal forma
en que podemos medir el grado, o fuerza, de la
asociación que existe entre dos variables, X y Y.
MODELOS DE REGRESIÓN
Al coeficiente de determinación se lo denota como
𝑟 2 o 𝑅2 y su fórmula de cálculo es:
MODELOS DE REGRESIÓN
Es importante saber que el resultado del coeficiente
de determinación oscila entre 0 y 1.
Cuanto más cerca de 1 se sitúe su valor, mayor será
el ajuste del modelo a la variable que estamos
intentando explicar. De forma inversa, cuanto más
cerca de cero, menos ajustado estará el modelo y,
por tanto, menos fiable será.
El coeficiente de correlación en cambio, se identifica
como r y es igual a la raíz cuadrada del coeficiente
de determinación:
𝑟 = 𝑟2
MODELOS DE REGRESIÓN
r es más difícil de
interpretar que 𝑟 2 .
r representa el cómo x e
y
se
encuentran
relacionados,
mientras
que 𝑟 2 representa que
porcentaje
de
la
variación de Y está
explicada por la recta
de regresión.
A
continuación
se
presentan
algunos
ejemplos
de
la
interpretación
gráfica
entre r y 𝑟 2
MODELOS DE REGRESIÓN
El siguiente cuadro representa los datos obtenidos
comparando los gastos incurridos en repuestos en
función de la antigüedad de los camiones de una
empresa constructora:
MODELOS DE REGRESIÓN
Se pide encontrar la ecuación de regresión lineal
que represente a los mismos.
Paso 1: Identificar las variables
La variable independiente (x) es: antigüedad del
camión.
La variable dependiente (y) es:
gastos en
reparaciones.
Paso 2: Identificar que ecuación necesitamos
MODELOS DE REGRESIÓN
Debemos encontrar los
valores de a y b para la
ecuación.
Utilizaremos
las ecuaciones que se
describieron.
A
continuación
se
presentan los cálculos
correspondientes: (n en
este caso es 4)
Cálculos hechos en Excel:
MODELOS DE REGRESIÓN
Realizando
los
reemplazos
y
cálculos
correspondiente tenemos:
78 − 4(3)(6) 78 − 72 6 3
𝑏=
=
= = = 𝟎, 𝟕𝟓
2
44 − 4(3)
44 − 36 8 4
𝑎 = 6 − 0,75 3 = 6 − 2,25 = 𝟑, 𝟕𝟓
Entonces la ecuación de estimación para regresión
lineal es:
𝒀 = 𝟑, 𝟕𝟓 + 𝟎, 𝟕𝟓𝑿
Esta ecuación nos permitirá predecir los valores que
puede tener Y si se tiene algún valor de X
considerado.
MODELOS DE REGRESIÓN
Podemos encontrar adicionalmente el valor
de 𝑟 2 para lo cual también reemplazamos los
datos que se han calculado adicionando el
factor 𝑌 2 .
Una vez encontrado este valor se podría
manifestar si el modelo es el adecuado o no.
Recuerde que mientras más se acerque a 1,
más adecuado es el modelo lineal que se ha
encontrado.
MODELOS DE REGRESIÓN
COVARIANZA: Una medida de la dependencia
lineal es la covarianza.
La covarianza es el valor que refleja en qué cuantía
dos variables aleatorias varían de forma conjunta
respecto a sus medias.
Su fórmula es:
𝑛
𝑖 𝑥𝑖 − 𝑥 𝑦𝑖 − 𝑦
𝑐𝑜𝑣 𝑥, 𝑦 =
𝑛−1
donde n es el número de datos que dispone, 𝑥 es el
valor promedio de la variable independiente e 𝑦 es
el valor promedio de la variable dependiente.
MODELOS DE REGRESIÓN
• Si hay relación lineal positiva, la covarianza será
positiva y grande.
• Si hay relación lineal negativa, la covarianza será
negativa y grande en valor absoluto.
• Si hay no hay relación entre las variables o la
relación es marcadamente no lineal, la covarianza
será próxima a cero.
PERO la covarianza depende de las unidades de
medida de las variables, por lo que, no es
comparable entre distintos pares de variables.
MODELOS DE REGRESIÓN
Para poder hacer comparaciones se estandariza la
covarianza,
generando
lo
que
se
conoce
como coeficientes de correlación.
Existen diferentes tipos, de entre los que destacan
el coeficiente de Pearson, Rho de Spearman y Tau de
Kendall.
Las principales diferencias entre estos tres coeficientes de
asociación son:
• La correlación de Pearson funciona bien con variables
cuantitativas que tienen una distribución normal. En el
libro Handbook of Biological Statatistics se menciona
que sigue siendo bastante robusto a pesar de la falta de
normalidad. Es más sensible a los valores extremos que
las otras dos alternativas.
MODELOS DE REGRESIÓN
• La correlación de Spearman se emplea cuando los
datos son ordinales, de intervalo, o bien cuando no
se satisface la condición de normalidad para
variables continuas y los datos se pueden
transformar a rangos. Es un método no
paramétrico.
• La correlación de Kendall es otra alternativa no
paramétrica para el estudio de la correlación que
trabaja con rangos. Se emplea cuando se dispone
de pocos datos y muchos de ellos ocupan la
misma posición en el rango, es decir, cuando hay
muchas ligaduras.
MODELOS DE REGRESIÓN
• Correlación de Pearson:
El coeficiente de correlación de Pearson es la
covarianza estandarizada, y su ecuación difiere
dependiendo
de
si
se
aplica
a
una
muestra, Coeficiente de Pearson muestral (r), o si se
aplica la población Coeficiente de Pearson
poblacional (ρ).
MODELOS DE REGRESIÓN
Este coeficiente se usa cuando:
• La relación que se quiere estudiar entre ambas
variables es lineal (de lo contrario, el coeficiente de
Pearson no la puede detectar).
• Las dos variables deben de ser cuantitativas.
Toma valores entre [-1, +1], siendo +1 una correlación
lineal positiva perfecta y -1 una correlación lineal
negativa perfecta.
MUCHAS GRACIAS
26-07-2021
Descargar