l MODELOS DE REGRESIÓN En muchos problemas existe una

Anuncio
Regresión y Correlación
El diagrama de dispersión
En la presente unidad, los métodos de los análisis de regresión y de correlación
serán aplicados a dos problemas. En el primero, suponga que al administrador de una
cadena de almacenes departamentales le gustaría desarrollar un modelo para predecir las
ventas semanales (en miles de pesos) de cada tienda. Se seleccionó una muestra de 20
almacenes de entre todos los que conforman la cadena. Al desarrollar el modelo, se
tomarían en consideración muchas variables explicatorias. Con fines pedagógicos, se
empieza el análisis con un modelo de regresión simple en el que solamente se utiliza una
variable explicatoria numérica para predecir los valores de una variable dependiente. Así
pues, se desarrolla un modelo para predecir las ventas semanales (la variable
dependiente Y) basándose
en el número de clientes (la variable explicatoria o
independiente, X). Los resultados correspondientes a una muestra de 20 almacenes se
resumen en la tabla a continuación. Tales datos, sin embargo, pueden presentarse de una
forma que es más explicable visualmente.
Almacenes Clientes Ofertas ($)
1
592
7,63
2
420
9,43
3
679
9,46
4
872
7,64
5
924
6,92
6
729
7,41
7
798
11,77
8
856
10,23
9
456
9,33
10
784
8,95
11
498
6,12
12
789
11,20
13
907
11,05
14
926
6,84
15
506
9,21
16
741
9,42
17
789
10,08
18
889
9,45
19
874
6,73
20
510
7,24
1
Regresión y Correlación
En el análisis de regresión que implica una variable dependiente y una variable
independiente, los valores individuales se representan en una gráfica bidimensional
conocida como diagrama de dispersión. Cada valor es graficado en 15 coordenadas
particulares, X y Y. El diagrama de dispersión correspondiente a los datos de la tabla se
muestra en la figura.
Un examen de la figura
nos indica que existe una relación
claramente creciente entre el número de clientes (X) y las ventas semanales (Y). A
medida que aumenta el número de clientes, se incrementa el volumen de ventas.
Figura 1
MODELOS DE REGRESIÓN
En muchos problemas existe una relación inherente entre dos o más variables, y
resulta necesario explorar la naturaleza de esta relación. El análisis de regresión es una
técnica estadística para el modelado y la investigación de la relación entre dos o más
variables Por ejemplo, en un proceso químico, supóngase que el rendimiento del producto
está relacionado con la temperatura de operación del proceso. El análisis de regresión
puede emplearse para construir un modelo que permita predecir el rendimiento para una
temperatura dada. Este modelo también puede utilizarse para la optimización del proceso,
tal como hallar la temperatura que maximiza el rendimiento, o para fines de control.
El análisis del diagrama de dispersión indica que, si bien una curva no pasa
exactamente por todos los puntos, existe una evidencia fuerte de que los puntos están
dispersos de manera aleatoria alrededor de una línea recta. Por consiguiente es
2
Regresión y Correlación
razonable suponer que la media de la variable aleatoria Y está relacionada con x por la
siguiente relación lineal:
E(Ylx) = μy/x = β0 + β1 x
donde la pendiente y la ordenada al origen de la recta reciben el nombre de coeficientes
de regresión. Si bien la media de Y es una función lineal de x, el valor real observado de y
no cae de manera exacta sobre la recta. La manera apropiada para generalizar este
hecho con un modelo probabilístico lineal es suponer que el valor esperado de Y es una
función lineal de x, pero que para un valor fijo de x el valor real de Y está determinado por
el valor medio de la función (el modelo lineal) más un término que representa un error
aleatorio, por ejemplo,
Y = β0 + β 1 x + ε
donde ε es el error aleatorio. Este modelo recibe el nombre de modelo de regresión lineal
simple, ya que solo tiene una variable jndependiente o regresor. En ocasiones, los
modelos de este tipo surgen de una relación teórica. En otras, no hay ningún
conocimiento teórico de la relación existente entre x y y, y la selección del modelo se basa
en el análisis del diagrama de dispersión, tal como se hizo con el volúmen de ventas. En
estos casos, el modelo de regresión se considera como un modelo empírico.
Para lograr una mayor familiaridad con este modelo, supóngase que es posible fijar
el valor de x y observar el valor de la variable aleatoria Y. Ahora bien, si x es fijo, el
componente aleatorio ε del miembro derecho del modelo dado por la primera ecuación
determina las propiedades de Y. Supóngase que la media y la varianza de ε son 0 y σ 2
respectivamente. Entonces,
E (Y|x) = E (β0 + β1 x + ε) = β0 + β1 x + E(ε) = β0 + β1 x
Nótese que ésta es la misma relación que se escribió al inicio, de manera empírica, a
partir del análisis del diagrama de dispersión de la figura. La varianza de y dado x es
V (Y|x) = V (β0 + β1 x + ε) = V (β0 + β1 x) + V(ε) = 0 + σ2 = σ2
3
Regresión y Correlación
Por tanto, el modelo de regresión verdadero μy/x = β0 + β1 x es una recta de valores
promedios, la altura de la recta de la regresión en cualquier valor de x es precisamente, el
valor esperado de y para dicha x. La pendiente β, puede interpretarse como el cambio en
la media de Y por unidad de cambio en x.
Por otra parte, la variabilidad de y en un valor particular de x está determinada por la
varianza del error σ2. Esto implica que existe una distribución de valores de y para cada x,
y que la varianza de esta distribución es la misma en cada x.
Por ejemplo, supóngase que el modelo de regresión verdadero que relaciona la
pureza del oxígeno con el nivel de hidrocarburos es μ y/x = 75 + 15x, y que la varianza es
σ2. La figura 2 ilustra esta situación. Nótese que se ha utilizado una distribución normal
para describir la variación aleatoria en ε. Puesto que Y es la suma de una constante β 0 +
β1 (la media) y una variable aleatoria distribuida de manera normal, Y es una variable
aleatoria con distribución normal. La varianza σ2 determina la variabilidad en las
observaciones y sobre la pureza del oxígeno. Por tanto, cuando σ2 es pequeño, los
valores observados de Y caen cerca de la línea, y cuando σ2 es grande, los valores
observados de Y pueden desviarse considerablemente de la línea. Dado que σ2 es
constante, la variabilidad en y para cualquier valor de x es la misma.
El modelo de regresión describe la relación entre la pureza del oxígeno Y y el nivel
de hidrocarburo x. Por consiguiente, para cualquier valor del nivel de hidrocarburo, la
pureza del oxígeno tiene una distribución normal con media 75 + 15x y varianza 2. Por
ejemplo, si x = 1.25, entonces Y tiene un valor promedio μy/x = 75 + 15(1.25) = 93.75 y
varianza2.
Figura 2
4
Regresión y Correlación
En muchos problemas reales, los valores de la ordenada al origen y la pendiente β0, β1 y
la varianza del error σ2 no se conocen, y deben estimarse a partir de datos muestrales. El
análisis de regresión es una colección de herramientas estadísticas para encontrar
estimaciones de los parámetros del modelo de regresión. Comúnmente, esta ecuación de
regresión ajustada o modelo se utiliza en la predicción de observaciones futuras de Y, o
para estimar la respuesta promedio para un nivel particular de x. Para ilustrar esto, es
probable que un ingeniero químico esté interesado en estimar la pureza promedio del
oxígeno producido cuando el nivel de hidrocarburo es x = 1.25%. Esta unidad presenta
procedimientos y aplicaciones para el modelo de regresión lineal simple.
REGRESIÓN LINEAL SIMPLE
El caso de la regresión lineal simple considera sólo un regresar o predictor x, y una
variable dependiente o respuesta Y. Supóngase que la verdadera relación entre Y y x es
una línea recta, y que la observación y en cada nivel x es una variable aleatoria. Tal como
ya se indicó, el valor esperado de y para cada valor de x es
E(Ylx) = β0 + β1 x
donde la ordenada al origen β0 y la pendiente β son los coeficientes desconocidos de la
regresión. Se supone que cada observación, Y, puede describirse por el modelo
Y = β0 + β 1 x + ε
donde ε es un error aleatorio con media cero y varianza σ 2 . También se supone que los
errores aleatorios que corresponden a observaciones diferentes son variables aleatorias
no correlacionadas.
Supóngase que se tienen n pares de observaciones (X1, y1)(X2, y2)...(Xn, yn). La
figura 3 contiene una representativa gráfica de dispersión de los datos observados y un
candidato para la recta de regresión. Las estimaciones de β0 y β1 deben dar como
resultado una línea que (en algún sentido) se "ajuste mejor" a los datos. El científico
alemán Karl Gauss propuso estimar los parámetros β 0 y β1 de la ecuación segunda de
modo que se minimice la suma de los cuadrados de las desviaciones verticales de la
figura 3.
5
Regresión y Correlación
Este criterio para estimar los coeficientes de regresión se conoce como método de
mínimos cuadrados. Al utilizar la ecuación segunda, es posible expresar las n
observaciones de la muestra como
Y = β0 + β1 x + ε
i = I, 2, ..., n
y la suma de los cuadrados de las desviaciones de las observaciones con respecto a la
recta de regresión es
n
L=∑
i=1
n
ε2
= ∑ (yi – β0 - β1 x)2
i=1
Figura 3
6
Regresión y Correlación
Descargar