Regresión simple

Anuncio
MODELO DE REGRESIÓN SIMPLE
Julián de la Horra
Departamento de Matemáticas U.A.M.
1
Introducción
Los modelos de regresión sirven, en general, para tratar de expresar una variable respuesta (numérica) en función de una o más variables explicativas (también
numéricas). En este tema, vamos a abordar el modelo más sencillo: el modelo de regresión simple en el que consideramos una única variable explicativa. Este modelo es
especialmente interesante por motivos pedagógicos, ya que permite abordar muchos
de los aspectos interesantes de la regresión con una notación y una metodologı́a relativamente sencillas. En concreto, dedicaremos la mayor parte del tiempo al modelo
de regresión lineal simple.
Ejemplos
Podemos estar interesados en expresar el peso de las personas en función de su
estatura.
Podemos estar interesados en expresar el peso de los ejemplares de cierta especie
de aves en función de su envergadura.
Podemos estar interesados en expresar el nivel de cierto contaminante en función
de la densidad industrial.
2
Modelo. Hipótesis del modelo
Disponemos de los siguientes elementos para el estudio estadı́stico:
En primer lugar, una variable respuesta (o dependiente), Y , que será una variable
numérica (o cuantitativa): es la variable que se quiere analizar. Formalmente, será
una variable aleatoria de tipo continuo.
En segundo lugar, una variable explicativa (o independiente), X, que será una
variable numérica (o cuantitativa). Recuérdese que los factores en el modelo de
diseño de experimentos eran siempre variables cualitativas.
En tercer lugar, necesitamos datos. Supondremos que disponemos de n pares de
datos:
(x1 , y1 )..., (xi , yi ), ..., (xn , yn )
Obsérvese que aquı́ es absolutamente necesario que los datos vayan emparejados,
es decir, que (xi , yi ) representa los valores de X e Y en el i-ésimo individuo o unidad
muestral.
El modelo de regresión lineal simple es de la siguiente forma:
Yi = β0 + β1 xi + ui
para i = 1, ..., n
Significado de los parámetros:
β0 = Valor medio de la variable respuesta cuando X = 0.
Muy a menudo, el parámetro β0 no tiene una interpretación intuitiva de interés.
1
β1 = Mide la variación media que experimenta la variable respuesta cuando X
aumenta una unidad.
La interpretación intuitiva de β1 siempre es muy interesante.
ui = Término de error = Efecto adicional debido a otras variables que no se
incluyen en el modelo por no ser consideradas relevantes.
Para poder obtener y utilizar herramientas estadı́sticas que nos permitan tomar
decisiones objetivas y razonadas, necesitamos que el modelo se ajuste a unas determinadas hipótesis. Estas hipótesis iniciales del modelo son las siguientes:
Normalidad: Las observaciones Yi siguen una distribución Normal,
Linealidad: Los valores medios de la variable respuesta dependen linealmente del
valor de X: E[Yi ] = β0 + β1 xi ,
Homogeneidad o igualdad de varianzas (homocedasticidad): V (Yi ) = σ 2 ,
Las observaciones son independientes.
Todas estas hipótesis se pueden expresar abreviadamente de la siguiente forma:
Yi ∼ N (β0 + β1 xi ; σ 2 ) independientes.
Es importante que estas hipótesis iniciales del modelo se cumplan (aproximadamente) para que las conclusiones que obtengamos no sean una barbaridad.
Llegados a este punto, se puede abordar la cuestión de si tenemos suficientes
datos (suficiente información muestral) para abordar el análisis estadı́stico de este
modelo. La regla básica para responder a esto es muy fácil de recordar (y de entender): en general, necesitaremos al menos tantos datos como parámetros queremos
estimar en el modelo. En este modelo, tenemos:
Número de datos= n
Número de parámetros= 3
Por lo tanto, necesitamos, al menos, n = 3 pares de datos.
3
Metodologı́a
La metodologı́a o plan de trabajo que seguiremos en el análisis estadı́stico de un
modelo de regresión simple es el siguiente:
(1) Diagnosis de las hipótesis del modelo.
Se llevará a cabo mediante un análisis de los residuos. Si las hipótesis iniciales
(Normalidad, Linealidad y Homocedasticidad) no se cumplen ni siquiera aproximadamente, habrı́a que replantearse el modelo de alguna forma. En muchos casos,
una transformación de los datos (por ejemplo, trabajando con sus logaritmos neperianos) soluciona el problema.
Al final del capı́tulo, se indicarán las herramientas estadı́sticas que se pueden
utilizar para llevar a cabo la diagnosis de las hipótesis del modelo.
2
(2) Estimación puntual de los parámetros del modelo.
(3) Intervalos de confianza para estimar los parámetros del modelo.
(4) Contraste de la regresión.
El contraste de la regresión dará respuesta a la pregunta más importante que
nos planteamos en un modelo de regresión lineal simple:
¿Encontramos diferencias significativas en los valores medios de la variable respuesta para diferentes valores de X? O dicho de otra manera, ¿la variable explicativa tiene una influencia relevante sobre la variable respuesta?
(5) Evaluación del ajuste proporcionado por la recta de regresión.
(6) Estimación de valores medios e individuales de la variable respuesta.
Observación: Para llevar a cabo todo este plan de trabajo, necesitaremos solamente el cálculo de los siguientes estadı́sticos:
Media muestral de X: x̄ =
1
n
Pn
xi
Media muestral de Y : ȳ =
1
n
Pn
yi
Varianza muestral de X: vx =
1
n
Pn
− x̄)2 =
Varianza muestral de Y : vy =
1
n
Pn
− ȳ)2 =
i=1
i=1
i=1 (xi
i=1 (yi
1
n
1
n
Pn
(
i=1
Pn
(
i=1
x2i − nx̄2 )
yi2 − nȳ 2 )
Covarianza muestral entre X e Y :
P
P
covx,y = n1 ni=1 (xi − x̄)(yi − ȳ) = n1 ( ni=1 xi yi − nx̄ȳ)
4
Estimación puntual de los parámetros
La metodologı́a estadı́stica para obtener estimadores puntuales de los parámetros es
la siguiente:
Se aplica el método de máxima verosimilitud, y el estimador obtenido se corrige
(en caso necesario) para que sea insesgado.
Con este procedimiento, se obtienen las siguientes estimaciones:
β̂0 = ȳ −
β̂1 =
covx,y
x̄
vx
covx,y
vx
σ̂ 2 = SR2 =
1 X
1 X
(yi − ŷi )2 =
(yi − β̂0 − β̂1 xi )2
n−2 i
n−2 i
Las estimaciones de β0 y β1 que obtenemos por máxima verosimilitud coinciden
con las estimaciones que se obtienen mediante la técnica de mı́nimos cuadrados
utilizada en Estadı́stica Descriptiva. Por lo tanto, los coeficientes de la recta de
regresión se pueden obtener tanto por máxima verosimilitud como por mı́nimos
3
cuadrados:
y = β̂0 + β̂1 x = ȳ −
covx,y
covx,y
x̄ +
x
vx
vx
⇒
y − ȳ =
covx,y
(x − x̄)
vx
El estimador de σ 2 , SR2 , recibe habitualmente el nombre de varianza residual y
merece algún comentario adicional. El nombre de varianza residual obedece a que
es una varianza que calculamos a partir de los residuos de cada dato. El residuo
de cada dato depende del modelo estadı́stico que estemos utilizando, pero responde
siempre a la misma filosofı́a:
“Residuo” = “Valor observado” - “Estimación del valor esperado”
= yi − ŷi = yi − β̂0 − β̂1 xi
5
Intervalos de confianza
Los estimadores puntuales son muy interesantes, pero son demasiado rı́gidos. Cuando
decimos que estimamos que el parámetro β1 vale, por ejemplo, 1,15, lo que estamos
diciendo en realidad es que pensamos que vale, aproximadamente, 1,15. La forma
en que los métodos estadı́sticos cuantifican este “aproximadamente” de forma automática y objetiva es a través de los intervalos de confianza.
A continuación, damos los intervalos de confianza que se obtienen, aplicando el
método de la cantidad pivotal, para estimar los diferentes parámetros involucrados
en este modelo:

x̄2  1
+
= β̂0 ± tn−2;α/2 (error tı́pico de β̂0 )
n nvx
s
1
nvx
IC1−α (β0 ) = β̂0 ± tn−2;α/2 SR
IC1−α (β1 ) =
β̂1 ± tn−2;α/2 SR


s
!
= β̂1 ± tn−2;α/2 (error tı́pico de β̂1 )

(n − 2)SR2 (n − 2)SR2 
IC1−α (σ ) =  2
;
χn−2;α/2 χ2n−2;1−α/2
2
A continuación, hacemos algunos comentarios sobre el intervalo obtenido para
estimar β1 , que es el parámetro más interesante:
(a) Cuando aumentamos el nivel de confianza 1−α (es decir, cuando aumentamos
la probabilidad de que la estimación sea “buena”), tn−2;α/2 aumenta, y la amplitud
del intervalo también aumenta (es decir, nuestra estimación se hace “menos precisa”).
(b) Cuando aumentamos el tamaño de la muestra n, la amplitud del intervalo
disminuye (es decir, nuestra estimación se hace “más precisa”).
(c) Cuando aumentamos la varianza vx correspondiente a los datos de la variable
explicativa, la amplitud del intervalo disminuye (es decir, nuestra estimación se hace
“más precisa”). Por este motivo, conviene diseñar el experimento de modo que los
valores de X que obtenemos estén lo más separados posibles, siempre que esto sea
posible.
4
6
Constraste de la regresión
En el modelo de regresión lineal simple, la cuestión más importante a la que hay
que responder es la siguiente:
¿Disponemos de suficiente evidencia muestral para afirmar que X tiene una influencia significativa sobre Y ? O dicho de otra manera, ¿disponemos de suficiente
evidencia muestral para asegurar que X es realmente una variable explicativa?
Teniendo en cuenta que la posible influencia de X desaparecerı́a si su coeficiente
β1 se anulase, esto nos lleva a elegir entre las posibilidades β1 = 0 y β1 6= 0 y, por
tanto, al siguiente contraste de hipótesis:
H0 : β1 = 0 (X no influye)
H1 : β1 6= 0 (X sı́ influye)
Este contraste de hipótesis suele recibir el nombre de contraste de la regresión.
Elegiremos, como siempre, un nivel de significación α para tomar una decisión al
final del estudio. Esta decisión la podemos tomar de dos formas:
(a) Podemos utilizar el intervalo de confianza IC1−α (β1 ) que hemos estudiado
en la sección anterior.
Si el valor cero está contenido en IC1−α (β1 ), aceptaremos H0 , y concluiremos
que no hay suficiente evidencia estadı́stica para afirmar que X influye sobre Y .
Si por el contrario, el valor cero no está contenido en IC1−α (β1 ), rechazaremos
H0 , y concluiremos que X tiene una influencia significativa sobre Y .
(b) También podemos utilizar el Análisis de la Varianza (ANOVA), que vuelve
a tener una gran importancia en el modelo de regresión lineal. Se puede utilizar,
como veremos a continuación, en el modelo de regresión lineal simple, pero alcanza
toda su importancia en el modelo de regresión lineal múltiple.
La descomposición de la variabilidad o análisis de la varianza en el caso del
modelo de regresión lineal simple es de la siguiente forma:
“Variabilidad total de los datos”= SCT= i (yi − ȳ)2
P
P
P
= i (yi − ŷi + ŷi − ȳ)2 = i (ŷi − ȳ)2 + i (yi − ŷi )2
= SCE + SCR
P
En la regresión lineal, la variabilidad total se descompone siempre en dos partes,
tanto en la simple como en la múltiple:
SCE =
modelo).
P
SCR =
P
i (ŷi
− ȳ)2 que es la variabilidad asociada al modelo (o explicada por el
2
i (yi − ŷi )
que es la variabilidad residual (o no explicada por el modelo).
La decisión de aceptar o rechazar H0 se va a tomar en base al estadı́stico que se
obtiene a partir de este análisis de la varianza:
F =
SCE/1
SCR/(n − 2)
5
Este estadı́stico tiene una distribucion F1;n−2 (bajo H0 ) y, por tanto, la la regla
de decisión es de la siguiente forma:
Rechazaremos H0 , al nivel de significación α, cuando
F =
SCE/1
> F1;n−2;α
SCR/(n − 2)
También podemos alcanzar una decisión razonando con el p-valor de los datos.
La manera más sencilla de “interpretar” y utilizar el p-valor es entendiendo el p-valor
como el “apoyo que los datos dan a H0 ”. De este modo:
Si el p-valor< α, el apoyo a H0 es insuficiente, y rechazaremos H0 (al nivel de
significación α).
Si el p-valor> α, el apoyo a H0 es suficiente, y aceptaremos H0 (al nivel de
significación α).
Por supuesto, obtendremos la misma decisión, tanto si trabajamos con el estadı́stico F como si trabajamos con el p-valor.
Es tradicional, y ası́ lo podemos ver en libros y salidas de ordenador, organizar
los cálculos correspondientes a un análisis de la varianza en una tabla ANOVA, que
suele ser del siguiente tipo:
Estadı́stico
Sumas de cuadrados G.l. Med. cuad.
P
SCE/1
SCE
2
SCE = i (ŷi − ȳ)
1
F = SCR/(n−2)
1
P
SCR
SCR = i (yi − ŷi )2 n − 2
n−2
P
SCT = i (yi − ȳ)2 n − 1
Finalmente, hay que señalar que la decisión que alcancemos sobre el contraste
de hipótesis
H0 : β1 = 0
H1 : β1 6= 0
siempre será la misma (una vez fijado el nivel de significación), tanto si trabajamos
con el intervalo de confianza IC1−α (β1 ), como si trabajamos con el análisis de la
varianza, ya que es sencillo probar que los contrastes obtenidos son equivalentes.
Una vez estudiado todo esto, es importante hacer un par de comentarios:
(a) En la regresión lineal múltiple, el intervalo de confianza IC1−α (β1 ) servirá
para una cosa, y la tabla ANOVA para otra. Por eso, se explican las dos técnicas
estadı́sticas.
(b) En la regresión lineal múltiple es cuando será especialmente importante determinar si una variable explicativa tiene una influencia significativa o no sobre la
variable respuesta. El motivo es sencillo: en principio, introducimos en el modelo
varias presuntas variables explicativas y, posteriormente, los datos se encargarán de
decirnos cuáles son realmente relevantes.
6
7
Evaluación del ajuste
A partir de los datos (x1 , y1 )..., (xi , yi ), ..., (xn , yn ), podemos obtener siempre la recta
de regresión:
y = β̂0 + β̂1 x
Esta recta, en algunos casos se ajustará muy bien a los pares de datos que
tenemos, y en otros casos se ajustará peor. Cuando el ajuste sea bueno, tendremos
una cierta seguridad de que esa recta representa razonablemente bien la relación
entre X e Y .
Por supuesto, siempre se puede y se debe echar un vistazo al diagrama de dispersión de Y sobre X, donde añadiremos la recta de regresión estimada, y esta
inspección visual nos dará mucha información sobre la situación. Pero también es
útil disponer de alguna medida numérica que nos evalúe, de manera sencilla, si el
ajuste es bueno o no. Para hacer ésto, disponemos de dos posibles herramientas:
Coeficiente de correlación lineal.- Este coeficiente procede de la Estadı́stica
Descriptiva y está basado en el error cuadrático medio que se comete al sustituir la
nube de puntos por la recta de regresión:
n
covx,y
covx,y
1X
yi − ȳ +
x̄ −
xi
E.C.M. =
n i=1
vx
vx
2
n
n
n
1 X
covx,y 2 X
covx,y X
2
2
=
(yi − ȳ) +
(xi − x̄) − 2
(xi − x̄)(yi − ȳ)
n i=1
vx
vx i=1
i=1
!
(covx,y )2
(covx,y )2
= vy −
= vy 1 −
vx
vx vy
"
#
El cociente que aparece en la última expresión motiva la definición del coeficiente de correlación lineal entre X e Y :
covx,y
“Coeficiente de correlación lineal” = r = √
vx vy
Por lo tanto, el error cuadrático medio cometido con la recta de regresión puede
escribirse también de la siguiente manera:
E.C.M. = vy (1 − r2 )
El coeficiente de correlacion muestral toma siempre un valor entre -1 y 1 (ya
que el E.C.M., al ser una suma de cuadrados, no puede ser negativo). Es fácil dar
algunas pautas para interpretar el valor de r:
¶Si r está próximo a +1, el E.C.M. es pequeño, lo cual significa que el ajuste
es bueno. Además, al ser la covx,y positiva, la pendiente de la recta de regresión es
positiva, y se dice que existe una asociación positiva entre X e Y .
¶Si r está próximo a -1, el E.C.M. es pequeño, lo cual significa que el ajuste es
bueno. Además, al ser la covx,y negativa, la pendiente de la recta de regresión es
negativa, y se dice que existe una asociación negativa entre X e Y .
¶Si r toma valores próximos a cero, el E.C.M. es mayor, indicando un mal ajuste.
7
Coeficiente de determinación.- El concepto de coeficiente de determinación procede del Analisis de la Varianza y tiene una definición y una interpretación muy sencillas:
SCE
SCT
El coeficiente de determinación toma siempre un valor entre 0 y 1, y su significado
es obvio: R2 mide la proporción de variabilidad explicada por el modelo.
Las pautas para interpretar el valor de R2 también son obvias:
“Coeficiente de determinación” = R2 =
¶Cuando R2 toma un valor próximo a cero, la proporción de variabilidad explicada por el modelo es pequeña, y el ajuste es malo.
¶Cuando R2 toma un valor próximo a uno, la proporción de variabilidad explicada por el modelo es grande, y el ajuste es bueno.
Hay que insistir en la idea de que, tanto el coeficiente de correlación lineal como
el coeficiente de determinación, siempre hay que considerarlos con cuidado, ya que
están resumiendo toda una nube de puntos en un solo número.
Es conveniente hacer un par de observaciones sobre estos coeficientes:
¶En la regresión lineal simple, podemos utilizar indistintamente el coeficiente de
correlación lineal o el coeficiente de determinación, ya que existe una relación muy
estrecha entre ambos:
R2 = r 2
¶En la regresión lineal múltiple, sin embargo, el único coeficiente que tiene sentido para evaluar el ajuste del modelo es el coeficiente de determinación.
8
Estimación de valores medios e individuales de
la variable respuesta
En esta sección, abordamos dos problemas muy relacionados pero no exactamente
iguales:
Valores medios de la variable respuesta.- En muchas situaciones, es muy
interesante saber estimar (o predecir o pronosticar) el valor medio que tendrá la
variable respuesta Y para todos aquellos casos o individuos en la población para los
cuales X = x0 .
Si nos conformamos con una estimación puntual, la respuesta es muy sencilla,
ya que basta con utilizar la recta de regresión:
ŷ0 = β̂0 + β̂1 x0
Por el contrario, si deseamos hacer una estimación con un nivel de confianza
1 − α, recurriremos a un intervalo de confianza que, en este caso, es de la forma:
8

s
IC1−α (Valor medio de Y ) = ŷ0 ± tn−2;α/2 SR

1 (x0 − x̄)2 
+
n
nvx
Sobre este intervalo se pueden hacer algunas observaciones interesantes:
(a) Cuando aumentamos el nivel de confianza 1−α (es decir, cuando aumentamos
la probabilidad de que la estimación sea “buena”), tn−2;α/2 aumenta, y la amplitud
del intervalo también aumenta (es decir, nuestra estimación se hace “menos precisa”).
(b) Cuando aumentamos el tamaño de la muestra n, la amplitud del intervalo
disminuye (es decir, nuestra estimación se hace “más precisa”).
(c) Cuando aumentamos la varianza vx correspondiente a los datos de la variable
explicativa, la amplitud del intervalo disminuye (es decir, nuestra estimación se hace
“más precisa”). Por este motivo, conviene diseñar el experimento de modo que los
valores de X que obtenemos estén lo más separados posibles, siempre que esto sea
posible.
(d) Cuando x0 se aleja de x̄, la amplitud del intervalo aumenta (es decir, nuestra
estimación se hace “menos precisa”). Por lo tanto, las estimaciones del valor medio
de Y son “más precisas” para valores cercanos a la media muestral de X.
Valores individuales de la variable respuesta.- En muchas situaciones, es
muy interesante saber estimar (o predecir o pronosticar) el valor individual que
tendrá la variable respuesta Y para un nuevo caso o individuo para el cual X = x0 .
Si nos conformamos con una estimación puntual, la respuesta es muy sencilla,
ya que basta con utilizar la recta de regresión:
ŷ0 = β̂0 + β̂1 x0
Por el contrario, si deseamos hacer una estimación con un nivel de confianza
1 − α, recurriremos a un intervalo de confianza que, en este caso, es de la forma:

s
IC1−α (Valor individual de Y ) = ŷ0 ± tn−2;α/2 SR 1 +
x̄)2
1 (x0 −
+
n
nvx


Sobre este intervalo se pueden hacer algunas observaciones interesantes:
(a) Cuando aumentamos el nivel de confianza 1−α (es decir, cuando aumentamos
la probabilidad de que la estimación sea “buena”), tn−2;α/2 aumenta, y la amplitud
del intervalo también aumenta (es decir, nuestra estimación se hace “menos precisa”).
(b) Cuando aumentamos el tamaño de la muestra n, la amplitud del intervalo
disminuye (es decir, nuestra estimación se hace “más precisa”).
9
(c) Cuando aumentamos la varianza vx correspondiente a los datos de la variable
explicativa, la amplitud del intervalo disminuye (es decir, nuestra estimación se hace
“más precisa”). Por este motivo, conviene diseñar el experimento de modo que los
valores de X que obtenemos estén lo más separados posibles, siempre que esto sea
posible.
(d) Cuando x0 se aleja de x̄, la amplitud del intervalo aumenta (es decir, nuestra
estimación se hace “menos precisa”). Por lo tanto, las estimaciones del valor medio
de Y son “más precisas” para valores cercanos a la media muestral de X.
(e) El intervalo para estimar valores individuales siempre es mayor que el intervalo para estimar valores medios. La explicación intuitiva es que resulta más difı́cil
acertar con las individualidades y, por eso, el intervalo es “menos preciso”.
9
Diagnosis de las hipótesis del modelo
Como se indicó en la Sección 3 (Metodologı́a), es conveniente hacer una diagnosis
previa de las hipótesis del modelo: Normalidad, Linealidad y Homogeneidad de
Varianzas. Este diagnóstico se puede llevar a cabo nuevamente utilizando unos
análisis gráficos sencillos de los residuos. Para llevar a cabo este análisis gráfico,
necesitamos dos cosas:
¶Guardar los residuos de cada dato, que en este modelo son de la forma:
“Residuo” = yi − ŷi = yi − β̂0 − β̂1 xi
¶Guardar los valores pronosticados o estimados para cada dato, que en este
modelo son de la forma:
“Valor pronosticado” = ŷi = β̂0 + β̂1 xi
Con los residuos y los valores pronosticados podemos hacer un análisis visual de
los siguientes gráficos:
(a) Histograma de los residuos.
La hipótesis de Normalidad de los datos será aceptable cuando este histograma
muestre un razonable parecido con la curva Normal.
(b) Gráfico de probabilidades normales de los residuos (probability plot).
La hipótesis de Normalidad de los datos será aceptable cuando los puntos del
gráfico estén razonablemente cerca de la diagonal del cuadrado.
(c) Gráfico de dispersión de los residuos sobre los valores pronosticados (o sobre
los valores de la variable explicativa).
La hipótesis de Homocedasticidad (o igualdad de varianzas) de los datos será
aceptable cuando la anchura vertical del gráfico de dispersión se mantenga razonablemente constante.
La hipótesis de Linealidad de los datos será aceptable cuando la lı́nea central del
gráfico de dispersión sea razonablemente recta.
10
La gran ventaja de estos análisis gráficos es su sencillez. Sus grandes inconvenientes son que con pocos datos (como suele ser frecuente) no nos dicen prácticamente
nada, y aunque dispongamos de muchos datos, las conclusiones son inevitablemente
subjetivas (salvo situaciones muy claras que no son demasiado frecuentes con los
datos reales).
10
Extensión a otros modelos
Una de las grandes utilidades del modelo de regresión lineal es que es fácilmente exportable a varios modelos que no son lineales, pero que se pueden linealizar mediante
sencillos cambios de variable. Vemos a continuación dos modelos muy interesantes
que pueden ser linealizados, aunque no son los únicos.
Modelo de regresión logarı́timica.- En algunas situaciones, es muy adecuado
pensar en un modelo de regresión logarı́tmica,
Y = a + b ln X
El modelo logarı́tmico sirve, por ejemplo, para describir empı́ricamente la relación
entre el tamaño, Y , alcanzado por una planta y su concentración, X, de hormona
del crecimiento.
El modelo de regresión logarı́tmico se puede reducir fácilmente a un modelo de
regresión lineal. Los pasos que tenemos que dar son los siguientes:
Y = a+b ln X
⇒
Definimos la nueva variable Z = ln X:
Y = a+bZ
⇒
Obtenemos la recta de regresión de Y sobre Z, y deshacemos el cambio.
Podemos confirmar de dos formas la validez del modelo de regresión logarı́tmica:
(a) Desde un punto de vista gráfico, el diagrama de dispersión de Y sobre Z =
ln X deberı́a tener un aspecto razonablemente lineal.
(b) Desde un punto de vista numérico, el coeficiente de correlación lineal entre
Y y Z = ln X deberı́a ser razonablemente próximo a +1.
Modelo de regresión exponencial.- En otras situaciones, es muy adecuado
pensar en un modelo de regresión exponencial,
Y = aebx
El modelo exponencial sirve, por ejemplo, para describir empı́ricamente la evolución
del tamaño de una población que crece (o decrece) un porcentaje fijo cada unidad
de tiempo.
El modelo de regresión exponencial se puede reducir fácilmente a un modelo de
regresión lineal. Los pasos que tenemos que dar son los siguientes:
Y = aebX
⇒
Tomamos logaritmos neperianos: ln Y = ln a + bX =
a + bX
⇒
Definimos la nueva variable Z = ln Y :
Z = a0 + bX
⇒
Obtenemos la recta de regresión de Z sobre X, deshacemos el cambio, y
tomamos exponenciales.
0
11
Podemos confirmar de dos formas la validez del modelo de regresión exponencial:
a) Desde un punto de vista gráfico, el diagrama de dispersión de Z = ln Y sobre
X deberı́a tener un aspecto razonablemente lineal.
b) Desde un punto de vista numérico, el coeficiente de correlación lineal entre
Z = ln Y y X deberı́a ser razonablemente próximo a +1 ó a -1.
12
Descargar