TEMA 2 : PLANTEAMIENTO DEL MODELO

Anuncio
Introducción a la Econometría
Tema 2: PLANTEAMIENTO DEL MODELO
Tema 2: PLANTEAMIENTO DEL MODELO
2.1 El modelo lineal simple: hipótesis básicas.
El modelo de regresión lineal simple es una clase de modelo econométrico con las
siguientes características: lineal, uniecuacional, estático, con una variable endógena,
una variable exógena, un término de error y dos parámetros.
La formulación teórica es: Y = β1 + β2X + u
Donde Y representa a la variable endógena, X a la variable exógena, u es la variable
aleatoria que representa al término de error y β1 y β2 son los parámetros.
Si consideramos los “N” elementos muestrales que se van a observar:
Y1 = β1 + β2X1 + u1
Y2 = β1 + β2X2 + u2
............
Yi = β1 + β2Xi + ui
............
YN = β1 + β2XN + uN
pudiéndose expresar de forma compacta como:
Siendo:
Yi = β1 + β2Xi + ui
i = 1, ... ,N
Yi: observaciones muestrales de la variable endógena Y, variable cuyo comportamiento pretende explicar el modelo.
Xi: observaciones muestrales de la variable exógena X, variable elegida como explicativa e influyente sobre la variable Y.
ui: elementos muestrales latentes o no observables de la variable u, se denominan
también perturbaciones aleatorias o términos de error. Representan al conjunto de
causas explicativas de la variable Y, desconocidas o incontrolables y por tanto no
incluidas en la estructura del modelo.
β1 y β2: son los parámetros estructurales del modelo que permanecen invariantes respecto a la variación muestral. β1 es el término independiente u ordenada en el origen, β2 es la pendiente o coeficiente de regresión que es el parámetro que acompaña y pondera a la variable exógena X.
La forma es evidentemente lineal respecto de los parámetros. Los datos serán de sección cruzada o bien, series temporales, en cuyo caso se referirán al mismo periodo de
tiempo, sin retardos.
13
Departamento de Estadística e Investigación Operativa II (Métodos de Decisión)
Hipótesis básicas:
H-1: LINEALIDAD (respecto de los parámetros).
H-2: Las variables Xi son NO ESTOCÁSTICAS ( o NO ALEATORIAS).
H-3: MEDIA NULA: ∀ i = 1, ... , N E[ ui ] = 0
H-4: HOMOCEDASTICIDAD : ∀ i = 1, ... , N V[ ui ] = σ2
(Varianza constante)
H-5: NO AUTOCORRELACIÓN: ∀ i ≠ j
Cov [ui , uj ] = E[ ui·uj ] = 0
( las tres últimas hipótesis supone que el conjunto de perturbaciones aleatorias
{ui}i=1,...,N está generado por un proceso estocástico denominado ruido blanco )
H-6: NORMALIDAD: ∀ i = 1, ... , N
con función de densidad f(u i ) =
ui : N( 0 , σ2 )
1
− 2 u 2i
1
e 2σ
σ 2π
ui ∈ R
Esto supone que las variables ui , no sólo estarán incorrelacionadas sino serán independientes en probabilidad.
A partir de estas hipótesis se deduce que las Yi, en el modelo, son variables aleatorias con las siguientes características:
1. E[ Yi / Xi ] = β1 + β2Xi + E[ui ] = β1 + β2Xi
[2.1]
2. V[ Yi / Xi ] = V[β1 + β2Xi + ui ] = V[ui ] = σ2
3. Cov [ Yi,Yj / Xi,Xj] = E[ (Yi - β1 - β2Xi)⋅( Yj - β1 - β2Xj) ] = E[ ui⋅uj ] = 0
Recordemos que las Xi no son aleatorias y, por tanto, suponen cantidades conocidas
en cada distribución de las Yi en el modelo. La notación de momentos condicionados se
utiliza para reflejar que no hablamos de la distribución individual de Yi , sino de su distribución en el modelo.
Por tanto, incorporando la hipótesis de normalidad, las variables Yi se distribuyen en
el modelo como:
Yi : N[β1 + β2Xi ; σ2 ]
∀ i = 1, ... , N independientes estocásticamente
La expresión [2.1], que se ha obtenido considerando únicamente la hipótesis de media nula entre todas las hipótesis enunciadas sobre las perturbaciones aleatorias, es básica para entender e interpretar el modelo de regresión:
E[ Yi / Xi ] = β1 + β2Xi
14
Introducción a la Econometría
Tema 2: PLANTEAMIENTO DEL MODELO
Nos dice que la estructura del modelo, constituida por la combinación lineal de parámetros y observaciones de la variable explicativa, es el valor medio o valor esperado
de las correspondientes observaciones de la variable endógena. Es decir, si prescindiéramos de la variable explicativa X nos quedaríamos con las “n” observaciones, posiblemente dependientes, de la variable aleatoria Y, cuyo comportamiento medio vendría
representado por su esperanza matemática E[Y] = μ que se estimaría por la media
muestral de las observaciones Yi. Pero al incorporar la variable exógena X ese comportamiento medio se describe mejor por medio de la función β1 + β2Xi que nos da el valor
esperado para la variable endógena Y según el valor Xi que haya tomado la variable
explicativa, expresión que depende de los dos parámetros β1 y β2 cuyo valor tendremos
que estimar.
(El alumno debe recordar la definición dada de función de regresión dentro de la distribución bidimensional de probabilidad de la variable (ξ1,ξ2): ϕ1(X) = E[ξ2 /ξ1 = X]
que en el caso que resultase lineal se expresaba ϕ1(X) = α + βX )
Gráficamente:
Yi
β$1 + β$2 X i
β1 + β2Xi
E[Y] = μ
μ$ = Y
μ
Y
Xi
Donde se representan con trazo grueso las características medias “poblacionales”
tanto de la variable endógena por sí sola, como la proporcionada por el modelo de regresión y por trazo fino la media muestral de las observaciones Yi de la variable endógena y una estimación del modelo de regresión lineal.
La expresión [2.1] también nos permite interpretar el valor de los parámetros de la
siguiente forma:
β1: será el valor medio o esperado que tomará Yi cuando la variable explicativa sea
igual a cero.
β2: será lo que variará el valor medio o esperado de Yi cuando la variable explicativa
aumente en una unidad.
15
Departamento de Estadística e Investigación Operativa II (Métodos de Decisión)
Comentarios a los enunciados de las hipótesis básicas:
- Es posible que de una especificación del modelo no lineal, por medio de las debidas transformaciones en las variables, se llegue a una expresión lineal, respecto
a los parámetros, del modelo. Por ejemplo:
- Transformación semilogarítmica:
Si la especificación inicial es del tipo: Y = AeβX con A > 0 , tomando logaritmos se obtiene: logY = α +βX , siendo α = logA .
El modelo econométrico quedaría: logYi = α +βXi + ui .
- Transformación logarítmica:
Si la especificación inicial es del tipo: Y = AXβ con A > 0 , tomando logaritmos se obtiene: logY = α +βlogX , siendo α = logA .
El modelo econométrico quedaría: logYi = α +βlogXi + ui .
- Transformación recíproca:
Si la especificación inicial es del tipo: [Y - α].X = β , despejando se obtiene:
Y = α + β.(1/X).
El modelo econométrico quedaría: Yi = α + β.(1/Xi) + ui .
En todos los casos una o las dos variables aparecen en la formulación lineal
sustituidas por transformaciones de las variables originales.
- La segunda hipótesis supone que los valores observados de la variable X han de
ser considerados fijos o únicos, aunque se realizaran muestreos sucesivos, como si
hubiesen sido los únicos valores posibles de obtener por parte de la variable X.
Esta idea proviene de las primeras aplicaciones del modelo de regresión en las
ciencias experimentales, en las que la variable explicativa era una variable controlada e incluso determinada, en el laboratorio, por el investigador. Es evidente que
en las ciencias sociales es difícil mantener esta hipótesis. Nosotros lo haremos,
pero adelantando que los resultados y propiedades de la estimación del modelo
que vamos a obtener en el siguiente tema se podrán mantener con tal de que se
cumpla la incorrelación entre las perturbaciones aleatorias y las observaciones de
la variable exógena. Es decir: Cov( ui , Xj ) = 0 ∀ (i , j )
- La hipótesis de media nula significa que el efecto que pueda causar ui sobre Yi
podrá ser, con igual probabilidad, positivo o negativo, de tal forma que se le asigna como valor medio el cero. No obstante si no se cumpliera esta hipótesis y se
diera, por ejemplo, que E[ui] = c, con el valor de c desconocido, el modelo a estimar se puede transformar en : Yi = γ1 + β2Xi + vi , siendo γ1 = β1 + c y vi = ui c , cumpliéndose, ahora, que: E[vi] = E[ui] - c = c - c = 0 , con lo que las nuevas
perturbaciones aleatorias tienen media nula. En este modelo se podrá estimar β2 y
γ1, pero no podremos estimar ni β1 ni c.
16
Introducción a la Econometría
Tema 2: PLANTEAMIENTO DEL MODELO
- El supuesto de homocedasticidad que se hace en la cuarta hipótesis significa
que para cada Xi, o lo que es lo mismo para cada observación, la posible dispersión de la observación de Yi respecto a su valor medio (β1 + β2Xi) es la misma,
medida por el valor de la varianza constante σ2. Recordemos que anteriormente se
obtuvo que V[ Yi / Xi ] = V[ui ] = σ2. Gráficamente lo podemos ver suponiendo
que fuera posible obtener para cada Xi varias observaciones de la variable endógena. Quedaría:
Yi
x
x
x
x
x
X1
x
x
x
x
x
X2
x
x
x
x
x
X3
x
x
x
x
x
X4
x
x
x
x
x
x
X5
x
x
x
x
x
x
X6
β1 + β2Xi
Xi
Si, por ejemplo, estuviéramos analizando la influencia que tienen los ingresos familiares (Xi) sobre la cifra del gasto efectuado en bienes de consumo (Yi) durante un
periodo determinado, a través de una encuesta realizada a cierto número de familias
españolas, el cumplimiento de la hipótesis de homocedasticidad indicaría que las familias de menor renta tendrían un rango de variación posible de sus gastos equivalente al que pudieran tener las familias con mayores ingresos. Cosa bastante improbable y, por tanto, no sería admisible esta hipótesis. Habitualmente si el modelo utiliza datos de corte transversal se deberá probar estadísticamente la verificación del
supuesto de homocedasticidad.
- La hipótesis de no autocorrelación de las perturbaciones aleatorias, por la que
ui está incorrelacionada con uj, implica que todas aquellas causas no previstas por
la estructura del modelo que influyen en la determinación del valor de Yi no tienen relación con las que actúan en la determinación de Yj. Este supuesto es más
admisible si las observaciones corresponden a distintas empresas o familias (datos
de corte transversal) que a distintos instantes de tiempo (series temporales), en las
que es más verosímil pensar que el efecto de esas causas imprevistas se mantenga
durante varios periodos y, por tanto, se relacionen entre ellas.
17
Departamento de Estadística e Investigación Operativa II (Métodos de Decisión)
2.2 Ejemplo 2: el modelo de educación de Mincer.
Este modelo, formulado por Jacob Mincer en su obra “Schooling, experience and
earnings” en 1974 dentro de la teoría del capital humano, tiene como objetivo, en su
expresión más sencilla, explicar la cantidad y variación de los ingresos salariales obtenidos por los individuos por medio de la inversión realizada por dicho individuo en educación formal y representada por el número de años empleados en la formación educativa. El supuesto fundamental en que se basa es que cada individuo decide invertir en su
formación hasta hacer máximo el valor actual de la totalidad de ingresos futuros esperados. Es decir, una persona decide seguir estudiando, en lugar de incorporarse al mercado laboral porque espera obtener mayores ingresos en el futuro.
Las cuatro hipótesis simplificadoras que se necesitan para el análisis previo a la obtención del modelo son:
1º: Los individuos únicamente invierten en educación. (Posteriormente Mincer completa su teoría incorporando la inversión en experiencia y formación laboral).
2º: Sólo se considera como coste educativo el denominado coste de oportunidad, es
decir, los ingresos perdidos por continuar estudiando y no incorporarse al mercado de trabajo.
3º: Cada individuo comienza su vida laboral inmediatamente después de terminada
su educación formal.
4º: La duración de la vida laboral de cada individuo es de “n” años, cualquiera que
sea el nivel educativo alcanzado.
Por tanto, los individuos, una vez cubierta la enseñanza obligatoria, tomarán la decisión de, o bien comenzar a trabajar, o bien continuar “S” años más estudiando, dejando
de percibir los posibles ingresos que le pudieran corresponder.
Si denominamos Y(S) al ingreso anual constante de un individuo con “S” años adicionales de estudio, Y(0) representará el coste de oportunidad del mismo durante esos
años de estudio. Suponiendo que el individuo toma su decisión siguiendo el criterio,
anteriormente definido, de maximización del valor actual de las ganancias futuras, la
tasa de descuento “r” que iguale el valor actual de la corriente constante de ingresos con
el valor actual de los costes considerados, será la que la economía financiera denomina
tasa de rendimiento interna de la inversión y representa una medida de la ganancia obtenida por la inversión en educación.
La igualdad de los valores actuales de las corrientes de ingresos y costes esperados,
siendo “n” el número de años de la vida laboral y utilizando las expresiones que nos
proporciona la matemática financiera, será:
Y(S).e -r.S .
1 - e -r.n
1 - e -r.n
= Y(0).
r
r
donde tomando logaritmos, obtenemos:
; que simplificando:
Y(S).e -r.S = Y(0)
log Y(S) = log Y(0) + r.S
que es la expresión teórica del modelo de educación de Mincer.
18
Introducción a la Econometría
Tema 2: PLANTEAMIENTO DEL MODELO
Con las siguientes equivalencias simbólicas podremos expresar el modelo econométrico de regresión lineal correspondiente al modelo de educación de Mincer:
Y(S) = Y
log Y(0) = β1
r = β2
log Yi = β1 + β2Si + ui
siendo:
Yi: observaciones muestrales de los ingresos salariales individuales.
Si: recoge el número de años de estudio, desde el final de la enseñanza obligatoria,
que corresponde al mayor nivel educativo del individuo.
β2: parámetro cuyo valor representa la tasa de rendimiento de la inversión en educación.
β1: parámetro cuya estimación se aproximará al valor del logaritmo del salario “medio” o “tipo” de los individuos que decidieron no seguir estudiando.
ui: perturbación aleatoria que recoge todas las causas que influyen en la determinación del salario del individuo “i” distintas del nivel educativo logrado.
2.3 Ejemplo 3: el modelo del mercado de Sharpe
Este modelo surge a partir de los trabajos de W. Sharpe sobre el riesgo en el mercado
de capitales y, concretamente, sobre las decisiones de los individuos respecto a sus carteras de títulos. En estos trabajos llega a establecer una relación entre el rendimiento de
un título determinado y el rendimiento medio de un conjunto o cartera de títulos al que
pertenece el primero. En uno de sus artículos se puede leer: “La mejor manera de comprender su sentido económico consiste en considerar la relación entre el rendimiento del
activo j y el de la combinación g de forma similar a la del análisis de regresión.”. La
cartera de títulos más representativa será el conjunto total de títulos del mercado de valores.
Si representamos por rj el rendimiento del título “j” durante el periodo que se considere, su cálculo se hará de la siguiente forma:
rj =
precio al final del periodo + dividendos - precio al principio del periodo
precio al principio del periodo
El rendimiento del mercado se medirá a través del valor de un índice de Bolsa, como
el Índice General de la Bolsa de Madrid o el IBEX en España. Si lo representamos por
RM su calculo será:
RM =
valor del índice al final del periodo - valor del índice al principio del periodo
valor del índice al principio del periodo
La ecuación que se establece para el estudio de la determinación del rendimiento del
título “j” en el periodo, conocida como línea característica es:
19
Departamento de Estadística e Investigación Operativa II (Métodos de Decisión)
rj = αj + βjRM + uj
Dónde:
βj: Es el denominado parámetro “beta” del título “j” que representa una medida
del riesgo sistemático de la inversión en dicho título. Nos indica la variación
posible del rendimiento del título “j” motivada por una variación en el rendimiento medio del mercado. Mide la volatilidad del título o intensidad de su
respuesta a las alteraciones en el mercado. De tal forma que si βj es mayor que
1 se dice que el título “j” es volátil, indicando que cuando el mercado aumente
su rendimiento medio el título “j” lo hará en mayor proporción, pero cuando el
rendimiento del mercado disminuya el titulo “j” rebajará aún más el suyo.
αj: Nos da el rendimiento que se espera para el título “j” si el mercado permanece
estable, con rendimiento nulo, en el periodo.
uj: Es el término de error o perturbación aleatoria.
El modelo así definido se refiere a un determinado periodo de tiempo pero del cual
sólo podremos tener una observación de las variables. Para poder estimar los parámetros deberemos extender el cumplimiento de la anterior ecuación a un intervalo de tiempo amplio que comprenda varios periodos. Así, utilizando como subíndice “t” para los
distintos periodos de observación el modelo econométrico quedará especificado de la
siguiente forma:
rjt = αj +βjRMt +ujt para t = 1, ... ,N
Con el significado conocido para las variables y parámetros que aparecen.
EJERCICIOS PROPUESTOS
2.1 Encuestadas 20 personas, seleccionadas al azar, entre la población activa de cierta
región española, sus salarios anuales en euros, y sus años de estudios han resultado
ser:
salario Años de
salario Años de
Obs. anual en € estudios
Obs. anual en € estudios
1
24600 12
11
66960 16
2
37800 16
12
30240 20
3
57240 18
13
34800 12
4
31440 16
14
102600 16
5
52800 12
15
18120 10
6
9936 12
16
34200 18
7
36960 16
17
25680 16
8
20640 12
18
21240 20
9
23880 10
19
7704 12
10
11952 12
20
101880 16
1º: Calcule la media y la varianza de cada una de las dos distribuciones marginales.
2º: Calcule la covarianza.
3º: Realice los mismos cálculos, pero sustituyendo los valores de los salarios por sus logaritmos.
20
Introducción a la Econometría
Tema 2: PLANTEAMIENTO DEL MODELO
2.2 Si los precios y los dividendos pagados para un título A son los que se exponen a
continuación, junto con los valores del IBEX-35:
periodos
oct – 04
nov – 04
dic – 04
enero-05
feb – 05
marzo-05
abril – 05
mayo- 05
junio - 05
julio - 05
agosto-05
sept - 05
oct - 05
nov - 05
dic - 05
enero-06
feb - 06
marzo-06
abril - 06
mayo- 06
junio - 06
t
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
precio de un dividendos
título “A”
pagados
(en euros)
(en euros)
12,30
0,10
12,38
13,09
12,92
0,10
13,07
12,56
11,95
0,142
12,74
12,76
13,91
0,115
13,45
14,59
14,71
0,115
15,02
15,08
16,62
0,115
17,08
17,22
17,51
0,186
16,17
16,08
IBEX-35.
8418,3
8693
9080,8
9223,9
9391
9258,8
9001,6
9427,1
9783,2
10115,6
10008,9
10813,9
10493,8
10557,8
10733,9
11104,3
11740,7
11854,3
11892,5
11340,5
11548,1
1º: Calcule los valores de los rendimientos del título (rAt) y del mercado (RMt) que se
consideran en el modelo del mercado de Sharpe.
2º: Calcule las medias, las varianzas y la covarianza de ambos rendimientos.
21
Departamento de Estadística e Investigación Operativa II (Métodos de Decisión)
22
Descargar