Document

Anuncio
BREVE APUNTE SOBRE LA ESTIMACIÓN DE LOS
PARÁMETROS MCO Y MÁXIMA VEROSIMILITUD
Ramón Mahía
Octubre 2006
I.- Planteamiento
Sea el Modelo Básico de Regresión Lineal (MBRL) definido como:
y i = β 1 + β 2 x 2i + β 3 x 3i + ........ + U i
donde los parámetros ß cuantifican la relación parcial de cada variable exógena
X con la endógena Y.
Una vez completada la etapa de especificación del modelo econométrico y que,
por tanto, conozcamos los valores de la “Y” y de las “X” para la muestra
temporal o transversal seleccionada; se plantea ahora la siguiente pregunta
¿cómo obtener una buena estimación de esos parámetros ß a partir de los
datos disponibles para “Y” y para cada una de las “X”?
II.- Estimador de Mínimos Cuadrados Ordinarios
Uno de los procedimientos más conocidos es el denominado Estimador de
Mínimos Cuadrados Ordinarios (MCO). Este procedimiento plantea utilizar,
como estimación de los parámetros, aquella combinación de ß1, ß2,…… ßk que
minimice los errores que el modelo cometerá. ¿Qué significa esto? Está claro
que, si dispusiéramos a priori de los parámetros estimados, podríamos escribir
el MBRL NO como:
y i = β 1 + β 2 x 2i + β 3 x 3i + ........ + β k x ki + U i
sino como:
yˆ i = βˆ1 + βˆ 2 x 2i + βˆ 3 x 3i + ........ + βˆ k x ki
y, por tanto, podríamos computar el error o residuo que el modelo comete en la
estimación de cada valor de la endógena comparando, de forma inmediata, el
valor real de la endógena en cada observación con el valor estimado:
e i = y i − yˆ i =
= y i − ( βˆ1 + βˆ 2 x 2i + βˆ3 x 3i + ........ + βˆ k x ki )
Este error dependería, evidentemente, del valor asignado a las estimaciones de
los parámetros ß; pues bien, el método de MCO sugiere utilizar aquella
Pg.1/5
combinación de parámetros estimados que minimice la suma al cuadrado de
todos los errores cometidos para las “n” observaciones disponibles:
n
β̂ MCO → min( S ) = min ∑ (e i )
2
i =1
Para obtener algebraicamente una expresión de cálculo operativa para los
estimadores MCO, procedemos de la siguiente forma:
•
La expresión a minimizar es:
n
n
i =1
i =1
(
2
( S ) = ∑ (e i ) = ∑ y i − βˆ1 − βˆ 2 x 2i − βˆ 3 x 3i − ........ − βˆ k x ki
•
)
2
Para obtener los valores de cada uno de los “k” parámetros β̂ j que
minimizan esta expresión derivamos con respecto a cada uno de
ellos e igualamos a cero, obteniendo “k” expresiones del tipo:
(
)
n
∂( S )
= 2∑ y i − βˆ1 − βˆ 2 x2 i − βˆ3 x 3i − ........ − βˆ k x ki ⋅ (− x ji ) = 0
∂βˆ
i =1
j
•
Estas expresiones, se denominan “ecuaciones normales”. En este
sistema formado por las ecuaciones normales las incógnitas son los
parámetros β̂ j a estimar y los valores conocidos son los datos
muestrales recogidos de la “y” y de las “x”.
•
Observadas una a una, para cada parámetro, las expresiones de las
ecuaciones normales son:
n
n
n
n
n
i =1
i =1
i =1
i =1
i =1
n
n
n
n
n
i =1
n
i =1
n
i =1
n
i =1
n
∑ y i x1i = βˆ1 ∑ x1i x1i + βˆ2 ∑ x 2i x1i + βˆ3 ∑ x3i x1i + ........ + βˆ k ∑ x ki x1i
∑ y i x2 i = βˆ1 ∑ x1i x 2i + βˆ2 ∑ x 2i x 2i + βˆ3 ∑ x 3i x2i + ........ + βˆk ∑ x ki x 2i
i =1
n
∑yx
i
i =1
3i
= βˆ1 ∑ x1i x3i + βˆ 2 ∑ x 2i x3i + βˆ 3 ∑ x 3i x 3i + ........ + βˆ k ∑ x ki x3i
i =1
i =1
i =1
i =1
n
∑ + ........ + ........ + ........ + ........ + .......... + .......
i =1
n
n
n
n
n
i =1
i =1
i =1
i =1
i =1
∑ y i x ki = βˆ1 ∑ x1i x ki + βˆ 2 ∑ x 2i x ki + βˆ3 ∑ x 3i x ki + ........ + βˆk ∑ x ki x ki
Pg.2/5
•
Lo que, teniendo en cuenta las expresiones matriciales del vector
endógeno “Y” y la matriz de exógenas “X”, puede resumirse
matricialmente como:
X ' Y = X ' Xβ̂
•
De donde se obtiene fácilmente la expresión final matricial1 del vector
de parámetros estimados β̂ :
X ' Y = X ' Xβˆ
( X ' X ) −1 X ' Y = ( X ' X ) −1 X ' Xβˆ
−1
βˆ = ( X ' X ) X ' Y
III.- Estimador Máximo Verosímil
Una segunda aproximación consiste en utilizar lo que se conoce como
planteamiento de estimación máximo verosímil. Esta planteamiento propone
utilizar como estimadores de los parámetros aquel conjunto de parámetros ß
1
Puede comprobarse como podríamos haber planteado la estimación desde el principio
utilizando álgebra matricial. Efectivamente, la minimización de residuos puede plantearse a
partir del vector de residuos “e” como:
((
)(
)) (
min( e' e) = min ((Y − Xβˆ )(
' Y − Xβˆ )) = min (Y ' Y − Y ' Xβˆ − βˆ ' X ' Y + βˆ ' X ' Xβˆ )
= min (Y ' Y − 2 βˆ ' X ' Y + βˆ ' X ' Xβˆ )
min( e' e) = min Y − Xβˆ ' Y − Xβˆ = min Y 'Y − Y ' Xβˆ − βˆ ' X ' Y + βˆ ' X ' Xβˆ
Obsérvese cómo los productos
)
Y ' Xβˆ Y β̂ ' X ' Y son en realidad el mismo e iguales a un
escalar, por lo que podemos escribir:
(
min( e' e) = min Y ' Y − 2βˆ ' X ' Y + βˆ ' X ' Xβˆ
)
y teniendo ahora en cuenta que, para cualquier par de matrices X y A se cumple que:
∂( X ' AX )
= 2 AX = 2 X ' A
∂X
tenemos:
min( e' e) =
(
)
∂ (e ' e)
∂ Y ' Y − 2βˆ ' X ' Y + βˆ ' X ' Xβˆ
=0→
= 0 → 0 − 2 X ' Y + 2 X ' Xβˆ = 0
ˆ
ˆ
∂β
∂β
de donde nuevamente obtenemos:
−1
βˆ = ( X ' X ) X ' Y
Pg.3/5
que hace más probable observar una determinada muestra de errores, es
decir, un conjunto de errores que van a distribuirse conforme a una
determinada función de densidad conjunta con una determinada media y
desviación típica.
Entre las hipótesis básicas formuladas para el MBRL establecimos que
nuestros errores “U” seguirían una distribución normal con media nula y
varianza constante, es decir:
(
u i → N o,σ 2
)
o bien para todo el vector de perturbaciones aleatorias:
(
U → N o,σ 2 I
)
Así pues, la función de densidad de cada uno de los errores será:
f (u i ) = 1
σ2
1
 1 u i2 
exp  − 2 2 
2π
σ 

Por lo que, tomando la función de densidad conjunta para cualquier normal
multivariante tenemos que 2:
n


u i2
∑
n
L = f ( u) = Π f (u i ) = ( 2π ) − n / 2 σ − n / 2 exp  − 1 2 i =1 2
i =1

σ








Se trata, por tanto, de obtener el conjunto de parámetros β̂ que hacen máxima
la función (probabilidad) de densidad conjunta:
2
En realidad, la expresión genérica correcta para esta función es:
n
L = f ( u) = Π f (u i ) = ( 2π ) − n / 2 | Σ | −n / 2
i =1
n


u i2
∑
exp  − 1 2 i=1 2

σ








donde S es la matriz de varianzas y covarianzas de las variables aleatorias normales
multivariantes. No obstante, y a pesar de la pérdida de precisión de la notación, se mantiene la
2
referencia a s por sencillez expositiva y porque, evidentemente, no afecta al resultado final
que se pretende ilustrar.
Pg.4/5
n



u i2
∑

n

−n / 2
−n / 2
max( L) = max  f (u ) = Π f (u i ) = ( 2π ) σ
exp  − 1 i=1 2
2 σ
i =1











Con el fin de computar la derivada parcial de esa expresión “L” con respecto a
los parámetros estimados, linealizamos la expresión obteniendo:
Ln( L ) = − n ln (2π ) − n ln σ 2 − 1 2 U ' U
2
2
2σ
o lo que es igual, considerando ahora errores muestrales y no las
perturbaciones aleatorias poblacionales:
Ln( L ) = − n ln (2π ) − n ln σ 2 − 1 2 e ' e
2
2
2σ
2
−
n
n
1
Ln( L ) =
ln (2π ) −
ln σ −
y − Xβˆ ' y − Xβˆ
2
2
2σ 2
(
)(
)
Es evidente que maximizar esta probabilidad con respecto a β̂ implica
minimizar el último de los sumandos, ya que todos están restando. En
definitiva :
[(
)(
max [Ln( L )] → min y − Xβˆ ' y − Xβˆ
)]
Que como se ve, es lo mismo que plantear el estimador de Mínimos Cuadrados
Ordinarios revisado anteriormente. Es decir, el estimador Máximo Verosímil va
a coincidir para el Modelo Básico de Regresión Lineal con el estimador de
Mínimos Cuadrados Ordinarios.
Pg.5/5
Descargar