1/6 Apuntes de clase de Econometría II ESTIMADOR DE AITKEN Y PROPIEDADES DEL MISMO (Última revisión: 1 de marzo de 2007) Prof. Rafael de Arce [email protected] Estimación de los parámetros del MBRL por máxima verosimilitud Apoyándonos en la hipótesis realizada sobre la forma en la que se distribuyen las perturbaciones aleatorias (normales) es sencillo aplicar un método de máxima verosimilitud para determinar un sistema para la estimación de los parámetros. Para definir una variable aleatoria que se distribuye como una normal, es necesario determinar su media y su varianza. En nuestro caso, y escrito en forma matricial, podremos escribir estos momentos como: Para las medias de las “n” perturbaciones aleatorias presentes en el modelo: u1 E (u1 ) = 0 u E (u ) = 0 2 E (u ) = E ( 2 ) = .. u n E (u n ) = 0 ( nx1) ( nx1) Para las varianzas de las “n” perturbaciones aleatorias presentes en el modelo, la matriz de varianzas covarianzas sería: E (u1u1 ) E (u 2 u1 ) .. E (u n u1 ) E (u u ) E (u u ) .. 1 2 2 2 cov− var(u ) = E [((u − E (u ))(u − E (u ))'] = E (uu ' ) = .. .. .. .. E (u n u n ) E (u1u n ) En esta expresión, en la que, por el momento, solo hemos tenido en cuenta el supuesto anterior (media nula de las perturbaciones aleatorias), en la diagonal principal tendremos las varianzas y, en las demás posiciones, las covarianzas1. De forma resumida, y sacando factor común a los elementos de la diagonal principal (las varianzas), podríamos escribir la expresión anterior como: cov− var(u ) E (uu ' ) = σ 2 Σ ( nxn ) 1 En el caso en que se presentase heterocedasticidad, los elementos de la diagonal principal no serán una constante y, si hubiera autocorrelación, los elementos fuera de esta diagonal serían distintos de cero. 2/6 Apuntes de clase de Econometría II Es decir, prescindiendo por el momento de las hipótesis de homocedasticidad y autocorrelación, tendríamos un conjunto de “n” perturbaciones aleatorias que se distribuyen como una normal del siguiente modo: u → N (0; σ 2 Σ) ( nx1) La función de densidad conjunta de la normal (para las “n” variables aleatorias de nuestro caso) se escribiría del siguiente modo: u = ( nx1) n 2πσ 2 | Σ | e − u 'u 2σ 2 Σ Para simplificar cálculos posteriores, esta expresión se puede escribir tomando logaritmos del siguiente modo: Ln(u ) = −n −n −1 u' u Ln(2π ) − Ln(σ 2 ) Ln(| Σ |) − 2 2 2 2σ 2 Σ Para determinar los parámetros de máxima verosimilitud, buscaremos aquellos coeficientes estimados que nos sitúen en el máximo de esta función de densidad, ya que, en ese punto, es en el que nos encontraremos en la situación ideal: la probabilidad de que las perturbaciones aleatorias sean cero es máxima. y = Xβ + u uˆ = y − X βˆ = e uˆ ' uˆ = e ' e = ( y − X βˆ )' ( y − X βˆ ) Lo que trascrito a la expresión anterior del logaritmo de la función de densidad conjunta sería: −n −n −1 e' e Ln(2π ) − Ln(σ 2 ) Ln(| Σ |) − = 2 2 2 2σ 2 Σ −n −n −1 ( y − Xβˆ )' ( y − Xβˆ ) = Ln(2π ) − Ln(σ 2 ) Ln(| Σ |) − 2 2 2 2σ 2 Σ Ln(u ) = Para determinar los valores estimados de los parámetros que nos sitúan en el máximo de esta función habrá que encontrar aquellos valores que anulan su primera derivada respecto a los mismos: 3/6 Apuntes de clase de Econometría II ∂Ln(u ) =0 ∂βˆ ∂Ln(u ) = 0 − 0 − 0 − 2 X ' Σ −1 y − 2 X ' Σ −1 Xβˆ = 0 ˆ ∂β βˆ = [X ' Σ −1 X ] X ' Σ −1 y −1 En definitiva, la forma de estimar los parámetros según este procedimiento, desarrollado por Aitken, se regiría por el siguiente cálculo: βˆ = [X ' Σ −1 X ] X ' Σ −1 y −1 A estos parámetros se los conoce con el nombre de Mínimos Cuadrados Generales (MCG), siendo inmediato comprobar que los Mínimos Cuadrados Ordinarios (MCO) no son más que un caso concreto de estos: aquél en el que Σ = I n . También se conocen con el nombre de Mínimos Cuadros Ponderados (MCP), ya que la forma determinada para su cálculo no hace más que “dividir matricialmente” las relaciones entre las variables del modelo por las componentes que, en su caso, están introduciendo heterocedasticidad o autocorrelación en el modelo: Σ −1 . Propiedades de los estimadores MCG Los parámetros MCG serán estimadores lineales, insesgados, óptimos y consistentes (ELIO + consistentes). A) Linealidad y = Xβ + u −1 = X 'Σ X βˆ = [X ' Σ −1 X ] X ' Σ −1 y = −1 [ = X ' Σ −1 X β + Wu ] −1 [ X ' Σ −1 Xβ + X ' Σ −1 X [ ] −1 ] [ −1 X ' Σ −1 ( Xβ + u ) = X ' Σ −1u = β + X ' Σ −1 X ] −1 X ' Σ −1u = Es decir, los parámetros MCG estimados se pueden escribir como una combinación lineal de las perturbaciones aleatorias por lo que, teóricamente, compartirán con éstas la misma función de distribución. En definitiva, serán normales. B) Insesgadez Partiendo de uno de los resultados de la expresión anterior [ E ( βˆ ) = E ( β + X ' Σ −1 X [ E ( βˆ ) = β + X ' Σ −1 X ] −1 ] −1 [ X ' Σ −1u ) = β + X ' Σ −1 X X ' Σ −1 0 = β ] −1 E (u ) = 0 X ' Σ −1 E (u ) = = 4/6 Apuntes de clase de Econometría II C) Eficiencia El objeto de este desarrollo es demostrar que los parámetros MCG son aquellos que presentan la varianza más pequeña de entre todos los insesgados; es decir, son eficientes (u óptimos). Para ello, comenzaremos por determinar cuál es la matriz de varianzascovarianzas de los estimadores MCG. Teniendo en cuenta dos expresiones ya obtenidas anteriormente: βˆ = β + [X ' Σ −1 X ] X ' Σ −1u −1 E ( βˆ ) = β Podemos escribir la matriz de varianzas-covarianzas de los parámetros estimados como sigue: [ ] var − cov(βˆ ) = E ( βˆ − E ( βˆ ))( βˆ − E ( βˆ ))' = [ [ ] X 'Σ u − β )(β + [X 'Σ X ] X 'Σ u − β )']= E [[X ' Σ X ] X ' Σ u )([X ' Σ X ] X ' Σ u )'] = E (uu ' ) = σ Σ = E [[X ' Σ X ] X ' Σ uu ' Σ X ' [X ' Σ X ] ) ] = = E ( β + X ' Σ −1 X −1 −1 −1 −1 −1 −1 −1 −1 −1 −1 −1 −1 −1 −1 −1 −1 2 −1 σ [X ' Σ X ] X ' Σ ΣΣ X ' [X ' Σ X ] = σ [X ' Σ X ] 2 −1 −1 −1 −1 −1 −1 −1 2 −1 En definitiva, la matriz de varianzas covarianzas de estos estimadores MCG o Aitken será: [ var − cov(βˆ ) = σ 2 X ' Σ −1 X ] −1 Como vía para demostrar que esta varianza es la mínima respecto a cualquier otra calculada a partir de un estimador insegasdo diferente al MCG, realizaremos las siguientes comprobaciones: 1. Proponer una expresión matemática de cualquier estimador diferente al MCG. 2. Determinar qué condiciones debe cumplir este estimador alternativo para que sea insesgado. 3. Determinar su matriz de varianzas-covarianzas 4. Comprobar que las varianzas de estos estimadores alternativos siempre serán mayores que la de los MCG 1. Estimador alternativo 5/6 Apuntes de clase de Econometría II Para determinar un estimador alternativo al MCG basta con que sea igual a este, pero adicionando los valores de una matriz “P” que no contenga valores nulos en todas sus filas y columnas: [ ] βˆ = [X ' Σ −1 X ] X ' Σ −1 + P y / P ≠ Ο ˆ −1 2. Condición de insesgadez del estimador alternativo [[ ˆ E ( βˆ ) = E ( X ' Σ −1 X [[ ] −1 ] y = Xβ + u X ' Σ −1 + P y ) = = ] X ' Σ + P ](Xβ + u) ) = E ([X ' Σ X ] X ' Σ = β + PXβ + [X ' Σ X ] X ' Σ E (u ) + PE (u) = β + PXβ = E ( X ' Σ −1 X −1 −1 −1 −1 −1 −1 −1 [ Xβ + PXβ + X ' Σ −1 X ] −1 X ' Σ −1 u + Pu) = −1 Para que este estimador alternativo sea insesgado, es necesario que el producto PXβ sea igual a cero. Para ello, PX debe ser nulo ya que: - - ningún parámetro puede ser nulo (no puede haber ningún valor igual a cero en el vector de betas, ya que eso significaría que hay una variable no explicativa incluida en el modelo) P no puede contener todo valores nulos, ya que es esta matriz precisamente la que marca la diferencia con los estimadores MCG. En definitiva, la única alternativa posible para que los parámetros alternativos sean insesgados es que el producto PX sea nulo. Dada esta condición, los estimadores alternativos se podrían rescribir (desde un paso intermedio de la expresión anterior) como: βˆ = [X ' Σ −1 X ] X ' Σ −1 y = β + [X ' Σ −1 X ] X ' Σ −1u + Pu ˆ −1 −1 Lo cual, simplificará los cálculos de la siguiente fase de esta demostración. 3. Matriz de varianzas-covarianzas de este estimador insesgado alternativo 6/6 Apuntes de clase de Econometría II ˆ ˆ ˆ ˆ E (βˆ − E (βˆ ))(βˆ − E (βˆ ))' = [ [ = E [([X ' Σ = E [([X ' Σ = E (β + X ' Σ −1 X −1 −1 ] X] X ] −1 X ' Σ −1u + Pu )( X ' Σ −1 X −1 −1 X ' Σ −1uu ' Σ −1 −1 ] X] ] −1 −1 2 −1 −1 −1 X ' Σ −1ΣΣ −1 X X ' Σ −1 X −1 2 ] −1 −1 −1 −1 −1 −1 −1 −1 −1 2 −1 2 2 + σ 2 X ' Σ −1 X −1 [ ] [ ] uu ' P '+ Puu ' Σ −1 X X ' Σ −1 X [ ] X ' Σ ΣP'+σ + σ [X ' Σ X ] X ' P'+σ PX [X ' Σ X ] + σ PΣP'] = PX = 0 = condición insegadez = σ [[X ' Σ X ] + PΣP'] X ' P' = 0 = σ 2 X ' Σ −1 X [ ] X ' Σ −1u + Pu - β )' = [ ] X ' Σ u + Pu )']= X [X ' Σ X ] + [X ' Σ X ] X ' Σ −1 E (uu ' ) = σ 2 Σ = = [ [ = [σ [X ' Σ [ X ' Σ −1u + Pu - β )(β + X ' Σ −1 X 2 PΣΣ −1 X X ' Σ −1 X −1 −1 −1 En conclusión, la matriz de var-covarianzas de los parámetros será: [[ ˆ var − cov( βˆ ) = σ 2 X ' Σ −1 X ] −1 ] + PΣP ' 4. Comparación con la matriz de varianzas-covarianzas de los MCG Comparando las expresiones obtenidas para las dos matrices de varianzas-covarianzas, se llega a la conclusión de que, necesariamente, la de los estimadores alternativos será mayor que la de los estimadores MCG, ya que la primera suma una cantidad adicional positiva a las varianzas (la diagonal principal) que viene expresada por PΣP [ var − cov(βˆ ) = σ 2 X ' Σ −1 X ] −1 [[ ˆ < var − cov(βˆ ) = σ 2 X ' Σ −1 X ] −1 ] + PΣP' D) Consistencia Supuesta la existencia de límites finitos para los cocientes de las variables entre el número de observaciones, la probabilidad en el límite siguiente de la varianza de los estimadores MCG se anula: p lim(cov(β MCG ) = p lim n →∞ σ 2 X ' Σ −1 X n n −1 =0 ] + Puu ' P' ) = ] + σ 2 PΣP' =