Comisión Económica para América Latina y el Caribe (CEPAL) División de Estadísticas y Proyecciones Económicas (DEPE) Centro de Proyecciones Económicas (CPE) Modelo Clásico de Regresión Enfoque Matricial Christian A. Hurtado Navarro Mayo, 2006 1. Introducción. Reconsideremos el modelo de regresión lineal, pero extendiendo el análisis para el caso de k variables explicativas. El modelo es y i = β1 + β 2 x 2,i + β 3 x3,i + K + β k x k ,i + ε i = j ∑β j x j ,i + ε i ; con i = 1, 2,…,n. j =1 Donde x1,i = [x11 K x n1 ]' = [1 K 1]' . ' Utilizando notación matricial el modelo general, se puede escribir como: Y = Xβ + ε Donde ε es, como antes, aleatorio, y Yn×1 ⎡ y1 ⎤ ⎡ x11 L x1k ⎤ ⎡ β1 ⎤ ⎡ε1 ⎤ ⎥ ⎥ ⎥ ⎢ ⎢ ⎢ = ⎢ M ⎥ ; X k ×n = ⎢ M O M ⎥ ; β k ×1 = ⎢ M ⎥ ; ε n×1 = ⎢⎢ M ⎥⎥ ⎢⎣ x n1 L x nk ⎦⎥ ⎣⎢ y n ⎦⎥ ⎣⎢ β k ⎦⎥ ⎣⎢ε n ⎦⎥ Los supuestos más simples del modelo de regresión general son: i. E [ε ] = 0 , donde 0 es el vector nulo. ii. var(ε ) = E (ε − E [ε ])(ε − E [ε ])' = E [εε '] = σ 2 I n iii. X es no estocástico, fijo en muestras repetidas. iv. ran(X) = k < n. Esto es, los vectores de observaciones que [ ] conforman la matriz X son linealmente independientes. v. El vector ( ε ~ N 0, σ 2 I n ) ε tiene una distribución normal multivariada: S-i y S-ii implican que ε es un vector de errores aleatorios en el que cada uno de sus elementos tiene media cero, varianza constante, y no están correlacionados entre sí. Donde In es una matriz identidad de orden n × n. Nótese que en la matriz anterior, todas las entradas en la diagonal corresponden a las varianzas de εi (el término de error), todas las cuales son idénticas a σ2, por lo que seguimos considerando errores homocedásticos. Además, como todas las entradas fuera de la diagonal corresponden a las covarianzas entre pares de errores, y éstas son cero, entonces pares de los ε’s están no correlacionados. La matriz E(εε’) = Ω = σ2In recibe el nombre de matriz de varianzas y covarianzas de los errores. Solo para estar seguros de que estamos entendiendo el desarrollo del modelo, hagámonos las siguientes preguntas: ¿qué importancia económica tienen los supuestos de homocedasticidad y de independencia de los errores? Ambos supuestos implican: que la distribución de los efectos no considerados en el modelo i. - que en su conjunto constituyen el error - es tan estable período a período, que su dispersión, medida por su varianza, es invariante en el tiempo; y, ii. que las acciones de los agentes económicos con respecto a las variables no consideradas no se trasladan de un período a otro, por lo que no se provocan efectos traslapados en el tiempo; por lo tanto, los errores permanecen relativamente estables en el tiempo. El S-iii lleva a concluir que Y varía aleatoriamente sólo debido a la presencia del término de error ε. El supuesto S-iv, por su parte, tiene dos partes. Primero, requiere que la matriz X sea de rango completo y, segundo, que el número de observaciones n sea mayor que el número de parámetros a estimar, k. Es necesario que la matriz X sea de rango completo porque la matriz X’X también será de rango completo y por lo tanto invertible, resultado que es necesario más adelante. Si tanto X como X’X no son de rango completo, entonces los vectores columna (fila) que conforman la matriz X serán linealmente dependientes; esto es, al menos una de las columnas (filas) de dicha matriz puede obtenerse como un múltiplo constante de las otras columnas (filas), o por una combinación lineal de al menos dos columnas (filas), por lo que X’X no será invertible y, como veremos, cualquier intento de estimar los parámetros de la regresión será infructuoso. 2. Estimación por OLS. Para obtener los estimadores OLS de los muestral como: Y = Yˆ + εˆ = Xβˆ + εˆ β, expresamos la regresión Donde β̂ es un vector columna de k elementos, compuesto por los estimadores OLS de los coeficientes de la regresión. Al igual que antes, estamos interesados en minimizar la suma de los errores al cuadrado, que en este caso corresponden a: ( ) S βˆ ols = min ∑ εˆ 2 i = εˆ ' εˆ donde εˆ = Y − Xβˆ ( )( ) ' Xβˆ ) εˆ ' εˆ = Y ' Y − (Xβˆ )' Y − Y ' (Xβˆ ) + (Xβˆ )( εˆ ' εˆ = Y − Xβˆ ' Y − Xβˆ εˆ ' εˆ = Y ' Y − 2 βˆ ' X ' Y + βˆ ' X ' Xβˆ por lo tanto, la minimización de εˆ ' εˆ implica la siguiente condición de primer orden: εˆ ' εˆ = 0 ⇒ −2 X ' Y + 2( X ' X )βˆ = 0 ∂βˆ ols εˆ ' εˆ = 0 ⇒ ( X ' X )βˆ = X ' Y ∂βˆ ols de donde se obtiene el siguiente resultado: εˆ ' εˆ = 0 ⇒ ( X ' X )βˆ = X ' Y ∂βˆ ols βˆ ols = ( X ' X )−1 X ' Y Resultado que es posible si y sólo si (X’X)−1 existe, para lo cual es condición necesaria que las columnas de la matriz X sean linealmente independientes; esto es, que ran (X) = k < n, tal como lo exige el supuesto S-iv. 3. El Coeficiente de Determinación R2 y la Bondad del Ajuste. Como sabemos, R 2 = SCE SCR . Si consideramos el enfoque matricial, este = 1− SCT SCT resultado puede reescribirse como: R2 = βˆ ' X ' y − nY 2 y ' y − nY Donde el modelo está expresado en desvíos. Como hemos discutido en anteriormente, la inclusión de más variables explicativas hace aumentar el R2, pero a costa de mayor complejidad comutacional, y la correspondiente pérdida de grados de libertad. El coeficiente de determinación que incorpora la pérdida de grados de libertad es el coeficiente de determinación ajustado. R 2 = 1− SCR n−k SCT n −1 4. Prueba de Hipótesis Si el objetivo de la estadística, entonces estocásticas o se término estimación econométrica es la tiene suponer las perturbaciones de que error siguen que alguna inferencia distribución de probabilidad. En nuestro caso hemos supuesto que los errores siguen una ( ) distribución normal multivariada del tipo ε ~ N 0, σ 2 I . Dado este supuesto estimadores OLS de (βˆ ,σˆ ) 2 i normalidad, y reconociendo el hecho que los son insesgados y que la distribución de los β̂ i es normal, entonces podemos generalizar estas ideas al caso de la regresión general en los siguientes términos: ( βˆ ~ N β , σ 2 ( X ' X )−1 ) A partir de estos resultados es posible señalar que cada elemento del vector β̂ sigue una distribución t con n − k grados de libertad; esto es, t= βˆi − β i ~ t (n − k ) σˆ β̂ i Luego, si estamos interesados en estudiar la significancia estadística de cada uno de los parámetros del modelo o bien alguna hipótesis respecto de ellos, seguimos el mismo procedimiento que el usado para estimar la significancia o realizar pruebas de hipótesis para parámetros individuales en el caso del modelo de dos variables. Para realizar un test de hipótesis conjunta donde H 0 : β 2 = β 3 = K = β k = 0 , se puede demostrar que: (βˆ ' X ' y − nY ) (k − 1) ~ F F= ( (y' y − βˆ ' X ' y ) 2 k −1, n − k ) (n − k ) R2 F= (k − 1) (1 − R ) 2 (n − k ) ~ F(k −1,n − k )