COMPARACIÓN DE DOS MODELOS ECONOMÉTRICOS Un problema que puede presentarse en la práctica es la comparación de dos modelos econométricos. Por ejemplo, se desea analizar si el precio de la vivienda en dos barrios difiere significativamente, o si se ha producido un cambio significativo en este precio en el año en curso respecto al precio vigente hace tres años, o también, si las calificaciones obtenidas por los chicos que estudian una carrera se diferencian de las notas obtenidas por las chicas, o bien, si el beneficio de una empresa que actua en dos mercados distintos difieren entre sí. En principio se podría pensar que estas cuestiones se abordan estadísticamente con contrastes de hipótesis como los de comparación de las medias de dos poblaciones (los dos barrios, las dos épocas, los dos sexos, etc), o con contrastes de comparación de otros parámetros de estas poblaciones, o incluso con tests de ajuste o identidad entre las dos poblaciones investigadas. Sin embargo, al planificar un experimento muestral para responder a las preguntas planteadas, sin duda se pretenderá que la respuesta sea realista, en el sentido de adaptarse de forma lo mas adecuada posible a las condiciones del mercado o de las poblaciones investigadas. Así, al comparar el precio medio de la vivienda en dos zonas de una ciudad, hay que tener en cuenta otras variables que condicionan o explican esta variable (por ejemplo la superficie de un piso, el número de habitaciones, su equipamiento, la zona de la ciudad donde se ubica, etc.), o al comparar las notas obtenidas por estudiantes de ambos sexos, cabe tener en cuenta otros factores exógenos que determinan, al menos en parte, las calificaciones (por ejemplo, el número de horas de estudio semanales, la asistencia o no a clase, su capacidad intelectual, etc.). Para simplificar el problema, vamos a considerar un modelo para explicar las variaciones de una variable endógena, y, en función de una sola variable exógena, x, y de un factor no numérico, d, binario, que se va a codificar mediante los números 0 y 1 (podría codificarse también con los valores +1 y –1). En el caso que el factor tuviese mas de dos niveles (por ejemplo, tres barrios de una ciudad, se necesitarían dos variables artificiales binarias como la variable artificial d anterior). Sea pues, y la nota obtenida en una asignatura por un estudiante, x, las horas de estudio, y d su sexo (d = 0 para un chico y d = 1 para una chica). Se parte de la suposición que la variable endógena y va a depender linealmente de las variables exógenas x y d. Esta suposición es discutible, pues posiblemente al aumentar mucho las horas de estudio el efecto marginal sobre la calificación va a ir decreciendo, lo que implica una no linealidad. Vamos a plantear dos modelos alternativos: y = 0 + 1 x + 2 d + en el que el coeficiente 2 representa el efecto aditivo sobre la nota asociado al sexo del estudiante, y el modelo y = 0 + 1 x + 2 d + 3 x d + en el que se incluye un efecto aditivo 2, y uno multiplicativo cuantificado en el coeficiente 3, que afecta a la pendiente de la recta asociada a cada sexo, es decir al rendimiento marginal de cada hora de estudio, que, hipotéticamente podría ser distinto para chicos y chicas. Si se utiliza el primer modelo, la comparación de las calificaciones obtenidas para cada sexo, se puede realizar con el test T sobre el coeficiente 2, es decir, planteando las hipótesis H0: 2 = 0 H1: 2 0 Si se acepta H1, a un nivel de significación , se estará aceptando que existen diferencias entre los rendimientos académicos en función del sexo, y estas diferencias serán iguales (efecto aditivo) para estudiantes que dediquen diferentes números de horas de estudio, mientras que si se acepta H0, se considera, al nivel de significación empleado, que no existen diferencias asociadas al sexo. Si se sospecha que, por ejemplo, las chicas obtienen mejores notas con la misma intensidad de estudio, cabe plantear la hipótesis alternativa como unilateral, es decir, H1: 2 > 0, (mayor, pues se ha codificado d = 0 para hombres y d = 1 para mujeres). Esto afecta a la regla de decisión a utilizar con el estadístico T asociado al parámetro 2, que también será unilateral. En el caso que se utilice el segundo modelo, la comparación entre los dos sexos implica realizar dos contrastes T, es decir, realizar los tests H0: 2 = 0 H1: 2 0 H0: 3 = 0 H1: 3 0 Si se aceptan ambas hipótesis nulas, se podrá considerar que no existen diferencias, y si se acepta al menos una hipótesis alternativa, que sí existen diferencias entre los dos sexos. El problema de proceder de esta forma es que si se realizan los dos tests a un cierto nivel de significación , como ambos tests están relacionados, el nivel de significación conjunto para la decisión global sobre los dos parámetros, no es conocido. Por ello, es preferible plantear el contraste F sobre los dos parámetros que están asociados al efecto atribuible al sexo, es decir, realizar el contraste H0: 2 = 0 H1: 2 0 y o/y 3 = 0 3 0 basado en el correspondiente estadístico F, cuya distribución muestral, si H0 es cierta, es de tipo F de Snedecor. El planteamiento anterior puede extenderse sin dificultad si se dispone de mas de una variable explicativa, x, de la calificación, como puede ser la proporción de clases a las que asiste, o incluso alguna variable artificial adicional (por ejemplo, si es o no repetidor). En todo caso, las variables que se introduzcan como explicativas (numéricas o artificiales), deben ser exógenas, es decir, que su variación dependa de causas externas al modelo. UN EJEMPLO NUMÉRICO: EFECTO ADITIVO Se dispone de una muestra aleatoria de 20 estudiantes, 10 chicos y 10 chicas tomada en una facultad, y se les pregunta su calificación en una asignatura, y, y las horas de estudio semanales, x, dedicadas a ésta. Los datos disponibles son Chicos Chicas Nota Horas Nota Horas 5.7 6.1 7.25 4.1 8.7 5.7 8.9 5.7 5.3 9.5 2 3 5 1 6 4 7 3 2 8 5.3 4.6 4.1 3 4.1 6.8 7.8 4.8 7.2 4.4 5 4 2 1 3 6 8 4 7 3 Por lo tanto se dispone de n = 20 datos, y la variable artificial, Sexo, se ha codificado con los valores 0 y 1. Al realizar un diagrama de dispersión con los datos de las notas respecto al número de horas de estudio, se obtiene 10 9 8 Chicas NOTA 7 6 Chicos 5 4 3 2 0 1 2 3 4 5 6 7 8 9 HORAS En el gráfico se observa que la evolución de las notas de las chicas con respecto a las de los chicos tiende a ser superior en relación al número de horas estudiadas. Al estimar el primer modelo se obtiene Nota = 2.115 + 0.72 Horas + 1.63 Sexo + e (0.216) (0.041) (0.177) La salida obtenida con EViews es la siguiente: Dependent Variable: NOTA Method: Least Squares Included observations: 20 Variable Coefficient Std. Error t-Statistic Prob. C HORAS SEXO 2.115618 0.719624 1.628925 0.215843 0.040944 0.176773 9.801674 17.57570 9.214786 0.0000 0.0000 0.0000 R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Durbin-Watson stat 0.957139 0.952096 0.394852 2.650437 -8.168693 2.595677 Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion F-statistic Prob(F-statistic) 5.952500 1.804051 1.116869 1.266229 189.8136 0.000000 Se tiene pues que ambas variables exógenas muestran una clara influencia sobre la nota obtenida, pues si se realizan los tests T sobre los coeficientes del modelo teórico, es decir H0: 1 = 0 H0: 2 = 0 H1: 1 0 H1: 2 0 se obtienen respectivamente los valores t1= 17.57, y t2 = 9.21, es decir valores muy elevados. Al tomar la decisión a niveles de significación = 1%, = 0.1%, e incluso para niveles mas pequeños, en ambos casos se acepta la hipótesis alternativa. La probabilidad límite de ambos valores se muestra en la última columna de la salida, y para ambos estadísticos es menor a 0.0001, por lo que incluso hasta este nivel de significación se aceptaría, para los dos contrastes la hipótesis H1. En el modelo estimado, el coeficiente de la variable Horas muestra la productividad marginal de una hora adicional de estudio: un incremento de 0.72 puntos, por término medio, en la nota final. También se concluye que en el caso de las chicas, por término medio, obtienen casi 1.63 puntos mas que los chicos, para cualquier cantidad de horas estudiadas. El efecto estimado es de tipo aditivo. El coeficiente de determinación es R2 = 0.957: el 95.7% de la varianza de las notas es explicada por el modelo, y el resto se integra en la varianza residual, esto es, la parte de la nota no explicada por las dos variables consideradas. 0.8 Residuos 0.4 0.0 -0.4 -0.8 Chicos -1.2 2 4 6 Chicas 8 10 12 14 16 18 20 Los residuos correspondiente a los 20 datos se muestran en el gráfico anterior, y no parecen seguir ninguna pauta. Ninguno es mayor que la unidad, en valor absoluto, y solo cuatro superan el medio punto, es decir, que el poder predictivo del modelo es bueno. EJEMPLO NUMÉRICO: EFECTOS ADITIVO Y MULTIPLICATIVO En el próximo ejemplo se va a estimar el segundo tipo de modelo, incluyendo como variables explicativas además del número de horas de estudio y el sexo del alumno, una variable producto de estas dos, que representa la interacción entre ambas, y cuyo coeficiente estimado corresponde a un efecto multiplicativo del sexo sobre la nota final. Los datos disponibles son Chicos Chicas Nota Horas Nota Horas 5.3 5.5 6.25 3.9 7.5 4.9 7.5 5.1 4.9 7.9 2 3 5 1 6 4 7 3 2 8 5.3 4.6 4.1 3.0 4.1 6.8 7.8 4.8 7.2 4.4 5 4 2 1 3 6 8 4 7 3 Por lo tanto se dispone de n = 20 datos, y la variable artificial, Sexo, se ha codificado con los valores 0 y 1. El modelo a estimar es ahora Nota = 0 + 1 Horas + 2 Sexo + 3 Notas Sexo + Al utilizar los datos se llega a Nota = 2.25 + 0.69 Horas + 1.38 Sexo – 0.14 Horas Sexo + e (0.288) (0.06) (0.393) (0.083) La salida de EViews es la siguiente Dependent Variable: NOTAS Variable Coefficient C HORAS SEXO HORAS*SEXO R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Durbin-Watson stat 2.248753 0.688662 1.381309 -0.141116 0.936316 0.924376 0.400783 2.570037 -7.860649 2.431805 Std. Error t-Statistic Prob. 0.288807 0.060352 0.393307 0.083230 7.786345 11.41079 3.512040 -1.695506 0.0000 0.0000 0.0029 0.1093 Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion F-statistic Prob(F-statistic) 5.542500 1.457402 1.186065 1.385211 78.41411 0.000000 El coeficiente de determinación R2 = 0.936, es decir, el 93.6% de la varianza de las notas es explicada por el modelo. Los estadísticos T para realizar los contrastes sobre los coeficientes del modelo toman los valores t1 = 11.4, t2 = 3.51, y t3 = -1.695. Si se realizan los tests T para contrastar cada una de las hipótesis siguientes H0: 1 = 0 H1: 1 0 H0: 2 = 0 H1: 2 0 H0: 3 = 0 H1: 3 0 en los dos primeros casos, incluso para niveles de significación = 1%, se aceptarían las correspondientes hipótesis alternativas, esto es, se acepta que hay que mantener las variables Horas y Sexo en el modelo. En el caso del efecto multiplicativo o interacción entre estas dos variables, se tiene que la probabilidad límite del estadístico t3 es p = 0.1093, por lo que incluso a un nivel de significación = 10% se acepta H0. En el gráfico siguiente se observa que este efecto multiplicativo parece existir con bastante claridad, y si se toma = 11%, como p es inferior, a este nivel se acepta la hipótesis H1 del tercer test, esto es, se acepta la existencia del efecto multiplicativo. Como el nivel de significación del test representa la probabilidad de cometer error de tipo I (rechazar H0 siendo cierta, o dicho de otro modo, incluir una variable no relevante), mientras que el error de tipo II se comete cuando se omite una variable relevante, es aconsejable tomar valores de que no sean pequeños, para conseguir disminuir la probabilidad de cometer error de tipo II, pues, de forma general, parece mas ‘grave’ excluir alguna variable exógena relevante, que incluir alguna variable sobre la que exista duda si debe estar o no incluida una variable que puede no ser importante. Así pues, el tomar en este caso un valor de = 11%, y decidir mantener la tercera variable (el efecto multiplicativo) en el modelo, parece la solución mas razonable. En todo caso hay que resaltar que la decisión sobre el nivel de significación, y, en definitiva sobre la inclusión o exclusión de variables en un modelo econométrico, es de naturaleza extra-estadística, y debe estar basada en el conocimiento económico de la situación modelizada. Una alternativa a los tests T sobre la inclusión de las dos variables en las que figura la variable Sexo, es realizar el test F de análisis de la varianza en la que se contrasta conjuntamente la inclusión o exclusión de estas dos variables. Al hacerlo, la conclusión a que se llega, incluso a niveles de significación muy bajos es que deben mantenerse, al aceptarse la hipótesis H1: 2 0 o/y 3 0. El modelo estimado da origen a un modelo distinto para cada sexo. Así para los chicos, es Nota = 2.25 + 0.69 Horas + e y para las chicas, Nota = 3.63 + 0.55 Horas + e El efecto aditivo a favor de las chicas, de 1.38 puntos adicional en la nota final, independientemente de las horas estudiadas, se ve compensado en parte por el efecto multiplicativo que afecta a la pendiente, disminuyendo el valor de esta en 0.14 puntos por hora, es decir, por una menor productividad marginal de cada hora extra de estudio. 9 Notas 8 7 Chicas 6 Chicos 5 4 3 Horas 2 0 1 2 3 4 5 6 7 8 9 Las líneas (rectas) señaladas por los puntos en rojo corresponden a los dos modelos estimados. La pendiente de ambos modelos es distinta (efecto multiplicativo), y las ordenadas en el origen (efecto aditivo) también. COMETARIOS FINALES SOBRE LOS MODELOS En ambos modelos se debe realizar un análisis de los posibles problemas econométricos que se pueden presentar: - - - - Heterocedasticidad: en los gráficos de residuos no se detecta tendencia en variabilidad, y puede realizarse algún test, como el de White o el de GoldfeldQuandt (tomando como posible variable explicativa el sexo). Autocorrelación: no procede, pues son datos de corte transversal, en los que no tiene sentido el que exista autocorrelación Normalidad de las perturbaciones aleatorias (i, i =1,2,...,20), realizando el test de Jarque-Bera usando los residuos ei, i = 1,2,...,20. Multicolinealidad: en este caso es inmediato comprobar que la redundancia de información no es importante: los coeficientes de correlación entre las tres variables explicativas son –0.402, 0.046 y 0.795. Este último, algo mas elevado es la correlación entre la variable Horas y la variable interacción Sexo Horas. No es posible evitarla, y es claro, que la relación entre éstas no es lineal. También se puede obtener el número de condición. Incorrecta especificación del modelo: es obvio que puede pensarse en otras posibles variables explicativas exógenas que no se han incluido: el coeficiente de inteligencia de cada alumno o algunas facetas de éste, el grado de asistencia a clase, la atención en ésta, su regularidad en el estudio, etc. También cabe cuestionar si la forma funcional seleccionada es la adecuada. El rango de valores de la variable horas de estudio, en el que es aplicable el modelo: para realizar predicciones de la nota estimada, hay que considerar posibles nuevos alumnos que hayan estudiado un número de horas similar a la de los 20 usados para estimar el modelo. COMETARIOS SOBRE LA SALIDA EViews El listado de salida obtenido con la orden LS Notas c Horas Sexo Sexo*Horas proporciona una información extensa. Las desviaciones típicas estimadas de los coeficientes de regresión (Std. Error) se obtienen a partir de los elementos de la diagonal principal de la matriz Sb se2 (X'X)1 se2 A Si se numeran las filas a partir del número 0, (pues al primer coeficiente del modelo se le ha llamado 0, por ejemplo, la desviación típica estimada del estimador del parámetro 1 de la variable Horas es sb1 se a11 0.400783 a11 0.060352 De igual forma se obtienen las demás desviaciones típicas. Nótese que la cuasidesviación típica residual, se , aparece en el listado en la parte inferior (S.E. of regresión), y se calcula a partir de los 20 residuos, ei, i = 1,2,...,20 0.574847 -0.920245 -0.392063 0.419274 0.227301 0.037117 -0.403401 0.041950 -0.117791 -0.172699 0.473923 -0.203401 -0.277607 0.174847 0.062585 0.130612 0.584663 -0.110429 -0.214739 0.085261 mediante la expresión 1 20 2 1 1 ei Se 2.570037 0.4007832 20 4 i 1 16 16 (pues en el modelo se han estimado 4 coeficientes de regresión). se2 La suma de cuadrados residual también aparece en el listado de salida, en la parte inferior, así como la media de los valores de la variable endógena, Notas, y su cuasidesviación típica 1 20 1 ( Notasi 5.5425)2 S y 1.457402 20 1 i 1 19 El estadístico F = 78.41411 es para realizar el test de análisis de la varianza sobre todos los coeficientes, poco útil en la práctica, pues no parece imaginable el plantear un modelo en el que ninguna de las variables explicativas tenga poder predictivo sobre Y. sy Los estadísticos T se obtienen, para cada test de la forma H0: j = 0 H1: j 0 dividiendo el coeficiente estimado por su respectiva desviación típica estimada. Por ejemplo, para la tercera variable, j = 3, es 0.141116 t3 1.695506 0.083230 y la probabilidad límite asociada a este valor es p = 2 Pr[T > |-1.695506| ] = 0.1093 siendo T una variable aleatoria t de Student con 20 – 4 = 16 grados de libertad. De igual forma se calculan las probabilidades límite de los restantes estadísticos. Estas probabilidades límite son útiles, pues permiten realizar los tests T a cualquier nivel de significación sin necesidad de disponer de unas tablas estadísticas de esta distribución t(16): valores de p conducen a aceptar (a este nivel ) la hipótesis H0, y valores de p < a aceptar H1. El coeficiente de determinación R2 se define a partir del teorema de descomposición de la varianza de la variable endógena (y = Notas): la suma de cuadrados total, Sy, se divide en dos sumandos Sy = Smodelo + Se la suma de cuadrados explicada por el modelo y la residual. Así es R2 = Smodelo / Se . En el listado de salida aparece directamente la suma de cuadrados residual, Se = 2.570037, la cual también se puede obtener directamente a partir de la cuasi-desviación típica residual, se 0.400783 , como se vio anteriormente. La suma de cuadrados total se deduce directamente de la expresión de la cuasi-desviación típica de la variable endógena. En este caso la descomposición anterior es Sy = 19 1.4574022 = Smodelo + 2.570037 de donde se deduce el valor de R2. En la ventana en la que EViews muestra el modelo estimado hay varios botones: el primero (View) permite visualizar varios aspectos del modelo estimado: la salida anterior, los gráficos de residuos y de valores estimados, el listado de los residuos, así como varios contrastes de hipótesis para realizar una vez estimado el modelo y validar distintos aspectos del mismo.