1 - Instituto Economía Pontificia Universidad Católica de Chile

Anuncio
Versión impresa ISSN: 0716-7334
Versión electrónica ISSN: 0717-7593
PONTIFICIA UNIVERSIDAD CATÓLICA DE CHILE
INSTITUTO DE ECONOMÍA
Oficina de Publicaciones
Casilla 76, Correo 17, Santiago
www.economia.puc.cl
NOTAS DE CLASES
TEORÍA ECONOMÉTRICA
Raimundo Soto*
Trabajo Docente Nº 78
Santiago, Mayo 2010
* [email protected]
Indice
1. Introducción.....................................................................................................................................1.1
2. Teoría de Probabilidades................................................................................................................2.1
2.01 Noción de Probabilidad.................................................................................................2.2
2.02 Axiomatización de las Probabilidades.........................................................................2.3
2.03 Variables Aleatorias........................................................................................................2.8
2.04 Momentos de una Distribución.................................................................................2.14
2.05 Distribuciones Discretas de Uso Común.................................................................2.17
2.06 Distribuciones Continuas de Uso Común...............................................................2.19
2.07 Distribuciones Conjuntas............................................................................................2.22
2.08 Distribuciones Marginales...........................................................................................2.22
2.09 Distribuciones Condicionales.....................................................................................2.24
Apéndice A: Ejercicios..........................................................................................................2.26
3. Elementos de Inferencia Estadística...........................................................................................3.1
3.01 Modelo probabilístico, modelo muestral y modelo estadístico ...............................3.1
3.02 Estadísticos muestrales...................................................................................................3.5
3.03 Distribución de la media muestral................................................................................3.5
3.04 Características deseables de los estimadores en muestra finita................................3.6
3.05 Límite de Cramer-Rao.....................................................................................................3.8
3.06 Elementos de teoría asintótica: convergencia.............................................................3.9
3.07 Elementos de teoría asintótica: leyes débiles de grandes números.......................3.14
3.08 Elementos de teoría asintótica: leyes fuertes de grandes números........................3.18
3.09 Propiedades de los distintos tipos de convergencia.................................................3.20
3.10 Teoremas del límite central..........................................................................................3.21
3.11 Distribución asintótica..................................................................................................3.26
3.12 Estimación asintóticamente eficiente (máximo verosímil).....................................3.27
3.13 Tests de hipótesis...........................................................................................................3.32
3.14 Tres tests de hipótesis asintóticamente equivalentes...............................................3.34
3.15 Test de hipótesis no anidadas......................................................................................3.35
3.16 Criterios informacionales..............................................................................................3.37
Apéndice A: Ejercicios..........................................................................................................3.41
4. Modelo Clásico de Regresión Lineal...........................................................................................4.1
4.01 Lógica del modelo de regresión.....................................................................................4.2
4.02 Análisis de los supuestos del modelo de regresión lineal..........................................4.2
4.03 Representación gráfica de la regresión lineal...............................................................4.7
4.04 Derivación del estimador de mínimos cuadrados......................................................4.8
4.05 Propiedades del estimador de mínimos cuadrados en muestra finita...................4.12
4.06 Tests de hipótesis en el modelo multivariado...........................................................4.16
4.07 Tests de hipótesis y modelo restringido.....................................................................4.21
4.08 Propiedades del estimador de mínimos cuadrados en muestra grande................4.23
4.09 Transformaciones de estimadores: el método Delta...............................................4.30
4.10 Predicción........................................................................................................................4.30
4.11 Método generalizado de momentos...........................................................................4.32
Apéndice A: Ejercicios.........................................................................................................4.40
Capítulo 5 Violación de los Supuestos del Modelo de Regresión Lineal
5.01 Problemas de Especificación I: Regresores Inadecuados.........................................5.2
5.02 Problemas de Especificación II: Cambio de Régimen..............................................5.6
5.03 Problemas de Especificación III: Datos erróneos..................................................5.13
5.04 Problemas de Especificación IV: Colinealidad........................................................5.20
5.05 Modelos de Varianza No Constante..........................................................................5.27
5.06 Heterocedasticidad........................................................................................................5.28
5.07 Correlación de residuos................................................................................................5.39
5.08 Variables instrumentales..............................................................................................5.45
Apéndice A: Ejercicios.........................................................................................................5.54
Capítulo 6: Modelos no lineales
6.01 Elementos de cálculo numérico....................................................................................6.1
6.02 Optimización no lineal....................................................................................................6.5
6.03 Estimación de mínimos cuadrados no lineales...........................................................6.9
6.04 Estimación de variables instrumentales no lineales.................................................6.12
6.05 No linealidad de la variable dependiente...................................................................6.13
6.06 Interpretación de los parámetros de un modelo no lineal......................................6.14
6.07 Tests de hipótesis...........................................................................................................6.14
Capítulo 7: Modelos con Datos de Panel.......................................................................................7.1
7.1 Modelo canónico de datos de panel...............................................................................7.3
7.2 Modelación con datos de panel....................................................................................7.16
7.3 Modelos de panel dinámicos.........................................................................................7.18
7.4 Tests de raíces unitarias en panel..................................................................................7.22
Capítulo 1
Introducción
“Without data all you are is just another person with an opinion” (Anónimo)
“Facts are stupid things” (Ronald Reagan, 1978).
Con frecuencia en el estudio de la economía -y de la econometría en particular–
se comete el error de empezar con el análisis de “modelos económicos” sin definir
previamente lo que se entiende por modelo y sin explicar por qué es importante
construir dichos modelos. Sims (1996)1 señala que los avances en ciencias naturales –y en
gran medida en economía— se refieren usualmente a descubrimientos sobre nuevos
modos de comprimir datos con respecto a algún fenómeno con una mínima pérdida de
información. Considere el siguiente ejemplo de la astronomía: Tycho Brahe (1546-1601)
acumuló durante muchos años datos confiables sobre los movimientos de los planetas.
Su asistente, Johannes Kepler (1571-1630), sin embargo, observó que podían ser
modelados como elipses con el sol en uno de sus focos, logrando una notable
compresión de información.2
Los modelos en economía, y en econometría en particular, buscan el mismo
objetivo: transmitir información sobre las regularidades que caracterizan a la economía
de modo eficiente (máxima compresión) y seguro (menor pérdida). Dichas
regularidades –al igual que en las ciencias naturales– tienen nombres más bien
pintorescos (p.e., “ley de oferta y demanda”, “propensión marginal a consumir”) pero
poseen el atributo de generalidad que les hace particularmente útiles: cuando se
menciona que un fenómeno queda razonablemente descrito por una ecuación de recta
(es decir un modelo), el auditor instruido inmediatamente deduce las propiedades de
dicho modelo y, a la vez, sabe que para cada situación específica en la que dicho
fenómeno se verifique habrá una recta particular que le describe. Uno de los primeros y
más famosos econometristas Francis Galton señaló que “The object of statistical science
is to discover methods of condensing information concerning large groups of allied facts
into brief and compendious expressions suitable for discussion” (Inquiries into Human
Faculty and its Development, Macmillan: London,1883, pp.55). Otra manera de ver el rol
de un modelo o teoría es provisto por S. Hawking “A theory is a good theory if it
satisfies two requirements: it must accurately describe a large class of observations on
the basis of a model that contains only a few arbitrary elements, and it must make
definite predictions about the results of future observations” (A Brief History of Time,
New York, 1988). Debiera añadirse que los modelos deben cumplir una restricción
adicional, derivada de la célebre sentencia de William de Occam (1285-1349) “Essentia
1
C. Sims, “Macroeconomics and Methodology”, Journal of Economic Perspectives, 10 (Winter): 105-120, 1996.
2
Desilusionado con la incapacidad del modelo de Ptolomeo (85-165) para describir la trayectoria de los
planetas, Copernico enunció su teoría heliocéntrica en 1543 pero sin proveer soporte empírico alguno. La
contribución de Brahe fue hacer mediciones precisas del movimiento de los planetas que hicieron posible
a Kepler la modelación del fenómeno. La superioridad del modelo de Kepler produjo fuerte agitación
social pues la Iglesia la consideró «contraria a las Sagradas Escrituras». El 26 de febrero de 1615, el
cardenal jesuita Bellarmino inició el juicio contra Galileo e incluyó los libros de Copernico De
revolutionibus, Kepler Mysterium cosmographicum, y Galileo Discorsi en el Indice de Libros Prohibidos
donde permanecieron hasta 1835.
1.2
non sunt multiplicanda praeter necessitatem”, es decir, que los elementos de un modelo
no deben ser aumentados más allá de lo necesario. La simplicidad es un objetivo de la
modelación.
Objetivamente, los economistas aún no somos capaces de desarrollar teorías que
sean capaces de describir la enorme heterogeneidad de los fenómenos económicos.
Recientemente, se ha desarrollado una línea de investigación sobre la pregunta de cuáles
son las formas, causas, y consecuencias de las complejidad de los sistemas económicos.
Rosser (2004)3 clasifica la complejidad que enfrenta un agente económico en tres áreas
fundamentales. Primero, complejidad en la estructura dinámica –y posiblemente no
lineal– de los fenómenos económicos, es decir, el hecho frecuente que una pequeña
perturbación en un sistema económico tenga repercusiones y ramificaciones dinámicas
en la economía de gran impacto (p.e., un cambio en un precio clave de la economía como
la tasa de interés). Segundo, la complejidad lógica y computacional que enfrenta un
agente económico al tomar una decisión cuando existe un gran número de mercados,
oferentes y demandantes. En particular la noción de equilibrio de los modelos
económicos es muy compleja: por ejemplo, un equilibrio Walrasiano le exige al agente
económico la computación de un número enorme de precios relativos, el equilibrio de
Nash exige una gran capacidad de análisis lógico para anticipar las reacciones de los
otros jugadores frente a diferentes alternativas de decisión. Tercero, la complejidad en la
aprehensión del fenómeno económico, es decir, el problema adicional al que el proceso
de aprehender la realidad económica es, en sí, también muy complejo y no puede ser
llevado a cabo sin costos excesivamente altos.
Al problema de la complejidad se le suman las restricciones que enfrenta el
análisis económico en términos de información sobre los fenómenos de interés y sus
causas. Tradicionalmente las ciencias naturales le han otorgado poco valor al análisis
probabilístico de los fenómenos. Ello se debe a que muchos de dichos fenómenos pueden
ser replicados en laboratorios bajo condiciones experimentales controladas. En la
mayoría de los problemas económicos no resulta factible realizar un análisis
experimental en circunstancias absolutamente controladas. Por ejemplo, no es posible
pedirle a un grupo de individuos que vuelva a estudiar una carrera profesional para
estimar cómo habría sido su perfil de ingreso en estas nuevas circunstancias. En este
sentido, los economistas usamos los datos disponibles para inferir probabilísticamente la
capacidad de una teoría para comprimir información pertinente sobre un determinado
más fenómeno o la congruencia con la que lo hace. Algunas de las ramas de la física o la
química han adoptado recientemente el esquema metodológico de la economía: por
ejemplo, la astronomía no cuenta –salvo honrosas excepciones– con “muestras” de
fenómenos de gravitación universal, sino con un fenómeno único. 4 La física subatómica
3
J. Barkley Rosser, Jr. (2004) “Epistemological Implications Of Economic Complexity”, mimeo,
Department of Economics, James Madison University.
4
S. G. Djorgovski reporta que el volumen de observaciones disponibles en astronomía se dobla en
aproximadamente cada año y medio. En cada noche, se produce aproximadamente 1 Terabyte de datos
adicionales (equivalente a la colección completa de la biblioteca PUC). Ello exige una modelación
probabilística de los datos. “Virtual Astronomy, Information Technology, and the New Scientific
1.3
no puede observar directamente un fenómeno sino sus efectos, de los cuales debe inferir
la validez de una hipótesis teórica. En ambos casos el análisis es frecuentemente
probabilístico.
Es por estas razones –complejidad del fenómeno y restricciones de información–
que la economía se basa en el desarrollo y análisis de modelos de comportamiento
validados empíricamente mediante métodos cuantitativos, en especial, los métodos
econométricos que se discuten en lo siguientes capítulos. 5 La modelación econométrica
propiamente tal comienza de manera significativa a principios del siglo XX con los
trabajos de los fundadores de la disciplina (Galton, Pearson, Neyman, Fischer, Frisch,
etc.) que desarrollaron la base estadística de gran parte de los tests básicos que se usan
en la actualidad. Pero no fue si no hasta los años 1950 que se masificó el uso de modelos
econométricos como base del análisis de políticas económicas y para la verificación de
diversos postulados teóricos. El gran empuje de mediados del siglo XX proviene
principalmente del desarrollo de un fundamento teórico sólido para la econometría en
general y para los modelos econométricos de gran escala en particular. Estos últimos se
beneficiaron de la aparición de bases de datos adecuadas (p.e., cuentas nacionales) y de
una creciente capacidad de computación. El éxito de la econometría como base del
análisis empírico es indudable. Ciertamente los modelos empíricos cometerán errores en
la descripción de los fenómenos que nos interesa modelar; sin embargo, en este contexto
se aplica la célebre frase del padre de la computación Charles Babbage (1791-1871)
“Errors using inadequate data are much less than those using no data at all”.
El diseño de modelos analíticos y sus contrapartidas empíricas son, en realidad,
dos caras de una más moneda: el modo como avanza nuestro conocimiento es mediante
la continua contrastación de teoría y evidencia. En términos pedagógicos, sin embargo,
en este libro nos ocuparemos principalmente de los modelos econométricos, los cuales
serán desarrollados sobre la base de una serie de supuestos que nos permitirán derivar
estimadores que cumplen con requisitos de calidad y los tests estadísticos asociados a
dichos estimadores. Luego invalidaremos de manera paulatina dichos supuestos para
estudiar qué efectos tiene una violación de uno o más supuestos sobre las características
de dichos estimadores.
El capítulo 2 realiza una revisión de distintos elementos de probabilidades y
desarrolla con algún detalle el enfoque axiomático de Kolmogorov (1933) 6 que es la base
de la estadística moderna. Este enfoque ofrece una formalización axiomática de la noción
de probabilidad, cuyas ventajas radican en proveer una teoría completa (todas las
Methodology”, en Computer Architectures for Machine Perception, eds. V. Di Gesu & D. Tegolo, IEEE press
(2005).
5
The sciences do not try to explain, they hardly even try to interpret, they mainly make models. By a model is meant
a mathematical construct which, with the addition of certain verbal interpretations, describes observed phenomena.
The justification of such a mathematical construct is solely and precisely that it is expected to work . John von
Neumann.
6
Grundbegriffe der Wahrscheinlichkeitsrechnung, Ergebnisse der Mathematik und ihrer Grenzgebiete, J. Springer
eds. 1933.
1.4
proposiciones de la teoría se derivan de los axiomas), no-redundante (ningún axioma
puede ser derivado de otros), y congruente. El objetivo es que el alumno tenga una
sólida base de análisis probabilístico y, más importante aún, que pueda conectar los
distintos componentes de la teoría de probabilidades con los componentes básicos del
análisis econométrico: entre ellos, el experimento aleatorio, las funciones de distribución
conjunta, condicional y marginal, y la noción de la independencia entre variables
aleatorias. En particular, esta sección busca que el estudiante entienda cómo los
econometristas enfrentan el problema de la complejidad del fenómeno que se desea
modelar.
El capítulo 3 usa la estructura anterior para enfrentar el segundo problema del
análisis econométrico: la limitación de información. La principal adición al modelo de
probabilidades desarrollado en el capítulo 2 es la restricción derivada del uso de
muestras estadísticas y la inevitable necesidad de usar métodos de inferencia estadística
para emitir juicios informados respecto de alguna hipótesis. El capítulo busca que el
alumno entienda cómo se transforma la incertidumbre respecto de más los resultados de
un experimento aleatorio en incertidumbre sobre los parámetros que caracterizan dicho
experimento, y cuáles son las ventajas y limitaciones de dicha transformación.
Adicionalmente, se presenta la maquinaria de teoría asintótica que será fundamental en
el análisis del modelo de regresión lineal del siguiente capítulo.
El capítulo 4 desarrolla el modelo de regresión lineal, que ha sido una de las
principales herramientas de análisis empírico de los economistas en los últimos 100 años.
Este modelo, al que usualmente se le acopla el método de mínimos cuadrados como
técnica de parametrización, permite enfrentar un número muy grande de preguntas en
economía. A la vez, es suficientemente flexible como para permitir que, en caso que no se
cumplan alguno de los supuestos que le sustentan, se desarrollen estimadores
alternativos simples y poderosos. Las propiedades de los estimadores de la familia de
mínimos cuadrados deben ser estudiadas tanto en muestra pequeña (finita) como grande
(infinita) para entender a cabalidad el papel de los supuestos del modelo. Igualmente, se
debe estudiar las propiedades de los tests que se construyen a partir de dichos
estimadores de mínimos cuadrados, para determinar más su aplicabilidad en
circunstancias prácticas. Finalmente, la técnica de mínimos cuadrados no es la única
forma de parametrizar un modelo. En el capítulo se estudian dos alternativas adicionales
de gran aplicación práctica: el estimador de máxima verosimilitud y el método
generalizado de momentos.
En el capítulo 5 se estudian los problemas derivados de la violación de los seis
supuestos sobre los cuales se desarrolló el modelo de regresión lineal en el capítulo
anterior. La lógica de operar es directa: en primer lugar se estudia el efecto de la
violación sobre los estimadores de mínimos cuadrados y los diferentes tipos de tests. En
segundo lugar, propondremos, si es posible, alguna solución, examinando el contexto en
el que dicha solución es válida. En tercer lugar, se discuten los síntomas que delatan la
violación de un supuesto y se desarrollan test formales de detección. Por razones
1.5
pedagógicas, en este capítulo se estudian los problemas de manera aislada, es decir,
afectando un supuesto a la vez.
El capítulo 6 extiende la tecnología anterior al área de los modelos no lineales.
Esta es una literatura muy extensa y, posiblemente, aquella que se ha desarrollado con
mayor interés en los últimos años como resultado del veloz desarrollo de la
computación. La gran mayoría de los modelos no lineales se resuelven por medio de
métodos de cálculo numérico debido a que no existen formas cerradas que permitan
derivar expresiones matriciales simples para obtener los estimadores. En la primera
parte de este capítulo se desarrolla el instrumental necesario para entender los métodos
de optimización no lineal que se usan para la estimación de modelos no lineales. En la
segunda parte se aplica dicho instrumental para derivar el estimador de mínimos
cuadrados no lineales y los tests asociados.
El capítulo 7 presenta una introducción a los modelos de datos de panel. Estos
métodos combinan observaciones de corte transversal con observaciones de series de
tiempo. Así, nos permiten responder preguntas que no pueden ser respondidas por
modelos de corte transversal o series de tiempo por separado, porque usan información
sobre una cohorte donde hay N individuos heterogéneos a los que se les observa
repetidamente durante un periodo de tiempo T.
La literatura de la econometría se expande de manera vertiginosa. Por ello, no
tiene sentido intentar incluir un gran número de modelos, tests, estimadores y
algoritmos de solución. Inevitablemente aparecerán mejores modelos, tests más precisos
y estimadores más atractivos. El objetivo del libro es proveer al estudiante de una base
sólida para entender las nuevas contribuciones que la econometría nos ofrece.
Capítulo 2
Teoría de Probabilidades1
¿Por qué necesitamos estudiar teoría de probabilidades para analizar
observaciones o datos de la realidad? ¿Por qué no nos contentamos con hacer
histogramas y usar medidas descriptivas? Supongamos que contamos con una muestra
de datos de un fenómeno de interés. Podemos hacer un gráfico de frecuencias empíricas
de los datos y derivar información útil.
Figura 2.1
Inflación mensual en Chile, 1960-2005
Aunque el gráfico anterior describe adecuadamente la distribución de una
muestra para la inflación mensual en Chile en el periodo 1960-2005, los estadísticos
descriptivos están confinados a dicha muestra. Cualquier pregunta respecto de la
población de la cual se derivó la muestra no puede ser discutida. La esencia del trabajo
econométrico es, en este sentido, proveer resultados generales a partir de muestras cuya
información es limitada.
La teoría de probabilidades provee un modelo matemático para la inferencia
estadística que, al realizarse sobre una muestra de observaciones, permite estudiar
fenómenos generales. Por eso, este capítulo repasa la principal teoría de probabilidades,
en tanto que el siguiente revisa los fundamentos de la inferencia estadística clásica.
1
Probabilidad –documentado por primera vez en francés en 1387– viene del latín probabilis y significa
“que puede ser probado”.
2.2
2.01 Noción de Probabilidad
El desarrollo de la noción de probabilidad procedió de manera intuitiva y
asistemática hasta mediados del siglo 16. La siguiente definición de probabilidad –que
como veremos más adelante es insuficiente– fue utilizada primero por Abraham De
Moivre en 17182 y formalizada por Pierre-Simón de Laplace en 18123:
Def. 2.1:
P  A =
Si un experimento puede resultar en N resultados mutuamente
excluyentes y equiprobables y si NA es uno de dichos resultados, entonces
la probabilidad de A es:
NA
N
(2.1)
Esta definición tiene dos problemas bastante obvios. Primero, se requiere que el
número de posibles resultados sea finito. Segundo, y más importante, al usarse el
concepto de “equiprobable” la definición de Laplace adolece de circularidad.
Por ello se necesita una definición formal del concepto de probabilidad. Richard
von Mises (1919) sintetiza una primera solución a los problemas anteriores, señalando
que la noción de equiprobabilidad puede ser eliminada y, en su reemplazo, se puede
hablar de frecuencia empírica de los datos.4 Para que ésta sea de aplicación general, se
requeriría:
lim N → ∞
NA
=P  A
N
(2.2)
Así, por ejemplo, la probabilidad que al lanzar una moneda salga cara no es ½
porque “de dos posibles eventos, cara es uno de ellos” sino porque al repetir el
experimento un número grande de veces se observa que cara sucede un 50% de los
casos.
Las limitaciones del enfoque frecuentista son también obvias. Entre ellas, ¿qué
significa “límite cuando N tiende a infinito”? ¿Cómo generamos secuencias infinitas de
eventos? ¿Qué hacemos cuando no es posible generar secuencias arbitrarias de datos de
un experimento?
2
3
4
"The probability of an Event is greater or less, according to the number of chances by which it may
happen, compared with the whole number of chances by which it may either happen or fail." The
Doctrine of Chances.
Théorie Analytique de Probabilités. Laplace expresa de forma sencilla el significado del cálculo de
probabilidades: "En el fondo, la teoría de probabilidades es sólo sentido común expresado con números".
“Grundlagen der Wahrscheinlichkeitsrechnung”, Zeitschrift für Angewandte Mathematik und Mechanik,
5:52-99.
2.3
Lo que se necesita es una teoría de probabilidades con una sólida base
matemática. Ella no estuvo disponible sino hasta los años 1930.
2.02 Axiomatización de las Probabilidades
El enfoque axiomático de probabilidades procede, naturalmente, de un conjunto
de axiomas (verdades a priori) y ofrece una formalización matemática de la noción de
probabilidad, cuyas ventajas radican en ser completo (todas las proposiciones de la
teoría se derivan de los axiomas), no-redundante (ningún axioma puede ser derivado de
otros), y congruente.5 El trabajo fundacional para la econometría clásica en esta área es el
de Andrei Kolmogorov (1933).6 Existen otros trabajos fundacionales para la econometría
Bayesiana.7
El punto de partida es definir el experimento aleatorio,8 que describe de manera
idealizada y simplista el mecanismo que genera los datos (usualmente llamado proceso
generador de los datos, PGD). En particular:
Un experimento aleatorio, llamado ℰ, es un experimento que satisface:
Def. 2.2:
I.
Todos los posibles eventos resultantes son conocidos a-priori.
II. En cada realización particular, el resultado no es conocido a-priori.
III. Se puede repetir en idénticas condiciones.
Un problema con la condición I es que es difícil de formalizar. Kolmogorov
sugiere utilizar el conjunto S que contiene todos los posibles resultados de un
experimento definidos antes de empezar el experimento. Así,
5
6
7
8
Con frecuencia se traduce erróneamente la palabra “consistency” por “consistencia”. El término correcto
es congruencia (del Latín, coincidir), aunque el uso popular es inexacto como pasa con otras palabras
(p.e., sofisticado).
Grundbegriffe der Wahrscheinlichkeitsrechnung, Ergebnisse der Mathematik und ihrer Grenzgebiete, J. Springer
eds. 1933.
R. T. Cox, The Algebra of Probable Inference, Johns Hopkins University Press, Baltimore, MD, (1961).
El término “aleatorio” se popularizó a raíz del trabajo de Christiaan Huygens (De Ratiociniis in Ludo
Aleae, 1657) sobre el cálculo de probabilidades en juegos de dados (aleae en latín). Aunque se considera
que este es el primer libro de probabilidades de la historia, hay un libro anterior de Girolamo Cardano
(Liber de Ludo Aleae, 1564) que está a mitad de camino entre manual de cómo apostar y libro de
probabilidades. Huygens fue además un famoso astrónomo: descubrió la luna más grande de Saturno –
Titán– y sus anillos (en 1655) y la nebulosa de Orión (en 1656).
2.4
Def. 2.3:
El espacio muestral, llamado S, es el conjunto de todos los posibles
resultados del experimento ℰ. Los elementos de S se llaman “eventos
elementales”.
Por ejemplo, el experimento que consiste en lanzar una moneda al aire dos veces
tiene como espacio muestral: { CC ,CS , SC , SS } . Los elementos CC, CS, SC, SS son los
eventos elementales.
Por otro lado, al examinar la condición II notamos que el evento de interés no
tiene por qué ser únicamente referido a eventos elementales y podría ser una función de
ellos. Por ejemplo, el evento “al menos una cara” define el conjunto A1 ={ CC ,CS ,SC } ,
que no es un evento elemental.
En esta lógica de definir conjuntos ( A1 , los eventos elementales, etc.), resulta
natural incorporar los dos elementos clásicos de los conjuntos: el elemento vacío es en
este contexto el evento imposible (denotado por ∅ ), en tanto que el mismo conjunto S es
llamado el evento seguro.
Un tercer problema es la noción de incertidumbre implícita en la definición de ℰ.
Es directo asociar probabilidad con evento elemental y, si sólo existieran éstos, no sería
problema usar dicha asociación. La existencia de eventos no elementales complica el
problema porque si A1 es un evento que ocurre con P  A 1  , entonces A1 =S− A 1
también ocurre con alguna probabilidad cuando ocurre A1 . De hecho si existen dos
eventos, A1 y A 2 , se deduce que A1 ∪ A 2 y A1 ∩ A 2 también ocurren. Entonces,
habrá que imponer alguna estructura sobre dichas probabilidades con el fin que el
modelo matemático sea congruente.
Una alternativa sería usar el conjunto de todos los posibles A i y todas sus
combinaciones y relaciones (es decir, el conjunto potencia de S). En el experimento de
lanzar la moneda dos veces éste incluiría, aparte de los eventos elementales, eventos
tales como “que salga al menos una cara”, “que no salgan dos sellos”, etc. Así, el
conjunto potencia de este experimento es:
ℱ ={S ,∅ ,CS ,CC ,SC ,SS ,
SC ,CS  ,SC , CC  , SC , SS  ,
CS ,CC  ,CS ,SS  ,CC ,SS  ,
CS , SC , CC  ,CS ,SC , SS ,CC ,SS , SC  ,CC ,SS ,CS }
(2.3)
De esta manera incluiríamos en el espacio de los eventos, ℱ, todas las posibles
alternativas. De hecho, no importa cómo combinemos los elementos de ℱ siempre
obtenemos un elemento de ℱ.
2.5
No obstante, cuando S es infinito es posible observar incongruencias (p.e., suma
de probabilidades mayor que 1).9 Así, debemos definir ℱ independientemente de S o, lo
que es lo mismo, debemos dotarlo de estructura matemática.
Sea ℱ un conjunto de sub-conjuntos de S. ℱ es un σ-álgebra10 si
Def. 2.4:
•
•
dado A∈ℱ entonces A∈ℱ (cerrado para el complemento)
dado A i i =1, 2,  entonces U i A i ∈ ℱ (cerrado para uniones contables o
enumerables)
Ambas propiedades juntas implican que:
•
S ∈ℱ (porque A∪ A=S )
•
∈ℱ (porque S =∈ℱ )
•
A i ∈ℱ entonces U i A i ∈ℱ
Dicho de manera más simple, cualquier operación (unión o intersección) de
elementos de ℱ produce un elemento de ℱ. Obviamente el conjunto potencia de S es un
σ-álgebra. Un resultado fundamental para nuestro análisis posterior de convergencia es
que un σ-álgebra contiene todos los límites de secuencias de eventos, en tanto que un
álgebra no necesariamente los contiene. Esta propiedad se deriva del hecho que el σálgebra es cerrado para uniones contables, en tanto que un álgebra es cerrado para
uniones finitas solamente.
Hasta aquí hemos resuelto el problema de incongruencias al postular la
existencia de un σ-álgebra ℱ asociado con un espacio muestral S (este par constituye un
espacio medible). El último paso en la estrategia de Kolmogorov consiste en definir el
concepto de probabilidad formalmente, para lo cual se usa el Teorema de Extensión de
Constantin Caratheodory y la noción de medida de Henri Lebesgue 11. Empezamos
primero con el caso más simple, en el cual S es finito.
9
Ejemplo,
∞
S={A 1 , A 2 ,}
∞
tal
que
A 1 ∩ A 2=∅ ∀ i ≠ j
y
P  A i =a 0 ,
entonces
P S = ∑ P  Ai =∑ a 1 .
i =1
i =1
10 Algebra viene del título de un libro árabe –Hisab al jabr w‘al muqâbalah– escrito en 825 por Abu Ja'far
Muhammad ibn Musa Al-Khwarizmi (de donde se deriva “algoritmo”). De acuerdo a In Khoálsat alHisáh (Esencia de la Aritmética) escrito por Behá Eddin en 1600. Al-Jabr significa posiblemente “reunión
de partes quebradas” (es decir, completación), en tanto que al-Muqâbalah significa “reducción o
balanceo”. El título se refiere a las operaciones de suma y resta necesarias para mantener balanceada una
ecuación y resolverla.
11 Ver Probability Theory, S.R.S. Varadhan, Courant Lecture Notes #7, American Mathematical Society, 2001.
2.6
Def. 2.5:
axiomas:
Probabilidad es una función conjunto en ℱ que satisface los siguientes
•
Axioma 1: P  A ≥ 0 para todo A∈ℱ .
•
Axioma 2: P S =1 .
•
Axioma 3: P U A i = P  A i  si {A i } es una secuencia de eventos
mutuamente excluyentes en ℱ (excluyentes significa que A i ∩ A j = ∀ i ≠ j ).
Es decir, probabilidad es una “función conjunto” con dominio en ℱ y rango en el
intervalo [0, 1]:
P · : ℱ [0, 1]
(2.4)
La probabilidad es una medida en el sentido de Lebesgue. Medida es una función
definida para un σ-álgebra del conjunto X y que toma valores en el intervalo [0, ∞] tal
que se cumplen dos propiedades: (1) la medida del vacío es cero y (2) se cumple la
aditividad contable (σ-aditividad), es decir, si tenemos una secuencia de conjuntos
disjuntos, la medida total es la suma de las medidas individuales.
Es conveniente notar que el axioma 2 opera simplemente como una
normalización.
Los dos primeros axiomas calzan tanto con la definición clásica de Laplace como
con la frecuentista. El tercero es menos intuitivo, pero se resume en que la probabilidad
de la unión de eventos no relacionados es la suma de las probabilidades individuales.
Debido a su importancia, el trío  S ,ℱ , P ·   tiene un nombre particular:
Def 2.6:
Un espacio muestral S dotado de un espacio de eventos o σ-álgebra ℱ y
una función de probabilidades que satisface los axiomas 1 a 3 se llama
espacio de probabilidades.
Algunas propiedades interesantes de esta teoría de probabilidades son:
•
  =1−P  A
PA
•
P  =0
•
•
Si A1 ⊂ A 2 ⇒ P  A 1  ≤ P  A 2 
P  A 1 ∪ A 2=P  A 1P  A 2 −P  A1∩ A 2
A∈ℱ
A1, A2 ∈ℱ
2.7
•
∞
Si {A n }n =1 es una secuencia de eventos monótona (ordenada) en ℱ, entonces
P lim n → ∞ A n =lim n →∞ P  A n  .12
Un problema evidente de la construcción de probabilidades hecha de esta
manera es que no puede usarse para enfrentar fenómenos con “infinitos eventos”. Por
ejemplo, ¿cómo le asignamos probabilidades al caso en que se tiran dos dados un
número infinito de veces? Naturalmente, no podemos escribir el conjunto potencia como
en la ecuación (2.3). De hecho, una pregunta crucial es si es posible construir una función
que cumpla con las características que se le exige a la función de probabilidades cuando
hay infinitos eventos. Usaremos dos elementos para extender el análisis al caso en
cuestión: el teorema de extensión de Carathéodory y los álgebras de Borel.
Un álgebra de Borel corresponde al siguiente conjunto. Supongamos que S es la
recta de los reales ℝ ={ x : −∞x ∞ } y que el conjunto de eventos de interés es
J =B x : x ∈ℝ donde B x ={z : z ≤ x }=(−∞ ,x ] . Es decir, el conjunto J incluye todos los
intervalos de reales menores o iguales a x. ¿Podemos construir un σ-álgebra en ℝ?
Usando la definición de σ-álgebra debiésemos partir de B x , luego añadir su
complemento B x , e incluir todas las uniones enumerables de B x y B x . Con ello
tendríamos el mínimo σ-álgebra generado por los eventos en B x , llamado  J  . Este
es un conjunto verdaderamente grande, pues incluye todos los x, todos los (−∞ , x ] ,
todos los (−∞ , x ) , todos los x ,∞ , y todos los (x,z) tal que están ordenados, x<z. Esta
álgebra es llamada álgebra de Borel, B , y permite incluir cualquier tipo de eventos, sean
o no elementales, en ℝ.13
El teorema de extensión de Constantin Carathéodory prueba que para cualquier
medida de probabilidad P(.) en el álgebra ℱ puede extenderse de manera única al σálgebra generado por los reales. Note que esta medida extendida es única. La prueba de
este teorema excede los objetivos del curso.
Si aplicamos el teorema de extensión de Carathéodory al álgebra de Borel,
entonces podemos dotar de una medida a cualquier conjunto de eventos. Si esta medida
es la medida de probabilidad definida más arriba, podemos dotar de estructura de
probabilidades a cualquier conjunto de eventos, pero al costo de generar álgebras
verdaderamente complejas.
12 Usaremos esta propiedad frecuentemente más adelante.
13 Los conjuntos de Borel también se denominan conjuntos de Baire (1874-1932).
2.8
2.03 Variables Aleatorias
En la sección anterior hemos construido el enfoque axiomático de probabilidades
sobre la base del trío  S ,ℱ , P ·   . Ahora usaremos este enfoque para estudiar
variables, probabilidades de eventos y, al final, modelación de incertidumbre. El espacio
de probabilidades fue sugerido como una formalización –un tanto rígida– de un
experimento ℰ. Intuitivamente la conexión entre los tres elementos queda descrita en la
Figura 2.2.
Evidentemente, es difícil pensar en funciones de probabilidades a partir de la
Figura 2.2. Habría que tabular todos los elementos de ℱ y luego construir un sistema
congruente de P ·  .
Figura 2.2
(CC)
(CS)
(SC)
(SS)
S
Ф
(CC)
(CS)
(SC)
(SS)
(CS,SC,CC)
(CS,SC,SS)
(SS,CC)
S
F
0 ¼ ½ ¾1
P(· )
Si los resultados del experimento fuesen descritos directamente por medio de
atributos cuantificables, entonces tendríamos un enfoque mucho más flexible que
 S ,ℱ , P ·   . Eso es, por lo demás, lo que sucede usualmente en economía. Ese es el
papel que juegan las variables aleatorias.
La variable aleatoria es una función X que mapea el conjunto S directamente en
los reales, ℝ, es decir:
X ·  : S ℝ +
(2.5)
2.9
y asigna a cada elemento de S un valor en los reales positivos, x i . Gráficamente, el
conjunto de eventos “obtener sellos al lanzar dos monedas” corresponde a:
Figura 2.3
(CC)
(CS)
(SC)
(SS)
0
S
X(· )
1
2
ℝ
La pregunta que nos preocupa es, obviamente, si esta variable aleatoria es capaz
de mantener la congruencia del análisis de probabilidades al haber eliminado ℱ. La
respuesta, no muy sorprendentemente, es no. Las probabilidades fueron asignadas a
eventos en ℱ, en tanto que X asigna valores a elementos de S.
Así el problema radica en cómo escoger X tal que al asignar valores de S en ℝ se
preserve el orden impuesto en ℱ, es decir, que preserve uniones, intersecciones y
complementos. Ello es equivalente a pensar en que la (imagen) inversa de X debe ser un
evento en ℱ. De esta manera, una variable aleatoria será cualquier función que preserve
el ordenamiento de los eventos para un σ-álgebra determinado, usualmente el álgebra
de Borel, B
Def. 2.7:
Una variable aleatoria X es una función que toma valores reales y que
mapea de S a ℝ y que satisface la condición que para cada conjunto de
Borel B∈ B en ℝ, el conjunto X −1  B={ s : X s ∈ B ,s ∈ S } es un evento
en ℱ.
2.10
Algunas implicaciones importantes de la definición anterior son:
•
•
•
Una variable aleatoria está siempre definida relativa a un espacio de eventos, ℱ.
Al decidir si alguna función Y ·  : S → ℝ es una variable aleatoria procedemos
siempre de los elementos del espacio de Borel B al espacio de eventos, ℱ y no
viceversa.
Una variable aleatoria no es “variable” ni “aleatoria”.
Note que la pregunta “¿es Z ·  :S ℝ una variable aleatoria?” no tiene ningún
sentido si no se especifica el espacio de eventos ℱ asociado. En algunos casos habrá Z
que es una variable aleatoria para algunos ℱ y no para otros. 14 Para estos últimos
siempre se puede general el mínimo σ-álgebra, tomando uniones, intersecciones y
complementos. Es directo demostrar que estos mínimos σ-álgebras no tienen por qué
calzar con ℱ, pero que frecuentemente son subconjuntos de éste.
Adicionalmente, si X 1 y X 2 están definidos para un mismo espacio de
probabilidades y definimos operaciones con ellos, por ejemplo, Z=X 1X 2, entonces
los mínimos σ-álgebras generados por estas variables aleatorias son subconjuntos
ordenados de ℱ:
 X 1⊂ Z ⊂ℱ
En términos prácticos, este último argumento sugiere que al estudiar una
variable aleatoria nos estamos concentrando en una parte (el σ-álgebra asociado) del
experimento completo ℱ.
Note que la variable aleatoria no es ‘aleatoria’ en el sentido que la noción de
probabilidad no entra en su definición sino que se le asigna para completar el modelo
del experimento aleatorio. Y tampoco es una variable, sino que es una función de valor
real.
Como vemos, la definición “popular” de variable aleatoria (p.e., Greene 15 usa
Función cuyo rango de valores es conocido ex-ante pero el valor que toma es sólo conocido expost) esconde la verdadera naturaleza de la variable aleatoria, porque menoscaba el
concepto de función incluido en la definición y enfatiza el de variable.
Recapitulando, una variable aleatoria X relativa a ℱ mapea S en un subconjunto
de la línea de los reales. El espacio de Borel B en ℝ juega el papel que antes ocupaba ℱ.
14 Esto no es tan extraño: en un experimento en el que hay hombres y mujeres, el género es una variable
aleatoria. Pero si sólo seleccionamos hombres o mujeres, el género ya no es una variable aleatoria.
15 Econometric Analysis, Prentice Hall, Tercera Edición, 1997, p. 62.
2.11
Falta, por lo tanto, asignarle probabilidades a los elementos B de B , es decir, definir
una función:
P x ·  :B [0,1]
tal que P x B =P  X
−1
B ≡ P s : X s ∈B , s ∈S  para todo B en B.
Note que no es necesario definir todos los elementos de B, porque cada uno de
sus elementos puede ser escrito como un intervalo semi-cerrado del tipo (-∞,x]. Así,
eligiendo los intervalos de manera adecuada, podemos construir fácilmente la función
de probabilidad de X. Por ejemplo, en el caso del lanzamiento de dos monedas descrito
en el Cuadro 2.1.
Cuadro 2.1
S
X1
X2
X
{C,C}
1
1
2
{C,S}
1
0
1
{S,C}
0
1
1
{S,S}
0
0
0
las probabilidades son simplemente:
Px({0})=¼
Px({1})=½
Px({2})=¼
Px({0}∪{1})=¾
Px({0}∪{2})=½
Px({1}∪{2})=¾
Px({0}∪{1}∪{2})=1
Px({0}∩{1})=0
Px({0}∩{2})=0
Px({1}∩{2})=0
Px({0}∩{1}∩{2})=0
Note que no es necesario asignarle a cada elemento de la recta real una
probabilidad sino que definimos el problema por intervalos:
[ ]
0
x 0
¼
0
≤
x 1
P x  (−∞ , x ]  =
¾ 1≤ x 2
1
2≤ x
(2.6)
2.12
Recapitulando, empezamos con un experimento16 ℰ definido en el espacio de
probabilidades  S ,ℱ ,P ·   y luego hemos definido la variable aleatoria X definida en
un espacio de probabilidades equivalente (ℝ, B , P x ·  ). La ventaja de este último es
que es más fácil manejar “elementos en la recta real” que “elementos en conjuntos
arbitrarios”. Gráficamente:
Figura 2.4
Ф
(CC)
(CS)
(SC)
(SS)
(CS,SC,CC)
(CS,SC,SS)
(SS,CC)
S
(CC)
(CS)
(SC)
(SS)
S
0 1
0 ¼ ½ ¾1
P(· )
F
2
0
ℝ
1
B
2
0
1
Px(· )
Lo último que falta es definir apropiadamente P x ·  . Hasta el momento esta
función sigue siendo arbitraria en un subconjunto de los ℝ+, pero lo que se requiere es
una “función punto” (es decir, que mapee punto a punto). Recordemos que todos los
elementos del espacio de Borel pueden ser descritos como intervalos (−∞, x] lo que
permite definir la función F : ℝ [0,1] de la siguiente manera:
P x (−∞ ,x ]=F  x −F −∞=F  x 
(2.7)
16 Tal vez el énfasis en la noción de experimento pueda parecer exagerada. R.A. Fisher nos ofrece una
contundente visión de la importancia del diseño del experimento “To call in the statistician after the
experiment is done may be no more than asking him to perform a postmortem examination: he may be able to say
what the experiment died of (Indian Statistical Congress, Sankhya, 1938).
2.13
y como los intervalos son ordenados, debemos exigir que F ·  sea no decreciente,
continua y con máximo igual a 1. Es decir, limx  ∞ F  x =1 . Esta función es la que
llamamos función de distribución:
Def. 2.8:
Sea X una variable aleatoria definida en  S ,ℱ , P ·   . La función punto
F: ℝ→[0,1] definida por:
F  x =P x ( − ∞ , x ]=Pr X ≤ x  ∀ x ∈ X
se llama Función de Distribución de x y cumple:
•
F ·  es no-decreciente
•
F −∞=lim x −∞ F x =0
•
F ·  es continua por la derecha
F ∞=lim x  ∞ F  x =1
¿Por qué preferimos F ·  a P ·  o a P x ·  ? La principal ventaja de F · 
es que ésta es una función punto que se puede representar de manera algebraica, que es
el manejo habitual que le damos a las funciones de distribución.
Habrá dos tipos de variables aleatorias:
•
•
Variables aleatorias discretas (ej: robos): aquella cuyo rango ℝ+ es, por
convención, algún subconjunto del conjunto de los enteros.
Variables aleatorias continuas (ej: ingresos familiares): aquella para la cual su
función de distribución F  x  es continua para todo x ∈ ℝ y existe una función
no-negativa f ·  en la recta real tal que:
x
F  x =∫ f  x dx
−∞
donde f ·  es llamada la Función de Densidad de x.
2.14
2.04 Momentos de una Distribución
El valor esperado de una variable aleatoria se define como el promedio de las
realizaciones de X ponderado por su probabilidad de ocurrencia.17
E[ x ]=∑ x f x =x
para toda función X discreta
(2.8)
x
E[ x ]=∫ x f  x  dx=x
para toda función X continua
x
Note que la esperanza (media) no tiene que ser un valor que la variable aleatoria
puede tomar cuando ésta es discreta. Por ejemplo considere el siguiente problema: usted
recibe $1 por cada punto que salga al tirar un dado numerado de 1 a 6 ($1 si sale 1, $2 si
sale 2, etc). ¿cuánto es lo más que está dispuesto a pagar por jugar una vez? El valor
esperado del juego es, naturalmente, $3.5.
Otros descriptores comunes del “valor central” de una distribución son la
mediana que es el valor “del medio” del rango de valores de la distribución y se usa
principalmente cuando hay valores extremos, pues a diferencia de la esperanza no se ve
tan influida por éstos. Cuando se trata de variables discretas ocasionalmente se usa la
moda, que es el valor que ocurre con mayor probabilidad. No tiene una aplicación
interesante en variables continuas pues su definición es arbitraria.
Más allá del valor esperado, se utiliza frecuentemente:
•
Varianza de una distribución V x =E [x −E x ]2
esperado de la dispersión de la variable aleatoria.
•
Skewness de una distribución S x =E [x −E x ]3 es decir, es el valor esperado
de la asimetría de la variable aleatoria.
•
Kurtosis18 de una distribución K  x =E [x −E x ]4 es decir, es el valor
esperado de las colas de la distribución de la variable aleatoria.
es decir, es el valor
17 En estricto rigor debiésemos usar f(x) para variables aleatorias continuas y p(x) para discretas. Para evitar
un exceso de notación, usaremos sólo f(x) entendiendo la naturaleza de cada una dependiendo del
contexto que se trate.
18 Kurtosis, del griego kurtos, encorvado, curvo. Kurtosis fue usado por primera vez por Karl Pearson en
1905 en su trabajo "Das Fehlergesetz und seine Verallgemeinerungen durch Fechner und Pearson. A
Rejoinder," Biometrika, 4, 169-212. En ese trabajo se acuñó además los términos leptokurtica (lepto
significa flaco) para distribuciones concentradas alrededor de la media y con colas largas), platykurtica
(platy significa gordo), para distribuciones con colas flacas, y mesokurtica (colas normales).
2.15
Para describir la distribución de una variable aleatoria resulta más efectivo usar
los llamados momentos19 de la distribución (esperanza, mediana, moda, varianza,
skewness, Kurtosis, etc.), los cuales pueden ser “brutos” o “centrados”. Un momento no
centrado de la distribución de x tendrá la forma genérica E[ x m ] en tanto que un
m
momento centrado es de la forma E[∣x − x∣ ] . Resulta natural preguntarse si existe
alguna forma de generar estos momentos de la distribución. La función generatriz de
momentos provee una manera elegante de obtener los momentos de una distribución:
Def. 2.9:
La función generatriz de momentos de una variable aleatoria –
posiblemente vectorial– X se define como:
m t =E [e t ' x ]=∫ e t ' x dF  x 
(2.9)
donde t es el conjunto de vectores no aleatorios para los cuales la función generatriz de
momentos existe y es finita en la vecindad de t =0 (es decir, existe h0 tal que para
−ht h existe E[ e t ’ x ] .
La función generatriz de momentos provee, como su nombre indica, una manera
simple de generar todos los momentos de una distribución. En el caso univariado, se
puede expandir la ecuación (2.9) usando una expansión de McLaurin para obtener (el
resultado es general):
tx 2 tx 3
 ...]
2! 3!
t2
t3
=1tE [x ] E [x 2 ] E [x 3 ]...
2!
3!
m t =E [e t ' x ]=E [1tx 
es decir, el término que acompaña a
(2.10)
ti
es un momento no-centrado de la distribución
i!
de x. Ahora, tomando derivadas con respecto a t de la expresión (2.10) evaluadas en
t =0 tenemos:
19 Momento –que fue utilizado inicialmente por Newton para designar el “cambio infinitesimal de una
variable” (De Quadraturaa Curvarum, 1704)– fue introducido en estadística por Pearson en 1893, en su
tratamiento de la media de la curva de frecuencia como el centro de gravedad entre la curva y el eje
horizontal (“Asymmetrical Frequency Curves”, Nature, October 26th, 1893).
2.16
∂ m t =0
= E [x ]
∂t
∂ 2 m t =0
=E [x 2 ]
2
∂t
(2.11)
etc.
De esta manera podemos generar los momentos de la distribución de una
variable aleatoria si ésta existe. Algunas propiedades interesantes de esta función son
•
m x −=E[e x − ]=e − t m x t  si μ es constante.
•
m x  y =E [e x  y ]=m x t m y t  si x y y son variables aleatorias independientes.
Si las variables son acotadas la función generatriz de momentos siempre existe y
es finita. Sin embargo, para una distribución como la Cauchy esto no se cumple. Si x se
distribuye:
f x =
1
2
1x 
(2.12)
la función generatriz de momentos es:
∞
[
m t =∫ e tx f  x  dx = ∞ si t ≠ 0
1 si t =0
−∞
]
(2.13)
Una solución a este problema consiste en modificar la función generatriz de
momentos para obtener la función característica, reemplazando t en la ecuación (2.9) por
it donde i = −1 . Naturalmente, esta es la transformación de Fourier de la función
generatriz de momentos. Así,
t =E [e it ' x ]
(2.14)
Se puede demostrar que dos variables aleatorias son idénticas si tienen igual
t  . Para ilustrar el uso que se le da a este tipo de función, consideremos la
distribución Normal:
2.17
f x =
1
e
 2  2
− x −
2
2
2
(2.15)
Aplicando la transformación de la ecuación (2.14), tenemos
∞ it ' x −
1
t =
∫e
 2 2 −∞
2
 x − 
2
2
dx
=e
2 2
it −1/ 2 t 
∞
1
∫e
 2  2 −∞
Es posible, aunque tedioso20, demostrar que
∞
∫e
2
− x −−i  t 
2
2
dx
(2.16)
2
− x −−i  t 
2
2
dx = 2  2 , por lo
−∞
que se deduce que la función característica de la normal es simplemente:
2 2
t =e  it −1 /2  t 
(2.17)
La función característica describe completamente la distribución que, en este
2
caso, depende de la media  y la varianza  . La función es simétrica alrededor de 
y si =0 su valor es real (de otro modo tiene componentes imaginarios). En particular,
si =0 , la función característica de la normal es t =e−1 /2  t .
2 2
2.05 Distribuciones Discretas de Uso Común
Supongamos que el experimento ℰ tiene dos posibles resultados S={éxito,
fracaso} y que tienen probabilidades p y 1-p, respectivamente:
Exito
x=1
P(x=1) = p
Fracaso
x=0
P(x=0) = (1-p)
En 1713 se publicó el libro Ars Conjenctandi que sintetiza los descubrimientos de
Jacques Bernoulli (1654-1705) sobre matemáticas –en particular, probabilidades– entre
20 Para demostrar este resultado recuerde que e itx =costx i sin tx  .
2.18
las cuales se encuentra la distribución (o descripción) de los datos del experimento
anterior:
x
1−x 
f x = p 1− p 
∀ x =0,1
=0
en cualquier otro caso
(2.18)
Como el mismo Bernoulli se encargó de demostrar, si el experimento se repite n
veces se obtiene la distribución “binomial”21

f  y = n p y 1− p n− y
y
donde
(2.19)
n!
n =
.
y n− y  ! y !

Hay muchas otras distribuciones discretas útiles. Entre ellas está la descubierta
por Poisson en 1837 como el límite de la binomial cuando n → ∞ y p → 0 , tal que np es
constante.22
−
x
e i
f x i ; =
xi !
(2.20)
21 Bernoulli gratuitamente asigna el descubrimiento de la binomial con exponente entero a Pascal. Newton
provee la descripción para exponente racional pero no la prueba, que fue provista tiempo después por
Euler. El nombre “distribución binomial” fue acuñado por G.U. Yule en An Introduction to the Theory of
Statistics (1911, p. 305).
22 S.D. Poisson (1781-1840) dijo: “La vida es buena para sólo dos cosas: descubrir matemáticas y enseñar
matemáticas”.
2.19
2.06 Distribuciones Continuas de Uso Común
En muchos experimentos en economía no puede suponerse que las variables
aleatorias de interés sean discretas, por lo que se utilizan funciones continuas.
La distribución normal.
Si n → ∞ , la expresión de la binomial es poco práctica. De
Moivre23 encuentra la función de densidad que resulta en este caso:
1 1
f z =
e
 2 
−z− E z
2
2
2
(2.21)
es decir, la distribución normal24. Esta distribución es la base de muchos tests y
procedimientos de estimación que usaremos en este curso.
La distribución normal estándar.
si z ↝ N  ,2  ⇒ x =
La distribución normal se estandariza fácilmente:
z −
↝ N 0,1

La distribución Chi cuadrado.
(2.22)
Esta distribución deriva de la distribución normal.
si x ↝ N 0,1 ⇒ y=x 2 ↝ χ² 1
(2.23)
Una propiedad de esta función es que sumas de variables que se distribuyen χ²
también se distribuyen χ²:
si x 1 ↝ χ² 1 y x 2 ↝ χ² 1 entonces y =x 1 x 2 ↝ χ²  2
(2.24)
23 De Moivre descubrió en 1733 esta distribución y la incluyó en su libro The Doctrine of Chance de 1755.
Laplace extendió y generalizó este resultado en 1812 (Theorie Analytique de Probabilités), por lo que el
resultado se conoce como Teorema de De Moivre y Laplace.
24 El nombre de la distribución normal parece haber sido acuñado en los años 1870 independientemente
por Charles S. Peirce (Report to the US Coast Guard, 1873), Wilhelm Lexis (Theorie der Massenerscheinungen
in der menschlichen Gesellschaft, 1877) y Francis Galton (Typical Laws of Heredity, 1877). De los tres, Galton
fue el más influyente y popularizó el nombre de curva normal a partir de su libro Natural Inheritence
(1889).
2.20
La distribución F25
si y ↝ χ²  m  y w ↝ χ² n ⇒ x =
y /m
↝ F  m , n
w /n
(2.25)
z
↝ t n 
 w /n
(2.26)
La distribucion “t” de Student26
si z ↝ N 0,1 y w ↝ χ² n ⇒ x =
La distribución de Cauchy estándar27
si X 1 y X 2 ↝ N  0,1 independientes , z =
X1
1
1
↝ f z =
X2
 1z 2 
(2.27)
La distribución logística28
[
F z = 1e
z −a −1
b
]
(2.28)
La Figura 2.5 señala la relación que hay entre las distintas funciones de
distribución.
25 La distribución F fue tabulada en 1934 por G. W. Snedecor en “Calculation and Interpretation of
Analysis of Variance and Covariance”. Aunque a veces se le llama distribución F de Snedecor, la letra F
que la designa fue escogida en homenaje a Fischer que usó una distribución muy similar llamada z.
26 "Student" fue el seudónimo que usó William Sealy Gosset (1876-1937) en su trabajo de 1908 "The
Probable Error of a Mean", Biometrika, 6:1-25. Gosset le escribió a R. A. Fisher, "I am sending you a copy
of Student's Tables as you are the only man that's ever likely to use them!".
27 La paternidad de la distribución de Cauchy es discutible. Algunos se la atribuyen sobre la base de una
notas presentadas a la Académie de Sciences en 1853, pero no publicadas. S. M. Stigler señala que
Poisson ya había estudiado la distribución en 1824.
28 Al parecer, el primero en usar el término “logística” fue Edward Wright (ca. 1558-1615), aunque es
posible que se refiriese a una función logarítmica y no a la distribución logística propiamente tal. La
derivación formal se debe a P.F. Verhulst (1845): “La Loi d' Accroissement de la Population”, Nouveaux
Memoirs de lÁcadémie Royale de Sciences et Belles-Lettres de Bruxelles, 18, 1-59.
2.21
Figura 2.5
2.22
2.07 Distribuciones Conjuntas
Es posible que dos (o más) variables puedan ser descritas por una función de
probabilidades conjunta
∑ ∑
P a≤x ≤b ; c ≤ y≤d =
f x , y 
a ≤x ≤b c ≤ y≤d
b d
=∫ ∫ f  x , y dxdy
a
(2.29)
c
El objetivo principal de las ciencias sociales y la economía en particular es
describir (i.e., modelar) distribuciones conjuntas. La distribución conjunta permite
asignar probabilidades de ocurrencia a fenómenos económicos multidimensionales, es
decir, nos permite modelar la relación entre variables que es lo que caracteriza el análisis
económico. Es importante notar que de la existencia de una distribución conjunta no se
deriva que exista una relación causal o de dependencia entre las variables. Simplemente
verifica la existencia de eventos que suceden simultáneamente, lo que no implica que no
pueda existir alguna relación entre ellos.
2.08 Distribuciones Marginales
Suponiendo que existe la densidad conjunta de dos o más variables, resulta
natural preguntarse: ¿qué probabilidad tiene x (o y) de ocurrir, independientemente de
los valores que tome la o las otras variables y (o x)?
Es decir, tomamos la distribución conjunta y sumamos sobre todos los posibles
valores de “la o las otras variables”. En un caso de dos variables:
f x x =∑ f x , y
y
(2.30)
=∫ f  x , ydy
y
Asociadas a la distribución marginal habrá, naturalmente, una esperanza
marginal, varianza marginal, etc.
2.23
De la existencia de las distribuciones marginales se deriva el concepto de
independencia estadística: “Si la densidad conjunta es el producto de las marginales, las
variables son independientes”. El siguiente ejemplo utiliza el concepto de independencia
estadística de un modo interesante.
Paradoja del Chevalier de Mere
En una carta de Pascal a Fermat (29/07/1654) se presenta el siguiente problema
propuesto por el Sr. de Méré, un noble francés que se apasionó por los juegos de azar.
Empíricamente, de Méré observó que la probabilidad de sacar al menos un 6 en 4
lanzamientos de un dado es más que ½, en tanto que la probabilidad de sacar dos 6 en
24 lanzamientos es menor que ½. En su razonamiento, de Méré concluyó que ambas
debian ser iguales: 6 es a 4 como 36 es a 24.
Naturalmente, la probabilidad de obtener un 6 en 1 lanzamiento de un dado es
1/6. Debido a que los eventos son independientes, la probabilidad de obtener un 6 en n
lanzamientos es (1/6)n. Así, la probabilidad de no obtener 1 seis en 4 lanzamientos es
(5/6)n, por lo que la probabilidad de obtener al menos 1 seis en 4 lanzamientos es 1(5/6)4=0.5177. Por otro lado, y usando un razonamiento similar, la probabilidad de
obtener un doble 6 en 1 lanzamiento de dos dados es 1/36. Nuevamente, por
independencia estadística, la probabilidad de obtener un doble 6 en n lanzamientos de
dos dados es (1/36)n, por lo que la probabilidad de no obtener 1 doble seis en n
lanzamientos es (35/36)n. Finalmente, la probabilidad de obtener al menos 1 doble seis
en 24 lanzamientos es 1-(35/36)24=0.4914. De Méré estaba en lo correcto desde el punto
de vista empírico pero su razonamiento era erróneo.
Usando variables independientes resulta directo demostrar la utilidad de la
función generatriz de momentos. Suponga que x e y son variables aleatorias
independientes normales, entonces el proceso z = x+y cumple la siguiente propiedad:
2 2
m x t =e
x t 
2
m x  y t =e
x t
2 2
x t
2
x t
2
m y t =e
2
⋅e
2
 yt 
 yt
2
yt 
2
 yt
2
2
=e
x  y t 
2
 x  y  t
2
2
2
2
es decir, z se distribuye como una normal con media x  y y varianza  x  y  .
2.24
2.09 Distribuciones Condicionales
Para ciencias sociales, la distribución más interesante es la condicional, es decir
aquella que describe cuál es la probabilidad que ocurra y condicional en que x tome
algún cierto valor y que denotamos por f  y | x  .
Se puede demostrar que f  y | x =
f x , y 
. Para ello, definiremos primero la
f x x , y 
noción de probabilidad condicional. Supongamos que en el experimento de tirar dos
monedas, sabemos que el primer tiro fue cara. ¿Cambia esta información la estructura de
probabilidades? Primero, note que ahora el espacio de eventos se reduce a SA={{CC},
{CS}}. Por lo tanto, el σ-álgebra asociado a SA es ahora ℱ A ={∅ ,{S },{CC },{SS }} .
Entonces, tienen que cambiar las probabilidades P ·  , siendo ahora:
PA({ ∅ })=0
PA({SA})=1
PA({CC})= ½
PA({CS})= ½
El conocimiento a-priori que “ya salió una cara” nos lleva del espacio de
probabilidad  S ,ℱ , P ·   al espacio de probabilidad condicional  S A ,ℱ A ,P A ·  .
Definiremos la probabilidad condicional como:
P A  A 1=P  A1 | A=
P  A 1∩ A
P  A
(2.31)
si y sólo si P  A 0 . Si ahora escogemos A1 =X 1 S ≤ x 1 –de forma análoga a como
definimos la función de densidad– obtenemos la Función de Densidad Condicional que
describimos más arriba.
Resulta clave entender que la media condicional de y en x, E[ y | x ] , es
exactamente el concepto de una regresión lineal en econometría. Suponga que el
experimento puede ser descrito por la siguiente relación: y i = x i i con i una
variable aleatoria llamada ruido blanco, cuyas características son E[]=0 y
cov [i ,  j ]= 2 para i=j y 0 en todo otro caso. Entonces E[ y | x ]= x .
Un segunda propiedad interesante se deriva al aplicar el operador varianza
condicional al modelo anterior. Un poco de álgebra permite obtener:
V [ y | x ]=E [ y 2 | x ]− E [ y | x ] 
Esta es la función cedástica.
2
(2.32)
2.25
De
la ecuación (2.32) y usando la ley de las esperanzas iteradas
E[ y ]=E x [ E [ y | x ]] , se puede obtener la siguiente expresión (denominada
descomposición de varianza) V [ y ]=V x [ E  y | x  ]E x [ V  y | x  ] . Esta expresión
indica que la variación total de los datos puede ser entendida –o descompuesta— como
la variación de la media condicional más la variación de las realizaciones alrededor de la
media condicional. De esta descomposición se desprende que:
E x [V  y | x  ]=V [ y ]−V x [E  y | x  ]
(2.33)
es decir, la incertidumbre asociada a la predicción hecha sobre la base de una regresión
es menor que aquella de los datos.29
También se define la bondad de ajuste de una regresión como la relación entre la
varianza de la media condicional (es decir, modelada) respecto de la varianza total del
fenómeno:
R 2=
V x [E  y | x  ]
V [ y]
(2.34)
Note que la bondad de ajuste depende de la media condicional, es decir,
depende como se modele la media condicional. Ello pone límites al uso de la bondad de
ajuste como instrumento de selección de modelos econométricos.
Más adelante volveremos a revisar conceptos tales como función cedástica,
bondad de ajuste, media condicional, etc. en el contexto del modelo de regresión lineal.
Es importante, a estas alturas, comprender que dichos conceptos no se restringen al
método de mínimos cuadrados, sino que son de aplicación general.
29 Nuevamente, “Errors using inadequate data are much less than those using no data at all” (C. Babbage).
2.26
Apéndice A: Ejercicios
1. Dé un ejemplo de un experimento en economía que pueda ser descrito por una
distribución normal, para las cuales usted estimó su media y varianza. Justifique
cuidadosamente cada uno de sus pasos.
2. Usando la definición de σ-álgebra asociado a S, demuestre que el evento seguro y
el evento imposible pertenecen al σ-álgebra asociado.
3. A la luz de la axiomatización de Kolmogorov de las probabilidades, critique la
siguiente definición de variable aleatoria: Función cuyo rango de valores es conocido
ex-ante pero el valor que toma es sólo conocido ex-post.
4. Identifique las principales limitaciones de las definiciones de probabilidad clásica
(de Moivre, 1718) y frecuentista (von Mises, 1919). Explique cómo el enfoque
axiomático de probabilidades de Kolmogorov (1933) da cuenta de dichas
limitaciones.
5. En el ejemplo 2.3 del texto, ¿es A ={SC ,CS } un σ-álgebra?
6. Use la siguiente distribución conjunta f(x,y) para demostrar que aunque la
correlación entre x e y es cero, no son independientes: f(-1,1)=f(0,0) = f(1,1) = ⅓.
7. Considere la distribución conjunta Z(M1, IPC), donde M1 es el dinero y IPC un
índice de precios. La distribución marginal del dinero es normal con media x y
varianza unitaria, en tanto que la distribución marginal del índice de precios es
también normal con media y y varianza igual a  . Use la función característica
para encontrar la distribución de Z, suponiendo que ambas variables son
independientes.
−1
8. Sea una muestra de n observaciones con distribución f  y =[ 1 y 2  ]
Demuestre que el valor esperado no existe. ¿Existe su varianza?
.
9. Demuestre que el coeficiente de correlación es invariante ante transformaciones
lineales (afines) de los datos. Es decir, si r 1 y r 2 son los coeficientes de
correlación de los datos { y n , x n } para las transformaciones abx i ; c dy i  ,
i=1 ... n, con a, b, c, y d constantes no-negativas conocidas, entonces es cierto que
r 1 =r 2 .
10. Considere una variable aleatoria {x} con distribución normal de media μ y
desviación estándar σ. Encuentre c –en función de la esperanza y la varianza– tal
que P x c =2 P  x ≥c 
2.27
11. Suponga que tiene una muestra con 1.000 datos que provienen de una normal
con media y varianzas desconocidas (μ y σ²). Suponga que un cuarto de los datos
es menos de 2 y que tres cuartos de ellos son menores a 4. Obtenga una expresión
para estimar μ y σ².
12. Si la función de densidad de y es  y 2 1− y 3 para y definido entre 0 y 1: ¿qué
número es α y cuál es la probabilidad de que y esté entre 0 y ½?
13. Considere el sorteo Kino30 (que excluye el super número) como un experimento
aleatorio ℰ sujeto a la siguiente regla: En la cartilla de juego, usted debe escoger 7
números, que se eligen ambos de entre 30 alternativas. Si acierta a los 7 números,
ya ganó el pozo Kino. (Note que en cada sorteo se sacan 7 números de 1 a 30 sin
reemplazo.)
•
Describa el espacio muestral, S.
•
Describa el σ-álgebra asociado a S.
•
Compute la probabilidad de ganar si el experimento es sin reemplazo.
•
¿Es la probabilidad que Usted computó congruente con la información que
entrega la Lotería en la misma página web? Información adicional: Sorteos
realizados a la fecha: 922, Ganadores con 7 aciertos: 40.
14. Suponga que usted debe reorganizar el poder judicial creando un sistema de
incentivos que promueva eficiencia y ecuanimidad. Hay seis tipos de jueces
(honestos, deshonestos, ineptos, eficientes, flojos, trabajadores) y cada juez sólo
tiene dos de estos atributos. Se desea estimar cuántos jueces deben ser
removidos. Considere que hay n jueces, pero usted sólo puede estudiar dos
jueces cada día, los que permanecen incógnitos (muestra con reemplazo).
•
Construya el modelo probabilístico que describe el fenómeno. Defina
claramente el experimento aleatorio y el espacio de probabilidades.
•
Construya el modelo muestral asociado.
•
Determine un criterio de remoción razonable. ¿cómo podría estimar cuántos
jueces hay que remover?
15. El psicólogo Tversky y sus colegas observan que cerca de 80% de las personas
preferirán la respuesta (a) a la siguiente pregunta: En un pueblo hay dos hospitales.
En el grande nacen unos 45 niños cada día; en el chico, 15. Aunque a nivel nacional la
proporción de hombres es 50%, en cada hospital y en cualquier día dicha proporción
puede ser más o menos que 50%. Al final del año, ¿cuál de los dos hospitales tendrá el
mayor número de días en los que dicha proporción es más que 60%? (a) el hospital
grande, (b) el hospital chico,y (c) ninguno (el número de días será igual). ¿Puede usted
decir por qué la gente se equivoca tanto al responder?
30 “I've heard that the government wants to put a tax on the mathematically ignorant. Funny, I thought
that's what the lottery was!” Gallagher
Capítulo 3
Elementos de Inferencia Estadística
Es muy cierto que cuando no está en nuestro poder determinar lo que es verdadero,
debemos actuar de acuerdo a lo que es más probable.
R. Descartes, Discurso del Método, 1637
En el capítulo anterior hemos discutido la estructura axiomática de las
probabilidades que será la base del análisis de inferencia estadística. Resulta natural
preguntarse por qué es necesario “inferir”. 1 Después de todo, si tenemos un conjunto de
observaciones podemos describirlas usando alguna función de probabilidad o, en el
peor de los casos, usando un histograma.
3.01 Modelo probabilístico, modelo muestral y modelo estadístico
La lógica de razonar hasta ahora ha sido la siguiente. Utilizamos el enfoque
axiomático de probabilidades para formalizar el concepto de experimento aleatorio (ℰ)
definido en el espacio de probabilidades  S ,ℱ , P ·   . La incertidumbre respecto del
resultado particular del experimento se resume en P ·  . Para evitar la rigidez de esta
formalización utilizamos un espacio equivalente (ℝ, B , P x ·  ), en el que definimos
variables aleatorias, x. Escogiendo apropiadamente los eventos asociados a x de la forma
(−∞ , x ] podemos construir una función punto que describa congruentemente la
probabilidad de ocurrencia de los eventos en x y que llamamos la función de
distribución, F ⋅  :
P  s : X  s∈(−∞ , x ] , s ∈S = P x (−∞ , x ]=F  x
(3.1)
Esta función puede ser simplificada y hecha aún más flexible con la ayuda de la
x
función de densidad, la que cumple F  x =∫ f u du . La ventaja de usar f u es que
−∞
ella puede ser descrita de manera algebraica. Esto nos permite sustituir la incertidumbre
asociada al experimento ℰ por incertidumbre respecto de los parámetros  que, dentro
de una familia de formas funcionales, identifican una función de densidad específica a la
que denominamos f  x , .
1
Inferir viende del latín “inferre” que significa “causar o llevar en sí”. El sentido popular de “extraer una
conclusión” es probablemente del siglo 16.
3.2
Finalmente, definimos el modelo probabilístico ={ f  x ;  , ∈} a la familia de
funciones paramétricas de probabilidad (p.e., normal, Poisson, etc.) que se usa para
describir las observaciones, x. Se presume que el vector de parámetros  pertenece al
espacio de los parámetros  (típicamente un múltiplo de la recta real).
La intuición es directa: dado un conjunto de observaciones, x, cuando se postula
un modelo probabilístico que las describa basado en una distribución f  x , , se ha
eliminado la incertidumbre respecto del verdadero mecanismo que genera los datos
(PGD), reemplazándola por incertidumbre respecto de la parametrización adecuada de
la función f  x , .
El objetivo de la inferencia estadística es precisamente identificar y hacer tests de
hipótesis sobre aquel * que, con algún criterio, sea elegido para que f  x ,* describa
adecuadamente los datos. Para la inferencia se usarán datos de corte transversal, de
series de tiempo, o una combinación de ambos tipos de datos que llamamos datos de
panel.
Note la importante diferencia entre la descripción de datos y la inferencia
estadística. La descripción de las observaciones puede ser hecha por medio de funciones
de distribución escogidas a su vez mediante el análisis de la frecuencia de los datos. Por
su lado, la inferencia estadística pretende identificar (aproximarse) el mecanismo que
genera los datos (y no los datos mismos). Es decir, el objetivo de la inferencia es hacer un
modelo general.
La inferencia estadística parte de la base que existe un modelo probabilístico
={ f  x ;  , ∈} al que se le añade un segundo modelo, llamado modelo muestral,
que es el que provee la conexión entre el modelo probabilístico y las observaciones. Para
ello definiremos primero algunos conceptos necesarios:
Def. 3.1
Una muestra es un conjunto de variables aleatorias  x 1 , x 2 , cuyas
funciones de densidad coinciden con la función de densidad f  x ,
postulada por el modelo probabilístico.
Note que este significado está lejos del uso cotidiano de la palabra muestra, en
particular porque no se refiere a datos observados. De la definición se deduce que una
muestra en el sentido coloquial –una colección de números– en realidad corresponde a
una de las muchas posibles realizaciones del conjunto de variables aleatorias que
componen la muestra. La muestra es, entonces, un segundo experimento, diseñado para
complementar el experimento descrito por el modelo probabilístico.
Así, dado que la muestra es un conjunto de variables aleatorias, ella deberá tener
una distribución:
3.3
Def. 3.2
La distribución de la muestra x= x 1 , x 2 , , x n  se define como la
distribución conjunta de la variables aleatorias {x 1 , x 2 ,  , x n }
denominada por:
f {x 1 , x 2 , , x n }; ≡ f  x ; 
(3.2)
Note que la distribución muestral incluye dos elementos: la información respecto
de la probabilidad y aquella sobre la muestra. Habrá, por tanto, dos fuentes de
incertidumbre. Así, la forma que tome f  x ;  depende crucialmente del muestreo. La
manera más intuititiva de pensar en el muestreo se deriva del mismo experimento
aleatorio, ℰ.
Resulta conveniente discutir la naturaleza de las muestras para identificar
algunas de sus características y, más importante aún, para saber el tipo de información
contenida en ellas.
Def. 3.3
Un conjunto de variables aleatorias {x 1 , x 2 ,  , x n } es llamado una
muestra aleatoria de tamaño n de f  x ;  si dichas variables aleatorias
provienen de una misma distribución (población) y son independientes,
i.i.d. En este caso, la muestra queda descrita por:
n
f  x 1 , x 2 , , x n ; =∏ f  xi ; =[ f  x i ; ]
n
(3.3)
i=1
La primera igualdad proviene de la noción de independencia estadística
que ya vimos y la segunda de la condición que las variables están
distribuidas idénticamente.
Cuando las variables aleatorias no se distribuyen idénticamente, la muestra es
n
llamada muestra independiente y su distribución es f x 1 , x 2 ,... , x n ; = ∏ f x i ;  . Si las
i =1
variables aleatorias tampoco son independientes, la muestra es llamada muestra no
aleatoria y la única descripción posible de la función de probabilidad que dió origen a las
n
observaciones es la distribución condicional f  x i | x 1 ,x 2 ,... , x n ; = ∏ f x i | x 1 , x 2 ,... ;  .
i =1
La combinación de los modelos probabilístico y muestral permite definir el
modelo estadístico, que será la base de todo el análisis econométrico que se desarrolla
posteriormente:
3.4
Def. 3.4
Un modelo estadístico se define como aquel que incluye:
●
un modelo probabilístico,
={ f  x ;  , ∈}
●
un modelo muestral,
x= x 1 , x 2 , , x n 
Obviamente, los dos modelos están interrelacionados, pues no resulta razonable
suponer un modelo del tipo ={ f  x ;  , ∈} si la muestra no es aleatoria. En tal
caso, habría que proponer un modelo para la distribución conjunta
={ f  x1 , x 2 , , x n ;  , ∈} .
El modelo estadístico y los datos observados nos permiten responder varios tipos
de preguntas:
1. ¿Es el modelo estadístico postulado congruente con los datos? Este tipo de
pregunta es también conocido como análisis de especificación del modelo 2.
2. Suponiendo que el modelo estadístico es congruente con los datos, ¿qué
podemos inferir de los parámetros?
a) ¿Podemos reducir la incertidumbre sobre  reduciendo el espacio de
parámetros  a 0 donde 0 es un subconjunto de  ? Llamada región de
confianza de la estimación.
b) ¿Podemos reducir la incertidumbre sobre  escogiendo un valor particular
 – que sea el más representativo de  ? Estimación punto.
en  –llamado 
c) ¿Podemos responder la pregunta si  pertenece a algún subconjunto de  ?
Esta es una amplia área de análisis colectivamente denominada prueba de
hipótesis.
 , ¿qué podemos inferir de las siguientes
3. Suponiendo que hemos escogido 
observaciones del mecanismo generador de datos? Esta área –predicción— es una
de los principales objetivos del análisis econométrico.
2
“El hombre mejor dotado plantea mal el problema que no comprende”, Fulcanelli, Las Moradas
Filosofales, 1929.
3.5
3.02 Estadísticos muestrales
Sobre la base del modelo estadístico y de los datos observados podemos
construir estadísticos, definidos como:
Un estadístico es una función de Borel tal que q ⋅ : X → ℝ , donde X es
el espacio de las observaciones. Note que q ⋅  no depende de
parámetros desconocidos.
Def. 3.5
Existen bastantes estadísticos de uso común, entre ellos la media muestral
definida por x =
1
1
2
x i y la varianza muestral, Var [ x ]=
x i− x ] . En términos
∑
[
∑
n i
n−1 i
generales, una parte sustancial del análisis econométrico se realiza sobre la base de
estadísticos. Debido a que éstos son funciones de variables aleatorias, deberemos derivar
sus distribuciones, cosa que usualmente no es fácil.
Podemos generalizar la definición de estadístico para el caso multivariado
haciendo:
q m ⋅  : X → ℝ m
Def. 3.5'
donde q m ⋅  es una función vector.
m≥1
3.03 Distribución de la media muestral
Si {x 1 , x 2 ,  , x n } es una muestra aleatoria extraída de una población con media
 y varianza  2 , entonces x es una variable aleatoria con media  y varianza  2 /n .
La demostración es directa, la intuición también:
x =
1
∑x
n i i
(3.4)
entonces
E [ x ]=
1
n
∑i =
2

1
1
Var [ x ]= 2 Var [ ∑ x i ]= 2 ∑  2=
n
n
n i
i
(3.5)
3.6
Note que la varianza de la suma converge a cero cuando n → ∞ . Este resultado
es intuitivo pues la media muestral tiene que converger a la media de la población
cuando la información muestral se aproxima a la población. Nóte, además, que estos
resultados no dependen de ningún supuesto de distribución de las variables aleatorias x.
3.04 Características deseables de los estimadores en muestra finita
Debido tanto a nuestro interés por aproximarnos al proceso generador de datos
con precisión y eficiencia, como al objetivo de responder al tipo de pregunta planteado
más arriba, tendremos que estudiar para cada estadístico algunas características
deseables. Aunque no son las únicas características, las dos más importantes son:
∞
 ∫  f  
 d =

E [ ]=
Estimador insesgado
−∞
 posible
Menor V [ ]
Estimador eficiente
Naturalmente, no puede esperarse que todos los estimadores sean insesgados y
de varianza mínima. Por ello es usual preguntarse si para un determinado problema es
preferible tener un estimador con sesgo pero eficiente o insesgado pero ineficiente. Un
criterio posible para evaluar este trade-off es estudiar la estructura del error cuadrático
medio ECM, que se define como:
 2]=Var []sesgo[  ]2
ECM =E [−
(3.6)
La existencia de un trade-off nos hace usualmente preguntarnos si existe algún
estimador que sea “óptimo” (es decir, insesgado y de varianza mínima). Bajo ciertas
condiciones, el estimador de máxima verosimilitud resulta ser óptimo.
Consideremos que tenemos una muestra de n observaciones de la variable
aleatoria x tal que sus componentes son independientes e idénticamente distribuidos.
Como señalamos, si cada dato viene de f  x i , , la distribución conjunta de la muestra
es:
n
ℒ = f  x 1 , x 2 , , x n ;=∏ f  xi ;=[ f  x ;  ]
n
(3.7)
i=1
donde ℒ es llamada la función de verosimilitud. Esta función mide la probabilidad que
los datos que disponemos vengan de un mismo modelo probabilístico.
3.7
El estimador de máxima verosimilitud será aquel  * que hace máxima la
probabilidad que los datos provengan de f  x , . Este estimador es formidable, en el
sentido que posee cuatro características importantes: es insesgado, es de varianza
mínima, es asintóticamente normal y es invariante para transformaciones afines. Más
adelante desarrollamos in extenso este estimador, estudiando sus propiedades y las
condiciones necesarias para su existencia.
Ejemplo:
Supongamos que los datos son tomados independientemente y
corresponden a “robos de billeteras por mes en el campus San Joaquín”. La
muestra X es: {2,0,3,4,1,3,0,2,3,4,3,5}. Si creemos que la distribución de
probabilidades que mejor representa los datos es alguna de la familia de la
Poisson. Entonces:
f  x i ; =
e − ix
xi !
En este caso particular, la función de verosimilitud es:
10
12
f  x 1 , x 2 , , x 12 ; =∏
i =1
−
x
i
−12
e  e
=
xi !

xi
∑
i=1
12
∏ xi !
=
e −12  30
358,318,080
i=1
Podemos optimizar la ecuación anterior pero resulta más fácil
optimizar el logaritmo de la función de verosimilitud, ya que éste es una
transformación monótona. Entonces,
log f  x 1 , x 2 , , x 12 ; =−1230 log−log 358,318,080
Buscamos aquel  que hace más probable que los datos vengan de
una Poisson. Lo que se resuelve de manera elemental mediante cálculo para

obtener =2,5
. Se debe comprobar que la segunda derivada sea negativa,
 es un máximo.
para asegurar que 
3.8
3.05 Límite de Cramer-Rao3
Suponiendo que la función de densidad satisface ciertas restricciones –que
estudiamos más adelante–, la varianza de un estimador lineal insesgado de un
parámetro  es mayor o igual a:4
−1
 [
[ I n ] = −E
∂2 ln L
2
∂
]  [
−1
= −E
∂ ln L
∂
−1
 ]
2
(3.8)
Un estimador que alcanza este límite inferior es llamado completamente
eficiente. El inverso de la cota de Cramer-Rao es llamado número informacional de
Fisher y se le designa por I n  . La ecuación anterior requiere que se cumpla el
teorema de Lindberg y Feller que ya vamos a estudiar y demostrar. En palabras
sencillas, las condiciones requeridas para que sea válido son:
●
El conjunto de eventos que cubre la función de probabilidad no depende de  .
●
Para cualquier parámetro  , las derivadas de la función de verosimilitud existen
y, en particular, las segundas derivadas son finitas.
Por ejemplo, el límite Crámer-Rao en el ejemplo de la Poisson sería:
∂ 2 log L 
=
∂ 2
−∑ x i
i
2

=
−n
2
(3.9)
La utilidad del límite de Crámer-Rao es que si algún estimador insesgado alcanza
dicho límite, entonces éste será óptimo y no será necesario buscar otro. Note que en el
caso multivariado, I  es una matriz, con valores fuera de la diagonal, posiblemente
distintos de cero.
Un segundo concepto relacionado de gran utilidad es el de estadístico suficiente.
Intuitivamente, un estadístico suficiente condensa la información de n variables
3
4
Esta desigualdad fue obtenida independientemente por H. Cramér (1946 Mathematical Methods of
Statistics) y C. R. Rao (1945 Bull. Calcutta Math. Soc. 37, 81-91). L. J. Savage (Foundations of Statistics, 1954)
señala, no obstante, que M. Fréchet (1943) y G. Darmois (1945) habían propuesto tentativamente el
nombre "desigualdad informacional” para la misma ecuación. Predeciblemente, sólo los franceses usan
“desigualdad de Fréchet-Darmois-Cramér-Rao”.
Note las diferencias entre ambas expresiones. Más adelante mostramos por qué ambos paréntesis son
iguales.
3.9
aleatorias en una sola variable aleatoria. Si no hay pérdida de información en esa
reducción, el estadístico efectivamente describe los datos de la muestra. Un estadístico
. es suficiente si al hacer inferencias sobre  estamos indiferentes entre usar la
colección de variables aleatorias X o  x . Obviamente preferimos  x por ser de
menor dimensión que X. Más formalmente, el teorema de factorización de NeymanFisher es:
Def. 3.6
Un estadístico τ ⋅ : X → ℝ es llamado suficiente para  si la
distribución condicional de f  x | τ  x =τ es independiente de  , es
decir  no aparece en f  x | τ  x =τ y el dominio de f(.) no envuelve a
.
3.06 Elementos de teoría asintótica: convergencia
 es desconocida. Para poder hacer
Usualmente la distribución de un estimador 
inferencias utilizamos elementos de la teoría asintótica, que nos permiten estudiar las
propiedades de los estimadores cuando la muestra es de tamaño infinito.
A lo largo de este capítulo vamos a usar dos herramientas: Leyes de los Grandes
 de  ) y Teoremas del
Números (en términos generales describen qué tan lejos está 
 ).5 Un primer paso
Límite Central (que permiten hacer inferencias sobre  usando 
será estudiar el concepto de convergencia, que en nuestro caso es análogo pero no
equivalente al concepto de convergencia usado en series y progresiones.
Def. 3.7:
Una secuencia es una colección infinita de objetos ordenados y contables.
Podemos tener secuencias de números, vectores, matrices, etc.
La secuencia {a t } converge a a si ∀ ε>0 existe N tal que ∀ T>N, ∥aT - a∥ < ε donde
∥.∥ es la distancia Euclideana. Escribimos
lim T → ∞ a T =a ó a T → a
5
(3.10)
El nombre de esta familia de teoremas fue acuñado por George Polya (1887-1985) en "Über den zentralen
Grenzwertsatz der Wahrscheinlichkeitsrechnung und das Momentenproblem", (Mathematische Zeitschrift,
8 (1920), 171-181). Posiblemente, Polya usó el término "Zentral" para indicar que su importancia es
central en el análisis. No obstante, el trabajo de Polya es de tercera generación. La primera generación la
encabeza De Moivre en los años 1730 cuando deriva la distribución normal. La segunda generación
corresponde a los trabajos sobre la distribución normal del siglo 19 de Laplace, Poisson, Cauchy y otros.
La tercera generación es aquella que encabeza Chebyshev y sus estudiantes Markov y Lyapounov.
3.10
Este tipo de convergencia no es el que nos interesa en estadística; no es la
secuencia de valores o realizaciones de un experimento aleatorio sino la convergencia de
las probabilidades asociadas a la variable aleatoria. Así, hay varios modos de
convergencia de interés para la modelación econométrica. Ya nos hemos referido a dos
de ellos al revisar las distribuciones Bernoulli y Normal, que en sí son dos límites que
reflejan distintos modos de convergencia.
Bernouilli demostró que si S n es el número de ocurrencias de un evento A en n
intentos de un experimento aleatorio ℰ y p=P  A es la probabilidad de ocurrencia de
A en cada intento, entonces para 0 :
lim n ∞ Pr
∣ ∣ 
Sn
− p  =1
n
(3.11)
es decir, el límite de la probabilidad del evento
n→∞ .
∣S n /n− p∣
se acerca a 1 cuando
Prueba: Si las variables aleatorias siguen una Bernoulli, su suma sigue una Binomial:

P  S n=r = n pr 1− pn−r
r
entonces se cumple:
∑∣
P ∣S n−np∣≥ n =
∣r −np ≥ n 
2
r
n−r
n pr 1− pn−r ≤ 1
r −np  n p 1− p
∑
2 2
r
r
n  ∣r− np∣ ≥ n 
1
1
= 2 2 E  S n −np2= 2 2 V  S n 
n 
n 
p
1−
p
1
= 2 2 np1− p=
n 
n 2
▄


Por otro lado, De Moivre y Laplace encontraron que cuando ∣S n /n− p∣ es
multiplicado por el inverso de la desviación estándar y n → ∞ , el resultado se aproxima
a una distribución normal.
lim n →∞ Pr
[
∣ Sn − p∣
n
p1− p
n
½
]

z
≤z = ∫
−∞
1 −½ u
e
du
2
2
(3.12)
3.11
Estos dos teoremas proponen –como veremos más adelante– distintos modos de
convergencia. Además, tienen algunos supuestos que deben cumplirse y vale la pena
revisar antes de seguir avanzando:
S n =∑ x i , es decir, S n corresponde a una suma de variables aleatorias.
1.
2.
x i=1 si el evento A ocurre y x i=0 si no ocurre, es decir, x i es una variable
aleatoria que se distribuyen Bernoulli y, por lo tanto, S n es una variable
aleatoria que se distribuye Binomial.
3. Las variables aleatorias x i son independientes.
4.
f  x 1 = f  x 2 =⋯= f  x n , es decir, las variables aleatorias x i están
idénticamente distribuidas con Pr  xi =1= p y Pr  xi =0=1− p para todo x i .
5. Debido a que E  S n /n= p , entonces el análisis se hace considerando las
diferencias entre una variable aleatoria S n y su valor esperado. Es decir, se
refiere a la dispersión de x.
La diferencia más importante entre ambos teoremas, sin embargo, tiene que ver
con el tipo de convergencia implícita en cada una: mientras Bernoulli se concentra en
convergencia en probabilidad, De Moivre y Laplace usan el concepto de convergencia en
distribución. En lo que sigue revisamos varias formas de convergencia.
Def. 3.8
Una secuencia de variables aleatorias (reales o vectoriales),
converge en probabilidad si:
lim n →∞ Pr ∣x n−x∣=1 ∀ 
{x n } ,
(3.13)
p
lo que escribimos plim x n= x . A veces se escribe x n  x .
Def. 3.9
Una secuencia de variables aleatorias (reales o vectoriales), {x n } ,
converge en distribución a x si la función de distribución F n  x 
converge a la distribución de F  x  para todo punto de F (ver Figura
3.2).
lim n →∞ F n  x= F  x 
d
(3.14)
Escribimos x n  x y llamamos a F la distribución límite de x n .
3.12
Figura 3.2
Convergencia en distribución
P
N=500
N=250
N=100
N=50
Def. 3.10
Una secuencia de variables aleatorias (reales o vectoriales),
converge en media cuadrática a x si:
lim n →∞ E  x n− x2=0
{x n } ,
(3.15)
m
lo que escribimos x n  x .
Def. 3.11
Una secuencia de variables aleatorias (reales o vectoriales),
converge casi seguramente a x si:
Pr lim n →∞ x n= x=1
{x n } ,
(3.16)
a.s.
lo que escribimos x n  x .6
6
Suponga que el espacio muestral S está definido en el intervalo [0,1] con distribución uniforme. Suponga
n
la siguiente variable aleatoria X n s =s s y X s = s . Entonces, para todo S ∈ [ 0,1 ) , s n →0 cuando
n →∞ y Xn(s)→X(s). Sin embargo, X n 1=2 para todo n y no converge a X(1). Como la convergencia
ocurre en [0,1) y P([0,1))=1, entonces Xn→X almost surely.
3.13
La relación entre las distintas formas de convegencia puede sintetizarse en el
siguiente diagrama.
La demostración de estas relaciones es directa aunque algo tediosa.
p
2
Teorema 1:
E  x n  → 0⇒ x n  0
Demostración
∞
E  x 2n = ∫ x 2 dF n  x 
−∞
=
∫
2
∫
x 2 dF n  x 
x| x ≥ 
2
2
x 2 dF n  x ≥ 2∫ x 2 dF n  x  donde S= x | x 2 ≥ 2
2
S
x| x 
Tomando la ultima integral

∫x
S
2
∞
dF n  x =∫ dF n  x ∫ dF n  x =F n −[ 1F n  ]
−∞

=P  x n− P  x n ≥  ≥ P  x 2n
Entonces:
2
n
P  x ≤
E  x 2n 
2

Así, si E  x 2n  → 0 , entonces x n converge en probabilidad a cero.
Teorema 2:
m
p
xn  x ⇒ xn  x
Demostración: reemplace x n por x n −x en el Teorema 1.
3.14
3.07 Elementos de teoría asintótica: leyes débiles de grandes números
A principios de 1800, S. Poisson7 se dió cuenta que el supuesto 4 de Bernoulli –
distribución idéntica– no resultaba fundamental para obtener los resultados de
convergencia.
Teorema de Poisson: Sea {x n } una secuencia de variables aleatorias independientes tipo
Bernoulli con Pr  x i =1= p y Pr  x i =0=1− p , para todo x i ,
entonces para cualquier ε>0
lim n →∞ Pr
Prueba:
∣
∣ 
Sn 1 n
− ∑ p  =1
n n i =1 i
(3.17)
La manera más corta de probar este teorema es usar la función característica.
itx
Sea  X t =E [ e ] la función característica de xi, una variable aleatoria que
se distribuye con media μ y varianza finita. La expansión de la función
i
it 2
it 3
2
 ⋯ ,
2!
3! 3
xi
característica
de
es
n
característica alrededor de t=0 es  x t =1 it  1 
i
por
lo
 x / n t =1
i
que
la
función
it 
t 2
1 −
 o1/n 2 . Entonces, la función característica de
2 2
n
2! n
n
n


 it 
t 2
la suma 1/n ∑ xi es ∑ x / n t = 1
1 −
 o 1/n 2  . Aplicando
2 2
n
2! n
i=1
i


 it 
t 2
1−
 o 1/n 2  . Pero
2 2
n
2! n
log 1z ≈z
por lo tanto
logaritmo se obtiene log  ∑ x i /n t =n log 1
si
n ∞ ,
se

puede
2
aproximar

t 
 o 1/n  . Finalmente, tomando límite tenemos
2! n 2
lim n  ∞ log  ∑ x /n t =it 1 . Esta es la función característica de una
log  ∑ x / n t = it 1 −
i
i
p
distribución cuya densidad está concentrada en 1= . Es decir x i   .▄
7
“Recherches sur la Probabilité de Jugements, Principalment en Matiere Criminelle”, Comptes Rendus
Hebdomadaires des Sèances de lÁcadémie de Sciences, 1, 473-494, 1835.
3.15
P. Chebyshev (1887)8 se dió cuenta que, en realidad, no sólo el supuesto 4 era
innecesario sino que el supuesto 2 tampoco ayudaba a obtener el resultado. Lo
importante es que se está comparando una suma de variables aleatorias con su media
(valor esperado).
Teo. de Chebyshev: Sea {x n } una secuencia de variables aleatorias con media  y varianza
σ² c∞ y sean c y ε constantes, entonces para todo ε>0
lim n →∞ Pr
∣
n
n
∣ 
1
∑ x − 1 ∑   =1
n i=1 i n i=1 i
(3.18)
Para probar este teorema usamos la propiedad que las variables aleatorias x son
independientes. Por ello:
Var

n

n
1
1
c
x i = 2 ∑  i2 ≤
∑
n i=1
n
n i=1
(3.19)
Para probar el teorema (3.19), vamos a usar la desigualdad de Chebyshev:
Prob[∣x n−c n∣]≤ E [ x n−c n 2 ]/2 , pero se le aplicará a 1/n ∑ x i .
Antes vamos a probar la desigualdad de Chebyshev, para lo cual usamos la
desigualdad de su discípulo A. Markov. Sea x n una variable aleatoria que toma valores
no negativos y δ una constante, entonces:
Prob[ x n ≥ ]≤
E [ xn ]

(3.20)
La prueba es directa. Recordemos que podemos separar la esperanza de x como:
E [ x n ]=Prob[ x n ] E [ x n | x n ]Prob [ x n ≥ ] E [ x n | x n ≥ ]
(3.21)
debido a que x n no es negativo, entonces ambos términos son no negativos. Por ello:
E [ x n ]≥ Prob[ x n ≥ ] E [ x n | x n ≥ ]
8
(3.22)
Existen numerosas formas de escribir este nombre, derivadas del uso de Tc en vez de C, i en vez de y, y ff
en vez de v.
3.16
pero la esperanza condicional debe ser mayor o igual que  por definición, luego se
obtiene que E [ x n ]≥ Pr [ x n ≥ ] . Ello prueba la desigualdad de Markov. Para probar la
desigualdad de Chebyshev simplemente usamos en x n −c n en vez de x n y  en vez de
.
Volviendo al teorema de Chebyshev,
n
Pr
∣
n
n
∣ 
 2i
∑
1
1
∑ x − 1 ∑  ≥  ≤ 2
n i=1 i n i=1 i
i=1
n
2
≤
(3.23)
c
n 2
pero tomando el límite cuando n→∞ de esta ecuación notamos que es cero.
lim n →∞
∣
∣ 
n
n
c
1
1
=0
,
entonces
lim
Pr
x
−
 ≥  =0
∑
∑
n →∞
n 2
n i =1 i n i=1 i
(3.24)
debido a que la probabilidad no puede ser negativa. Ello prueba el teorema de
Chebyshev.
Markov9 se dió cuenta que en la prueba anterior, el supuesto que las variables
x 1 , x 2 , , x n fueran independientes cumple un rol menor. De hecho, sólo se usa para
n
computar la varianza de la suma S n : Var  S n =
1
∑  2 . La prueba anterior sólo
n² i =1 i
requiere que Var  S n → 0 cuando n → ∞ . Pero la varianza de una suma es la suma de
las varianzas más las covarianzas:
∑  ∑
n
Var
i=1
n
xi =
i =1
Var x i ∑ ∑ Cov  x i , x j 
(3.25)
i≠ j
note que la doble suma de covarianzas es a lo más del mismo orden que la varianza. Por
ello la condición que se necesita cumplir es que Var  ∑ x  converja más lento que 1/n 2
para que el teorema se sostenga. Por ello, el supuesto 3 no es crucial.
Teo. de Markov: Sea {x n } una secuencia de variables aleatorias tales que 1/n Var  S n → 0
,cuando n→∞, entonces
lim n →∞ Pr
9
∣
n
n
∣ 
1
1
x i− ∑ E  x i   =1
∑
n i =1
n i=1
“Über die freie Äquivalentz der geschlossenen Zöpfe.” Recueil Math. Moscu, 1935.
(3.26)
3.17
No obstante, un estudiante de Markov llamado A. Kinchine 10 notó que en el caso
de variables aleatorias independientes e identicamente distribuidas, la condición de
Markov tampoco era necesaria. Si las variables aleatorias son i.i.d., no es necesario poner
restricción alguna sobre las varianzas.
Teo. de Kinchine: Sea {x n } una secuencia de variables aleatorias i.i.d., entonces la existencia
de E  x i = es suficiente para garantizar que
Pr
∣
∣ 
n
1
∑ x −  =1
n i=1 i
(3.27)
Pero ambos teoremas tienen distintas condiciones y no son generales.
Finalmente, el teorema de Kolmogorov 11 proveyó las condiciones necesarias y suficientes
para que se cumpla la Ley Débil de Grandes Números (LDGN).
Teo. de Kolmogorov 1: La secuencia de variables aleatorias {x n } obedece LDGN si y sólo si:
E
 [ ]
[
2
2
n
S n−∑ E  xi 
i
n
]
2
→ 0 , cuando n→∞
(3.28)
n  S n −∑ E  x i 
i
2
El teorema anterior requiere que [S n−∑ E  x i] crezca más lento que n 2 , de
otro modo el limite (3.28) no se desvanece cuando n crece.
10 “Recherches sur la structure des fonctions mesurables” en Fundamanta mathematica, 1927.
11 Grundbegriffe der Wahrscheinlichkeitsrechnung, Ergebnisse der Mathematik und ihrer Grenzgebiete, J. Springer
eds. 1933.
3.18
3.08 Elementos de teoría asintótica: leyes fuertes de grandes números
A diferencia del caso anterior, ahora estamos interesados en convergencia casi
segura. El primero en probar una ley fuerte de grandes números (LFGN) fue E. Borel en
190912.
Teo. de Borel: Si {x n } es una secuencia de variables aleatorias i.i.d. distribuidas a la Bernoulli,
entonces:

Pr lim n → ∞

Sn
= p =1
n
(3.29)
es decir, el evento {s : lim n → ∞ S n  s/n= p
Esta expresión puede ser re-escrita como:

lim n →∞ Pr maxm ≥ n
s∈S } tiene probabilidad 1 cuando n → ∞ .
[∣ ∣ ]
Sm
− p ≥  =0
m
(3.30)
de donde se puede ver la relación entre la LDGN y la LFGN. La primera se refería a
lim n →∞ Pr
∣
∣ ∣ 
Sn
− p  =1 , pero:
n
Sn
S
− p ≤ max m ≥ n m − p
n
m
∣
∣
∣
(3.31)
por lo tanto si alguna función cumple (3.34) cumplira con LDGN, es decir,
a.s.
p
xn  x ⇒ xn  x .
A. Kolmogorov reemplaza la condición de Markov sobre las varianzas
n
V  S n =
∞
∑
k =1
1
 2 → 0 cuando n → ∞ con una condición más fuerte:
2∑ i
n i=1
1
V  x k ∞
k2
(3.32)
12 “Les probabilités dénombrables et leurs applications arithmétiques”, reprinted as Note V in E. Borel,
Leçons sur la Theorie de Fonctions, Gauthiers-Villars (1914), 182-216. En 1928, A.Y. Kintchine popularizó el
término Ley Fuerte de los Grandes Números para distinguirlos de los teoremas a la Bernouilli basados
en convergencia en probabilidad (“Sur la loi forte de grand nombres”, Comptes Rendus de lÁcadémie de
Sciences, 186, p286, 1929).
3.19
lo que le permite probar la LFGN para el caso en que las variables son simplemente
aleatorias.
Teo. de Kolmogorov 2. Sea {x n } una secuencia de variables aleatorias independientes tales
que existe E  x i  y V  xi  y se satisface la condición anterior,
entonces:

Pr lim n → ∞
1
n
∑ [
 
n
i=1
x i− E  x i ] =0 =1
(3.33)
Este teorema se prueba igual que la LDGN, con la salvedad que en vez de usar la
desigualdad de Chebyshev se usa la desigualdad de Kolmogorov: Sean x 1 , x 2 , , x n
2
variables aleatorias independientes tales que V x i = i ∞ ∀ i , entonces para
cualquier 0 :
n
Pr  max l ≤ k ≤ n∣S k−E S k ∣≥  =
1
 2i
2∑
 i=1
(3.34)
Más aún, si la secuencia x es i.i.d. tales que E x i ∞ , entonces:
∞
∑
k =1
Var X k 
k
2
∞
=∑
k =1
∞
1
x 2 f  x dx
2∫
k −∞
(3.35)
lo que señala que, para tal caso, la existencia de la esperanza es una condición necesaria
y suficiente para que se obtenga la LFGN.
Hemos visto algunas de las condiciones necesarias para la LDGN y LFGN. ¿Qué
es lo que realmente se necesita? Para la LDGN se necesita la condición de Markov y para
la LFGN se necesita la condición de Kolmogorov y ambas se refieren a que se debe
restringir la V S n  para que no crezca más rápido que n2.13
La nomenclatura típica es V S n =O n  , donde O(.) significa orden de
probabilidad. Orden de probabilidad es un concepto útil que viene en dos sabores: O(n)
y o(n). Suponga que existen dos secuencias de números reales, a y b. La notación
a n =O b n  corresponde a “a es al menos del orden de bn”, en tanto que a n =o b n 
corresponde a “a es de un orden menor a bn”. Formalmente,
13 Las series de tiempo integradas, que son la mayoría en macroeconomía, no cumplen esta restricción.
3.20
a n =O b n cuando n→∞ si lima →∞
a n =o b n cuando n→∞ si lim a →∞
por ejemplo,
 
1
1
=O
2n²−4
n²
∣a n∣
K y K 0
bn
∣a n∣
=0
bn
 
(3.36)
y 2n 2 −4=On 2 =on 3  .
3.09 Propiedades de los distintos tipos de convergencia
Algunas propiedades interesantes y útiles de los distintos tipos de convergencias
son:
1. Teorema de Slutsky: plim g  x n =g  plim x n .
2. Teorema de mapeo continuo: Sea x i un vector de variables aleatorias y sea
g ⋅ una función real continua en el vector fijo  . Entonces,
p
p
x i   ⇒ g  x i  g  .
3. Si g  x n es cóncava, se cumple la desigualdad de Jensen: g  E [ x n ]≥ E [ g  x n ] .
Esta desigualdad es crucial cuando se desea hacer predicciones.
4. Si x n e y n son variables aleatorias con plim x n=a y plim y n=b entonces:
plim  x n  y n =ab
plim  x n y n =ab
plim  x n / y n =a/ b
d
si b≠0
d
5. Si x n  x y plim y n=c , entonces x n y n  cx
d
d
6. Si x n  x y g  x n es continua, entonces g  x n  g  x 
7. Si la distribución límite de x n existe y plim  x n − y n =0 , entonces y n tiene la
misma distribución límite de x n .
3.21
3.10 Teoremas de límite central
Queremos describir las propiedades de un estimador de  cuando la
 es desconocida. Saber que  es insesgado, consistente, o que
distribución de 

converge en probabilidad a  es poco útil. Si plim =
, entonces toda la densidad
colapsa a un punto y no es posible hacer inferencias. Tampoco sabemos qué pasa antes
que n → ∞ .

Sin embargo, si plim =
, entonces podría existir una función tal que:
d
Y n = n   −  f  y 
(3.37)
donde f  y  es una distribución con media y varianza finitas. Ello nos permitiría hacer
inferencias estadísticas sobre el estimador de  . Esa es la lógica de los teoremas de
límite central.
Antes de llegar ahí, consideremos que, al igual que en el caso de las leyes de
grandes números, no resulta difícil demostrar que el supuesto 2 (distribución binomial)
no es necesario para el teorema de de Moivre y Laplace. Note que la contribución de
estos matemáticos fue descubrir la distribución límite para la distancia entre S n y
E S n  ajustando por la desviación estándar. Para ello usaron la distribución binomial,
pero vamos a ver que es innecesario limitarse a la binomial, bastando imponer
adecuadamente restricciones en algunos de los momentos de la distribución de
probabilidades.
Sea {x n : n ≥1} una secuencia de variables aleatorias con S n =∑ x i. Los teoremas
de límite central estudian la expresión en el límite de:
Y n=
S n −E S n 
 V S n 
(3.38)
es decir, una versión normalizada de S n −E S n  que fue lo que estudiamos en LDGN y
LFGN.
3.22
Teorema de Límite Central de Lindeberg-Levy14
Sea {x n : n ≥1 } una secuencia de variables aleatorias extraída de cualquier f.d.p.
2
con media finita  y varianza finita  , y si xn =
1
x , entonces
n∑ i
d
 n  xn − N [0, 2 ]
(3.39)
alternativamente podemos escribir:
x
limn →∞ F n x =lim n → ∞ P  x n ≤ x = ∫
−∞
1
e
 2
−1 2
u
2
(3.41)
du
Es importante notar que el teorema se aplica a variables aleatorias de cualquier
función de distribución y que sólo se aplica a S n cuando la media existe y si la varianza
es finita.
Prueba:
itx
Usamos la función característica. Sea  x t =E [ e ] la función característica
de xi, una variable aleatoria que se distribuye con media cero y varianza finita.
Entonces queremos encontrar la función característica de S n /  n que es
i
n
it 
t 2 2
−
 o1/n y
2! n
n
n
2 t 2
t
1
 =1−
o  . Aplicando
recuerde que =0 , para obtener 
2n
n
n
t2 2
logaritmo se obtiene log  ∑ X / n t =n log 1−
 o1/n . Pero si
2! n
n ∞ , se puede aproximar log 1z ≈z por lo tanto se deduce que
−t 2 2
log ∑ X / n t =
 o 1/n . Finalmente, tomando límite cuando
2!
−t 2  2
n ∞
obtenemos
.
Por
ello,
lim n ∞ log  ∑ X / n t =
2
[
t = 
t
]
 . Use la expansión x /  n t =1
i
[
]

i
i



i
2 2
limn  ∞ n t =e
− t
2
es decir, la distribución de la suma normalizada es
d
asintóticamente normal. Es decir x i  N 0,  2  .▄
14 Lindeberg, J. W. "Eine neue Herleitung des Exponentialgesetzes in der Wahrschienlichkeitsrechnung."
Mathematische Zametki, 15:211-225 (1922) y W. Feller "Über den zentralen Genzwertsatz der
Wahrscheinlichkeitsrechnung." Mathematische Zametki, 40:521-559 (1935)
3.23
Note que cuando normalizamos Sn por n obtuvimos convergencia en
probabilidad, en cambio cuando normalizamos por  n obtuvimos convergencia en
distribución. La razón es que la varianza de Sn crece a  n , por lo que si normalizamos
por n ésta se va a cero cuando n ∞ .
Teorema de Límite Central de Lindeberg-Feller con distintas varianzas15
Este teorema, menos restrictivo que el anterior y señala: Sea {x n : n ≥1} una
secuencia de variables aleatorias extraída de un conjunto de funciones de distribución
{F n ,n ≥ 1} cada una de ellas con media finita i y varianza finita  2i . Las siguientes
relaciones son ciertas:
A.
lim n →∞ max1 ≤ i ≤ n
 
i
=0 donde 
=
n

y
B.
lim n →∞ F n  y=lim n → ∞ P Y n ≤ y= ∫
−∞
n
∑ 2i
i =1
1
e
 2
−1 2
u
2
du
si y solo si:
lim n →∞


n
1
 x−i2 dF i  x  =0
∫
2∑

 n i=1 ∣x−∣≥ 
i
i
(3.42)
Aunque parece difícil, la interpretación del teorema es intuitiva. La relación (B)
señala que la distribución límite es una normal. La relación (A) señala simplemente que
ningún  2i domina a  2n y se deriva de la ecuación (3.41).
Podemos escribir el paréntesis del límite en (3.42) como:
n
n
1
 x−i 2 dF i  x ≥ 2 ∑ Pr ∣x−i∣≥ ci
∫
2∑

 n i=1 ∣x− ∣≥  
i=1
2
≥  max 1≤ i ≤ n Pr ∣x−i∣≥  
i 
i
(3.43)
i
15 A. Lyapounov (1901) sugirió el siguiente teorema que, por ser más restrictivo, fue superado por el
teorema de Lindeberg-Feller. Sea {X n : n ≥1} una secuencia de variables aleatorias independientes con
E  X i = y V X i = i ∞ ∀ i y E ∣X i2∣ ∞ ,
lim n → ∞
1
c
n
∑ E∣X i − ∣2 = 0 ,
2
i=1
n
0 .
Se define c n =
∞
se cumple que
lim n → ∞ F n  y = ∫
requiere que los momentos de orden superior sean finitos.
−∞
1
e
2
∑ 
−1 2
u
2
i
2
i
, entonces si
du . Note que se
3.24
es decir, que ninguna de las variables aleatorias domine la secuencia de sumas, o sea,
 x i−i 
es suficientemente pequeño en relación con la suma [S n−E  S n]/ 
n
i
cuando n → ∞ . Así, el TCL se refiere a los efectos sobre la distribución de una suma de
que cada
variables aleatorias que individualmente
comportamiento de la suma.
no
tienen
efecto
alguno
sobre
el
Una manera más simple de escribir el resultado anterior es:
d
 n  xn−n  N [0,  2 ]
(3.44)
Es decir, sumas de variables aleatorias tienden a distribuirse como normales,
independientemente de las funciones de probabilidades que las generaron. Casi todos
los estimadores están basados de una u otra forma en sumas de variables aleatorias.
Teorema de Límite Central de Lindeberg-Levy Multivariado
Si x 1 , x 2 , , x n es una muestra de vectores aleatorios extraída de una función de
distribución multivariada con medias finitas  y matriz de varianzas y covarianzas
finita y positiva definida Q , entonces
d
(3.45)
 n  xn− N [0,Q ]
Teorema de Límite Central de Lindeberg-Feller multivariado
Sea x 1 , x 2 , , x n una muestra aleatoria extraída de un conjunto de vectores
aleatorios, tales que E [ x i ]=i , V [ x i ]=Q y los terceros momentos son finitos. Sea
−1

 n=1/ n ∑ i y Qn =1/n ∑ Q i . Si lim n →∞ Qn=Q y lim n →∞ n Q n  Qi=0 , entonces:
d
(3.46)

 n  x n− n   N [0, Q]
Los teoremas anteriores –que se pueden extender para conjuntos de funciones
usando Jacobianos– pueden ser sintetizados como:
p
●
La ley débil de grandes números LDGN se refiere a S n /n  p .
●
La ley fuerte de grandes números LFGN se refiere a S n /n  p .
●
El teorema del límite central se refiere a S n /n  N  p , Var  S n /n  .
a.s.
d
3.25
Resulta difícil intuir lo que señalan estos teoremas de convergencia a una
distribución normal. En particular, por cuanto en el análisis se mezclan dos conceptos.
Por un lado, el tamaño de muestra. Por otro lado, el número de veces que se repite el
experimento. Una manera fácil de ver el rol de cada elemento se presenta en la Figura
3.3. El experimento consiste en generar una muestra de T datos de una distribución
uniforme definida en el intervalo [0,1] y luego computar la media muestral, z. El
experimento se repite en condiciones idénticas llamadas réplicas.
En los paneles superiores se presentan los resultados del experimento para 50
réplicas en tanto que en los paneles inferiores, se presentan los resultados para 1.000
réplicas. En los paneles de la izquierda se hace el experimento con un tamaño de
muestra 100, en tanto que en los de la derecha el tamaño de muestra es 1,000. Como
resulta evidente, la distribución de la media muestral se aproxima a una normal cuando
el experimento se replica un número grande de veces, independiente del tamaño de muestra.
Figura 3.3
Tamaño de Muestra 100, Réplicas = 50
Tamaño de Muestra 1000, Réplica = 50
Tamaño de Muestra 100, Réplicas = 1000
Tamaño de Muestra 1000, Réplicas = 1000
3.26
3.11
Distribución asintótica
Frecuentemente vamos a usar el concepto de distribución asintótica, es decir,
aquella distribución que se usa para aproximar la verdadera distribución muestral de
 de  , la distribución asintótica de
alguna variable aleatoria. Tomemos un estimador 
 se obtiene de:
d

 N [0, V ]
 n  −
(3.47)
implica
 d N [ , V /n ]

(3.51)
 se distribuye asintóticamente normal, con media  y matriz de covarianza
es decir, 
asintótica 1/nV (ver Figura 3.4).
Figura 3.4
Distribución exacta
Distribución asintótica
3.27
3.12 Estimación asintóticamente eficiente (máximo verosímil) 16
Ya hemos visto el concepto de la función de verosimilitud. Ahora, la usaremos
para derivar un estimador crucial en econometría y, además, para entender lo que hace
cada tipo de test. En términos genéricos, la función de verosimilitud de una muestra x de
variables aleatorias i.i.d. se puede escribir como:
n
ℒ | x i =∏ f  x i ,
(3.48)
i=1
Note que escribimos ℒ ∣ x para designar que la función se construye a partir
de las realizaciones de una muestra x y que es condicional a ésta.
Lo que hace el estimador es buscar aquel  que hace máxima la función de
verosimilitud, es decir, la probabilidad que los datos vengan de la distribución f(.).
Existen varias formas de maximizar ℒ ∣ x , pero casi siempre se utiliza una
transformación que maximiza log ℒ ∣ x ,
n
log ℒ  | x=∑ log f  x i , 
(3.49)
i =1
ya que es más simple. El procedimiento es legítimo porque la función logaritmo es una
transformación monótona.
Analíticamente el estimador de máxima verosimilitud será aquel  que cumpla:
∂ L | x
=0
∂
(3.50)
Cuando la función de verosimilitud es analíticamente diferenciable, se puede
obtener una expresión cerrada para (3.50), pero ello no es siempre posible. Por ejemplo,
considere f ∣ x=1 / con 0 ≤ x ≤  . Cuando la ecuación (3.50) no tiene forma
cerrada, es necesario resolver el problema usando cálculo numérico, como se describe en
el capítulo 6.
16 Aunque la noción de función de verosimilitud es muy antigua, el método de estimar parámetros
maximizando la función de verosimilitud fue desarrollada y popularizada en el artículo de J. Neyman y
E. S. Pearson, "On the use and Interpretation of Certain Test Criteria for Purposes of Statistical Inference.
Part I" (Biometrika, 20 A, 175-240, 1928).
3.28
No obstante, cuatro condiciones de regularidad resultan necesarias para que el
estimador sea válido:
●
El conjunto A={x : f  x ,  ≥ 0} no depende de  .
●
Para todo ∈ , las derivadas
∂i f  x i ,
∂ i
existen (i=1,2,3).
2
[
]
●
∂logL  x i ; 
0≤ E
≤∞.
∂
●
∣
∣
∂i log L x i ; 
≤ hi  x
∂i
∞
∫ hi  x dx K
∞
∀ ,
∫ hi  x dx∞
donde
i =1,2
y
−∞
i2 y K no es función de  .
−∞
De estos supuestos se derivan algunos resultados de gran utilidad. Primero, note
que la función de verosimilitud es una densidad, por lo que se cumple:
∞
∞
∞
∫ ∫  ∫ L  x 1 , , x n ;  dx1  dx 2=1
−∞ −∞
(3.51)
−∞
simplificando la notación pero sin pérdida de generalidad, denotamos la ecuación (3.47)
∞
por
∫ L xi ;  dxi =1 . Derivando esta ecuación con respecto a
 , obtenemos:
−∞
∞
∂
∫ L  x i ;  dx i=0
∂ −∞
(3.52)
Las condiciones de regularidad aseguran que se cumple la condición de
diferenciación bajo el signo de la integral,17 es decir,
∞
∫
−∞
∂ L  x i ; 
dx i =0
∂
(3.53)
17 Este resultado se deriva del siguiente teorema de Leibniz, para el caso en que los límites de integración
no dependen de  y, por lo tanto, los segundos dos términos son cero:
U 
∂
∫
U 
∫
F x ; dx
L 
∂
=
∂ F x ; 
L 
∂
F U 
∂ U 
∂ L 
−F L 
∂
∂
3.29
multiplicando y dividiendo por L  x i ;  tenemos:
∞
∫
−∞
pero
∂ L  x i ;  L x i ; 
dx =0
∂
L x i ;  i
(3.54)
∂ f x 1
∂ log f  x 
=
. Entonces:
∂ x f  x
∂x
∞
∫
−∞
∂log L  x i ; 
L  x i ;  dx i=0
∂
lo que implica E
[
(3.55)
]
∂log L x 1 , , x n ; 
=0 .
∂
Un segundo resultado útil se obtiene al derivar (3.55) con respecto a  :
∞
∂ log L x i ; 
∂
L xi ;  dxi =0
∫
∂ −∞
∂
(3.56)
usando el teorema de Leibniz
∞
∫
−∞
∞
∂2 log L  x i ; 
∂log L  x i ;  ∂ L x i ; 
L  x i ;dx i ∫
dx i=0
∂ ' ∂ 
∂
∂
−∞
(3.57)
es decir
∞
∫
−∞
∞
∂ 2 log L  x i ; 
∂log L  x i ;  ∂ log L  x i ; 
L  x i ; dx i ∫
L x i ; dx i =0 (3.58)
∂ ' ∂ 
∂
∂
−∞
por lo que obtenemos:
[
] [
]
(3.59)
] [
]
(3.60)
∂ 2 log L  x t ; 
∂ log L x i ; 
E
Var
=0
∂ ' ∂
∂
de donde se desprende
∂ log L  x i ; 
∂2 log L  x t ; 
V
=−E
∂
∂ ' ∂ 
[
El término de la derecha de la ecuación (3.60) es llamado número informacional
de Fisher.
3.30
Un tercer resultado importante se deriva de suponer la existencia de un
estadístico  x  y ocupar la ecuación (3.51) tal que
∞
∫  x L x t ;  dx=E   x 
(3.61)
−∞
Diferenciando la ecuación (3.61) con respecto a  tenemos:
∞
∫  x
−∞
∂ L xt ; 
∂ E   x
dx=
∂
∂
(3.62)
multiplicando y dividiendo por L  x ,  y recordando la derivada del logaritmo se
tiene
∞
∫  x 
−∞
[
Note que por definición
además, que
Cov

]
∂ log L x ; 
∂ log L  x ,  ∂ E  x 
L x ; dx =E  x 
=
∂
∂
∂
Cov  x 1, x 2=E  x 1 x 2 −E  x1  E  x 2 . Considere,
∂ L  x i ; 
=0 . Entonces:
∂

∂ log L x ; 
∂ E  x 
,  x  =
∂
∂
(3.64)
Aplicamos
ahora
la
½
∣Cov  x 1 , x 2 ∣[ V  x 1 V  x 2  ] y obtenemos:
∣[

∂ E  x 
∂ log L x , 
≤ V   x  V
∂
∂
∣
pero V
[

(3.63)
∂ log L x , 
∂

desigualdad
]
Cauchy-Schwartz:
½
(3.65)
es el número informacional. Luego:
2
]
∂ E   x 
≤ V    x  I 
∂
(3.66)
3.31
finalmente:
V    x  ≥
[ ∂ E  x /∂ ]
2
(3.67)
I n 
Es decir, cualquier estadístico de la muestra tendrá una varianza mayor o igual a
la expresión del lado derecho que es conocida como el límite de Cramer-Rao.
Corolario:
Var     x  ≥
1
.
I n 
En conclusión, asintóticamente este estimador tiene cuatro propiedades que lo
hacen formidable:
1. Consistencia:18
plim  MV =
2. Normalidad asintótica:
∂ 2 log L
d
−1
MV 
.
N [  ,[ I ] ] donde I =−E
∂' ∂ 
3. Eficiencia Asintótica:
 MV es asintóticamente eficiente y alcanza Cramer-
[
]
Rao.
4. Invarianza:
si = g  entonces g   MV  es el estimador
máximo verosímil de γ.
Este estimador se puede extender al caso que las variables aleatorias no son
idénticamente distribuidas de manera directa, excepto que n I  ≠ I n  .
18 El concepto de consistencia fue desarrollado por R. A. Fisher en "On the Mathematical Foundations of
Theoretical Statistics", (Phil. Trans. R. Soc. 1922).
3.32
3.13 Test de hipótesis19
Supongamos que existe una variable aleatoria definida en el espacio de
probabilidades (S, ℱ, P(.) ) y consideremos el modelo estadístico asociado:
•
={ f  x ;  , ∈}
•
x={x 1 , x 2 , , x n }
El test de hipótesis consiste en decidir si una conjetura sobre  del tipo
∈ 0 ⊆  es congruente con la(s) realización(es) de la muestra x. Dicha conjetura –que
envuelve un pre/juicio– es llamada hipótesis nula20 y se denota usualmente por
H 0 :∈0 .
Para refutar o no refutar la conjetura a partir de una realización de la muestra,
necesitamos un criterio C, tal que si x ∈C , entonces no se rechaza la hipótesis nula y si
x ∉C se rechaza. El test de hipótesis es de manera más precisa un estadístico τ(x): X
→ℝ. Con algún grado de incertidumbre podremos rechazar o no la presunción que
nuestro prejuicio sea correcto.
El procedimiento nos pide tener una hipótesis nula H 0  y una hipótesis
alternativa21 H 1  , las que en general deben ser mutuamente excluyentes. Como se
discute más adelante, es posible construir tests en que H 0 y H 1 no están “anidadas”,
es decir, no agotan el conjunto 0 . La hipótesis nula puede ser simple, si es
unidimensional, o compuesta, si no lo es.
19 El testeo de hipótesis es tan viejo como el estudio de probabilidades. Sin embargo el término “test de
hipótesis” es relativamente moderno y no es consensual. El libro de R. A. Fisher Statistical Methods for
Research Workers de 1925 parece ser el primero en usar un test de hipótesis, aunque bajo el nombre de
“test de significancia”. El término test de hipótesis fue acuñado por J. Neyman y E. S. Pearson en su
artículo "On the use and Interpretation of Certain Test Criteria for Purposes of Statistical Inference. Part
I" (Biometrika, 20 A, 175-240, 1928).
20 Hipótesis nula aparece en el libro de 1935 de Fisher The Design of Experiments, donde señala: "[W]e may
speak of this hypothesis as the 'null hypothesis,' and it should be noted that the null hypothesis is never proved or
established, but is possibly disproved, in the course of experimentation." (p. 19). En el lenguaje de Neyman y
Pearson, la hipótesis nula corresponde a la “hipótesis probada”, que ellos denotaban por H 0 . Neyman
reclamó, con justicia, que el término hipótesis nula es vago y que "the original term 'hypothesis tested'
seems more descriptive" (First Course in Probability and Statistics, 1950, p. 259).
21 El término hipótesis alternativa se popularizó a raíz del trabajo de Neyman y Pearson’s "On the Problem
of the Most Efficient Tests of Statistical Hypotheses" (Philosophical Transactions of the Royal Society of
London. Series A, 231 (1933), pp. 289-337). En ese artículo también se definen términos tales como
hipótesis simple y compuesta, región crítica, error tipo I y tamaño del test.
3.33
Note que, puesto de esta forma, el test rechaza o no rechaza H 0 , pero no permite
“aceptar” la validez de una conjetura. 22 Además, se rechaza o no se rechaza dado un
cierto nivel de probabilidad o confianza. Vale decir, cualquier conjetura puede ser
rechazada, basta con hacer el intervalo de confianza arbitrariamente grande o,
equivalentemente, haciendo C 0 arbitrariamente pequeño.
Como la base del testeo es la realización particular de la muestra de variables
aleatorias, es posible cometer errores:
Tipo I: Pr  x∉C 0 ; ∈=
Tipo II:
Pr  x∈C 0 ; ∉=
Rechazar H 0 cuando es verdadera
No rechazar H 0 cuando es falsa
En principio, nos gustaría hacer que =→ 0 , lo que no es posible con n finito.
Note que la distinta naturaleza de los errores lleva asociado dos distintos conceptos
útiles:
Tamaño del Test:
es la probabilidad de cometer error tipo I, que usualmente
llamamos α. Tamaño es equivalente a nivel de significancia.
Poder del Test:
es la probabilidad de que el test correctamente rechace H 0
cuando es falsa, es decir 1-β.
Algunas definiciones útiles asociadas a los tests son:
•
Un test será más potente que otro si tiene más poder que otro para todo tamaño.
•
Un test será insesgado si su poder es mayor o igual que su tamaño para todo  .
•
Un test será consistente si su poder tiende a 1 cuando n → ∞ .
22 Neyman y Pearson (1928) hablan de aceptar y rechazar hipótesis. Fisher nunca usó el término “rechazo”
pero no tenía objeción a su uso, sin embargo se oponía vehementemente a “aceptar” una hipótesis.
3.34
3.14 Tres tests de hipótesis asintóticamente equivalentes
Hasta el momento hemos estudiado la función de verosimilitud y el estimador de
máxima verosimilitud. También hemos discutido la estructura de los tests de hipótesis.
A continuación describimos tres tests que son asintóticamente equivalentes –aunque
numéricamente pueden diferir– que son ampliamente usados en aplicaciones prácticas.
Test de Razones de Verosimilitud
 MV y L max . Si el R
Al maximizar la función de verosimilitud obtenemos 
 MV , entonces recalcular la función de
hipotético es estadísticamente igual a 
 MV . Por
verosimilitud con R debiera producir un valor similar al computado usando 
 MV | x , para la cual se
ello el test estudia la distancia entre log ℒ  R | x  y log ℒ  
conoce su distribución asintótica:
d
−2[log ℒ  R | x−log ℒ   MV | x ]  m
2
(3.68)
donde m es el número de parámetros restringidos al imponer la hipótesis nula. Un
inconveniente de este test es que exige computar dos veces la función de verosimilitud,
cosa que es paulatinamente menos grave dada la creciente capacidad computacional.
Test de Wald23
A diferencia del caso anterior, el test de Wald se enfoca directamente en la
 y el prejuicio R , bajo la premisa que dicha
distancia entre el parámetro estimado 
distancia no debiese ser estadísticamente significativa si el prejuicio es correcto. Note
que este es el test t al cuadrado. Entonces:
−1
2

  − R ' ∑  −
R ↝   m
(3.69)
Multiplicador de Lagrange
Este test –llamado a veces efficient scores– parte de la base que cuando se obtiene
el estimador máximo verosímil de  , la primera derivada es cero. Si la primera
23 “Tests of Statistical Hypotheses Concerning Several Parameters When the Number of Observations Is
Large” Transactions of the American Mathematical Society, 54 (1943), 426-482.
3.35
derivada evaluada en  R no difiere estadísticamente de cero, entonces la hipótesis nula
no es falsa.
∣
LM =
∂ LnL
∂
∣ ' [ I  ] ∣∂ LnL
 ↝   m
∂ ∣
−1
= R
2
R
(3.70)
=R
Un descripción gráfica de estos tres tipos de tests se presenta en la Figura 3.5
Figura 3.5
Ln L
Ln LR
Razones
Verosimilitud

Ln L()
C()
Ln L()/
Lagrange
R

MV
Wald

3.15 Tests de hipótesis no anidadas
En ocasiones sucede que el problema de interés no produce hipótesis anidadas.
Considere que existen dos modelos compitiendo por explicar el mismo conjunto de
observaciones del fenómeno (y):
Modelo 1:
Modelo 2:
y =x 
y =z 
(3.71)
3.36
En este caso se requiere hacer un test de la forma:
H 0 : Modelo 1 bien especificado
H 1 : Modelo 2 bien especificado
(3.72)
Resulta evidente que las hipótesis nula y alternativa no están bien especificadas
(o anidadas) en el sentido que ellas no son mutuamente excluyentes. Se dice que el
modelo 1 y el modelo 2 son familias separadas dado que, para cualquier valor de β, el
primero no puede ser arbitrariamente aproximado por el segundo mediante un proceso
límite. Análogamente, para cualquier γ, el modelo 2 no puede ser aproximado
arbitrariamente por el modelo 1. La verificación de las hipótesis anteriores, por lo tanto,
no puede ser llevada a cabo mediante la teoría de Neyman-Pearson, debido a que ésta
requiere que los espacios paramétricos asociados de ambos modelos sean iguales
Davidson y McKinnon (1981) proponen el siguiente test.24 Sea el modelo:
y =x 1−z 
=x 1−z  
donde =1− 
(3.73)
La idea del test es que si el Modelo 2 está bien especificado, =1 . En caso contrario, el
Modelo 1 está bien especificado y =0 . Davidson y McKinnon probaron que el
estadístico que permite verificar la restricción anterior se distribuye asintóticamente
normal si H 0 es cierta. El test puede ser extendido de manera análoga para modelos no
lineales.
Note, sin embargo, que si los modelos 1 y 2 comparten algunos regresores, el
modelo propuesto en la ecuaciones (3.73) no está identificado, es decir, el parámetro 
no puede ser obtenido de manera independiente de los otros parámetros y, por lo tanto,
no se puede hacer el test.
Una manera de solucionar el problema anterior es realizar una regresión auxiliar
para obtener un estimador 
 -por ejemplo, el de máxima verosimilitud o el de mínimos
cuadrados- y rehacer el test propuesto como:
y =x 1−z  
=x  y 
(3.74)
donde y=z z ' z −1 z ' y .
24 El origen de la idea de hipótesis no anidadas se remonta al año 1962, con el trabajo desarrollado por D.
R. Cox “Further Results on the Test of Separate of Families of Hypotheses”, Journal of the Royal Statistical
Society B, 24:406-424 (1962), pero fue extendido por Davidson, R. y J. G. Mackinnon, “Several Test of
Model Specification in the Presence of Alternative Hypotheses”, Econometrica, 49:781-793 (1981).
3.37
Como se ve, el modelo de la ecuación (3.74) anida ambas hipótesis de una manera
un tanto artificial. El test es llamado J-test. En muestras pequeñas la estimación por
mínimos cuadrados ordinarios no es adecuada ya que E  
  ≠ 0 , de forma que
obtendríamos estimaciones inconsistentes del estimador de  . No obstante, en muestra
grandes, plim  
 =0 .
Note que si el primer modelo es el correcto, 
 tiende a cero y el test de la
hipótesis nula H 0 : =0 se distribuye asintóticamente normal estándar. Por el
contrario, si el segundo modelo es el correcto, el estimador 
 converge en probabilidad
a 1 y su desviación estándar tiende a cero, por lo que el test t tiende a infinito. Así, el test
siempre rechaza la hipótesis nula cuando ésta es falsa, porque el estadístico
eventualmente excederá cualquier crítico con probabilidad uno.
Evidentemente, se puede revertir el procedimiento y plantear el test inverso
haciendo:
y =x  z 1−

= x z 
(3.75)
Típicamente se realizan los tests (3.74) y (3.75). Por ello existen cuatro resultados
posible.
Se rechaza H 0 en (3.74)
● Se rechaza H 0 en (3.75)
● Se rechaza H 0 en (3.74) y en (3.75)
● No se rechaza H 0 en (3.74) y en (3.75)
●
El J-test se aplica cuando los modelos son lineales. Si los modelos son no lineales,
entonces se usa un test similar llamado P-test. Además, se ha supuesto que la variable
dependiente ha sido transformada de la misma manera en ambos modelos: McKinnon,
White y Davidson (1983) extienden el test para el caso en que las transformaciones
difieren entre modelos. La evidencia de Monte-Carlo señala que estos tests tienden a
sobre-rechazar un modelo correctamente especificado.
3.16 Criterios informacionales
Note que podemos re-interpretar el test de Davidson y McKinnon como un
problema de “selección de modelos”. Es decir, como un criterio que guíe la selección de
modelos. Existen, sin embargo, varios tipos de criterios. El criterio de mayor
popularidad es el R2 ajustado, es decir, una función del coeficiente de correlación
múltiple. El criterio es elegir aquel model con mayor R 2 ajustado o, equivalentemente,
con la menor varianza residual. H. Theil (1957) prueba que en promedio se realiza la
3.38
selección correcta, siempre que (1) alguno de los modelos contendientes sea el
“verdadero modelo” y (2) las variables explicativas sean no estocásticas (i.e. fijas en
muestras repetidas). Ambas condiciones son difíciles de cumplir. 25
Usualmente utilizamos criterios de información para seleccionar modelos,
escogiendo aquel modelo M 1 , M 2 ,⋯, M k  que tenga un menor valor numérico. Los
criterios de información tienen la forma
c n  k =−2 ln  Ln  k /n  k  n/ n
(3.76)
donde L n k  es la función de verosimilitud estimada usando k parámetros para una
muestra de tamaño n . Los diferentes criterios ocupan una distinta función de
penalización por el hecho que se use un mayor número de parámetros:
•
•
•
El criterio de Akaike es n=2 26
El criterio de Schwartz n=2 logn
El criterio de Hannan-Quinn es n=2 loglogn 
Note que la penalización se vuelve progresivamente más estricta.
Una pregunta pertinente es cuáles son las propiedades de estos criterios cuando
los modelos están mal especificados. Obviamente, si se está comparando modelos, habrá
algunos de ellos que esten mal especificados. En tal caso, k ≠k 0 donde k 0 es el número
correcto de parámetros. Hay, entonces, dos casos: modelos subparametrizados (es decir,
mal especificados) y sobreparametrizados (es decir, bien especificados pero con exceso
de regresores).
Caso en que el modelo está subparametrizado k k 0
Para estudiar la consistencia de los criterios, estudiamos su comportamiento
cuando la muestra se vuelve infinita, es decir plim n  ∞  c n  k /n−c n  k 0 /n  . Resulta
evidente que si el modelo está subparametrizado:
1
1
plim n ∞ log  L n  k   plim n  ∞ log  L n k 0  
n
n
(3.77)
25 Theil, H. "Specification Errors and the Estimation of Economic Relations." Review of International
Statistical Institute, 25:41-51, (1957)
26 El criterio de Akaike se deriva como un estimador de la distancia en información Kullback-Leibler
K  M =E log f  y | x−log f  y| x , M  entre la verdadera densidad y el modelo. Akaike, H. (1973):
“Information theory and an extension of the maximum likelihood principle.” In B. Petroc and F. Csake,
eds., Second International Symposium on Information Theory.
3.39
Además, es directo demostrar que lim n∞ n/n=0 en cualquiera de los
criterios.27 Entonces:
lim n∞ P
[
]
[
[
]
−2 log  Ln  k 0  k 0 n  −2 log  L n k    k n
cn k 0  cn k 
≥
=lim n∞ P
≥
n
n
n
n
log  L n k 0   −log  L n k   0.5 k 0−k  n
=limn ∞ P

n
n
=0
(3.78)
]
lo que indica que los tres criterios son consistentes.
Caso en que que el modelo está sobreparametrizado k k 0
En este caso, la prueba anterior de consistencia no es válida porque ambos
modelos están bien especificados (las funciones de verosimilitud tienen el mismo
máximo). Considere, sin embargo, el siguiente test de razones de verosimilitud:
d
2 [ log  L n k −log  Ln k 0  ]  X k− k  2k −k
0
(3.79)
0
reemplazamos la definición del criterio de Akaike para obtener:
d
2
n [ c n  k 0 −c n k ] =2 [ log L n  k −log L n k 0  ] −2 k −k 0  k− k −2k −k 0
0
(3.80)
por lo tanto,
lim n  ∞ P [c n k 0 c n  k ]=P [ X k−k 2 k −k 0 ]0
0
(3.81)
Así, el criterio de Akaike va a sobre-estimar asintóticamente el número correcto
de parámetros.
En los casos de Hannan-Quinn y Schwarz, lim n ∞  n=∞ , lo que indica que
para ambos
plim n ∞
−2[log L n k 0 −log Ln  k ]
=0
 n
27 De hecho cualquier funcion  n que crezca mas lento que n sirve.
(3.82)
3.40
por lo que
plim n ∞
n c n k 0 −c n  k 
−2 [log  Ln  k 0−log cn k ]
= plim n  ∞
k 0−k ≤−1
n
n
(3.83)
así,
lim n ∞ P [c n  k 0 ≥c n  k ]=0
(3.84)
esto, a su vez, implica que lim n  ∞ P [ k k 0 ]=0 o lim n  ∞ P [ k =k 0 ]=1 , por lo que
ambos criterios son consistentes.
3.41
Apéndice A:
Ejercicios
1.
Suponga que  n − converge en distribución a una normal estándar. ¿A qué
distribución converge  ? ¿ plim = ? Si la muestra crece hasta tener el tamaño de la
población ¿cual es la distribución de  ?
2.
Suponga que  es multivariado y que  n − converge en distribución a
N 0, Z  . Suponga que Ud. está en realidad interesado en una transformación continua
del estimador f =log . ¿A qué distribución converge f  ?
3.
Suponga que tiene dos parámetros estimados independientemente que son
insesgados 1 y  2  con sus respectivas varianzas 1 y 2  . ¿Qué combinación lineal
de ambos parámetros =F 1 ,  2 es el estimador insesgado de varianza mínima de
?
4.
Explique en qué consisten y cuáles son las diferencias entre el teorema de
Linberg-Levy y el de Lindberg-Feller para estimadores multivariados. Refiérase a los
supuestos y las restricciones impuestas sobre los momentos de la distribución.
5.
Cuando un estimador “convergencia en probabilidad” necesariamente debe
“converger en distribución”. Comente.
6.
m
p
p
d
Demuestre que si x n  x ⇒ x n  x y que si x n  x ⇒ x n  x .
7.
Para el Teorema Central del Límite, una condición indispensable es que ninguna
variable aleatoria de la secuencia que se está considerando domine a toda la secuencia
de variables aleatorias. Comente.
8.
¿Qué es el poder de un test? ¿Qué es el tamaño de un test? ¿Cuándo un test es
más poderoso que otro? y ¿cuándo es consistente?
9.
Explique porqué se habla que la función de verosimilitud es una densidad y
describa a qué corresponde el estimador de máxima verosimilitud. ¿Es el estimador de
máxima verosimilitud es mucho más preciso que cualquier otro estimador lineal?
10.
Sea una muestra de n observaciones de y n ¿Para cuales de las siguientes
distribuciones es posible derivar analíticamente el estimador de máxima verosimilitud?
Encuentre el estimador de máxima verosimilitud, demuestre que éste es un máximo y
obtenga la varianza asintótica.
f  y =
e −  y
!

f  y =  y −1 e− y y 0  , 0
3.42
12.
Usted tiene dos secuencias: {x n } e { y n} definidas en el soporte [−∞ ,∞ ] .
Considere las siguientes afirmaciones:
A
Cuando n → ∞ , x n converge en probabilidad a la variable aleatoria Z
que se distribuye F z . .
B
Cuando n → ∞ , x n − y n converge en probabilidad a cero.
C
x n converge en distribución a F z . .
D
y n converge en distribución a F z . .
Comente si las siguientes afirmaciones son verdaderas o falsas. Si son
verdaderas, demuestre. Si son falsas, de un contraejemplo.
1.
(A) ⇒ (B)
2.
(C) ⇒ (A)
3.
(C) + (D) ⇒ (B)
4.
(A) + (B) ⇒ (D)
13.
Cuando se hace un muestreo usando una distribución normal N 0,  2 
frecuentemente se usa el siguiente estimador insesgado de la varianza
n
∑ xi−E  x 2 .
2
 = i= 1
n−1
(a) Demuestre que la varianza de este estimador es Var [ 
 2 ]=
24
.
n−1
n
 2 = 1 ∑  x i 2 .
(b) Considere el siguiente estimador alternativo: 
n
i=1
 2 es sesgado pero tiene menor varianza que  2 .
(c) Demuestre que el estimador 
2
 en función de  2 .
(Ayuda: exprese 
15.
El estimador de máxima verosimilitud es usualmente derivado a partir de una
muestra de variables (vectores) aleatorias i.i.d. Bajo estas condiciones el estimador posee
cuatro características:
(a) Identifique esas cuatro características y explique su importancia.
(b) Suponga que las variables aleatorias de la muestra no se distribuyen
idénticamente pero sí independientemente. Plantee la función de verosimilitud y
3.43
obtenga un estimador máximo verosímil en este caso. ¿Cuáles de las cuatro
características se mantienen?
(c) Suponga ahora que la muestra no se distribuye independientemente ni
idénticamente. ¿Cuáles de las cuatro características se mantienen?

−
para el siguiente caso. Suponga
Var   
que el proceso generador de los datos es y i=i donde i  N 0,  i .
16.
Se desea estudiar el poder del test t
(a) Obtenga un estimador insesgado de θ.
(b) Identifique el problema analítico del test t en este caso.
(c) Construya un programa de Gauss que le permita determinar el poder del test. El
programa debe ser flexible en (i) número de replicaciones, (ii) tamaño de
muestra, (iii) tamaño del test (nivel de significancia)
Capítulo 4
Modelo Clásico de Regresión Lineal
En las secciones anteriores hemos definido el modelo estadístico como aquel que
incluye:
●
un modelo probabilístico,
●
un modelo muestral,
={ f  x ;  , ∈}
x= X 1, X 2, ... X n 
de modo tal que al caracterizar el mecanismo generador de los datos (MGD), el
problema consiste en sustituir la ignorancia sobre la función de probabilidad por la
ignorancia respecto de los parámetros  de la función de densidad f · que se escoge
para describir el fenómeno de interés.
En general, los datos recolectables no corresponden de manera precisa con la
noción de la muestra observada de variables aleatorias independientes que está implícita
en el uso del modelo muestral por varias razones. Primero, porque no necesariamente
las muestras tienen las características que se requieren para hacer la inferencia. Por
ejemplo, datos agrupados –que son muy comunes– corresponden típicamente al
resultados de un muestreo estratificado. En series de tiempo no puede pensarse en que
los datos correspondan a una muestra aleatoria simple porque hay dependencia
temporal. Segundo, porque en muchos casos existen parámetros incidentales que
complican la inferencia. Por ejemplo, cuando hay heterogeneidad en el tiempo o espacio
y se debe incluir parámetros adicionales para capturar esa dimensión (p.e., datos
nominales en presencia de inflación)
Formalmente, se postula la existencia de un modelo adicional que da origen a los
datos estadísticos (MGE) que aproxima, a veces de manera gruesa, el MGD que dió
origen a los datos. La existencia de este modelo suplementario permite incluir no sólo la
información de la muestra, sino otra que sea a-priori sobre el fenómeno.
Exigiremos que para una variable aleatoria de interés y definida en
S , ℱ , P . el modelo MGE quede definido por
y i =i i
(4.1)
donde  i=E  y i | ℘  y ℘ es cualquier σ-álgebra que cumpla ℘ ⊆ ℱ. Definido de esta
manera, llamaremos parte sistemática a i y parte asistemática a i , donde se cumple que
ambas partes son ortogonales entre sí, i ⊥ i . Analíticamente es importante que ambas
partes sean ortogonales, porque de otro modo invalidaría la elección de ℘. Note que al
definir el problema de este modo, el concepto de “error” es mucho más amplio que el
que se le da en la interpretación clásica como el resultado de error de medición o en
variables.
4.2
4.01 Lógica del modelo de regresión1
El modelo de regresión lineal será nuestra principal herramienta en este curso,
aunque no la única. Una definición apropiada de regresión econométrica es: Regresión es
una relación funcional entre dos o más variables correlacionadas que se obtiene de los datos y se
usa para predecir una dada la(s) otra(s). 2
y i= f  x i1 , xi2 , ... , x ik ; i
(4.2)
Lo que estudiaremos es una técnica que nos permite seleccionar los parámetros
 que relacionan los condicionantes o “regresores”  x  con la variable de interés
 y . Existen otras herramientas para parametrizar la ecuación (4.2), algunas de amplia
utilización en economía, que nosostros no vamos a estudiar en este curso por razones de
tiempo. Por ejemplo, los métodos Bayesianos, no paramétricos, o semi no-paramétricos.
Estudiaremos varias dimensiones del modelo de regresión lineal, incluyendo
problemas de especificación, problemas de estimación de parámetros, testeo de hipótesis
sobre los parámetros, y uso del modelo estimado para hacer predicciones condicionales.
El modelo clásico de regresión lineal se basa en seis supuestos que vamos a
revisar a fondo antes de derivar estimadores y distribuciones.
1.
Forma funcional lineal
2.
Rango completo de los regresores
3.
Media condicional de los residuos cero
4.
Residuos esféricos
5.
Regresores no estocásticos
6.
Residuos normales.
Como veremos a lo largo de este capítulo, los primeros tres supuestos nos
permiten obtener los estimadores de los parámetros, en tanto que los segundos tres
supuestos nos permiten hacer inferencias, tests y proyecciones.
4.02 Análisis de los supuestos del modelo de regresión lineal
1
2
El primo de Charles Darwin, Francis Galton fue el primero en desarrollar y utilizar regresiones en el
sentido moderno para describir de manera suscinta los resultados de sus estudios sobre herencia, en el
que descubrió que las distintas generaciones tienden a parecerse más a sus ancestros lejanos que a sus
padres (“Typical Laws of Heredity”, Nature, 15 (1877)). Galton llamó a la regresión reversión, lo que
sugiere de mejor forma sus resultados. Su modelo fue extendido y mejorado por Karl Pearson y G. Udny
Yule, sobre la base de la distribución normal multivariada. R.A. Fischer reformuló el modelo de
regresión sobre la base del trabajo de Gauss que se refiere al método de método de mínimos cuadrados.
Websters Ninth New Collegiate Dictionary, Merriam-Webster Publishers, Spriengfield, MA. Pag 922.
4.3
Modelo lineal
Un modelo es lineal si podemos escribir la relación entre x e y como:
y i= x ii
(4.3)
donde α y β son parámetros constantes. Si el modelo analítico no es lineal, hay que
linealizarlo (si es posible). Por ejemplo:
Y i= AK i Li
log Y i =logA log K i log Li
(4.4)
Note, sin embargo, que el modelo debe ser lineal en los parámetros, no en las
variables. Por ejemplo, los siguientes modelos no lineales en las variables son lineales en
los parámetros y pueden ser estimados mediante transformaciones simples de las
variables.
1
i
xi
y i= log xi i
y i=
(4.5)
De esta manera, podemos escribir el modelo general como:
y i=x i i
(4.6)
donde y es un vector con la variable de interés, x es una matriz con las variables que
describen el fenómeno y  es un vector de perturbaciones aleatorias que denota la
distancia entre MGD y MGE. Escribimos la ecuación (4.6) de manera explícita:
[ ][
x11 x 21
y1
1
2
y2 = x2 x2
⋮
⋮ ⋮
yn
x 1n x 2n
⋯
⋯
⋱
⋯
][ ] [ ]
x 1j 1
1
j
x 2 2   2
⋮ ⋮
⋮
n
x nj  j
(4.7)
Para considerar la posibilidad que las variables aleatorias tengan media distinta
de cero, incluimos un vector de 1 en la primera columna.
4.4
[ ][
1
1 x1
y1
y 2 = 1 x 12
⋮
⋮ ⋮
yn
1 x 1n
2
x1
x 22
⋮
x 2n
⋯
⋯
⋱
⋯
j
][ ] [ ]
x1 0
1
j
x 2 1   2
⋮ ⋮
⋮
n
x nj  j
(4.8)
Regresores de rango completo
El supuesto necesario es que el rango de x sea completo,  x =k . Este
supuesto es también llamado condición de identificación, ya que:
y i=1 x 1i 2 x 2i 3 x 3i i
x 3i = x 2i  i
⇒
1
2
y i=1 x i 2 x i 3 [ x 2i i ]i
y i=3 1 x 1i [23 ] x 2i 3  i i
(4.9)
es decir, aunque es posible obtener un estimador de 2 3  no es posible identificar
por separado los parámetros 2 y 3 . Evidentemente las variables económicas suelen
tener bastante correlación entre sí, por lo que este problema se presenta con frecuencia
en el trabajo empírico. Más adelante, cuando se discutan problemas de
multicolinealidad, se abordará formalmente este tipo de fenómeno, su detección y su
eventual corrección.
Resulta evidente que rango completo requiere que  xʹ =n x =k . No
obstante, puede haber correlación imperfecta entre los regresores, lo que dificulta pero
no impide la estimación de un modelo de regresión lineal y su uso para hacer
proyecciones (este problema lo volveremos a estudiar en el Capítulo 5).
Media condicional de los errores cero
El supuesto de media cero de los errores es condicional en x . Es decir,
E [i | x ]=0 . La intuición se relaciona directamente con la descripción del MGE
discutido más arriba. Del supuesto anterior se derivan varios elementos que son
importantes para entender qué hace y no hace el modelo de regresión lineal.
•
El supuesto no es E [i | x i ]=0 .
4.5
•
Si E [i | x ]=0 entonces E []=0 . Para probarlo, use la definición de densidad
marginal.
•
La presencia de la constante entre los regresores asegura que E [| x ]=0 .
•
Si E [| x ]=0 , entonces el modelo de regresión es una media condicional. Si, por
el contrario, E [i | x ]≠ 0 , la regresión no es una media condicional, como se ve
en la siguiente derivación.
E [ y | x ]=E [ x | x ]
= E [ x | x ]E [ | x ]
= x
•
(4.10)
Se cumple que cov [ x i ,i ]=0 .
Errores esféricos3
Para estudiar este supuesto es conveniente descomponerlo en dos partes.
(a)
Var [i | x ]= 2 es constante y, en particular, no depende de x . A esto se le llama
homocedasticidad.4 La función cedástica es la que describe la incertidumbre asociada a los
shocks o perturbaciones,  . Homocedasticidad señala que dicha incertidumbre no
depende de haber observado una realización particular de x .
Cov i , j | x =0 . A esto se le llama ausencia de correlación entre errores. Señala
(b)
que observar una determinada perturbación o error no contiene información respecto
del posible tamaño de otra perturbación.
La matriz de covarianzas condicional de los errores es:
[
E [1 1 | x ] E [1 2 | x ]
E [' | x ]= E [2 1 | x] E [2 2 | x ]
⋮
⋮
E [n 1 | x ] E [n 2 | x ]
3
4
][
2
⋯ E [1 n | x ]
⋯ E [2 n | x ] = 0
⋮
⋱
⋯
... E [n n | x ]
0
0
2
⋮
0
⋯
⋯
⋱
⋯
0
0
⋮
2

]
(4.11)
"Like other occult techniques of divination, the statistical method has a private jargon deliberately
contrived to obscure its methods from non-practitioners." - G. O. Ashley
Los términos hetero y homocedástico fueron acuñados por Karl Pearson en 1905 ("On the general theory
of skew correlation and non-linear regression," Drapers' Company Res. Mem. Biometric Series). El término
se deriva del griego skedastos , que significa “capaz de ser repartido de manera irregular”.
4.6
De manera sintética podemos escribir E [' | x ]= 2 I .
descomposición de varianza se puede derivar la siguiente identidad:
V []=E x [ V [| x ] ]V x [ E [| x ]]
Aplicando
la
(4.12)
es decir, la incertidumbre de la predicción hecha sobre la base de un modelo
econométrico V x [ E [| x ] ] es menor que la incertidumbre de los datos V [  ] .
Regresores no estocásticos
Este supuesto señala que la única fuente de incertidumbre en el modelo
estadístico está en la variable que se modela, y . Más precisamente, en los parámetros
que describen la distribución f  y , condicional en x .
Otra manera intuitiva de entender este supuesto es observar que no se está
haciendo un modelo de los regresores. En ese sentido, los regresores son variables
“controlables” por el científico. Por ello, usualmente se dice que “los regresores son fijos
en muestras repetidas”, queriendo decir que si el científico quisiera repetir el
experimento –sacar otra muestra, en nuestro caso– la única fuente de incertidumbre
sería el resultado del experimento, pero no la variación de los condicionantes. Si los
regresores son controlables, entonces los supuestos anteriores son incondicionales.
Este supuesto no es demasiado costoso, como se deducirá al estudiar las
distribuciones asintóticas de los estimadores más adelante.
Errores “normales”
Esto quiere decir que los errores, condicionales en x, se distribuyen con
distribución normal. En particular,
i | x ↝ N [ 0, 2 I ]
(4.13)
¿Por qué “normales”? La manera de entender esto es que el modelo no pretende
ser una descripción 100% fiel del fenómeno, sino sólo una aproximación conveniente.
Por ello, hay un “error”. Si las causas de este error no son sistemáticas, una normal es
una buena descripción. Si son sistemáticas, el modelo está mal especificado, pues
debería incluir dichas sistematicidades.
4.7
4.03 Representación gráfica de la regresión lineal
Una manera simple de entender la relación entre la muestra, los supuestos y la
regresión lineal se encuentra en las siguientes tres figuras. Para que resulte fácil de
entender se ha reducido el problema a un modelo univariado y una muestra de dos
observaciones, pero el principio es general y el mismo para cualquier tipo de modelo. En
la Figura 4.1 se presenta una muestra de dos observaciones (los pares {y1, x1} y {y2, x2}).
Figura 4.1
Las observaciones
P(u)
x1
x2
y2
y1
Pero recordemos que, respecto de y , el problema de observar determinados
valores es esencialmente estocástico y, más específicamente, que hemos supuesto que las
perturbaciones aleatorias siguen una distribución normal (supuesto 6). Por otro lado,
estamos suponiendo que los condicionantes x son determinísticos (supuesto 5). La
Figura 4.2 describe el rol que juegan ambos supuestos.
Figura 4.2
La estocasticidad
P(u)
x1
y2
y1
x2
4.8
Nóte varios elementos importantes. Primero, la “forma” de la distribución en
términos de dispersión es idéntica para cualquier observación de la variable aleatoria x
(supuesto 4). Segundo, las observaciones de y no tienen por qué coincidir con el valor
esperado de y condicional en x, basta con que estén en el rango de la distribución.
Tercero, no hay incertidumbre respecto de cada observación de x.
Finalmente, la regresión lineal describe la media condicional de y dado x , lo
que gráficamente se ve como una recta (supuesto 1) que pasa por cada E [ y i | x ] , como
se ver en la Figura 4.3.
Figura 4.3
La regresión
P(u)
E y2 |x2 y2
E y1 |x1
X1
X2
y1
yi=xi
4.04 Derivación del estimador de mínimos cuadrados5
En términos generales la idea subyacente en el método de mínimos cuadrados es
extremadamente simple y consiste en tratar de aproximar la curva de regresión
E [ y i ∣ x ] usando las observaciones contenidas en la muestra cometiendo el menor error
posible. Es usual referirse a:
•
Modelo verdadero (poblacional)
y i= x ii
•
Modelo muestral
y i=  x i i
La idea del método de mínimos cuadrados es buscar el  que minimiza el error
cometido. Si el procedimiento está bien,  convergerá a  . No tiene sentido minimizar
5
El término Método de Cuadrados Mínimos fue acuñado por Adrien Marie Legendre (1752-1833),
presentado en el apéndice de su libro Nouvelles méthods pour la determination des orbite des cométes (1803).
Un tratamiento más completo del método apareció posteriormente en el libro de Gauss Theoria Motus
Corporum Coelestium in Sectionibus Conicis Solem Ambientium de 1809. La disputa por la paternidad del
método surgió porque Gauss afirmó que venía usándolo desde 1795.
4.9
un error particular, por lo que es conveniente usar la suma de errores. Como hay puntos
por arriba y abajo de la recta poblacional, entonces es necesario minimizar la suma de
errores al cuadrado.
Estimador de mínimos cuadrados
Definimos la suma de residuos al cuadrado de un modelo lineal –para algún 0 –
como:
n
∑
i=1
2
i | 0
n
=∑  y i−0 ' x i 2=|  ' | 
i=1
0
0
(4.14)
note que hemos usado el supuesto 1. En adelante omitimos el subíndice i salvo que sea
confuso. El objetivo es minimizar la ecuación (4.14) escogiendo adecuadamente  , es
decir:
min  S  0 =0 ' 0= y−0 ' x '  y−0 ' x
= y ' y−0 ' x ' y− y ' x 00 ' x ' x 0
0
(4.15)
Note que se ha usado el supuesto (3). Como sabemos de cálculo, minimizar la
ecuación (4.15) requiere hacer que su derivada sea igual a cero:
∂ S   0
=−2 x ' y2 x ' x 0=0
∂ 0
(4.16)
La ecuación (4.16) –que en realidad es un sistema de ecuaciones– es llamada
ecuación normal. Tomando la segunda derivada:
2
∂ S 0 
=2 x ' x
∂0 ∂ 0 '
(4.17)
por lo tanto cualquiera sea el valor de  , si x ' x es positiva definida el problema es
una minimización.
Si x es de rango completo (supuesto 2), su inversa existe y se puede obtener el
estimador de mínimos cuadrados (ordinarios).
 x ' x−1 x ' y
=
(4.18)
4.10
Note que sólo hemos usado los primeros tres supuestos, pero no los segundos
tres. Es decir, es posible obtener un estimador del parámetro aún si no se cumplen estos
últimos, porque ellos se refieren a la distribución del estimador.
Propiedades interesantes de la solución
 x ' y=x '  x −
 y =−x '  . Si la
De la ecuación (4.16) obtenemos 0=x ' x −
matriz de regresores contiene una columna de unos se deduce
1.
cada columna de x es ortogonal a los residuos.
2.
la suma de los residuos es cero.
3.
la regresión pasa por la media.
4.
la predicción de y hecha sobre la base de fijar xP es insesgada, y =x p 
Vamos a usar repetidamente la siguiente matriz idempotente y simétrica:
M = I − x  x ' x −1 x ' 
(4.19)
la que aplicada a y produce “los residuos de una regresión de y en x”, es decir:
 
My= I −x  x ' x−1 x '  y= y− x  x ' x −1 x ' y= y−x =
(4.20)
Regresión particionada
Supongamos que la regresión tiene dos grupos de variables, x 1 y x 2 . Entonces,
las ecuaciones normales son:
[
x1 ' x1 x1' x2
x2 ' x1 x2' x2
][ ] [ ]
de lo cual obtenemos:
1
x 'y
= 1
2
x2' y
(4.21)
4.11
1= x 1 ' x 1 −1 x 1 ' y− x1 ' x 1−1 x1 ' x 2 2
(4.22)
De la ecuación (4.22) se desprenden varios resultados importantes:
(1) Si  x 1 ' x 2 =0 , es decir si x 1 y x 2 son ortogonales, los estimadores pueden ser
obtenidos de regresiones independientes.
(2) Si x 1 y x 2 no son ortogonales, la omisión de x 1 y x 2 llevará a obtener
estimadores sesgados.
Usando las ecuaciones (4.21) y (4.22) y definiendo M1 como los residuos de la
regresión hecha sólo con x1 obtenemos:
x 2 ' x1  x1 ' x 1−1 x 1 ' y− x 2 ' x 1  x 1 ' x 1 −1 x 1 ' x 2 2 x 2 ' x 2 2= x 2 ' y
x 2 ' [ I −x 1  x 1 ' x 1 −1 x 1 ' ] x 2 2 =x 2 ' [I −x 1  x 1 ' x 1 −1 x 1 ' ] y
 x 2 ' M 1 x 2 2 = x 2 ' M 1 y
(4.23)
Este es otro resultado importante, llamado el Teorema de Frisch-Waugh 6: el
estimador 2 describe la contribución marginal de x 2 para explicar las variaciones de
y , es decir neta de la contribución de x 1 .
Bondad de ajuste7
El objetivo del análisis de regresión es dar cuenta (explicar) de las variaciones de
y . Es decir, la variación total de y :
∑  y i− y 2 .
i
1
n
Sea M 0=[ I − ii ' ] . Aplicada a y computa desviaciones con respecto a y .
Entonces, la suma de cuadrados totales se puede escribir como y ʹ M 0 y . Así:
  ' M 0 ' M 0  = '
 x ' M 0 x 
  ' 
y ' M 0 y= ' x ' M 0 x 
(4.24)
el lado izquierdo de la ecuación (4.24) corresponde a la suma total de cuadrados (SCT)
en tanto que el primer término de lado derecho es la suma de cuadrados “explicados”
6
7
Frisch, R. and Waugh, F., 1933, “Partial time regressions as compared with individual trends”,
Econometrica, 45, 939-53.
El término bondad de ajuste proviene de un artículo de Karl Pearson donde ya se expresan dudas respecto
de su utilidad: "The 'percentage error' in ordinate is, of course, only a rough test of the goodness of fit,
but I have used it in default of a better." “Contributions to the Mathematical Theory of Evolution. II.
Skew Variation in Homogeneous Material”, Philosophical Transactions of the Royal Society of London (1895)
Series A, 186, 343-414
4.12
por la regresión (SCE). El último término corresponde a la suma de residuos al cuadrado
(SCR). Por ello, se define la bondad de ajuste como:
R 2=
SCE
SCR
 ' 
=1−
=1−
SCT
SCT
y' M 0 y
(4.25)
El problema de R 2 es que si se añaden variables a la regresión, éste no puede
reducirse. Por ello, se necesita una medida de ajuste que penalice el exceso de
regresores. El R 2 ajustado es dicha medida:
R2 =1−  '  /n−k 
 y ' M 0 y/n−1
(4.26)
4.05 Propiedades del estimador de mínimos cuadrados en muestra
finita
Las propiedades del estimador de mínimos cuadrados deben ser estudiadas
tanto en muestra pequeña (finita) como grande (infinita) para entender a cabalidad el
papel de los supuestos del modelo y su aplicabilidad en circunstancias prácticas.
Adicionalmente, estudiaremos tanto el caso en que los regresores son estocásticos como
determinísticos. Esto nos da cuatro casos de interés.
En esta parte estudiaremos las propiedades del estimador de mínimos cuadrados
en muestra finita, dejando el caso de muestra grande para la sección 4.08. El estimador
de mínimos cuadrados de  puede ser escrito como:
−1
 = x ' x  x ' y
−1
= x ' x  x ' [ x ]
−1
−1
= x' x x ' x   x' x x ' 
−1
=   x ' x  x ' 
(4.27)
Si los regresores son no estocásticos, entonces  x ʹ x −1 x ʹ es una constante. Así,

. El estimador es insesgado, independientemente de la distribución de los
E [ ]=
residuos.
La matriz de varianzas y covarianzas de  se puede obtener usando la ecuación
(4.27) directamente:
4.13


 −E

 ']
V [ ]=E
[ −E
[ ]
[ ]
−1
=E [ x ' x  x '  ' x  x ' x −1]
= x ' x −1 x ' E [ ' ] x  x ' x−1
= 2  x ' x −1
(4.28)
La ecuación (4.28) señala que la varianza (incertidumbre con respecto) del
estimador proviene tanto de la estocasticidad del problema –medido por la varianza de
los errores– como de la variabilidad de los regresores. A mayor varianza de los residuos
–es decir la parte no explicada— mayor es la imprecisión del estimador. A menor
varianza de los regresores, mayor es la imprecisión del estimador.
Una vez obtenida la varianza del estimador resulta directo demostrar que ésta es,
además, mínima. La demostración es llamada teorema de Gauss-Markov. El
procedimiento consiste en comparar la varianza del estimador de mínimos cuadrados
con la de un estimador rival.
Supongamos que existe otro estimador insesgado que es cualquier combinación

lineal de las observaciones de la variable de interés: =cy
. Como este estimador rival

es insesgado, se debe cumplir E [ ]=E
[ cy ]= . Entonces:
E [cy ]=⇒ E [cx c ]= ⇒ cx=I
(4.29)
es decir, cualquier combinación lineal es válida (lo que le da generalidad al teorema).
Obtenemos ahora la varianza del rival:
V [  ]= 2 cc '
(4.30)
  .
Definimos la “distancia” entre ambos estimadores como Dy=−
Naturalmente se cumple que D=c− x ʹ x−1 x ʹ . Despejamos c y lo introducimos en la
ecuación (4.30) para obtener:
V [  ]= 2 cc '
= 2 [ D x ' x −1 x ' ][ D x ' x−1 x ' ]'
= 2  x ' x −1 2 DD '
(4.31)
4.14


ya que Dx=0 y cx= I . Entonces, V [ ]=V
[ ]DD
' . Si D ≠ 0 , la varianza del rival
es mayor y, por lo tanto, el estimador de mínimos cuadrados es de mínima varianza.
Así, cada estimador k es insesgado y de varianza mínima.
Veamos ahora el caso en que los regresores son estocásticos, es decir, x no es fijo
entre muestras. El truco para obtener las propiedades del estimador es primero obtener
las propiedades condicionales en x y luego las propiedades no condicionales.
Obtengamos el estimador de mínimos cuadrados condicional en x usando la
ecuación (4.27):
E [  | x]= x ' x−1 x ' E [ | x ]=
(4.32)
esta es la esperanza condicional. Usamos la ley de expectativas iteradas para obtener la
esperanza incondicional del estimador:
 E x [ E [  | x]]=E x [ x ' x −1 x ' E [| x ]]=
E [ ]=
(4.33)
este resultado no depende de supuestos sobre la distribución de x sino sólo del
supuesto 3 (no correlación entre regresores y errores).
Computamos, también, la varianza incondicional. Sabemos que la varianza
condicional es V [ | x ]= 2  x ʹ x −1 . Por lo tanto,



V [ ]=E
x [ V [  | x ] ] V x [ E [  | x ]]
 x ]]
=E x [ V [ |
2
=E x [  x ' x−1 ]
(4.34)
Como resulta evidente, la varianza del estimador depende de la realización de la
muestra. Pero, para una realización particular de la muestra, el estimador de mínimos
cuadrados es el mejor estimador lineal insesgado (MELI). Luego la conclusión principal
de Gauss-Markov no se altera.
Caractericemos ahora la distribución del estimador de mínimos cuadrados.
Debido a que hemos supuesto que los errores se distribuyen normales, entonces:
 | x  N [ ,  2  x ' x−1 ]
(4.35)
esta es una distribución normal multivariada. Es decir, cada k se distribuye normal.
4.15
Este resultado proviene del supuesto 6. Sin éste, no podríamos hacer inferencia
alguna en este contexto. Cuando los regresores no son estocásticos, ésa es exactamente la
distribución del estimador. Cuando los regresores son estocásticos, esa es la distribución
condicional del estimador.
Como se ha supuesto que la distribución de los residuos es normal, la densidad
conjunta queda descrita por la siguiente función de verosimilitud:
∏ f  x i ; =∏ [2  ]
2 −1 /2
i
i
log L  ,  2 ; xi =
2
− i / 2 
e
2
= 2 
−n
2 2

e [−' / 2  ]
2
⇒
(4.36)
−n
1
log2  2−
 y i −x i  '  y i−x i 
2
22
Es evidente que maximizar la función de verosimilitud en este caso es
equivalente a minimizar el segundo término que, a su vez, es una función de la suma de
residuos al cuadrado. Entonces, el estimador de mínimos cuadrados es el de máxima
verosimilitud y, por consiguiente, es MELI.
Estimador de la varianza de los errores, 
2
Para calcular la varianza del estimador de mínimos cuadrados de los parámetros
2
de la ecuación (4.28) requiere conocer  . Ello no es usual. Un estimador natural usaría
los residuos muestrales:
n
1
 = ∑  2i
n i=1
2
(4.37)
Este no es el estimador adecuado, sin embargo. Consideremos:
 =My=M  x =M 
(4.38)
Así, la suma de residuos al cuadrado es  '  =' M  , cuyo valor esperado es
E [  '  | x ]= E [ ' M | x ] . Debido a que  '  y ' M  son matrices cuadradas, obtener
el valor esperado anterior es equivalente a la esperanza de su traza. Pero,
E [tr   '  | x]=E [tr ' M | x ]= E [tr  M '  | x ]
(4.39)
4.16
como M es una función de x para un x dado, entonces
E [tr M  ' | x ]=tr ME [ ' | x]
=tr  M  2 I 
= 2 tr  M 
= 2 tr  I n− x  x ' x −1 x ' 
= 2 [tr  I n −tr  x  x ' x −1 x ' ]
= 2 [n−k ]
(4.40)
Por ello, el estimador insesgado de la varianza de los errores es:
n
1
 2 =
∑  2
n−k i=1 i
(4.41)
En el Apéndice B se presenta un procedimiento en Gauss que hace estimaciones
por mínimos cuadrados ordinarios, computando los estimadores y los estadígrafos
asociados que hemos descrito en estas secciones.
4.06 Tests de hipótesis en el modelo multivariado
 i el modelo estimado. Buscamos un método de hacer cualquier
Sea y i=x i 
tipo de hipótesis e inferencia sobre el conjunto de parámetros estimados. Una manera
general de hacer tests para hipótesis lineales es expresar dichas hipótesis de la siguiente
manera:

R =q
(4.42)
donde R es una matriz de orden jxk y q es un vector de orden jx1 (prejuicios). El
truco consiste en escoger de manera inteligente las matrices R y q.
En términos generales, escribiremos:
4.17
r 1,1 1 r 1,2 2 ⋯r 1,k k =q1
r 2,1 1r 2,2 2⋯r 2,k k =q 2
⋮


r j ,1 1r j ,2 2 ⋯r j , k k =q j
(4.43)
donde los r son los elementos de R. Note que hay k parámetros y j ecuaciones (j<k).
Usaremos la estructura de la ecuación (4.43) para derivar los distintos tipos de tests y,
posteriormente, sus distribuciones.
Test de una hipótesis simple
Supongamos que queremos testear  j =2 . Usamos:
R =[0,0, ⋯,1, 0, ⋯,0]
q=2
(4.44)
de esa forma, R escoge el parámetro j-ésimo.
Test de una hipótesis de igualdad de parámetros
Supongamos que queremos testear  j =k . Es decir,  j −k =0 . Escogemos:
R =[0,0 ,⋯,1 ,−1,⋯,0]
q=0
(4.45)
Test de varias hipótesis sobre parámetros
Supongamos que queremos testear si las siguientes hipótesis se cumplen  j =1
y k =−4 . Escogemos:
[
[ ]
R = 0,0,⋯,1,0, ⋯0
0,0,⋯,0,1, ⋯0
q=1
−4
]
Note que ahora hay dos filas en q (j=2).
Test de varias hipótesis sobre varios parámetros
(4.46)
4.18
Supongamos que queremos testear si las siguientes hipótesis se cumplen
 j =1− i y k = . Escogemos:
[
[]
R = 0,0,⋯,1,1,0, ⋯0
0,0,⋯, 0,0,1,⋯0
q=1

]
(4.47)
Note que también hay dos filas en q (j=2).
Ya sabemos cómo escribir cualquier grupo de hipótesis lineales en términos de

. ¿Cómo hacemos un test estadístico?
R =q
●
●

La intuición es que si n → ∞ , entonces sería fácil comparar directamente R =q
 q en términos numéricos, estadísticamente
Pero, n es finito. Por ello, aún si R ≠
podrían ser iguales.

Hagamos el clásico test para la hipótesis nula H 0 : R −q
=0 :

R −q


 Var R −q
(4.48)

La intuición del test es directa. Si la distancia R −q
es “grande” entonces

R ≠ q y se rechaza Ho. En la ecuación (4.48) hay dos cosas que no conocemos: (1)

y (2) la distribución del test.
Var R −q
Estudiamos primero la varianza. Aplicando las propiedades de este operador al
test:


Var R −q=Var
R 
 '
=R Var  R
=R  2 x ' x −1 R '
= 2 R x ' x −1 R '
(4.49)
4.19
Estudiemos ahora la distribución del test en la ecuación (4.48). Note que R y q
son constantes. Por ello, el numerador es una función de los errores normales (  es una
combinación lineal de errores) y por lo tanto es N 0,  2 R x ' x −1 R '  . Pero, estamos
2
−1
dividiendo por  R x ' x  R ' , es decir, la distribución es N(0,1).
Como usualmente la varianza de los errores es desconocida, usamos el estimador
de ésta y, por lo tanto, estamos dividiendo por algo que es estocástico. Pareciera que
obtener la distribución es algo directo. El problema es que queremos la distribución de la
razón y no la distribución del numerador y del denominador por separado. Excepto que
éstos sean “independientes”.
●
Note que  es una combinación lineal de  del tipo L  . Ello, porque

−

−1
=x ' x  x ' .


●
Note que 

2
es una combinación lineal de  del tipo xAx . Ello, porque
i ' i = i ' M  i .
Para que ambos términos sean independientes, la combinación lineal de ellos
debe ser ortogonal. Es decir, LA=0 . Es decir, x ' x −1 x ' M =0 , que obviamente se
cumple.
Así, debido a que k se distribuye normal, el test de la hipótesis nula de un
único parámetro es directamente:
z k=
k−k

2
S kk
↝ N  0,1 
(4.50)
Cuando la varianza de los residuos es desconocida demostraremos que tenemos
una normal estándar dividida por una χ² ajustada por grados de libertad. Usamos el
estimador de la varianza de la ecuación (4.41). Entonces, dividimos la ecuación (4.50) por
la raíz del estimador para obtener:
2
 k −k /   S kk
 k−k 
t k=
=
↝ t  n−k
2
2
2
n−k   /  /n−k 
S 


(4.51)
kk
Así, el reemplazo de la verdadera varianza por su estimador produce una
distribución t. La demostración es la siguiente. Conocemos la distribución de
4.20
 k −k /   2 S kk pero queremos  k −k /  
 2 S kk . Luego tenemos que multiplicar y
dividir por   2 . Reacomodando los términos queda:
 k −k /   2  S kk 
2
2
 /  
(4.52)

De acuerdo a la ecuación (4.50), el numerador es normal estándar. El
denominador es “algo”.
2
 =
 ' 
2
⇒ n−k   = '  =' M 
n−k 
(4.53)
2
Ahora, dividimos por  convenientemente
 2 ' M 
n−k  2 =
⇒

2
[] []


'M


(4.54)
Note que  se distribuye normal con media cero, por lo que / es N(0,1) y la
ecuación (4.54) es el “cuadrado” de una normal estándar, por lo que se distribuye χ². Los
grados de libertad son el rango de M que es (n-k). Así es que tenemos una N(0,1)
dividido por una χ². Si queremos el test t debemos ajustar el denominador por los
grados de libertad.
Cuando se trata de una hipótesis compleja, usamos directamente el test de Wald
de la siguiente forma:
−1


[R −q
]'   2 R x ' x −1 R '  [R −q
]↝ 2J 
(4.55)
la distribución es más bien obvia. Obtener los grados de libertad del test (J) se deja de
ejercicio.
2
Nuevamente, tenemos el problema que  es desconocida. Se usa el estimador
de la ecuación (4.41) por lo que se obtiene el siguiente test que tiene la distribución de
Fischer.
−1


[R −q
]'  R  x ' x −1 R '  [R −q
]/ J
↝ F  J ,n−k 
 '  /n−k 
(4.56)
4.21

 q y se
La intuición es de nuevo directa. Si R −q
es “grande” entonces R ≠
rechaza Ho.
4.07 Tests de hipótesis y modelo restringido
Otra manera de pensar un test de hipótesis es en términos de “restricciones
impuestas”. Supongamos que en vez de hacer el test, imponemos directamente la
hipótesis nula y hacemos la regresión. Habrán dos resultados posibles: (1) la restricción
que hemos impuesto si afecta la estimación, cambiando los parámetros estimados y (2)
la restricción que hemos impuesto no afecta la estimación.
¿Dónde se reflejaría más fácilmente el efecto? Obviamente en los parámetros que
no hemos restringido, pero sería dificil de evaluar. Más fácil de evaluar es el efecto sobre
la suma de residuos al cuadrado,  '  . Si ponemos una restricción y afectamos la
estimación, tendremos que estar cometiendo “más errores” que sin dicha restricción,
porque la estimación sin restricción es la óptima min  '   . Por otro lado, si ponemos
una restricción y no afectamos la estimación, entonces la restricción ya se cumplía y no
estaremos cometiendo “más errores” que sin dicha restricción.
*
Si llamamos  ' 
entonces:
*
a los errores de la regresión con la restricción impuesta,
•
 '  =* '  *
señala que la estimación con y sin restricciones son iguales.
•
 '  * '  *
señala que la estimación con y sin restricciones son distintas.
¿Qué son  '  y  * '  * ?
 = y−x 
*
*
 = y−x 
(4.57)
Por lo tanto:
 *=x  −x  * =−x   *−  
(4.58)
de lo que se desprende

 * '  * = '  − ' x   * −−
 *−   ' x '    *−   ' x ' x   *−  
= '    *−  ' x ' x   *−  
(4.59)
4.22
*
 −   . Para
Si queremos entender la ecuación anterior tenemos que estudiar  
*
ello, vamos a pensar de nuevo en el problema de optimización. Vamos a buscar  tal
que sea óptimo bajo H 0 . Es decir,
  y −x 
 sujeto a H 0 :R =q

min  y −x '
(4.60)
formamos el Lagrangeano,
  y−x −2


ℒ = y −x '
 R −q
(4.61)
derivando, obtenemos
∂ℒ

=−2x ' y 2x ' x −2R
' =0
∂ 
∂ℒ

=−2R −q
=0
∂
(4.62)
*
de la primera ecuación normal obtenemos  . Premultiplicamos por R x ' x −1 y
obtenemos:
−2R x ' x −1 x ' y 2R x ' x −1 x ' x  *−2R x ' x −1 R ' =0
(4.63)
Note que el primer término es −2R  y el segundo es −2R  . Entonces,
*
−1
=[ R  x ' x −1 R ' ]
 R  *−q 
(4.64)
De vuelta en la ecuación (4.62) despejamos:
 x ' x −1 R ' [ R  x ' x −1 R ' ]−1  R −q

 * =

(4.65)
*
pero  =Rβ −q . Usando la ecuación (4.62) en la ecuación (4.58), obtenemos
 * '  * = '    *−   ' x ' x   *−  


= '  R −q
' x ' x  R −q
(4.66)
4.23
pero esto ya lo conocemos. Así,
*
*
 '  − '  =R  −q ' x ' x R  −q 
(4.67)
Por ello, el test F que usamos para evaluar hipótesis complejas puede ser escrito
como:
[  * '  *− '  ] / J ↝ F
 '  /n−k
[ ]
J
n−k
(4.68)
La ecuación (4.68) tiene una interpretación de gran importancia para la manera
como entendemos el análisis cuantitativo en economía. Hemos demostrado que hacer un
test respecto de uno o más parámetros es exactamente equivalente a hacer una
comparación de dos modelos, uno restringido y uno sin restringir. Si las restricciones
son válidas, el modelo restringido es una mejor descripción del fenómeno, en el sentido
que es más eficiente en la descripción de éste.
n
Note que dividiendo el denominador y numerador por
∑  y i− y 2
obtenemos:
i=1
[ R 2−R2* ] / J
2
1−R /n−k 
↝F
[ n−kJ ]
(4.69)
lo que no es de extrañar por cuanto existe una relación directa entre estimadores de
parámetros y bondad de ajuste. Recuerde que el estimador minimiza la SRC y la bondad
2
de ajuste se define como R =1−
SRC
.
SCT
4.08 Propiedades del estimador de mínimos cuadrados en muestra
grande
Ahora vamos a obtener las propiedades asintóticas de los estimadores mínimos
cuadrados. Hay dos razones para ello: primero, saber cuándo las propiedades de
muestra finita no se aplican y, segundo, poder obtener las propiedades de estimadores
no convencionales.
4.24
Vamos a suponer que lim n →∞
1
x ' x=Q pos. def.
n
●
Cuando x es no estocástico el supuesto es obvio.
●
Cuando x es estocástico, el supuesto se va a referir al tipo de muestra
(volveremos a esto más adelante).
El estimador de mínimos cuadrados puede ser escrito como:
[
1

=
x' x
n
−1
][ ]
1
x' 
n
(4.70)
Tomando plim y suponiendo que Q −1 existe:

plim =
Q−1 plim
[ ]
1
x'
n
(4.71)
Para encontrar plim del segundo término, definimos una variable auxiliar w:
1
1
1
x ' = ∑ x i i = ∑ w i = w

n
n i
n i
(4.72)
1
1
E [w i ]= ∑ x i E[ i ]=0 .
∑
n i
n i
Tomemos
E[ w ]=
Tomemos
1
1 2 x ' x
.
V [w ]=E [w w ' ]= x ' E [' ] x =
n
n n n
Así, limn → ∞ V [ w
 ]=0⋅Q=0
Por lo tanto,
plim1/n x ' =0 , y
w converge medio cuadráticamente a cero, plim 
w =0 ,

.
Es
decir,
el
estimador
de
mínimos
cuadrados
es
plim =
consistente.
El supuesto plim 1/n x ʹ x = Q es, en realidad, demasiado restrictivo. Las
siguientes condiciones –llamadas condiciones de Grenander– son menos restrictivas
pero suficientes.
4.25
1. Para cada columna de x , lim n → ∞ x k ' x k =∞ (no degenera a una secuencia de
ceros o cada observación añade información útil para la estimación de los
parámetros)
2.
lim n →∞
x 2ik
=0 (ninguna observación domina la varianza promedio y, por lo
xk' xk
tanto, no hay dominancia de un valor extremo).
3. La matriz x es de rango completo.
Distribución del estimador cuando los regresores son no estocásticos
Hemos visto que  existe si se cumplen las condiciones de Grenander pero
¿cómo se distribuye el estimador? Tomemos de nuevo la ecuación (4.70), la que
podemos re-escribir como:
 n   − =
[
1
x' x
n
−1
][
1
x'
n
]
(4.73)
Recordemos nuestros rudimentos de teoría asintótica de las clases anteriores: el
lado izquierdo es conocido (Teorema de Límite Central). Estudiamos el lado derecho.
−1
[ ]
x' x
n
−1
•
Como la inversa es una función continua de Q, lim n →∞
•
Estudiar la distribución límite de la ecuación (4.73) es equivalente a estudiar la
distribución límite de ( 1/  n x ʹ  ), es decir:
=Q
1
x ' = n  w
 −E  w
 
n
pero ya sabemos que E [ w
 ]=0 , sólo interesa la distribución límite de
.
(4.74)
 n w .
Pero de la ecuación (4.72) sabemos que w
 es el promedio de n vectores
aleatorios del tipo x i i con media cero y varianza:
2
2
V [ x i i ]= xi ' x i= Qi
(4.75)
4.26
por lo que
1
V [ n w ]= 2 Q = 2 [ Q 1 Q n ]
n
1
x'x
= 2 ∑ x i ' x i = 2
n i
n
(4.76)
 
2
2
 n = Q (de nuevo, no hay
en el límite de muestra grande se obtiene lim n → ∞  Q
dominancia).
Finalmente, podemos usar el Teorema de Lindeberg-Feller para obtener:
d
1
x '   N [ 0,  2 Q ]
n
(4.77)
naturalmente,
Q −1
d
1
x '   N [ 0, Q −1  2 Q Q−1]
n
(4.78)
Entonces,
d
  N [ 0, Q −1  2 Q  Q −1 ]
 n − 
(4.79)
Finalmente,
[
2
d
 −1
  N  ,
Q
n
]
(4.80)
El resultado es más importante de lo que se ve a simple vista. Note que no se ha
supuesto ninguna distribución para los residuos y aún así el estimador es asintóticamente
normal. Esto es consecuencia del teorema central del límite y del supuesto que se
cumplen las condiciones de Grenander.
4.27
El estimador de la varianza de los errores
2
La ecuación (4.79) depende de  que es típicamente desconocido. Necesitamos
el estimador asintótico de la varianza de los residuos (EVA). La contrapartida asintótica
2
del estimador de  se obtiene de:
1
' M 
n−k
1
=
' −' x  x ' x −1 x '  ]
[
n−k
 2=
=
[  
' 
' x
n
−
n−k n
n
 x ' x −1
n
(4.81)
  ]
x'
n
Obviamente,
•
cuando n → ∞ el primer término tiende a 1.
•
El segundo término del paréntesis converge a cero.
•
El primer término es el promedio de  Si la varianza de este promedio es finita
(es decir, el cuarto momento de  es finito), entonces la ecuación (4.81) converge
2
a  .
2.
Por ello, plim 
2
−1
 
x' x
n
2
= Q
−1
.
Distribución de los tests de hipótesis.
Cuando los errores no se distribuyen normal, los tests t, F y χ² no se pueden
aplicar directamente.
Test t.
Asintóticamente se tiene que distribuir normal (obvio).
Test F.

El test para la hipótesis R −q=0
es
F=

  * '  *− '  / J R −q
' [R  2 x ' x −1 R ' ]−1 R  −q 
=
 '  /n−k
J
(4.82)
4.28

Pero, =x
' x −1 x '  . Por lo tanto,
' x  x ' x −1 R ' [R x ' x −1 R ' ]−1 R x ' x −1 x ' / J
F=
' M /n−k 
(4.83)
Sea L =x  x ' x −1 R ' [R x ' x −1 R ' ]−1 R x ' x −1 x ' , entonces la ecuación (4.83)
es:
F=
' L / J
 /  ' L  /  / J
=
' M /n−k  [ ' M /n−k ]/ 2
(4.84)
La ecuación (4.84) no tiene distribución conocida. Pero JF si la tiene:
JF =
 /  ' L  / 
[' M /n−k ]/
d
2
 2 tr  L = J 
(4.85)
La razón es que el denominador converge a 1, en tanto que el numerador es –otra
vez– una forma cuadrática. La traza de L –que se obtiene fácilmente– depende de Rx
que es de rango J.
Distribución límite del test de Wald
Si
d
2
−1

 N [0,  Q ]
 n  −

y H 0 : R −q=0
es cierta, entonces:
d
2
−1
−1
2


W =R −q
' [ R  x ' x  R ' ] R −q
= JF   J 
(4.86)
Distribución del estimador de mínimos cuadrados cuando los regresores son
estocásticos
Reemplazamos el supuesto que x es no-estocástico por [x i , i ] secuencias de
variables aleatorias i.i.d., con cov  x i ,i =0 y donde x tiene matriz de covarianzas
positiva definida y cuartos momentos finitos de  . Gráficamente, el modelo de
regresión corresponde a la Figura 4.5.
4.29
Figura 4.5
Regresión con regresores estocásticos
P(u)
E y 2|x2 y2
E y 1|x 1
X1
X2
y1
yi=xi
El supuesto clave para obtener la distribución asintótica de los estimadores es
plim
1
x ' x= Q
n
(4.87)
y la no covarianza entre x y  . Nuevamente, la distribución asintótica será Normal
(ecuación 4.80) y si los cuartos momentos de  son finitos, 
 2 es un estimador
2
consistente de  y la varianza asintótica estimada de los parámetros queda dada por la
ecuación (4.81).
Cuando hay correlación entre x y  los resultados anteriores no son válidos y
se debe usar variables instrumentales (lo veremos en la sección 5).
Distribución del test “t” con regresores estocásticos
¿Qué sucede cuando los regresores son estocásticos? Acabamos de obtener la
distribución condicional del test t en x t | x  . Deberíamos integrar por x para obtener
la distribución marginal del test t (es decir, la distribución no condicional en x ).
tk|x=
 k−k 
 x ' x 
−1
kk
 2
(4.88)
El estimador  es normal condicional en x . Su distribución marginal no tiene
por qué ser normal porque depende de x . Cuando x es estocástico, el denominador no
tiene por qué ser la raíz de una χ² ajustada por (n-k) grados de libertad. No obstante, el
test sigue siendo “t” a pesar de que x contenga variables estocásticas y determinísticas.
Ello, porque f t | x  –la integración para obtener la marginal– no es función de x .
4.30
4.09 Transformaciones de estimadores: el método Delta
Frecuentemente, tenemos interés en usar funciones de los estimadores,
Calcular las distribuciones asintóticas podría ser una pesadilla, excepto que:
C=

∂ f  
∂  '
(4.89)
es decir, C es una matriz de tamaño
 f   obtenemos:
plim f  =
plim C =
 .
f  
jxk . Usando el teorema de Slutzky
∂ f 
=
∂
(4.90)
y podemos obtener la transformación del estimador:
[

 ]
 2 −1

f   → N f  , 
Q '
n
(4.91)
 =C  2  x ' x −1 C ' .
con EVA f  
4.10 Predicción8
Una vez parametrizado un modelo resulta natural preguntarse por las
propiedades de las proyecciones hechas con éste. Hay dos alternativas de proyecciones:
dentro y fuera de la muestra. A las segundas se les llama usualmente, predicciones. El
0
0
0
valor efectivo para la observación “o” del modelo es y = x  , en tanto que el valor
p
proyectado es y= x . Note que la proyección es lineal, insesgada, y de mínima
varianza. Por ello el error de predicción es simplemente:
e f = y 0− y =x 0 −  0
(4.92)
lo que pone de manifiesto las tres fuentes de error de una proyección.
8
"Those who have knowledge, don't predict. Those who predict, don't have knowledge." Lao Tzu.
4.31
La estocasticidad de los regresores.

● La distancia que hay entre el parámetro y su estimador, aún si E[ ]=
.
● La presencia del error aleatorio.
●
Resulta conveniente computar la varianza del error de pronóstico y deducir la
expresión:
0

Var [ f ]=Var [x 0  −
]
2
0

=  Var [ x  −]
k
k
1
= [1 ∑ ∑ x 0j −x j  x 0b −x b  x ' M 0 x  jb ]
n j =2 b =2
(4.93)
2

de donde se desprende que la incertidumbre de la proyección depende de (1) la
2
presencia de shocks aleatorios,  , (2) el tamaño muestral, n, y (3) la distancia entre la
proyección de los regresores y su media, x −x .
Medidas de calidad de la predicción
La principal medida de calidad de una regresión debiese ser con respecto del
experimento que se está haciendo. No obstante, se usan frecuentemente medidas
resumidas basadas en los errores de predicción dentro de la muestra. El más popular es
el error cuadrático medio (ECM) que se define como:
ECM =

1
∑  y i − yi 2
n0
(4.94)
el que es una variación es el error absoluto medio (EAM)
EAM =
1
∣ y − y i∣
n0 ∑ i
(4.95)
El problema del ECM y EAM es que dependen de la unidad de medida de las
variables. Por ello, Theil propone el siguiente estadístico normalizado:
U=

1
1
 y i − y i 2 / ∑ y 2i
∑
n0
n0
(4.96)
4.32
El error cuadrático medio puede ser descompuesto en tres componentes que
resultan interesantes:
2
y i
1
2
2
 y i − y i  =∑  − y   s y −s y  21−r  s y s y
∑
n0
n0
(4.97)
donde s y , s y y r son las desviaciones estándares de cada variable aleatoria y la
correlación entre predicción y valor verdadero. De esta descomposición se pueden
obtener tres proporciones:
∑
2
 
y i
−y
n0 
1
 y i − y i 2
∑
n0
s y −s y 2
Esta es una medida de sesgo, porque nos dice que tan lejos está la
media de la predicción de la verdadera media de la variable
1
∑  yi − y i 2
n0
Esta es una medida de variación, porque indica qué tan lejos está
la variación de la predicción respecto de la verdadera variabilidad
de la variable.
21−r s y s y
1
 y − y i 2
n0 ∑ i
Esta es una medida de covariación residual que refleja los
componentes no sistemáticos que separan la predicción del
verdadero valor de la variable.
Una mejor predicción es aquella donde el sesgo sistemático y la impresición de
las predicciónes son menores.9
4.11
Método generalizado de momentos
La estimación por mínimos cuadrados no es la única forma de parametrizar un
modelo. Una alternativa interesante es el llamado método general de momentos (MGM),
el que explota dos elementos: las propiedades de convergencia de los estadígrafos que se
pueden construir a partir de una muestra y el hecho que los valores límites de dichos
9
“Prediction is very difficult, especially about the future”. Mark Twain.
4.33
estadígrafos dependen de los parámetros que caracterizan la distribución de
probabilidades del fenómeno. Por ejemplo, si tenemos una muestra de una distribución
 , sabemos que la esperanza y varianza están relacionadas a los parámetros de la
distribución  p , q de la siguiente manera:
E [ x t ]=
p
q
E [ x t −E [x t ]2 ]=
p
q2
(4.98)
entonces las condiciones sobre los momentos serían una función de tipo E [ f  x ,] =0 ,
es decir,
p
E [ x t ] − =0
q
p
2
E [ x t −E[ x t ] ]− 2 =0
q
(4.99)
así, buscaríamos p * y q * tal que se cumplan las condiciones de la ecuación (4.99)
usando la información de la muestra.
Para el modelo clásico de regresión lineal podemos derivar condiciones similares.
Dado el modelo básico (ecuación 4.6) e imponiendo la condición de ortogonalidad entre
regresor y residuo E[ x ,]=0 tenemos:
E[ y i | x ]=E [x i i | x ]=x i E [ i | x ]=x i 
(4.100)
Usando la ley de expectativas iteradas10 tenemos:
E [ x i i ] =Ex [ E [x i i | x i ]] =E x [ x i E [i | x i ] ]=0
(4.101)
entonces, las condiciones son:
E [ x i  y i −x i *  ]=0
(4.102)
Naturalmente, cuando el modelo es multivariado, habrá l ecuaciones en la
ecuación (4.102) que deben ser optimizadas para recuperar los parámetros. Si el número
de ecuaciones linealmente independientes en la ecuación (4.102) es igual o mayor a los
10 Esta ley no parece ser de fácil comprensión para algunos políticos. Dan Quayle, vicepresidente de
Estados Unidos, señaló: The future will be better tomorrow.
4.34
parámetros que se quiere estimar el problema tiene solución (el último caso se llama
sobreidentificado).
Una manera alternativa de entender este tema de la sobreidentificación es
considerar el modelo de regresión:
y i =x 1i 1x 2i 2 i
E[ x i , i ]=0
(4.103)
donde  x 1 =k ,  x 2 =r y l =kr . Suponga ahora que se le informa que 2 =0 .
¿Cómo estimaría 1 ? Una alternativa es usar el estimador mínimos cuadrados en el
1
modelo restringido y i =x i 1 i . Pero ello sería ineficiente, pues no hace uso de toda la
información. Note que hay l restricciones en la ecuación (4.103) y solo habría k
restricciones en el modelo restringido. Si se usa toda la información habría l −k=r
restricciones sobre los momentos adicionales que son de utilidad; estas se llaman
restricciones de sobreidentificación (overidentifying restrictions).
Generalicemos la estructura y notación del ejemplo anterior. Sea g  y ,z ,x ,
una función de dimensión l ×1 de un vector de parámetros  de dimensión k ×1 con
l ≥k tal que:
E [ g  y ,z , x ,0  ]=0
(4.104)
La restricción l ≥k señala que z corresponde a un conjunto de variables más
amplio que el conjunto x , pudiendo incluir componentes o funciones de este último. En
econometría a la ecuación (4.104) se le llama modelo de condiciones de momentos, en
tanto que en estadística se le llama ecuación de estimación.
Note que se ha impuesto muy poca estructura sobre las innovaciones i , al
menos en comparación con el método de mínimos cuadrados o el de máxima
verosimilitud. No obstante, no hemos discutido dos elementos: (1) cómo se obtienen los
parámetros y (2) cuáles son las propiedades asintóticas de este estimador.
Estimación de parámetros por método de momentos
Suponga que el modelo está exactamente identificado, es decir hay tantos
parámetros desconocidos (l) en la ecuación (4.104) como ecuaciones disponibles, k. El
problema radica en que desconocemos E[.]. Pero contamos con una muestra de la cual
podemos derivar el estimador muestral de la condición de ortogonalidad,
E [ f  x ,] =0 :
4.35
n
1
f n  = ∑ f x i ,
n i=1
(4.105)
En el caso de la regresión lineal obtenemos:
1
N
N
∑ [ x i  y i −x i * ]=0
(4.106)
i =1
de donde se desprende:
−1 N
∑  ∑ 
N
*
=
i =1
xi' xi
i=1
(4.107)
xi ' yi
es decir, el estimador de mínimos cuadrados es un estimador de momentos.
El estimador del método de momentos se aplica cuando hay más condiciones
para los momentos que parámetros por estimar, es decir, cuando el sistema está
*
sobreidentificado. En tal caso, en general no habrá un  que haga f n  =0 , pero se
puede buscar aquel  que haga que f n   esté arbitrariamente cerca de 0, es decir
aquel que minimiza la ecuación (4.104). Consideremos la contraparte muestral de la
ecuación (4.107):
n
n
i=1
i =1
1
1
gn = ∑ z i  y i −x i = ∑  z ' y−z ' x  
n
n
(4.108)
Para una matriz arbitraria W n 0 definimos:
J n =n g n   ' W n g n  
(4.109)
esta es una medida de “distancia” del vector gn  . Lo que hace el estimador MGM es
minimizar la ecuación (4.109). Definimos:
 GMM =argmin  J n 
Considere la derivada de la ecuación (4.110) tal que:
(4.110)
4.36
∂ J n 
∂
∂ gn ' W n gn 
=2
∂
1
1
=2 z ' x W n x '  y −z 
n
n
0=
(4.111)
de donde se desprende:
(4.112)
2z' x W n x ' y =2 z ' x W n x ' z 
y por lo tanto:
 GMM =z ' x W n x ' z −1 z ' x W n x ' y
(4.113)
Note que el estimador MGM depende de W n pero sólo como factor de escala, es
decir, si usamos cW n para c 0 , el estimador no cambia.
Teoría asintótica para el estimador de método de momentos 11
Para desarrollar la teoría asintótica aplicable en este contexto, tenemos que hacer
los siguientes supuestos:
1. Los momentos poblacionales g n =E [ f  x i ,] existen12 y son finitos para
*
todo  y para todo i. Además, existe un único * que hace g n  =0 .
2.
f x i ,
obedece
p
f n  x i ,− g n  0
la
ley
débil
de
los
grandes
números.
Es
decir,
∀  ∈ 
p
3. Existe una secuencia de matrices no-estocásticas W n tales que W n −W
 n  0.
Estos supuestos permiten demostrar que el estimador MGM es (débilmente)
consistente. En términos esquemáticos, la prueba de consistencia del estimador consiste
en usar los supuestos 2 y 3 para deducir que existe una secuencia no aleatoria
 n = g n ' W
 n g n  tal que
Q
11 Una demostración formal de estos supuestos está desarrollada en L. Mátyás, Generalized Methods of
Moments, Cambridge University Press, 1999.
12 La existencia de los momentos poblacionales requiere de supuestos más primitivos sobre la naturaleza
del proceso estocástico de x . Este tema se discute in extenso en el curso de Teoría Econométrica III.
4.37
p
(4.114)
Q n − Q n  0
converge uniformemente para todo ∈ . Además, se usa el supuesto 1 para demostrar

 n =0 si y sólo si =* . Entonces, se deduce que si =argminQ
que Q
n   , si
p
p
* =argmin Q n  , y Q n − Q n  0 entonces necesariamente    .
La derivación de la normalidad asintótica del estimador MGM requiere algunos
supuestos adicionales:
1.
f x i , debe ser continuamente diferenciable con respecto a ∈ .
p
p
 F  0
2. Para toda secuencia donde se cumple que    , se cumple que F n  −
n
3.
f x i ,
satisface
el
teorema
del
límite
d
donde V n =n Var  f n  0  .
 −½
V
n  n f n 0   N 0, I 
central,
es
decir,
Con estos seis supuestos es posible demostrar que el estimador MGM tiene
distribución asintótica normal:
−½
d
[ F n  n ' W n V n W n F n  n ] [ F n  n ' W n F n  n  ] n   n −*   N 0, I 
(4.115)
La matriz de ponderación W n óptima es aquella que minimiza la varianza del
estimador MGM. Lamentablemente, ésta no es usualmente conocida. Por ello, dada
cualquier matriz de ponderación, el estimador MGM es consistente, pero no
necesariamente eficiente. Una alternativa en el modelo lineal sería fijar W n =I . Una
−1
alternativa mejor –recuerde MCG– es usar W n = x ’ x  . Dada dicha matriz como
estimador de primer paso es posible computar los residuos del modelo como:
 . Computemos
i = y i −z i  y las ecuaciones de momentos: g i =x i i = g w i ,z i 
n
 1 ∑ g y gn *= g i − gn
gn = gn  =
n i=1 i
(4.116)
Entonces se define:

n
1
W n = ∑ g *i g *i
n i =1
−1
 
n
1
= ∑ g i g i '− gn gn '
n i=1
−1

(4.117)
4.38
−1
en probabilidad esta matriz W n converge a W n = E [ g i g i ʹ ]
que es la matriz
13
eficiente. Por ello, el estimador MGM será asintóticamente eficiente.
Hay una alternativa al estimador MGM de dos etapas que hemos desarrollado
que posiblemente tiene mejores propiedades estadísticas. Considere que la matriz de
ponderadores sea una función de  tal que el estimador MGM sea aquel que minimiza
el criterio:

n

1
J n  =n gn ' ∑ g *i  g *i ' W n gn 
n i =1
(4.118)
*
donde g i = g i − gn  . El  que minimiza la ecuación (4.118) es llamado
estimador MGM de actualización contínua14.
Test de restricciones de sobreidentificación
Los modelos que están sobreidentificados tiene la facilidad de proveer espacio
para testear las restricciones impuestas sobre la estructura del modelo. Note que
p
gn  E[ g i ] y que, por lo tanto, gn puede ser usado para hacer un test sobre si
E[ g i ]=0 .
g n   ' W n g n   es una forma cuadrática en gn por lo que es
Note que J n =n 
un test natural de H 0 : E [ g i ]=0 . Si el modelo está correctamente especificado y si la
matriz W n es asintóticamente eficiente:
2
J   d  l −k
→
(4.119)
este es llamado el test de Sargan-Hansen. Los grados de libertad del test corresponden al
número de restricciones impuestas en la sobreidentificación.
Tests de hipótesis

n
−1

1
∑ g g ' . El problema es que este estimador de
n i =1 i i
momentos no centrados no garantiza que E [x ’ ε]=0 , lo que produce un estimador sesgado y reduce el
13 En ocasiones se usa el estimador alternativo W n =
poder de los tests. Verifique que tipo de estimador usa su programa econométrico.
14 Ver Hansen, L.P., Heaton, J. and Yaron, A. (1996), “Finite Sample Properties of Some Alternative GMM
Estimators,” Journal of Business and Economic Statistics, 14:262-280.
4.39
Como se puede ver el test anterior testea la estructura completa del modelo. Para
hacer tests de hipótesis ocupamos directamente la lógica de testear un modelo
restringido versus uno que no lo está. El procedimiento es directo:
●
Supongamos que hay un conjunto de hipótesis sobre los parámetros
H 0 : h  =0
●
●
Supongamos que W n está dada, el criterio del estimador MGM no restringido es

es J n  =n
g n   ʹ W n gn  . Por otro lado, el criterio del estimador MGM
g n   ʹ W n gn  .
restringido es es J n  | h =0=n 
 . Si se usa la misma matriz W n
 − J  
Entonces el test de distancia es D= J  
para ambos J   entonces el test se distribuye asintóticamente χ² r  .
Un punto importante de hacer notar que h  no tiene por qué ser lineal, lo que
es una ventaja desde el punto de vista de la flexibilidad del análisis. Por otro lado, si las
hipótesis fuesen lineales, el test de restricciones de identificación corresponde al test de
Wald.
4.40
Apéndice A:
Ejercicios
1. En una regresión lineal las variables del lado derecho son independientes, las columnas
de la matriz x son independientes y los errores se distribuyen independientementes." En
la frase anterior se usó la palabra "independiente" en tres distintos sentidos.
Explique cada uno de los usos de ella y discuta que papel juegan dichos
conceptos en la teoria clásica de estimación de modelos lineales.
2. En el modelo lineal y =x  , un elemento central del análisis econométrico
.
clásico es que el estimador de  es independiente de los residuos, 
Demuestre.
3. ¿Cómo se entiende el supuesto de rango completo si x contiene sólo una
variable?
4. ¿Qué restricción debe cumplir la matriz de momentos de los regresores para que
sea posible obtener estimadores mínimos cuadrados con propiedades estándares
si x es determinístico? ¿Qué pasa cuando se levanta el supuesto que los
regresores son no-estocásticos?
5. Suponga que tiene una muestra de n datos de { y n , x n }. Derive el estimador de
mínimos cuadrados de la regresión de y n en x n. Suponga ahora que a la
muestra se le añade un dato. Demuestre que el nuevo estimador del parámetro
es:
 n1 =n 
1
 x n ' x n −1 x s ' [ y s −x n ' s ]
−1
1x s ' x n ' x n  x s
Note que el último término es es , es decir el residuo de la predicción de ys
usando los coeficientes obtenidos con la muestra x n .
6. Si nos fijamos en la fórmula de la varianza estimada del estimador de mínimos
cuadrados, resulta obvio que mientras más observaciones tengamos ésta se
reduce y más preciso es el estimador (demuestre). Por ello, es conveniente tener
más datos. Si eso es así, ¿para qué buscar más datos? ¿No bastaría con poner los
mismos datos dos veces? Con ello tendríamos 2n datos, en vez de n. (considere
x no estocástico).
7. Considere el caso de la regresión y =x  y el de la regresión “inversa”,
x = y * ¿bajo qué condiciones es posible recuperar el estimador de  a
partir del estimador de γ? No olvide referirse a la desviación estándar del
estimador.
8. Demuestre que el estimador de mínimos cuadrados ordinarios es de varianza
mínima.
4.41
9. ¿En qué caso los coeficientes de una regresión de Y en x 1 y x 2 son idénticos a
los de dos regresiones independientes, una de Y en x 1 y otra de Y en x 2 ? ¿Por
qué? ¿es necesario poner una constante en cada una de estas últimas dos
regresiones o basta ponerla en una sola?
10. Su jefe juntó datos de precios y ventas de vino de los últimos 25 años en Chile y
concluyó: “cada vez que subo el precio 10% las ventas caen 5%, por lo que la
elasticidad es -0.5". Explíquele –con delicadeza pero con absoluto detalle– por
qué su estimación es inconsistente.
11. Considere la función de producción con elasticidad de sustitucion constante
(CES):
Y i ,t = [  K 1− L
−
i ,t
−
i,t
]
−
 
i ,t
e
Donde los subindices i y t, son firmas y tiempo respectivamente, Y es el
producto, K es el capital, y L es el trabajo, y donde los parámetros γ, δ, ν, y  se
denominan parámetros de eficiencia, distribución, rendimientos de escala, y
sustitución, respectivamente. Como la función CES no es lineal en los parámetros
no pueden estimarse por mínimos cuadrados ordinarios. Demuestre que la
función puede linealizarse utilizando la técnica de Taylor de la siguiente manera:
2
[ ]
K
LnY i , t =i 1 LnK i , t 2 LnL i , t 3 ln i , t  i , t
L i ,t
y encuentre las expresiones de equivalencia entre los estimadores  y los
parámetros de la ecuación.
12. Demuestre que en una muestra finita, el estimador de la varianza de los residuos
 2=n−k −1 ∑ 2i se distribuye χ².
13. Demuestre que en una muestra infinita se requiere que los cuartos momentos de
la distribución de los residuos sean finitos para que el estimador asintótico exista.
14. Demuestre que testear un conjunto de restricciones lineales es equivalente a
hacer un test tipo F entre una ecuación restringida y una que no lo está.
15. Suponga que el verdadero modelo es y = x u (no tiene constante) pero que
Ud. usó uno de esos softwares de econometría de segunda clase y tuvo que
estimar su modelo con la constante. ¿La omisión de esta variable causa sesgo?
Compare la varianza del estimador de  del modelo verdadero con la del
estimado.
16. Considere el siguiente modelo y i = x i i f i =1/e − /
Note que los errores tienen la característica que siempre son positivos.
i
i 0 .
4.42
(a) calcule la E[] .
(b) demuestre que el estimador de mínimos cuadrados de la pendiente es
consistente pero el del intercepto es inconsistente.
17. Demuestre que R 2 puede ser negativo.
18. Demuestre que el R 2 ajustado ( R 2 ) se puede escribir en función de R 2 como:
n−1
R 2 =1−
 1−R 2
n−k
19. Pruebe que R 2 no puede reducirse si se añade una variable en la regresión. Dé
la intuición.
20. Suponga que una regresión lineal es adecuada y el modelo está bien especificado.
¿Tiene el R 2 computado alguna distribución?
21. Considere la regresión de y en K variables (incluida la constante) representadas
por X . Considere un conjunto de regresores alternativos Z=XP , donde P es
una matriz no singular. Así, cada columna es una mezcla de algunas columnas
de X . Pruebe que los vectores de residuos de la regresión de y en X y de y en Z
son idénticos. ¿Qué importancia tiene esto respecto de la posibilidad de cambiar
el ajuste de una regresión mediante la transformación de los datos?
22. El problema de un productor es cómo predecir la demanda de su producto de
*
exportación (yuca). Ud hace un modelo econométrico tipo x t =α 0 α 1 Y t −α 2 Px t
(log demanda yuca, log ingreso externo y log precio yuca, respectivamente). Ud
estima los parámetros por mínimos cuadrados. Su jefe no cree en la econometría
y tiene sus propias elasticidades,  , calculadas al ojo. Pruebe que la diferencia
entre su R 2 y el R 2 de su jefe, es proporcional a: − ́Z
Z − donde Z =
{Y,Px} y {  , } los vectores de parámetros.
23. Considere el siguiente modelo y t=' x t t , con x =[c ,z ] y donde c es una
constante y z un conjunto de variables. Suponga que la varianza de  es
2
constante,  . Encuentre la varianza de la predicción fuera de muestra de y.
Demuestre que ésta se reduce cuando aumenta el tamaño de muestra y mientras
más cerca estamos de E[ x ] .
24. ¿Cuáles son las fuentes de incertidumbre en una predicción ( y ) hecha con un
modelo lineal del tipo y =x u ? Calcule analíticamente la V  y  .
25. Demuestre que testear un conjunto de restricciones lineales del tipo R =q es
equivalente a hacer un test tipo F entre una ecuación restringida y una que no lo
está.
4.43
26. Suponga que Ud es un monopolista con costo marginal = 10. Encuentre un
intervalo de confianza al 95% para el producto que hace que su beneficio
esperado máximo. Ud tiene la siguiente información. (use una demanda lineal).
Q
3
3
7
6
10
15
16
13
9
15
9
15
12
18
21
P
18
16
17
12
15
15
4
13
11
6
8
10
7
7
7
27. Suponga que tiene una muestra de n datos de { y n , x n }. Suponga ahora que a la
muestra se le añade un dato. Demuestre que el estimador de mínimos cuadrados
de la regresión usando n+1 datos es proporcional al residuo de la predicción de y
basada en los coeficientes obtenidos con la muestra de n datos.
28. Para una muestra de datos del periodo [1, t ] , considere el siguiente modelo
y t= x tt donde t=t −1t y t es ruido blanco Gaussiano.
1. Compute el error de predicción de y tn y su intervalo de confianza del 90%.
2. Demuestre que el intervalo de confianza converge en distribución.
K
1
 ]='

 2 ∑
29. Demuestre que si  es el estimador MICO, E[ '
, donde λ
k =1 k
es uno de los valores propios de x ' x .
30. Considere el modelo y i =1 x i i , que no incluye la constante, y donde el error
cumple las condiciones Gauss-Markov.
1 .
I. Derive el estimador de mínimos cuadrados ordinarios de 1 y llámelo 
¿Es este estimador insesgado? Demuestre que es de varianza mínima.
II. Considere el modelo y i =0 1 x i  i , donde el error cumple las
condiciones Gauss-Markov. Demuestre que, para este modelo, el estimador
 1 es sesgado. ¿es posible determinar la dirección del sesgo?. Naturalmente,
 1 mayor o menor
si β0=0 no hay sesgo, pero ¿es la varianza del estimador 
que la varianza del estimador mínimos cuadrados de 1 ? Demuestre que si
E[ x i ]=0 , el estimador  1 es insesgado.
4.44
Apéndice A:
Algebra de Matrices y Gauss
Operaciones elementales (ver programa de Gauss asociado)
1. Suma de matrices. Sean A=[aij] y B=[bij] dos matrices de orden m×n. La suma de
matrices corresponde a la matriz C=[cij] cuyos elementos genericos son cij=aij +bij.
Ejemplo:
[ ] [ ]
[ ]
1 3 4
1 2 3
0 1 1
A= 4 5 6 y B= 1 0 1 entonces A B=C = 5 5 7 .
7 9 9
7 8 9
0 1 0
Note que A y B son conformables para la suma.
Note que la suma es conmutativa (A+B=B+A) y asociativa (A+(B+C)=(A+B)+C).
2. Multiplicación por escalar. Sea λ un escalar, entonces λA =[λaij]. Ejemplo, si λ es 2.
[
2 4 6
 A= 8 10 12
14 16 18
]
3. Multiplicación de matrices. El producto de las matrices A y B debe ser conformable
respecto de la multiplicación, es decir, el numero de filas de B debe ser igual al
número de columnas de A. Los elementos de C=A*B corresponden a:
c ij =∑ a ij∗b jk
j
[
][
102130 11203 1 112 13 0
2 4 3
C= 4 05160 41506 1 4 15 16 0 = 5 10 9
708 19 0 71809 1 7 18190 
8 16 15
La multiplicación de matrices en general no es conmutativa.
]
4.45
B∗A=
[
9
9 12
3
0 3
−4 −11 −9
]
4. Transposición. La transpuesta de la matriz A=[aij] de orden m×n es una matriz
A'=[aji] que tiene por filas las columnas de A y por columnas las filas de A.
[ ]
1 4 7
A '= 2 5 8
3 6 9
Las reglas básicas de la transposición son:
1. La transpuesta de A' es A.
2. Si C=A+B entonces C' = A' + B'
3. Si C = AB then C'=B'A'.
5. Inversión. Si A=[aij] de orden n×n, entonces su inversa, si existe, es una matriz
definida de manera única A-1 de orden n×n que satisface la condicion AA-1=I,
donde I es la matriz identidad (tiene 1 en la diagonal y 0 fuera de la diagional).
[
B−1=
]
−1 1 1
0 0 1
1 0 −1
La inversa existe sólo si el determinante de la matrix no es cero.
Las reglas básicas de la inversion son:
1. La inversa de A-1 es A.
2. La inversa de la transpuesta es la transpuesta de la inversa, (A')-1=(A-1)'.
3. If C=AB, then C-1=B-1A-1.
6. Operaciones elementales. Las siguientes operaciones elementales se usan para,
entre otros fines, para obtener inversas:
4.46
1. Multiplicación de una fila por un escalar, λ.
[ ][ ] [
 0 0 1 2 3
1 2 3
=
0 1 0 4 5 6
4 5 6
0 0 1 7 8 9
7 8 9
]
2. Resta de una fila por otra.
[
][ ] [ ]
1 0 0 1 2 3
1 2 3
−1 1 0 4 5 6 = 3 3 3
0 0 1 7 8 9
7 8 9
3. Intercambio de filas
[ ][ ] [ ]
0 1 0 1 2 3
4 5 6
=
1 0 0 4 5 6
1 2 3
0 0 1 7 8 9
7 8 9
Para obtener una inversa se usa una secuencia de estas operaciones elementales.
Consideremos el caso de una matriz de 2x2:
[ ]
U= 2 5
4 3
computamos
computamos
computamos
computamos
[1/20 01][ 24 53]=[14 2.53 ]
[−41 01][ 14 2.53 ]=[10 2.53 ]
[10 1/30 ][10 2.53 ]=[10 2.51 ]
1 2.5 = 1 0
[10 −2.5
1 ][ 0 1 ] [ 0 1 ]
Capítulo 5
Violación de los Supuestos del Modelo de Regresión Lineal
En esta sección estudiamos problemas derivados de la violación de los seis
supuestos sobre los cuales se desarrolló el modelo de regresión lineal en el capítulo
anterior. La lógica1 de operar es la siguiente: en primer lugar estudiamos el efecto de la
violación sobre los estimadores mínimos cuadrados y los diferentes tipos de tests. En
segundo lugar, propondremos, si es posible, alguna una solución, examinando el
contexto en el que dicha solución es válida.
La pregunta más natural que aparece es ¿cómo sabemos que se ha violado un
supuesto? La respuesta no es simple porque hay muchas consecuencias de violar un
supuesto y, además, porque muchas veces se pueden violar varios supuestos
simultáneamente. Aunque no hay reglas al respecto, algunos fenómenos que delatan la
violación de algún supuesto son:
•
Los errores que no tienen la característica de ser ruido blanco que se les exige
para representar la parte asistemática del fenómeno en cuestión. Este es el
indicador más importante de la violación de algún supuesto aunque, debe
reconocerse, es difícil de evaluar aún con los mejores tests estadísticos. 2
•
Los parámetros estimados tienen características que no son congruentes con los
pre/juicios que se tenían antes de hacer el experimento, en términos que
presentan signos opuestos a los esperados, baja significancia estadística, o son
poco robustos ante pequeños cambios en las condiciones de estimación.
•
Existen problemas con los estadísticos asociados a la regresión, como son R², tests
de correlación residual, o la comparación entre el error estándar de la variable de
interés –  y – el de la regresión,  y .
•
Baja capacidad predictiva del modelo estimado o sesgo sistemático en la
predicción.
1 “Lógica es el arte de pensar y razonar en estricta concordancia con las limitaciones e
incapacidades de la incomprensión humana” Ambrose Bierce, Diccionario del Diablo.
2 Usualmente en estadística es más fácil demostrar que algo no es lo que se suponía que afirmar
que sí lo es.
5.2
5.01 Problemas de Especificación I: Regresores Inadecuados
Es frecuente que al modelar el econometrista tenga varias alternativas de
variables que puede incluir o excluir del modelo. En principio, la teoría debiera sugerir
una especificación completa y las hipótesis que se va a estudiar. Pero a veces las teorías
no son muy “finas” y hay espacio para probar distintas especificaciones.
En ese contexto, hay dos tipos de variables (pertinentes e irrelevantes) y dos
situaciones (incluidas y excluidas). Dos combinaciones son obvias; 3 pertinente incluida e
irrelevante excluida. Las otras dos son más interesantes de estudiar.
Omisión de variable pertinente
Un problema econométrico común en los modelos económicos es la omisión de
variables que pueden ser potencialmente importantes (típicamente por mala
especificación analítica o por limitaciones de los datos). Supongamos que el modelo
y =x  es particionado en dos grupos de variables:
y =x 1 1x 2 2 
(5.1)
Supongamos ahora que la estimación excluye x 2 . Entonces:
1 =x 1 ' x 1−1 x 1 ' y
= x 1 ' x 1 −1 x 1 ' [x 1 1x 2 2]
=1  x 1 ' x 1 −1 x 1 ' x 2 2 x 1 ' x 1−1 x 1 ' 
(5.2)
esta expresión ya la hemos visto con anterioridad, de donde derivamos este importante
resultado:
E[ 1 ]=E [1  x 1 ' x 1−1 x 1 ' x 2 2x 1 ' x 1 −1 x 1 ' ]
=1E[x 1 ' x 1−1 x 1 ' x 2 2 ]
(5.3)
Entonces,
3 "Obvious" is the most dangerous word in mathematics (Eric Temple Bell, Mathematical Circles
Squared, Boston, 1972).
5.3
E[ 1 ]=1 si x 1 ' x 2 =0
≠ 1 si x 1 ' x 2 ≠ 0
(5.4)
Por lo tanto, la omisión de variables pertinentes no correlacionadas con aquellas
que quedan en el modelo no sesga el estimador de los coeficientes. Pero la omisión de
variables pertinentes correlacionadas con aquellas que quedan en el modelo sesga los
estimadores. El sesgo es de dirección y tamaño desconocidos, porque no conocemos 2 .
Pero hay un segundo efecto. Estudiemos la varianza del estimador usando la
inversa de matrices particionadas. La varianza del verdadero estimador, es decir
incluyendo x 2 , es
V [ 1 ]= 2 [x 1 ' x 1 −x 1 ' x 2 x 2 ' x 2−1 x 2 ' x 1 ]−1
(5.5)
en tanto que la varianza del estimador en el modelo que excluye x 2 es
V [ 1 ]= 2 x 1 ' x 1−1
(5.6)
Por lo tanto, en el segundo caso el estimador de 1 es sesgado pero de menor
varianza. Sin embargo, consideremos el caso más común en el que resulta necesario usar
2
 2 =' /n−k1  , donde  son los residuos del modelo
el estimador de  , 
estimado excluyendo x 2 (no los del modelo completo,  ). Pero podemos expresar 
en función de  usando la matriz M 1 :
=M 1 y
=M 1 x 1 1 x 2 2
=M 1 x 2 2 M 1 
(5.7)
donde nuevamente M 1 =I −x 1 ʹ x 1  x 1 ʹ , es decir, produce “los residuos de una
regresión de lo-que-haya-a-la derecha de x 1 ”. Por lo tanto, en los residuos muestrales
están los verdaderos residuos más el efecto de la correlación de x 1 y x 2 ponderado
por 2 .
−1
¿Cómo afecta esto al estimador de la varianza de los residuos? Tomando la
ecuación (5.7), multiplicando por su traspuesta y tomando el valor esperado se obtiene
la siguiente expresión:
E[' ]= 2 ' x 2 ' M 1 x 2 2E [' M 1 ]
(5.8)
5.4
Entonces,
E[' ]=2 ' x 2 ' M 1 x 2 2 2 tr  M 1 
2
=2 ' x 2 ' M 1 x 2 2  n−k 1 
(5.9)
El primer término del lado derecho de (5.9) es no-negativo, ya que es una forma
cuadrática. El segundo es el estimador de la varianza de los residuos para el modelo que
excluye x 2 . Por ello, la varianza estimada de los residuos –obtenida como la suma de
los residuos al cuadrado ajustada por grados de libertad– estará sesgada. Es interesante
notar que aún si x 1 ʹ x 2 =0 y los estimadores de los parámetros no están sesgados, el
estimador de la varianza de los residuos –y por consiguiente los tests t– si lo está.
Adición de variable irrelevante
Nuevamente, debemos contestar las clásicas preguntas: ¿Es el estimador de 
insesgado? ¿Se ha afectado la varianza del estimador de  ? ¿Se ha afectado 
 2 ? ¿Cuál
es el impacto sobre los tests? Se deja de tarea encontrar las respuestas, que son bastante
obvias.
Una conclusión errónea, popular y peligrosa
Como hemos visto, en términos de la calidad de los estimadores resulta
preferible incluir variables irrelevantes a excluir variables pertinentes. Ello sugeriría que
la mejor estrategia de modelación econométrica es poner “de todo” al lado derecho de la
regresión, mientras alcancen los grados de libertad. Así, si bien los estimadores tendrían
problemas de eficiencia, no habría problemas de sesgo. Estos últimos son, naturalmente,
más graves.
Existen problemas graves con esta estrategia. El modelo de regresión ha sido
derivado bajo la premisa que éste describe un experimento aleatorio en un espacio de
probabilidad asociado a un conjunto de posibles eventos de interés. En tal caso, el diseño
del experimento debe ser hecho ex-ante y debe producir tanto el conjunto de hipótesis
que se desea estudiar como la especificación funcional particular que se debe usar.
Cuando se incluyen variables aleatorias con el fin de maximizar algún criterio
(usualmente bondad de ajuste) el primer problema que se presenta es que, en rigor, no
puede compararse el parámetro de interés entre modelos. Considere los dos modelos
planteados en la ecuación (5.10):
5.5
a y i =0 1 x i 
b y i =0 1 x i 2 w i 
(5.10)
evidentemente, el parámetro 1 de la ecuación (a) se refiere a un experimento cuyo
espacio de eventos es distinto del que se considera implícitamente en la ecuación (b), lo
que impide la comparación entre modelos. Otra manera de ver este mismo problema es
considerar que la modelación econométrica equivale a estudiar la distribución
condicional F  y | x  , la que puede ser muy distinta de F  y | x ,w  .
En segundo lugar, cuando se usa la muestra de variables aleatorias para sugerir
una especificación no puede usarse esa misma muestra para (in)validar dicha
especificación.4 En el primer caso, se está usando la información para descubrir
regularidades de interés (usualmente mal llamadas, hechos estilizados) y motivar la
modelación y el análisis económico de algún fenómeno. En el segundo caso, se está
usando un conjunto de variables aleatorias para discutir la validez de una proposición
económica hecha con independencia de la realización (muestra) de dichas variables
aleatorias. Si bien ambos casos son válidos por separado, en conjunto ellos no
constituyen una base adecuada de modelación econométrica.
Frecuentemente los investigadores olvidan este hecho elemental y se engarzan en
una verdadera carrera de caballos con distintos modelos econométricos, ponderando sus
virtudes y defectos por medio de una batería de tests.
¿Cómo sabemos, entonces, si un modelo está bien especificado? Sólo la teoría
económica nos puede sugerir una especificación. Una vez obtenida una muestra acorde
al testeo que se desea hacer, hay dos alternativas: si la teoría es congruente con los datos,
nos quedamos con ésta como una representación adecuada de datos caracterizados por
algunas regularidades empíricas. Si la teoría no es congruente con los datos, cambie de
teoría.
Existe la tentación a poner cosas del lado derecho, sólo para encontrarse después
que no hay como justificar en serio la inclusión de dichas variables. Hay, sin embargo,
dos objeciones comunes a la idea que un investigador debe limitarse a la disciplina que
le impone su teoría económica:
1.
Si el test t de estas variables adicionales es mayor que 2 ¿por qué no incluirlas?
El resultado es el peor. La (o las) variable(s) parece(n) ser importante(s) desde un
punto de vista estadístico para describir la media condicional de y, pero no tenemos idea
por qué o qué papel desempeñan desde el punto de vista analítico. Lo mismo se aplica a
justificar por bondad de ajuste: no olvide que el R² es una función del test t. Si se añade
una variable cuyo test t es mayor que 2, el R² de la regresión sube.
4 Esta es una discusión bastante profunda e, inevitablemente, impopular. Ver D.G. Mayo, Error
and the Growth of Experimental Knowledge, The University of Chicago Press, Chicago, Il. 1996.
5.6
2.
¿Por qué no usar las k variables disponibles y hacemos una competencia “todos-contratodos” seleccionando aquellas que maximizan R² con tests t significativos al, digamos, 95%?
Esta técnica, llamada stepwise regression, busca aquella combinación lineal de los
componentes de x que maximiza la bondad de ajuste, R². Esto tiene bastantes problemas.
En primer lugar, la selección es mecánica con independencia de las restricciones que
impone la teoría. En segundo lugar, es difícil comparar entre modelos (¿cómo se
distribuye el test de distancia entre dos o más R²?). En tercer lugar, esto es data mining.
El problema de data mining5, en realidad, excede el de la búsqueda interesada de
las variables que se debe incluir en el modelo. También debe incluirse la reespecificación
de los modelos (porque también equivale a cambiar los supuestos sobre los cuales se
derivó el modelo originalmente), la búsqueda de muestras convenientes (por ejemplo, el
periodo de tiempo “preciso”) e, incluso, el uso de tests estadísticos favorables (que
usualmente son aquellos que no tienen poder para probar la hipótesis nula de interés). 6
Recientemente el tema de data mining ha recibido un soporte analítico más
sólido y su uso se ha popularizado en áreas distintas a la economía donde el interés por
relacionar evidencia empírica con modelos de comportamiento no es importante. Por
ejemplo, en el uso de datos gráficos para el reconocimiento de patrones sistemáticos
(caras a partir de fotos). Hirsh (2008) hace un recuento de los avances y desafíos en este
tipo de modelación.7
5.02 Problemas de Especificación II: Cambio de Régimen
Una forma interesante de violar el supuesto que el modelo sea lineal es el caso en
el que hay cambio de régimen (un caso frecuente en series de tiempo). 8 Cambio de
régimen es una expresión un tanto vaga que se utiliza para denotar que el fenómeno de
interés tiene un comportamiento característicamente diferente en diversos periodos de
tiempo. En dichos segmentos, la media condicional y sus determinantes pueden diferir
de manera apreciable.
5 “The art of fishing over alternative models has been partially automated with stepwise
regression programs. While such advances have made it easier to find high R²s and
“significant” t coefficients, it is by no means obvious that reductions in the costs of data
mining have been matched by a proportional increase in our knowledge of how the economy
actually works.” Lovell, M. C. (1983), “Data Mining,” The Review of Economics and Statistics, 65,
1-12.
6 Ver A. Spanos (1999) “Revisiting data mining: ‘hunting’ with or without a license”, mimeo,
Department of Economics, Virginia Polytechnic Institute and State University.
7 H. Hirsh “Data mining research: current status and future opportunities”, Statistical Analysis
and Data Mining, 1:104-108.
8 A este tipo de modelo se le denomina incorrectamente “cambio estructural”. El nombre más
adecuado es cambio de régimen, por cuanto nada garantiza que sea produzca un cambio en el
mecanismo generador de los datos, sino que el modelo debe ser estimado reconociendo su
naturaleza dual.
5.7
Un ejemplo común queda descrito en la siguiente figura. En una serie que crece
con tendencia positiva de 2.5% se han incorporado distintos tipos de quiebres para ver el
efecto. En el panel A se presenta una muestra de 75 datos de la serie original. En el panel
B se muestra la misma serie pero con un quiebre en la constante ubicado en el segundo y
cuarto cuartos de los datos. El quiebre es de tamaño 40% del nivel. En el panel C se
presenta la serie con un quiebre que lleva la tendencia a -2.5% en los mismos intervalos.
En tanto que en el panel D se presenta la serie sujeta a ambos quiebres.
Figura 5.1
Cambio de régimen
Método de Chow
En el caso de cambio de régimen, un modelo del tipo y =x  es inadecuado.
Supongamos que el cambio de régimen sólo afecta el intercepto de la regresión, Chow 9
sugiere usar es una especificación del tipo:
y i =x i i ∀ i ∈[ 1, ¼N ]∪ [½N ,¾N ]
y i =x i i ∀ i ∈[¼N ,½N ]∪ [¾N , N ]
(5.11)
9 G. C. Chow (1960) "Tests of Equality Between Sets of Coefficients in Two Linear Regressions".
Econometrica 28(3):591–605.
5.8
Sin embargo, es preferible anidar ambos modelos en una sola especificación
usando variables ficticias (mudas o dummies10), que toman valores 0 y 1 dependiendo del
régimen. El modelo anidado es:
y i =x i  D i i
donde
(5.12)
D i =1 ∀ i ∈[ 1, ¼N ]∪ [½N ,¾N ]
.
D i =0 en el resto
Así, cuando la variable muda D es 1, el intercepto es = , en tanto que si es
0 éste es  .11 Es decir, interpretamos  como la diferencia de interceptos.
Supongamos ahora que el cambio de régimen es tanto en el intercepto como en
los otros coeficientes de la regresión. Se debería usar es una especificación del tipo:
y i =x i i ∀ i ∈[ 1, ¼N ]∪ [½N ,¾N ]
y i =x i i ∀ i ∈[¼N ,½N ]∪ [¾N , N ]
(5.13)
Conviene, nuevamente, anidar ambos modelos en una sola especificación usando
variables ficticias. El modelo anidado es:
y i =x i [  D i ] D i i
(5.14)
Así, cuando D toma valor 1, el intercepto es = y la pendiente es
= . Cuando D=0, obtenemos los parámetros  y  .
¿Cómo descubrimos si hay cambio de régimen?
Existen dos técnicas de amplia difusión para descubrir la existencia de regímenes
distintos en una muestra: las técnicas recursivas y el test RESET. Como vamos a
descubrir, estas técnicas no señalan sólo la presencia de cambio de régimen sino además
de otros problemas de especificación.
10 El término variable muda (del inglés dummy) fue introducido aparentemente en 1952 por H. S.
Houthakker en "The Econometrics of Family Budgets" Journal of the Royal Statistical Society A,
115:1-28.
11 Otro uso frecuente de variables mudas es para controlar problemas de estacionalidad, es
decir, la tendencia a observar cambios en la variable de interés debido a fenómenos que no
interesa modelar (clima, efemérides, etc.). En tal caso, el modelo es del tipo
y i =x i  1∗D 1 2∗D2 3∗D 3i , donde las variables D 1 , D 2 y D 3 toman valor 1 para
primer, segundo y tercer trimestre, respectivamente, y 0 en cualquier otro caso.
5.9
El test RESET (Regression specification error test) fue propuesto por Ramsey (1969)12
y consiste en realizar una regresión auxiliar al modelo de interés. Sea el modelo
y t = x t t , supongamos que  se distribuye N 0,  I  , y consideremos la siguiente
regresión auxiliar:
y t =0 1 x t  2 z t  t
2
(5.15)
3
donde z t ={ y t , y t ,} y y t son los valores predichos del modelo original.13 Si el
modelo original estaba bien especificado, entonces los coeficientes de las variables
auxiliares no debiesen ser estadísticamente significativos. En caso contrario, el estimador
de  es inconsistente. Por ello la hipótesis nula del test es H 0 :  2 =0 y H 1 : 2 ≠0 .
Para hacer el test en la práctica, se puede hacer un test F o de razones de
verosimilitud. Note que se puede extender el test de Ramsey en dos direcciones.
Primero, para incluir otras variables en la matriz de variables auxiliares. En este caso, el
test no sólo señalaría la presencia de error de especificación sino, además, de variables
omitidas. Segundo, en modelos de series de tiempo es posible incluir rezagos de la
variable del lado izquierdo, y t−k , de modo que el test ahora señalaría la presencia de
error de especificación sino, además, de correlación residual.
La técnicas recursivas se aplican de modo natural a problemas de series de
tiempo y consisten en estimar el modelo incrementando de modo paulatino (recursivo)
el tamaño de muestra. Consideremos el modelo y t = x t t y la siguiente regresión
auxiliar:
y t =t −1 x t t
(5.16)
donde t es el estimador del parámetro obtenido mediante una regresión hecha con una
i=t −1
muestra de datos { y i , x i }i=k 1 . La técnica consiste en hacer un conjunto de regresiones
auxiliares incrementando el tamaño de muestra desde i =k1 hasta T , donde k es el
rango de x. Note que k1 es la primera regresión que es posible hacer.
12 J. Ramsey, J. B. (1969). "Tests for Specification Errors in Classical Linear Least Squares
Regression Analysis," Journal of the Royal Statistical Society, Series B, 31:350-371. Un trabajo
posterior demuestra que el test RESET es lo suficientemente poderoso para descubrir
problemas de especificación aún cuando los criterios tradicionales (R², correlación residual, y
tests de significancia) sean cumplidos satisfactoriamente (Ramsey, J. B. and A. Alexander
(1984). "The Econometric Approach to Business-Cycle Analysis Reconsidered," Journal of
Macroeconomics, 6:347-356.)
13 La lógica de incluir potencias es directa. Suponga que el modelo es logarítmico (p.e., y =x  z 
). Una expansión de Taylor para linealizarlo exigiría términos de segundo orden al menos. Su
omisión –como sucede en el modelo original– implica que el residuo tiene precisamente esa
estructura.
5.10
Existen dos posibles variables aleatorias de interés que se obtienen del conjunto
de regresiones auxiliares: los estimadores recursivos y los residuos recursivos. Para
ambos hay distintos tests.
Tests de residuos recursivos. Hay dos tests clásicos de residuos recursivos: CUSUM y
CUSUM-Q. Consideremos primero la varianza predicha del error de predicción de
(5.16):

−1
 2 = 2 1x t '  x t−1 ' x t −1 x t
t
(5.17)
y ahora computamos recursivamente la variable aleatoria wt tal que
wr =
r
 1x '  x
r
(5.18)
−1
r −1
' x r −1  x r
r =t
El test CUSUM computa W r =
1
∑ w donde  es la varianza estimada de
 r =k1 r
w r . Bajo la hipótesis nula W r tiene media cero y su varianza es aproximadamente igual
a la suma de los residuos normalizados (es decir, una variable aleatoria i.i.d.
estandarizada). Por ello el intervalo de confianza se obtiene de las rectas
[ k ,a ±T −k ½ ] y [ k ,3 a ±T −k ½ ] y se fija a para niveles de significancia de 95% o
99%. Un ejemplo se ve en la Figura 5.2.
Figura 5.2
Test CUSUM
30
20
10
0
-10
-20
-30
80
82
84
86
C U S UM
88
90
92
94
96
98
5% S ignif icanc e
El test CUSUM-Q, por otro lado, utiliza una variación del test anterior pues
estudia el estadígrafo:
5.11
r =t
∑
w 2r
∑
2
r
S r = r =k1
r =T
(5.19)
w
r =k1
donde la diferencia entre el numerador y denominador está en la extensión de las sumas
(t vs.T). Bajo la hipótesis nula, la esperanza del estimador es (aproximadamente)
E[S r ]=t −k/T −k y su varianza es una función compleja de (t-k) para la cual
existen tablas (ver Figura 5.3).
Un problema de los tests CUSUM es que su poder –es decir, la habilidad para
rechazar la alternativa cuando ésta es falsa— no es monótono. En particular, éste puede
depender del tamaño del quiebre, haciendo que su poder se vaya a cero si el quiebre es
suficientemente grande. La razón es que la varianza de los errores se computa sin
considerar que hay un quiebre. Además, es posible que el poder tampoco sea monótono
cuando hay más de un quiebre en los datos.14
Figura 5.3
Test CUSUM-Q
1.2
1.0
0.8
0.6
0.4
0.2
0.0
-0.2
80
82
84
86
88
90
CU SUM of Squares
92
94
96
98
5% Significance
Finalmente, la estimación recursiva del modelo produce para cada iteración un
valor del estimador de los parámetros –con su respectiva desviación estándar– que se
puede utilizar como medida visual de la inestabilidad de una regresión y de la presencia
de cambios de régimen. Como se ve en la Figura 5.4.
14 Ver P. Perron (2007) “Dealing with Structural Breaks”, Palgrave Handbook of Econometrics, Vol.
1: Econometric Theory, T.C. Mills and K. Patterson (eds)
5.12
Figura 5.4
Estimación recursiva de los estimadores de los parámetros
Test de Predicción (One Step Ahead Forecast Error Test)
Si uno considera la ecuación (5.16) notará que los residuos recursivos
corresponden al error de predicción un periodo fuera de muestra. Es posible, entonces,
testear si la distancia entre la predicción y el valor verdadero está dentro de un intervalo
de confianza definido (p.e., 95%). Una descripción gráfica de este test es presentada en la
siguiente figura. Se observan en azul los residuos recursivos, con su desviación estándar
(escala derecha). En la escala izquierda se identifican aquellos errores que están entre
5%, 10% y 15% fuera de rango
Figura 5.5
Predicción un paso adelante
.4
.2
.0
-.2
.00
-.4
.05
.10
.15
80
82
84
86
88
90
Probabilidad Un-Paso Adelante
92
94
96
98
Residuos Recursivos
5.13
Tests para quiebres múltiple
Hemos visto qué hacer cuando se desconoce la ubicación del quiebre y cómo
puede ayudarnos los tests recursivos. Otra preocupación legítima es determinar si existe
uno o más quiebres y su ubicación. La literatura sobre quiebres sucesivos es
relativamente reciente y tiene relación con modelos de parámetros cambiantes (en el
sentido que los parámetros van cambiando en el tiempo y t =t x t t ) y/o con
problemas de no estacionariedad (es decir, cuando la media u otros momentos de la
distribución conjunta de los datos cambian con cada nueva observación).
Recientemente, Andrews, Lee and Ploberger (1996) estudian una clase de test
óptimos para el caso en que haya un quiebre pero que en el caso de múltiples quiebres
son poco prácticos pues exigen computar todas las posibles particiones de una muestra
de tamaño T en l segmentos o quiebres.15 Bai Perron (2003)16 sugieren usar un proceso
secuencial. En primer lugar, se computa el valor del máximo test de Wald para un
cambio estructural, suponiendo que sólo existe un quiebre. Luego se toma la subpartición más grande de los datos y se vuelve a realizar el test de Wald para un único
cambio estructural. El procedimiento se repite mientras sea necesario, sujeto al tamaño
mínimo que puede tener un segmento (usualmente k+1). Naturalmente, la distribución
de este test secuencial no es estándar pues las hipótesis está anidadas (es decir, el
segundo test de Wald depende de haber hecho bien la inferencia del primer test de
cambio estructural, el tercero de los dos primeros, etc.), por lo que Bai y Perron proveen
tablas de valores críticos ad-hoc.
5.03 Problemas de Especificación III: Datos erróneos
El análisis empírico frecuentemente se enfrenta a problemas con los datos en dos
dimensiones: datos perdidos y variables cercanas. Naturalmente, es posible que estos
problemas sucedan simultáneamente, pero para efectos pedagógicos los vamos a
estudiar por separado.
Datos Perdidos
Supongamos que el modelo es del tipo y i = x i i . Obviamente, pueden
haber datos perdidos en la variable de interés, y, o en los regresores, x. Ello puede
suceder por varias razones. En primer lugar, porque no existen los datos para algún
determinado período de tiempo o segmento de la muestra. Lo más común es que esto
suceda porque los encargados de estadísticas no levantan los datos de base o porque las
muestras se han perdido. Segundo, porque los datos existen pero están en distinta
15 Ver Andrews, D.W.K., Lee, I., Ploberger, W. “Optimal change point tests for normal linear
regression”. Journal of Econometrics 70: 9-38, 1996.
16 Bai, J. and P. Perron “Critical values for multiple structural change tests”. Econometrics Journal,
6:72-78, 2003.
5.14
frecuencia a la necesaria para hacer el análisis empírico (p.e., datos mensuales versus
trimestrales).
La literatura sobre datos perdidos es extensa pero puede sintetizarse en las
siguientes conclusiones. Primero, si los datos se han perdido de manera aleatoria, los
estimadores de mínimos cuadrados serán consistentes pero más ineficientes que en el
caso que la muestra estuviese completa. La razón es, obviamente, que la muestra con
datos perdidos contiene menos información. Segundo, si los datos no se han perdido de
forma aleatoria pero sólo afectan a las variables de lado izquierdo, entonces no hay
sesgo y sólo hay problemas de eficiencia. Este caso es llamado sesgo de selección exógeno.
Tercero, si los datos no se han perdido de forma aleatoria pero sólo afectan a las
variables de lado derecho, entonces hay sesgo de selección endógeno. En este caso, hay
correlación entre regresor y residuo –por cuanto las observaciones disponibles están
limitadas de forma no aleatoria— e, inevitablemente, hay sesgo en el estimador de
mínimos cuadrados.17
La existencia de datos perdidos suele llevar a los econometristas despistados a
intentar “soluciones” que, como se discute a continuación, no son efectivas. Para discutir
estos métodos podemos particionar la matriz de datos de acuerdo al Cuadro 5.1:
Cuadro 5.1
Problemas de disponibilidad de datos
Datos existen
yA
xA
Datos
perdidos
-
xB
Datos
perdidos
yC
-
Note que siempre podemos estimar el estimador  en el subconjunto A. El
punto es ver cómo usar los datos restantes. Estudiaremos primero el caso A+B, es decir
cuando faltan algunas observaciones de la variable condicionada (o de lado izquierdo).
Posteriormente, veremos el caso A+C, es decir cuando faltan algunas observaciones de
los regresores.
17 La solución a este tipo de sesgo de selección más popular es el estimador en dos etapas de
Heckman. Éste consiste en hacer una regresión inicial tipo probit para dar cuenta de los
determinantes de la selección de la muestra y, en una segunda etapa, se estima el modelo
original tomando en cuenta los resultados del modelo probit. Ver J. Heckman, "Sample
Selection Bias as a Specification Error," Econometrica, 47(1): 153-6, 1979.
5.15
Datos perdidos en la variable condicionada. Una sugerencia frecuente es utilizar algún
método para hacer una predicción de y B y usar posteriormente el modelo econométrico
completo para estimar  , es decir usando [ y A  yB , x A x B ] . El quid del asunto radica
en cómo predecir y B . Hay dos alternativas populares:
•
Alternativa popular 1.
Rellene los datos faltantes con la media de y A . Es
fácil demostrar que como resultado se produce sesgo en los parámetros.
•
Alternativa popular 2.
Estime  en el subgrupo A, prediga y B usando
dicho estimador, y luego estime el modelo completo. Es directo demostrar que el
procedimiento es inútil.
Datos perdidos entre los condicionantes. Nuevamente la sugerencia popular es hacer una
predicción de y C y usar el modelo completo para estimar  , es decir usando
[ y A  y C ,x A  x C ] . ¿Cómo predecir x C ?
•
Alternativa popular 1.
Rellene los datos faltantes con la media de x A .
Demuestre que este procedimiento es equivalente a eliminar los datos del
segmento C.
•
Alternativa popular 2.
Haga una regresión de x en y en el subgrupo A,
estime un parámetro γ y prediga x C usando dicho estimador. Luego estime el
modelo completo. Demuestre que este procedimiento viola el espíritu del análisis
econométrico.18
Medina y Galván (2007)19 revisan nuevos procedimientos –desarrollados durante
las últimas décadas— que tienen mejores propiedades estadísticas que las opciones
tradicionales, tales como la eliminación de datos, el pareo de observaciones, el método
de medias y el hot-deck. Ellos concluyen que los algoritmos de imputación de datos se
pueden aplicar, pero que imputar información no debe entenderse como un fin en sí
mismo. Sus implicaciones en el análisis secundario de datos deben evaluarse con
cautela, y este trabajo concluye que no existe el método de imputación ideal.
18 Si usted encuentra deprimente las conclusiones de esta sección considere la célebre opinión de
Charles Babbage (1869) Errors using inadequate data are much less than those using no data at all.
19 Fernando Medina y Marco Galván, “Imputación de datos: teoría y práctica”, Serie Estudios
Estadísticos y Prospectivos No 54, CEPAL.
5.16
Variables cercanas (proxies)
Una variable proxy es un sustituto cercano (es decir, imperfecto) de la verdadera
variable que no es observable o no está disponible. Usualmente el uso de variables
cercanas puede ser entendido como la presencia de “variables medidas con error”.
Puede haber proxies de la variable de interés o de los regresores, pero el efecto sobre el
estimador de mínimos cuadrados ordinarios de los parámetros no es igual. Recordemos
que el estimador mínimos cuadrados se derivan de:

=x
' x −1 x ' 
(5.20)
y del supuesto cov [x ,]=0 . Podemos reescribir la ecuación anterior como:
−1
[ ][ ]
x'x

−=
n
x'
n
(5.21)

Hasta el momento se ha cumplido que plim [ −
]= Q xx  x  , pero la matriz de
covarianzas se desvanece cuando n→∞. Veamos ahora qué sucede cuando se usan
variables cercanas.
Proxy para la variable de interés: Sea el modelo que nos gustaría estimar y *=x  . Pero
sólo disponemos de y *= y  , donde  es un shock aleatorio, con media cero y
2
varianza   . Entonces el modelo estimable es y =x ε−μ =x ν , donde =− .
Nóte que ν es una variable aleatoria con media cero y cuya covarianza con x
también es cero. Luego se satisfacen todos los supuestos del modelo clásico y no hay
problemas de sesgo en los estimadores de mínimos cuadrados. Obviamente, la varianza
del estimador de los residuos está sesgada --siendo más grande— porque incluye tanto
la varianza de  como la de  . Sin embargo, ese sesgo no es posible corregirlo sin
2
conocer   .
Proxy de los regresores: Sea el modelo que nos gustaría estimar y =x ∗ . Pero sólo
disponemos de x =x∗ , donde  es un shock aleatorio con media cero y varianza
2
  . Ahora el modelo es y =x −=x  donde =−  . El problema
radica
en
que
hay
correlación
entre
regresor
y
residuo
porque
2
cov [x ,]=cov [x ∗ ,−]=−  . El estimador de mínimos cuadrados es:
5.17
n

=
1/n ∑ x i y i
i=1
n
(5.22)
1/n ∑ x
2
i
i =1
veamos el plim:
n
plim  =
plim 1/n ∑  x *i  x *i 
i=1
(5.23)
n
plim 1/n ∑  x 
*
i
2
i=1
y como x*,  , y  son independientes entre sí, se obtiene:

plim =
 Q*
Q *  2
(5.24)
con Q *= plim 1/n x *' x * .
Podemos reescribir (5.24) como:
plim  =

 2
1 *
Q
(5.25)
2
por lo tanto, si hay incertidumbre (   ≠0 ), el estimador de mínimos cuadrados
ordinarios del parámetro  es inconsistente y sesgado hacia cero. A mayor error de
medida, más fuerte este efecto de atenuación.
5.18
Datos influyentes y extremos (outliers)
En el análisis empírico es usual encontrar valores tanto para la variable de interés
como sus determinantes que “no parecen formar parte del experimento en cuestión”
(también llamados outliers).20
Se entiende por “datos influyentes” aquellos que de ser incluidos o excluidos de
la muestra producen grandes variaciones en la estimación, sea en los estimadores de los
parámetros o en los estadísticos asociados (p.e., bondad de ajuste). La influencia de
estas observaciones se debe tanto a la naturaleza del estimador de mínimos cuadrados
como al tamaño de la muestra usada para obtener el estimador. En primer lugar, el
estimador de mínimos cuadrados se obtiene al minimizar la suma de residuos al
cuadrado, por lo que las observaciones más alejadas del promedio de los datos reciben
más valoración. Eso puede hacer que el estimador sea sensible a valores extremos. En
segundo lugar, el tamaño de muestra determina el impacto de valores extremos, pues
este problema será más agudo mientras más pequeña sea la muestra. Obviamente, en
una muestra grande el efecto de un valor extremo es contrapesado por más
observaciones y, por lo tanto, tiene menos efectos sobre el estimador.
En la literatura se distingue entre valores extremos (outliers) y valores
influyentes. Valores extremos se refieren usualmente a valores de y que se desvían
mucho de la media condicional en x. Valores influyentes se refieren a valores de x que se
desvían de la media muestral y que, por lo tanto influyen mucho en la estimación. En la
figura 5.6 se presentan ambos tipos de valores para el caso del modelo más simple,
y i = x i i .
Figura 5.6
Valores influyentes y extremos
y
x
20 Esta es la definición clásica de outlier de Hawkins, D. (1980). Identification of Outliers. Chapman
and Hall, London.
5.19
Frecuentemente los valores extremos e influyentes se producen por errores al
ingresar los datos de la muestra: por ejemplo, es común que sucedan porque se
invirtieron dígitos (601 en vez de 106) o porque una coma está mal puesta (12,5 en vez
de 1,25). Es por ello que lo primero que se debe hacer es revisar los datos
cuidadosamente.
Existe un centenar de algoritmos de detección de valores influyentes que se
basan en seleccionar distribuciones conocidas para los datos (normal, exponencial, etc.)
y en definir un intervalo de confianza para determinar si un dato es un valor extremo o
no lo es (p.e., 90% o 95%).21
Una manera de detectar valores extremos es estudiar los residuos: si el valor
predicho se desvía del efectivo de manera notoria se puede tratar de un valor extremo.
No obstante, esta no es una manera que garantice la detección. La razón es que el
residuo se mide con respecto a la recta de regresión la que podría variar si se incluye o
excluye el valor extremo. Usualmente se estudian los residuos estandarizados –es decir,
los residuos divididos por su desviación estándar— de modo de normalizar su tamaño.
Otra forma es estudiar la “incidencia” de cada dato en el estimador. Recordemos
que en el estimador de mínimos cuadrados cada observación de y es ponderada por
H =x x ' x −1 x ' . Si se estudia la diagonal de H, es decir los valores de hii, es
relativamente directo ver la influencia de cada observación en la estimación. Valores con
mucha incidencia suelen señalar la presencia de valores influyentes o extremos. Además
esto pone de manifiesto el hecho que valores más alejados de la media de los regresores
tiende a darles más influencia.
Cuando la muestra es pequeña, tanto la media como la desviación estándar
muestrales pueden ser distorsionadas por la misma presencia de valores influyentes. Es
por ello que en ese caso se usan tests de detección de datos influyentes basados en la
mediana y su desviación estadística, porque éstas no son sensibles a los valores
extremos. El más conocido de estos tests para muestra pequeña es el de Dixon (1950) 22
que se basa en suponer que los datos se distribuyen normales. El test consiste en ordenar
los datos de menor a mayor y computar el siguiente estadígrafo para cada observación
 x n  :
TN7 =
x n −x n−1
x  n− x 1
(5.26)
El valor de TN7 computado se compara con los valores críticos particulares para
tamaños de muestras que van desde 3 observaciones en adelante. 23 Si el valor obtenido
21 Un tratamiento comprensivo del tema se encuentra en Outliers in Statistical Data, V. Barnett
and T. Lewis, 1994, 3rd edition, John Wiley & Sons, Chichester.
22 Dixon, W.J. (1950): “Analysis of extreme values”, Annals of Mathematical Statistics, 21(4):488–
506.
23 S. Verma y A. Quiroz-Ruiz, “Critical values for six Dixon tests for outliers in normal samples
5.20
es mayor que el valor de tablas se rechaza la hipótesis nula que la observación n-ésima
no es un valor extremo. El estadígrafo TN7 reconoce que en una muestra pequeña
resulta mucho más difícil determinar si una observación es un valor extremo porque no
hay suficiente información.
5.04 Problemas de Especificación IV: Colinealidad
El problema de colinealidad (también llamado multicolinealidad) consiste en que
los regresores no son independientes entre sí. Cuando se impuso el supuesto de
identificación, es decir que x ’ x −1 fuese positiva definida, no se eliminó el problema
que los regresores estén correlacionados imperfectamente. 24 Consideremos el siguiente
modelo:
y i =1 x 1i 2 x i2 3 x 3i i
(5.27)
pero supongamos que los regresores están correlacionados de acuerdo a la siguiente
relación:
x 3i = 1 x 1i  2 x 2i  i
(5.28)
Introduciendo (5.28) en (5.27) resulta obvio que:
y i = 11 3  x 1i 22 3 x 2i t 3  i
(5.29)
Hay dos interpretaciones interesantes de la ecuación anterior. Primero, se puede
estimar  j  j  pero no podemos “identificar”  j . Segundo, el efecto “marginal” de
xk sobre y tiene dos componentes: uno directo (  j ) y otro que se filtra indirectamente a
través de xj ( k j ). Note, además, que la varianza del error ( 3  ) tiene una
estructura particular.
El efecto que tiene la colinealidad sobre el estimador mínimos cuadrados es algo
sorprendente. Tomando el estimador
up to sizes 100, and applications in science and engineering” Revista Mexicana de Ciencias
Geológicas, 23(2):133-161, 2006.
24 Otra razón para que x ’ x −1 no exista es que el rango de x sea mayor que el rango de x’.
5.21
−1
E [  ]=E [  x ' x  x ' y ]
=E [  x ' x  x i '  x  ]
−1
(5.30)
=E [ x ' x  x '  ]
−1
Por lo tanto, en tanto la matriz de momentos de los regresores exista, el
estimador sigue siendo insesgado. Ello porque independientemente de si los regresores
son estocásticos o no, la correlación entre regresor y error en valor esperado es cero lo

que implica que E[ ]=
.
Si los parámetros no son sesgados, ¿dónde está el efecto de la colinealidad?
Debido a que el problema es que cov  x 1, x 2 ≠ 0 , entonces tiene que afectar la matriz de
momentos de los regresores, x ' x . Veamos cómo la afecta con algunos ejemplos
prácticos. Recordemos que la inversa de x ' x es su adjunta dividida por el
determinante, es decir:
[
=
]
[
a 11 a 12
1
a 22 −a 12
−1
entonces  =
a 11 a 22 −a 12 a 21 −a 21 a11
a 21 a 22
]
(5.31)
Supongamos
[ ]
[ ]
1
= 1 0 ⇒−1 = 1 0
1 0 1
0 1
(5.32)
y ahora consideremos casos donde la covarianza entre las variables no es cero:
[
]
[
]
(5.33)
[
]
[
]
(5.34)
1
1
−0.6
= 1 0.6 ⇒−1 =
0.6 1
0.64 −0.6
1
1
1
−0.9
= 1 0.9 ⇒−1 =
0.9 1
0.19 −0.9
1
Resulta evidente cómo se va reduciendo el determinante de la inversa. Entonces,
 = 2  x i ' x i −1 , la presencia de colinealidad se traduce en varianzas de
dado que V  
los estimadores de los parámetros cada vez más grandes. En el límite la varianza tiende
a infinito.
5.22
Esto es congruente con lo que obtuvimos en (5.29). Cuando la colinealidad es
perfecta no es posible distinguir entre el efecto directo e indirecto. Es decir, no podemos
precisar el valor de los parámetros (varianza infinita).
En la realidad, la colinealidad perfecta no existe (salvo por error). Pero tampoco
existe, usualmente, la ausencia de colinealidad (piense en el papel de las expectativas y
cómo éstas correlacionan muchas variables económicas). Por ello, siempre habrá algún
grado de colinealidad.
Otro síntoma de la colinealidad es que los estimadores de los parámetros se
vuelven inestables (poco robustos). La inestabilidad se produce porque la estimación
punto de los parámetros bajo alta colinealidad depende de la conformación de la
muestra. Si sacamos un(os) dato(s) de la muestra, la estimación de los parámetros suele
cambiar fuertemente.
¿Como detectamos la presencia de colinealidad?
Podríamos estudiar la correlación de los regresores antes de estimar el modelo.
Esta práctica es esencial en cualquier modelación econométrica, pues aparte de detectar
posibles problemas de colinealidad nos ayuda a descubrir errores en los datos. Un
problema práctico, no obstante, es que no es muy claro cuándo hay alta colinealidad
entre dos o más variables. Naturalmente una correlación de 99% es alta y una de 5% es
baja, pero para una correlación de 57% no es clara la conclusión.
Otra alternativa es investigar si los estimadores de los parámetros son inestables.
Si bien esto es correcto, existen otros problemas –que veremos más adelante– que
también producen inestabilidad. Por ello, este test no es conclusivo.
Una tercera alternativa frecuente es que, si bien los parámetros no son
significativos por la alta varianza, como un todo la regresión es satisfactoria. Ello se
traduciría en el caso “ R 2 alto pero  no significativos”. Hay que reconocer, sin
embargo, que no es una regla muy firme, porque una variable irrelevante en un modelo
satisfactorio tendría el mismo síntoma.
¿Qué solución tiene la colinealidad?
En estricto rigor, no existe ninguna solución. La colinealidad no es un problema.
Es una característica de las variables aleatorias utilizadas en el modelo. Es decir, una
característica del problema económico.
5.23
En ocasiones, la teoría económica permite imponer restricciones que evitan el
problema de colinealidad. Por ejemplo, considere el siguiente modelo translog para el
PIB, que denominamos Y:
log Y = 1 log KF 2 log KH 3
log  KF 1/ 2
 log KH 1/2
4
5 log  KF  log KH 
2
2
donde KF es el capital físico y KH es el capital humano. Usted sospecha que hay
colinealidad entre ambos tipos de capital. Si es válido imponer la restricción de retornos
constantes de escala (  1 =1− 2 y  3 = 4 =5 =−1 ) entonces es posible reducir el
problema de colinealidad. Esto, sin embargo, no es lo usual.
No obstante, algunos textos tradicionales suelen presentar pseudo soluciones
empíricas al problema de colinealidad que vale la pena estudiar para (a) descubrir su
inaplicabilidad y (b) porque existen otros usos para estas técnicas que se utilizan a
menudo.
1.
Elimine alguna variable para la que haya evidencia de colinealidad con otras. En
1
2
3
el modelo y i =1 x i 2 x i 3 x i i entonces se podría eliminar, digamos,
x 3 . El resultado es:
y i =1 x 1i 2 x 2i 3 x 3i i
1
2
=1 x i 2 x i i
(5.35)
Obviamente, el problema de colinealidad se reduce. 25 Sin embargo, tenemos un
problema grave. Ahora cov  x 1 , y cov  x 2 , no son cero. Por ello, los
estimadores están sesgados, no se conoce el tamaño o la dirección del sesgo, y las
varianzas de los estimadores pueden estar sobre-estimadas.
2.
El método de “ridge”. Esta técnica se basa en la observación que los parámetros
son difíciles de identificar porque las varianzas de los parámetros son
relativamente pequeñas en comparación con las covarianzas. Las varianzas están
2
−1
en la diagonal de   x ’ x  . Por ello, este estimador sugiere sumarle “algo” a
dicha diagonal, de modo que los parámetros sean identificables. El estimador de
“ridge” es:
−1
 RD =[ x i ' x i rD ] x i ' y i
(5.36)
donde r es un escalar pequeño (p.e., 0.01) y D una matriz diagonal.
Obviamente, ahora las varianzas de los parámetros estimados van a ser menores.
25 ¿por qué sólo se reduce y no se elimina?
5.24
−1
2
Var   RD = [ x i ' x i rD ]
(5.37)
Pero este “beneficio” se obtiene a costa de:

−1
E[  RD ]=E [ x i ' x i rD ] x i ' y i

=E  [ x i ' x i rD] x i ' x i  
≠
−1
(5.38)
Hemos vuelto a obtener dos resultados importantes: (a) modelos con variables
pertinentes omitidas producen parámetros sesgados, y (b) es posible tener
estimadores sesgados más eficientes que un estimador insesgado.
3.
Método de componentes principales. Otra propuesta de solución de
colinealidad consiste en extraer de la matriz x ' x  los componentes principales
de ésta. Si el problema de las x es que no hay independencia lineal, ¿por qué no
seleccionamos aquellos x que son “más independientes”? Así, mejoraría la
estimación del modelo, pues el subconjunto de x seleccionado representaría bien
a todas las variables del modelo. La pregunta es equivalente a ¿cuál combinación
lineal de las x es la que tiene el mejor ajuste a todas las x? Esa será la mejor
“representante”.
Sea la combinación lineal z 1 =x a 1 . Entonces, z 1 ' z 1=a 1 ' x ' x a 1 . Buscamos a 1
tal que maximicemos z 1 ' z 1 (piénselo como matriz de información). Obviamente, si no
restringimos a 1 es posible que [z 1 ʹ z 1 ]→ ∞ . Por ello, optimizamos restringiendo a que
a 1 ʹ a 1 =1 (a esto se le llama normalizar). Usando la técnica de Lagrange:
max a =a1 ' x ' x a 1 −1 a 1 ' a 1−1
1
(5.39)
derivando obtenemos la siguiente condición de primer orden:
∂
=2x ' xa 1 −2 1 a 1=0
∂a 1
(5.40)
es decir:
x ' x a1 −1 a 1=0
(5.41)
5.25
por lo tanto, a 1 es un vector característico. Recuerde, a 1 es el vector característico
asociado a λ1 la raíz característica. ¿Cuál vector característico? Aquel asociado a la raíz
característica más grande de x ' x .
Así, hemos escogido el primer componente principal. Ahora, escogemos el
segundo, a 2 . Para ello optimizamos sujeto a a 1 ya encontrado y a que a 1 sea ortogonal
a a 2 ( a 1 ' a 2 =0 )
max a =a 2 ' x ' x a 2 − 2 a 2 ' a 2 −1−a 1 ' a 2
2
(5.42)
Así, obtenemos la siguiente condición de primer orden del problema restringido
∂
=2x ' xa 2−22 a 2−a 1 =0
∂a 2
(5.43)
entonces, premultiplicamos por a 1 '
(5.44)
2 a 1 ' x ' x a 2 −2 2 a1 ' a 2 − a 1 ' a 1=0
pero a 1 ' a 2 =0 y a 1 ' a 1 =1 . Por ello, =0 . Se deduce entonces que x ' x a2 = 2 a 2 , es
decir a 2 es el segundo vector característico (correspondiente a la segunda raíz
característica, 2 ).
Podemos hacer esto k veces, obteniendo a k soluciones. Si lo hiciéramos k veces,
obtendríamos una representación exactamente equivalente a la matriz original x ' x .
Juntamos los resultados en la matriz A=[a 1 ,a 2 ,... ,a k ] que describe los ponderadores
de los “componentes principales” de x ' x , tal que Z=xA son los Z componentes
principales. Note que:
[
1 0
0 2
Z ' Z= A ' x ' xA==
⋮ ⋮
⋯ 0
⋯
⋯
⋱
⋯
0
0
⋮
k
]
(5.45)
Además, si el rango de x es r k habrá k−r valores propios iguales a cero.26
26 Se puede usar los valores propios como test del grado de colinealidad. Si el estadígrafo toma
un valor grande, ello indica la presencia de un nivel grave de colinealidad. (D.A. Belsley,
“Demeaning conditioning diagnostics through centering (with discussion)”, The American
Statistician, 38:73-93.
5.26
Finalmente, el estimador de componentes principales será:
cp=[Z ' Z ]−1 Z ' y
(5.46)
pero Z ' y = A ' x ' y= A ' x ' [ x ]= A ' x '  x = A ' x ' x  . Entonces, se desprende
−1
que  cp = A  de donde se deduce que:
•
el estimador de componentes principales es una combinación lineal de los
verdaderos parámetros.
•
que el estimador de componentes principales es sesgado.
•
la varianza del estimador  cp es menor que la de  mco .
Habitualmente, se calculan los componentes sobre variables originales
estandarizadas, es decir, variables con media 0 y varianza 1. Esto equivale a tomar los
componentes principales, no de la matriz de covarianzas sino de la matriz de
correlaciones (en las variables estandarizadas coinciden las covarianzas y las
correlaciones). Así, los componentes son autovectores de la matriz de correlaciones y son
distintos de los de la matriz de covarianzas. Si se actúa así, se da igual importancia a
todas las variables originales. En la matriz de correlaciones todos los elementos de la
diagonal son iguales a 1. Si las variables originales están tipificadas, esto implica que su
matriz de covarianzas es igual a la de correlaciones, con lo que la variabilidad total (la
traza) es igual al número total de variables que hay en la muestra. La suma total de
todos los autovalores es p y la proporción de varianza recogida por el autovector j
-ésimo (componente) es λj/p.
El uso del estimador tiene serios problemas. Primero, los estimadores son
sensibles a la escala de los datos. Por ello se recomienda estandarizar las variables (1/σ²),
pero esto afecta los resultados (cambia A). En realidad, todos los tests para detectar la
colinealidad sufren la debilidad de ser sensibles a transformaciones lineales de los datos
(origen y escala).27 Segundo, la selección de los componentes principales se hace en
función de x y no de y, lo que sería preferible. Tercero, la interpretación de los
parámetros es muy difícil, pues no serán los coeficientes asociados a las variables sino
aquéllos asociados a una combinación lineal de las variables.
Note que nuevamente encontramos que (1) modelos con variables pertinentes
omitidas producen parámetros sesgados, y (2) es posible tener estimadores sesgados
más eficientes que un estimador insesgado.
27 Maddala (1977) propone otras “soluciones” para colinealidad. Entre ellas (a) usar información
a-priori, (b) transformar las variables (logs o razones) y (c) usar más datos. Estudiar y evaluar
si éstas son útiles o no. G.S. Maddala (1977) Econometrics McGraw-Hill editors.
5.27
5.05 Modelos de Varianza No Constante
Esta es una familia con dos ramas principales de modelos: heterocedasticidad y
correlación de residuos. Estudiaremos en primer lugar el tema de heterocedasticidad y
luego el de correlación de residuos (el contexto más usual es series de tiempo, pero
existe una incipiente literatura en correlación espacial).
Es común, sobre todo en muestras de corte transversal, que los datos tengan
heterocedasticidad, es decir, que los residuos (innovaciones) provengan de
distribuciones con distintas varianzas. Por otro lado, en modelos de series de tiempo es
común observar correlación residual, es decir que la observación de un residuo en un
determinado instante de tiempo contenga información útil para predecir el error en otro
instante de tiempo. Naturalmente, en algún caso particular se puede enfrentar
simultáneamente la presencia de heterocedasticidad y correlación residual. Desde un
punto de vista pedagógico conviene tratar ambos problemas por separado.
En el caso en que la varianza de los errores no sea residual, el modelo general se
escribe de la siguiente manera:
y i =x i i
E[i ]=0
E[i i ' ]= 2 
(5.47)
donde Ω es una matriz definida positiva.
Obviamente, cuando Ω=I, volvemos al caso de mínimos cuadrados ordinarios.
Por ello, el modelo descrito en (5.47) es llamado modelo de regresión generalizado.
Gráficamente, el problema de heterocedasticidad se ve de la siguiente manera:
Figura 5.7
Cuando estudiamos heterocedasticidad suponemos que la matriz de covarianzas
de los errores es del tipo:
5.28
[
 21 0 0 ⋯ 0
2
 2 = 0  2 0 ⋯ 0
⋮ ⋮ ⋱ ⋮ ⋮
0 0 ⋯ 0  2n
]
(5.48)
en cambio cuando hablamos sólo de correlación residual nos referimos a:
[
1
1

1
 2 = 1
⋮
⋮
n−1 n −2
2
1
⋱
⋯
⋯  n−1
⋯ n −2
⋮
⋮
1
1
]
(5.49)
donde los i son correlaciones (es decir, covarianzas divididas por varianzas). Note que
en (5.48) las covarianzas son cero, en tanto que en (5.49) las varianzas son constantes.
Nuevamente, estas separación es sólo para efectos pedagógicos, pues en la práctica no es
infrecuente encontrar ambos problemas.
5.06 Heterocedasticidad
¿Cual es el efecto de la heterocedasticidad sobre un estimador mínimos
cuadrados? Recordemos que el estimador mínimos cuadrados se puede escribir como
 x ' x −1 x ' y =x ' x −1 x ' 
=
(5.50)
y es el mejor estimador lineal insesgado, distribuyéndose asintóticamente normal. Más
aún, si el residuo es normal, el estimador es eficiente.
Propiedades de muestra pequeña


Tomando esperanza en (5.50) obtenemos E[ ]=E
x [E [ | x ]]= , es decir el
estimador sigue siendo insesgado. Esto es razonable porque el problema de
5.29
heterocedasticidad se refiere al segundo momento (varianzas) y no a la media de los
errores.
Tomemos la varianza del estimador para el caso que x es no estocástico:
 x ]=E [ −


Var [ |
−'
|x ]
−1
=E [x ' x  x ' ' x  x ' x −1 | x ]
=x ' x −1 x ' E [ ' ] x x ' x −1
=x ' x −1 x ' [ 2 ] x x ' x −1
(5.51)
lo que podemos escribir como:
 x ]= 
Var [ |
n
2

1
x'x
n
−1

1
x 'x
n

1
x'x
n
−1

(5.52)
•
Si x es estocástico, la varianza no condicional es E x [Var   | x ] .
•
2
−1
−1
Si  se distribuye Normal, entonces  ↝ N [ ,  x ' x  x '  x x ' x  ] .
Entonces, lo único que cambia es la varianza del estimador que ahora no es
 2  x ' x −1 , por lo que las inferencias basadas en esta última están sesgadas. Por otro
lado, el estimador de σ² no tiene por qué haber retenido sus propiedades. Usualmente,
2
−1
no podemos saber si   x ' x  es mayor o menor que (5.52), por lo que los test t o F
resultan inadecuados.
Propiedades de muestra grande
Retomemos la ecuación (5.52). Resulta evidente que:
•
si los regresores se comportan bien, los términos 1/n x ' x convergerán a Q.
•
el término σ²/n converge a 0.
•
el término 1/n x '  x no tiene por qué converger.
Se puede demostrar que si los regresores cumplen las condiciones de Grenander,
1/n x '  x converge. Ello sucede en casos de heterocedasticidad pero no
necesariamente cuando hay correlación de residuos. En este último caso, el estimador es
inconsistente.
5.30
Finalmente, el estimador es asintóticamente normal porque las mismas
condiciones de Grenander que impusimos para que
[

= 1n x ' x
 n  −
−1
][
1
x'
n
]
(5.53)
se distribuya asintóticamente normal, se cumplen aún si hay heterocedasticidad.
También, se aplica el teorema de límite central.
La varianza asintótica del estimador será:
 2 −1
1
−1
V.A. = Q plim x '  x Q
n
n


(5.54)
En resumen, la heterocedasticidad no afecta la estimación punto de los
parámetros porque éstos no dependen de la varianza de la distribución. Pero,
obviamente afecta la varianza del estimador.
Recordemos que:
Var [  | x ]= x ' x −1 x ' [ 2 ]x  x ' x −1
(5.55)
2
Cuando hay homocedasticidad, E[i i ' ]= I , por lo que el problema se
2
reduce a tener un estimador de  . Por el contrario, el problema que presenta la
existencia de heterocedasticidad en un experimento es exactamente nuestra ignorancia
respecto de la estructura de ésta, es decir, respecto de E[i i ' ] . Vamos a realizar un
truco que es estándar en la literatura econométrica: derivamos el estimador óptimo y sus
propiedades bajo el supuesto que conocemos E[i i ' ] y luego estudiamos qué sucede
si esta última suposición no es correcta. El primer estimador es llamado el estimador
eficiente, en tanto que el segundo es llamado estimador posible.
Estimación eficiente
Si tuviésemos E[i i ' ] podríamos resolver el problema. Pensemos que, en ese
caso, podríamos usar directamente el estimador de la varianza:
Var   OLS = x ' x −1 x ' E [ ' ]x  x ' x −1
(5.56)
5.31
Basados en la idea que una matriz positiva y definida puede ser factorizada,
vamos a hacer una factorización conveniente. Tomemos una matriz T(n×n) y
premultipliquemos el modelo, tal que
(5.57)
Ty i =Tx i T i
Se sigue cumpliendo que E[T ]=0 , por lo que podemos obtener:
E[T  ' T ' ]= 2 T ' T
(5.58)
Ahora, si T ' T =I habríamos solucionado el problema de heterocedasticidad,
pues podemos estimar el modelo (5.57) por mínimos cuadrados ordinarios ya que los
errores serían homocedásticos y recuperar los estimadores de los parámetros del modelo
−1
original. Queremos, entonces, encontrar T tal que  =T ' T para ponderar el modelo.
El estimador de mínimos cuadrados ponderados –también llamado estimador de
Aitken28– sería:
 GLS = x i ' T ' T x i −1 x i ' T ' T y i
−1
−1
−1
=x i '  x i  x i '  y i
pero T ' T =−1
(5.59)
Nóte que este estimador es más general de lo que parece. Ciertamente, cualquier
forma de heterocedasticidad puede ser acomodada en el estimador, provisto que la
2
matriz de covarianza de los errores sea diagonal del tipo   . Nuevamente, note que
el estimador de mínimos cuadrados ordinarios es un caso particular de mínimos
cuadrados generalizados, aquel donde T=I.
Estimación Posible
¿Qué sucede cuando  es desconocida? En algunas ocasiones, un reducido
número de parámetros, θ, es capaz de describir el patrón de heterocedasticidad. Por
2
2

 , es decir, el estimador de
ejemplo,  i = f z i ;  entonces, podríamos usar =

 basado en el estimador de θ.
así.
  . En realidad, no es siempre

Esto parece lógico: si plim =
entonces →
 −1 x i −1 x i ' 
 −1 y i el estimador de mínimos cuadrados
Sea  FGLS = x i ' 
28 A. Aitken (1935), “On least squares and linear combinations of observations”, Proceedings of
the Royal Statistical Society, 55:42-48.
5.32
generalizados posible. ¿Cuándo son asintóticamente equivalentes  FGLS y  GLS ? Las
condiciones son:
[
[
]
1
1
x ' −1 x − x ' −1 x =0
n
n
1
1
−1
−1
plim
x '  − x '   =0
n
n
plim
(5.60)
]
La primera condición dice que si la matriz de momentos ponderados converge a
una matriz positiva definida, la matriz de momentos ponderados posibles debe
converger a la misma matriz. Esto, en realidad, es un supuesto.
La segunda condición dice que si los regresores transformados están bien
comportados, la suma (y por consiguiente el estimador) se distribuirá asintóticamente
igual a la verdadera suma y estimador (no necesariamente, pero típicamente, normal).
Lo interesante es que no se necesita que el estimador de θ sea eficiente, basta con
que sea consistente para que el estimador de mínimos cuadrados generalizados posible
sea eficiente. Para demostrar esto basta con plantear el estimador máximo-verosímil de
los parámetros del modelo generalizado y demostrar que es equivalente al de mínimos
 o
cuadrados generalizados posible, por lo que no hay ganancia de eficiencia al usar 
.
Tests de Heterocedasticidad
Una buena razón para estudiar tests de heterocedasticidad es, naturalmente, la
detección del problema y su eventual corrección. Una razón más sutil, sin embargo, es
que cada tipo de test nos enseña de manera simple y valiosa una forma particular que
puede tomar la heterocedasticidad y, por lo tanto, nos prepara para anticipar en cuáles
contextos una u otra forma de heterocedasticidad puede estar presente.
1.
Tests en muestras repetidas
Este es el test más simple de heterocedasticidad y se aplica cuando se tienen
varias muestras repetidas de un mismo experimento. Un ejemplo en el cual este test es
aplicable es cuando se tienen datos agrupados (p.e., ciudades): en cada cada ubicación
habrá ni observaciones de distribuciones con varianzas potencialmente diferentes.
La lógica de operación es la siguiente:
2
•
Estime el modelo y i =x i i y compute 
 i para cada muestra i=1, ..., m.
•
 * con todos los datos.
Estime el modelo y i =x i i y compute 
2
5.33
El test es directo sobre la hipótesis nula que la varianza de los grupos no difiere
de aquella de la muestra completa, ajustando por tamaños relativos
m
Homocedasticidad ≡ H 0 :n−m  ln  −∑ n j −1 ln  2i =0
2
*
j =1
m
(5.61)
Heterocedasticidad ≡ H 1 : n−m  ln 
 −∑ n j −1 ln  ≠ 0
2
*
j=1
2
i
El test es, directamente, un test de razones de verosimilitud
[
]
m
−2 n−m  ln  −∑ n j −1 ln  2i ↝ 2 m −1
2
*
j =1
(5.62)
Debido a que los estimadores de las varianzas por muestra y totales son formas
cuadráticas de errores normalizados, el test se distribuye χ²(m-1). Los grados de libertad
se derivan del número de varianzas libres (m) menos la restricción de una única varianza
común.
Test de Breusch y Pagan29
2.
Este test se aplica cuando no hay muestras repetidas y, por lo tanto, no es posible
disponer de varias realizaciones de la variable aleatoria 
 2 . Una vez estimado el
modelo y i =x i i , lo que se hace es:
2
2
•

Computar g i =i / 
•
Hacer una regresión entre gi y las variables que quiera, incluyendo x, y computar
la suma de cuadrados explicados, SCE.
El test consiste en estudiar la suma de cuadrados explicados, SCE. Si una
regresión puede “explicar” la proxy de heterocedasticidad, entonces hay
heterocedasticidad. Alternativamente, si hay homocedasticidad, solo la constante
debiese ser estadísticamente significativa. Por ello,
H 0 : Homocedasticidad ≡SCE=0
H 1 : Heterocedasticidad ≡ SCE ≠ 0
(5.64)
29 Breusch, T and A. Pagan (1979), “A simple test of heteroskedasticity and random coefficient
variation”, Econometrica 47:1287–1294.
5.34
Debido a que los estimadores de las varianzas por muestra y totales son formas
cuadráticas de errores normalizados, ½SCE se distribuye χ²(p-1) bajo la hipótesis nula.
Los grados de libertad se derivan del rango de regresores, p, en la segunda regresión.
Test de Goldfeld y Quandt30
3.
Este test aprovecha información extra-muestral para estudiar problemas de
heterocedasticidad. Si creemos que la variable xk es la causante de heterocedasticidad, el
procedimiento es:
•
Ordene la muestra de mayor a menor segun xk.
•
Remueva c datos del centro de la muestra.
•
Haga la regresión del modelo y i =x i i en cada grupo y compute la suma
de cuadrados residuales, SRC.
El test consiste en estudiar la diferencia entre las SRC. Si éstas son iguales,
significa que no hay heterocedasticidad. Por ello,
H 0 : Homocedasticidad ≡ SRC 1 =SRC 2
H 1 : Heterocedasticidad ≡ SRC 1 ≠ SRC 2
(5.65)
Como estamos comparando dos sumas de residuos normales al cuadrado y hay
el mismo número de regresores y datos en cada sub-grupo, entonces el test es
SCR 1
n−c /2−k
↝F
.
SCR 2
n−c /2−k
[
]
Test de White31
4.
El test de White utiliza una lógica similar a la del test de Breusch y Pagan en el
sentido de hacer una regresión entre la proxy de la varianza de los errores y el grupo de
regresores de la regresión original, x, pero lo extiende para incluir sus cuadrados y
productos cruzados. Es decir,
•
•
Computar i = y i −−
  x i
2
2
Hacer una regresión entre  i y las variables x i , x i y los productos cruzados
xi x j .
Es decir,
30 S. M. Goldfeld and R. E. Quandt (1965), “Some tests for homoskedasticity”, Journal of the
American Statistical Association, 60:539–547.
31 White, H. (1980), “A Heteroscedasticity-Consistent Covariance Matrix Estimator and a Direct
Test for Heteroscedasticity”. Econometrica, 48:817-838.
5.35
 2i = x i  x 2i x i x j ' i
(5.66)
La hipótesis nula es que en un caso de homocedasticidad ninguno de los
coeficientes, mas allá de la constante, debe ser significativo. El test preferido de White es
un multiplicador de Lagrange hecho sobre la hipótesis nula que ninguna variable
debiese ser significativa si el modelo es homocedástico. Aunque la distribución de
muestra finita es desconocida, es posible demostrar que nR2 se distribuye
asintóticamente χ2(p), donde p es el número de estimadores excepto la constante. Otra
alternativa es hacer un test F estándar de variables omitidas.
Note que este test es bastante general pues no se necesita hacer supuesto alguno
sobre la forma de la heterocedasticidad que afecta potencialmente a los datos. Sin
embargo, el test es potente solo asintóticamente lo que significa que tiene poca potencia
en muestras pequeñas. Adicionalmente, el uso de muchos términos cruzados hace difícil
el rechazo de la hipótesis nula y exacerba el problema de pocos grados de libertad.
Matrices de Covarianzas Robustas
Hay muchísimos tests de heterocedasticidad. Pero ¿realmente necesitamos estos
tests? ¿necesitamos entender qué es lo que causa la heterocedasticidad?
•
2
Verdaderamente, no. Lo que queremos es   para poder hacer mínimos
cuadrados generalizados.
•
 , un estimador de   .
En realidad, no. Lo que queremos es  2 
•
Tampoco, lo que queremos es un estimador de =

•
 sino sólo su diagonal.
En realidad, lo que queremos no es todo 
2
2 x '  x
n
White (1980) demuestra que un buen estimador de
S 0=
=
2 x '  x
n
es
1
 2 x ' x . Por ello, la “matriz de corrección de la varianza de los parámetros
n∑ i i i
para el caso de heterocedasticidad” –también llamada “matriz de errores robustos”– es:
Var   =n  x i ' x i −1 S 0 x i ' x i −1
(5.67)
Note que no es necesario conocer la forma de la heterocedasticidad, pues el estimador es
general.
5.36
Extensión de Newey y West
Newey y West (1987) han extendido el estimador de White para el caso en que la
matriz Ω no es diagonal. El estimador es:
J
n
1
j

Q=S
  x ' x x t − j ' x t 
0 ∑ ∑
n j =1 i = j 1 J 1 t t − j t t − j
(5.68)
donde j/(J+1) es una corrección no paramétrica por tamaño de muestra.
Modelos de heterocedasticidad condicional
Generalmente estamos interesados en modelar la media condicional de una
variable serie. No obstante, recientemente se ha hecho común modelar la varianza de la
serie, pues ella puede reflejar comportamientos que son característicos de algunos
problemas económicos tales como los precios de activos, variables financieras, riesgo,
etc.
Los modelos de heterocedasticidad condicional son modelos donde la varianza
de la serie no es constante, aunque sigue un proceso estacionario. Un modelo típico de
esta familia es el modelo ARCH32:
y t = x t t
t =t  01 2t −11/ 2
(5.69)
con  normal estándar. Como resulta obvio, E[t | t −1 ]=0 y E[ t ]=0 . Así es que el
modelo sigue describiendo la media condicional de y t .
Ahora, la varianza condicional, V [t | t −1 ] , es
V [t |  t −1 ]=E [2t | t −1]
=E [2t ][0 1 2t −1 ]
=[01 2t−1 ]
(5.70)
Pero la varianza no condicional, V [t ] , es
32 Engle, R. F. (1982). "Autoregressive Conditional Heteroskedasticity with Estimates of the
Variance of U.K. Inflation," Econometrica, 50:987-1008.
5.37
V [t ]=E [V t | t−1]
=01 E [t2−1 ]
=0 1 V [t2−1 ]
(5.71)
Pero si la varianza es estacionaria, en el sentido que no cambia en el tiempo,
entonces V [t ]=V [t −1 ] , por lo que la ecuación (5.71) implica
V [t ]=
0
1− 1
(5.72)
¿Cómo se ve un proceso de este tipo? Gráficamente:
Figura 5.8
Proceso ARCH y su varianza
Es decir, la serie presenta segmentos de comportamiento disímil. El proceso
alterna entre periodos de gran inestabilidad, donde shocks grandes son seguidos de
shocks grandes, y otros de relativa estabilidad, donde shocks pequeños siguen a shocks
pequeños.
Resulta natural preguntarse qué modelo económico puede producir este tipo de
comportamiento. Un ejemplo típico son las guerras de precios en mercados donde hay
colusión. Mientras la disciplina del cartel se mantiene hay sólo pequeñas desviaciones
5.38
del precio, en cambio cuando se rompe el cartel hay grandes fluctuaciones de precios en
la medida que todos los productores compiten por una mayor participación del
mercado.
El modelo ARCH puede ser extendido para incorporar términos tipo media
móvil en la varianza predicha. En ese caso se llama GARCH (por generalizado) 33 y se
modela:
y t = x t t
 2t =01 2t−1 2  2t −1
(5.73)
También se puede extender para incluir regresores, z t en la varianza, de modo
que el modelo queda:
y t = x t t
 2t =01 2t−12  2t −1 3 z t
(5.74)
Finalmente, algunos modelos incluyen la varianza condicional en el modelo de la
media condicional. Esto da origen a un modelo ARCH-M que es ampliamente usado en
finanzas.34
y t = x t  t2t
2
2
2
 t =01 t−1 2  t −1
(5.75)
¿Cómo sabemos que el modelo es del tipo GARCH? Una manera simple es
estimar el modelo de la media condicional, luego obtener los residuos, computar los
residuos al cuadrado (estimador de la varianza) y computar la función de
autocorrelación. Si ésta no muere súbito en t=1, hay heterocedasticidad condicional.
Es posible, además, hacer tests de especificación para saber si el modelo correcto
es GARCH(p,q) o GARCH(0,q). El problema está en que ese tipo de test no permite
discernir entre esa hipótesis y esta hipótesis: GARCH(0,q) vs GARCH (0,p+q).
¿Cómo estimamos un modelo GARCH? El proceso de estimación es bastante no
lineal. Lo que se hace es iterar en la función de verosimilitud hasta que ésta alcance un
máximo. Ello supone que los errores son normales.
33 Bollerslev, Tim (1986). "Generalized Autoregressive Conditional Heteroskedasticity," Journal
of Econometrics, 31:307-327.
34 Engle, Robert F., David M. Lilien, and Russell P. Robins (1987). "Estimating Time Varying Risk
Premia in the Term Structure: The ARCH-M Model," Econometrica, 55:391-407.
5.39
2
−1
1
1  y t − x t 
2
log L =
log 2− log  t −
2
2
2
 2t
(5.76)
Donde
 2t =c  y t −1 − x t −1 2  t2−1
(5.77)
5.07 Correlación de residuos
Supongamos ahora que que E[i , j ]≠ 0 . En tal caso, la matriz de covarianza de
residuos es:
[
 11  12
 21  22
⋮
⋮
 n1  n2
⋯  1n
⋯  2n
⋱ ⋮
⋯  nn
]
(5.78)
Aún si consideramos el problema de residuos son homocedásticos
[
 2  12 ...  1n
 21  2 ⋯  2n
⋮
⋮ ⋱ ⋮
2
 n1  n2 ⋯ 
]
(5.79)
y simétrica, es decir,  ij = ji resulta imposible de estimar (5.79) con una muestra finita.
Hay más incógnitas que grados de libertad. Usualmente:
•
Si la forma de  ij no es parametrizable, es decir no tiene una estructura, no es
estimable.
•
Si la forma de  ij es parametrizable, es decir tiene una estructura (simple), es
estimable.
•
Si es estimable, los parámetros estimados por mínimos cuadrados del modelo
y t = x t t siguen siendo insesgados, excepto si las variables de lado derecho
5.40
contienen un rezago de la variable endógena. La demostración del primer caso
es:
 x t ' x t −1 x t ' y t pero y t = x t t
=
 x t ' x t −1 x t ' [ x t t ]=x t ' x t −1 x t ' t
=
(5.80)

y por lo tanto, E[ ]=
.
Supongamos que
Entonces,
y t = x t t y t = t−1  t donde
[
t
es ruido blanco.
2
2 2
∑ x t x t −1 2 ∑ x t x t −2 ...N −1 ∑ x 1 x N

V [  ]=


2
2
∑ xt ∑ xt
∑ x 2t
∑ x 2t
∑ x 2t
]
(5.81)

 ] sólo si ρ =0 , es decir cuando no hay correlación.
por lo tanto, V [ ]=V
[ OLS
La varianza del estimador bajo autocorrelación podrá ser mayor o menor que la
de mínimos cuadrados dependiendo del valor de  . Si  es positivo, se sobreestima la
varianza. Si  es negativo, no es claro el sesgo.
La solución al problema es, naturalmente, usar mínimos cuadrados
generalizados, pero esto sólo es posible si conocemos Ω. Lo que se hace, usualmente, es
hacer tests estadísticos para determinar el tipo de correlación de los residuos, dentro de
modelos relativamente simples en términos del número de parámetros.
¿Cómo sabemos si hay correlación residual?
Un test bastante común es el de Durbin y Watson 35, para el caso de errores con
correlación de orden 1. Es decir, t = t −1  t (correlación de orden 2 es
t =1 t −12 t −2 t ). El test es:
T
∑ t −t −1 2
d = i=2
(5.82)
T
∑
2
t
i=1
35 Durbin, J. and Watson, G.S., "Testing for Serial Correlation in Least Squares Regression I",
Biometrika, Vol. 37, 1950, pp. 409-428.
5.41
La lógica es que:
•
si hay correlación positiva, t será “cercano” a t−1 y, por lo tanto, d será
cercano a cero.
•
si hay correlación negativa t será “lejano” a t−1 y, por lo tanto, d será distinto
de cero.
Desarrollemos el cuadrado del numerador de la ecuación (5.82).
T
T
∑ t −t −1 =∑ [2t 2t −1−2 t t −1]
2
i=2
(5.83)
i=2
Sumando y restando convenientemente:
T
T
T
∑ t −t −1 =∑  − ∑ 
2
i=2
i =1
2
t
2
1
i =1
T
− −∑ 2 t t −1
2
t −1
2
T
(5.84)
i =2
de vuelta en (5.82)
T
T
T
∑ 2t −12∑ 2t−1−2T −∑ 2t t −1
d = i=1
i=1
i=2
(5.85)
T
∑
2
t
i=1
es decir,
T
d =1−
21

T
∑
2
t
i=1
T
∑ 2t −1
i=1
T
−
∑
2
t
i=1
∑ 2 t t −1
2T
− i=2
T
∑
i=1
2
t
(5.86)
T
∑
2
t
i=1
Notemos que:
•
Si T es razonablemente grande, el segundo y cuarto términos serán cercanos a
cero.
•
Igualmente, el tercer término será cercano a 1.
•
El último término es interesante, porque es
5.42
cov t , t−1
var t −1 
(5.87)
es decir, es el estimador natural de mínimos cuadrados de  . En resumen, podemos
escribir d ≈ 21− .
Volvamos al test de Durbin y Watson. Si d ≈ 21− , entonces tenemos los
siguientes casos:
•
Si no hay correlación d = 2.
•
Si hay correlación positiva, 0 , d es menor que 2. En el límite, d es 0 cuando
 es 1.
•
Si hay correlación negativa, 0 , d es mayor que 2. En el límite, d es 4 cuando
 es -1.
por lo tanto, d estará entre 0 y 4.
La aplicación del test no es tan simple, porque hay tres casos que estudiar. En
este caso habrá dos “tests” son:
H 0 : No hay autocorrelación
H 1 : Hay autocorrelación positiva
H 0 : No hay autocorrelación
H 1 : Hay autocorrelación negativa
Como se ve, la hipótesis nula es siempre la misma pero la hipótesis alternativa es
compleja. Otro problema es que usamos los residuos del mínimos cuadrados como
estimadores de los residuos verdaderos, es decir, éstos dependen de x. Por ello, la
distribución del test no es estándar y tiene distintos límites superiores e inferiores.
Si hacemos un test de correlación positiva al 95%, entonces (1) si d está por
encima del limite superior no puedo rechazar la H 0 que no hay autocorrelación y (2) si
d está por debajo del límite inferior tengo correlación positiva.
5.43
Figura 5.9
Inconcluso
No hay o negativa
Positiva
LI LS
2
Si hacemos un test de correlación negativa al 95%, entonces (1) si d está por
debajo de 4-limite superior no puedo rechazar la H 0 que no hay autocorrelación y (2) si
d está por debajo del límite inferior tengo correlación positiva.
Figura 5.10
Inconcluso
Positiva o no hay
Negativa
2
4-LS 4-LI
El test completo de Durbin y Watson para autocorrelación es:
Figura 5.11
Inconcluso
Inconcluso
Negativa
Positiva
No hay correlación
LI LS
2
4-LS 4-LI
5.44
El test de Durbin y Watson no se puede aplicar cuando hay variables del lado
izquierdo rezagada al lado derecho. En ese caso se usa el test h de Durbin (1970).36 Este
estimador consiste en computar
h=r

n
1−n  2
(5.88)
donde r es el coeficiente de correlación del primer rezago, n es el tamaño de muestra y
 2 es la varianza del estimador del rezago de la variable endógena. El estadígrafo h se
distribuye normal estándar.
Soluciones al problema de correlación de primer orden.
Volvamos al modelo original.
y t = x t t
t = t −1t
(5.89)
Podemos multiplicar el modelo original por  , rezagarlo un periodo y restarlo
del original para obtener:
y t − y t −1= x t −  x t −1t −t −1
(5.90)
es decir:
y t = y t −1[x t − x t −1 ] t
(5.91)
•
Note que ahora no hay problema con los errores.
•
Si conociéramos  , podríamos transformar los datos y estimar con mínimos
cuadrados. En realidad esto equivale a hacer mínimos cuadrados generalizados.
¿Lo conocemos? No. Pero tenemos una aproximación, d. Obtenemos d haciendo
una regresión en los residuos originales de mínimos cuadrados y luego usamos
=1−

d /2 .
36 Durbin, J. “Testing for serial correlation in least squares when some of the regressors are
lagged dependent variables” Econometrica, 38: 410-421.
5.45
Hay una estrategia estadísticamente mejor (Cochrane-Orcutt). 37
1.
Estimar el modelo original por mínimos cuadrados y obtener los residuos.
2.
Hacer una regresión entre residuos y su rezago, obteniendo 1
3.
Transformar el modelo usando 1 (es decir, y t −1 y t −1 , etc).
4.
Ir a 1 y volver a hacer el ejercicio hasta que el  converja.
Un problema del método de Cochrane-Orcutt es que nada garantiza que la
distribución del estimador  converja a un óptimo global y, de hecho, podría ser el caso
en que haya más de una moda en dicha distribución. Es por ello que se sugiere usar una
estrategia de búsqueda sobre la base de una “grilla” que verifique todos los valores de
 y satisfaga algún criterio de óptimo (p.e., mejor ajuste). En tal caso, un método
sencillo es el de Hildreth y Lu 38 que consiste en estimar el modelo transformado con 
=1, 0.99, 0.98, ... 0 ,... -0.99, -1 y se escoge el estimador minimizando la suma de residuos
al cuadrado.
5.08 Variables instrumentales
El último supuesto que no hemos levantado es la ausencia de correlación entre
los regresores y el error, es decir, E[ x ,]=0 . En numerosas ocasiones no es posible
estar seguros que ello se cumple, en particular cuando se usan datos macroeconómicos.
El problema ocurre, en primer lugar, cuando hay variables omitidas que están
correlacionadas con aquellas que se usan para modelar. Por ejemplo, cuando se estudia
el rendimiento escolar y se omite la educación de los padres como determinante,
entonces la estimación entrega resultados sesgados porque algunas variables
independientes (p.e., ingresos familiares) están típicamente relacionadas con la variable
omitida. Un segundo caso se produce cuando hay problemas de endogeneidad en
alguna variable del lado derecho: este “sesgo de simultaneidad” lo estudiaremos más
adelante. Una tercera causa de violación de este supuesto es cuando las variables
independientes están medidas con error. En tal caso, como vimos en la sección 2, cada
vez que se observa x no se observa la verdadera variable sino una medición con ruido el
cual estando correlacionado con x queda incluido en el error. Una cuarta causa de
correlación entre regresor y residuo se da cuando hay sesgo de selección, es decir
cuando la conformación de la muestra no es independiente del diseño del experimento.
Es decir, cuando aquellos que más se benefician del tratamiento son aquellos que más
participan del mismo.
37 Cochrane, D. and G.H. Orcutt, 1949, Application of least squares regression to relationships
containing autocorrelated error terms, Journal of the American Statistical Association, 44: 32-61.
38 Hildreth, C. and J.Y. Lu, 1960, Demand relations with autocorrelated disturbances, Technical
bulletin 276, Dept. of agricultural economics (Michigan State University, East Lansing, MI).
5.46
¿Qué sucede con el estimador de mínimos cuadrados si E[ x ,]≠0 ? Ninguno
de los resultados que obtuvimos sobre las propiedades del estimador de mínimos
cuadrados se mantienen. En particular, sabemos que va a haber sesgo, usualmente de
tamaño y dirección desconocidas. Además, las varianzas de los estimadores están
distorsionadas (típicamente, subestimadas).
Una solución sería usar una o más variables que, estando correlacionadas con los
regresores, no esté relacionadas con el error. En ese caso, vamos a usar dicho conjunto de
variables auxiliares como un instrumento de x. En términos sencillos, buscamos un
conjunto z tal que la correlación entre z y x sea alta pero que la correlación entre z y 
sea baja. Usualmente esto resulta más fácil de decir que de hacer. 39
En primer lugar vamos a demostrar que el estimador mínimos cuadrados bajo la
hipótesis que los residuos están correlacionados con x en el modelo de interés es
inconsistente. Como existe correlación entre regresor y residuo:
E[| x ]=i
(5.92)
Supongamos que E[]=0 . Este supuesto es irrelevante si la ecuación incluye
una constante. La correlación entre regresor y residuo puede ser escrita como:
Cov [x i , i ]=Cov [ x i , i | x ]=Cov [x i ,i ]=
Aplicamos el Teorema de Kinchine y obtenemos plim
(5.93)
1
x ' = . Si esto es cierto,
n
entonces
−1

E[ ]=
 x ' x  x ' ≠
(5.94)
y por ello el Teorema de Gauss-Markov no se sostiene. De hecho, el estimador es,
además, inconsistente porque

plim =
plim  x ' x 
−1
plim x ' = Q −1 ≠ 
(5.94)
39 Aunque la mayor parte de los textos señalan que el estimador de variables instrumentales fue
desarrollado en el contexto de modelos de ecuaciones simultáneas, el primer trabajo que
desarrolla este método es el de Sewall Wright (1928) en un apéndice del libro de su padre P.G.
Wright The Tariff on Animal and Vegetable Oil. El término “variable instrumental” fue acuñado
por Olav Reiersol (1941, “Confidence Analysis by Means of Lag Moments and Other Methods
of Confluence Analysis”, Econometrica, 9:1-24). Reiersol colaboró también con el desarrollo del
esperanto (O. Reiersol and R. C. Marble: A comparison between word formation in Esperanto
and English, Esperantologio, Volumo I, Numero 1, pp. 1-80, Aûgusto 1949)
5.47
Derivemos ahora el estimador de variables instrumentales, IV . En particular
notemos que la varianza no condicional de  es
Var [i ]=Var [ | x i E[i | x i ] ]= 2∞
(5.95)
Los supuestos necesarios para derivar el estimador IV son:
•
[x i ,z i ,i ] son secuencias i.i.d. de variables aleatorias
•
E [ x ij ]= Q xx ∞ y constante
•
E [ z 2ij ]= Q zz ∞ y constante
•
E [ x ij ,z ij ] = Q xz ∞ y constante
•
E [ ij | z ij ] =0
2
Así lo que se obtiene es:
1
plim Z ' Z= Q zz
n
1
plim Z ' X = Qzx
n
1
plim Z ' =0
n
(5.96)
Las condiciones (5.96) definen el conjunto de instrumentos admisibles. Sea
entonces el modelo y i =x i i y supongamos que tenemos un conjunto de variables z.
Entonces pre-multipliquemos el modelo por zʹ :
(5.97)
z i ' y i =z i ' x i z i ' i
Aplicando el plim tenemos
plim





1
1
1
z i ' y i = plim z i ' x i  plim z i '  i
n
n
n
pero el último término es cero. Entonces

(5.98)
5.48

1
plim z i ' x i
n
−1

plim


1
z ' y =
n i i
(5.99)
Note que para que (5.99) tenga sentido, z ’ x tiene que ser una matriz
conformable. Por ello, debe haber k variables en la matriz z. En este caso, estimador de
variables instrumentales es
 IV =z i ' x i −1 z i ' y i
(5.100)
Note que este estimador es consistente. Es decir, sus propiedades son asintóticas.
Por ello, el tamaño de muestra es una consideración importante al momento de usar
variables instrumentales. Note que en el caso especial que i =0 , entonces γ=0 y
obtenemos el estimador de cuadrados mínimos. Es decir, el estimador de variables
instrumentales es más general que el de cuadrados mínimos. Otra manera de pensarlo es
que en el caso que no haya correlación entre regresor y residuo, el mejor instrumento de
x será el mismo x y el estimador de variables instrumentales es el estimador clásico
mínimos cuadrados.
La distribución del estimador de variables instrumentales se obtiene de manera
análoga al caso de mínimos cuadrados ordinarios. Es decir,
[
 n   IV −  =
1
z'x
n
−1
][
1
z '
n
]
(5.101)
Basado en el análisis que hicimos para el caso de ausencia de correlación entre
regresores y residuos, el último término cumple
1
d
z '  N [ 0,  2 Q zz ]
→
n
(5.102)
por lo que:

1
z'x
n
  
1
d
2
−1
x '
N [ 0, Q −1
xz  Q zz  Q zx ]
→
n
El estimador de la varianza de los residuos es, naturalmente,
(5.103)
5.49
n
2
1
 = ∑  y i −x i ' iv 
n i =1
2
(5.104)
¿Qué sucede si la matriz tiene un rango mayor a k? Naturalmente, z ' x no es
cuadrada y no tiene inversa. Sin embargo, consideremos el siguiente algoritmo:
a)
Hacer una regresión de x en z (para todo x).
b)
Hacer una predicción de x basada en z llamada x .
c)
Hacer una regresión de y en x .
Note que el estimador derivado en la etapa a) no tiene problemas de consistencia
y que la proyección derivada en b) es una representación óptima de x y que, además, por
el hecho de ser una predicción es ortogonal a  .
Entonces, el estimador del modelo estimado usando la predicción sería:
 IV = x ' x −1 x ' y
(5.105)
Este es un procedimiento de mínimos cuadrados en dos etapas (2SLS). 40 Es muy
común en la literatura empírica. Pero es posible estimar todo el modelo en un sólo paso.
Debido a que x =z z ' z −1 z ' x , entonces
 IV =x ' z z ' z −1 z ' x −1 x ' z z ' z −1 z ' y
(5.106)
Quedan los detalles –que se los dejo a ustedes– de obtener la varianza del
estimador de variables instrumentales y, lo que es más difícil, el estimador de la
varianza de los residuos. Un punto que no es menor es el de la dimensionalidad de las
matrices en (5.106). Para que la estimación sea posible es necesario que el número de
instrumentos sea al menos igual al número de variables que se está instrumentando.
Hay algunos econometristas que señalan que el estimador natural de la
econometría clásica es el de variables instrumentales. Mínimos cuadrados sería una caso
particular en el que el mejor instrumento de x es la misma variable. Como mínimos
cuadrados es también un caso particular de mínimos cuadrados generalizados, entonces
el estimador mínimos cuadrados generalizados con variables instrumentales (GLS-IV)
debiera ser el más general de todos los estimadores lineales.41
40 El método de mínimos cuadrados en dos etapas fue desarrollado en 1957 por R.L. Basmann
(“A generalized classical method of linear estimation of coefficients in a structural system of
stochastic equations”. Annals of Mathematical Statistics 20:46-63) y popularizado por H. Theil en
su clásico libro Economic Forecasts and Policy, North Holland, Amsterdam, 1958.
41 Un tratamiento completo de este estimador se encuentra en el libro de R. Bowden y D.
Turkington, Instrumental Variables, Cambridge University Press, 1984.
5.50
Condiciones de validez de los instrumentos
Una pregunta muy importante en la aplicación de métodos de variables
instrumentales es ¿cómo saber si los instrumentos son adecuados? En principio, le
hemos exigido dos características a las variables para que sean instrumentos adecuados:
(1) que estén correlacionados con la(s) variable(s) que tiene el problema de correlación
con el error, y (2) que no estén correlacionados con el residuo. La primera condición es
que el instrumento sea pertinente, en tanto que la segunda exige que sea exógeno.
Cuando el número de instrumentos es igual al número de variables que se quiere
instrumentar, las condiciones antes expuestas son directas y el estimador de variables
instrumentales está exento de complicaciones. Cuando hay un mayor número de
instrumentos, la primera condición se vuelve menos clara. Si uno considera el estimador
de variables instrumentales como un estimador de dos etapas, entonces contar con un
número muy grande de posibles instrumentos en una muestra finita puede ser costoso
en términos de grados de libertad. Si el modelo es, además, multivariado el problema
del número y tipo de instrumentos es parte fundamental del análisis de modelos de
ecuaciones simultáneas.
¿Qué sucede si algunos de los instrumentos, en realidad, están correlacionados
con el error? Entonces, el estimador es inconsistente. Pero si hay al menos tantos
instrumentos válidos como variables que necesitan ser instrumentadas, el estimador
sigue siendo consistente. Entonces ¿cómo podemos hacer un test de validez del supuesto
que hay suficientes instrumentos válidos? En principio, se podrían obtener los residuos
de la estimación de variables instrumentales y luego hacer una regresión de éstos en los
instrumentos. Si el R² de esta segunda regresión es cero, entonces los instrumentos no
están correlacionados con el residuo. El problema es que si el R² es significativo,
entonces algunos o todos los instrumentos son inválidos, pero no sabemos cuáles.
El siguiente procedimiento, llamado test de Wu-Hausman 42, es frecuentemente
usado para estudiar la ortogonalidad entre instrumento y residuo. El modelo es de la
forma y =x z 2  , donde z 2 es una matriz de regresores fijos entre muestras (por
esta razón z 2 es ortogonal al residuo  ). Suponga que existe un conjunto de variables
z 1 y que podemos definir z =z 1 ∪z 2 como la matriz de instrumentos de x. Entonces el
estimador de variables instrumentales en dos etapas se puede escribir como:
 2SLS =Y ' P z Y −1 Y ' P z
−1
y donde P z =z z ' z  z '
(5.107)
42 Este test fue propuesto por M. D. Wu (“Alternative Tests of Independence Between Stochastic
Regressors and Disturbances”, Econometrica, 40:733-750, 1973) y corresponde al caso particular
del test de J. Hausman (“Specification Tests in Econometrics”, Econometrica, 46:1251-1271,
1978). A. Nakamura y M. Nakamura prueban la equivalencia de ambos tests (“On the
relationships among several specification tests presented by Durbin, Wu and Hausman”,
Econometrica, 49:1583-1588, 1981).
5.51
De esta manera, los estimadores de mínimos cuadrados y variables
instrumentales son:
−1
 OLS =[ x ' I −P z  x ] [ x ' I −P z  y ]
−1
 IV =[ x '  P z −P z  x ] [ x '  P z −P z  y ]
2
(5.108)
2
2
2
−1
−1
donde P z =z z ' z  z ' y P z =z 2 z 2 ' z 2  z 2 ' .
2
Wu (1973) demuestra que la diferencia de los dos estimadores se distribuye:
 OLS −  IV ↝ N 0,  2 D
donde
(5.109)
−1
−1
D=[ x ' P z −P z  ] −[ x ' I −P z  ]
2
2
pos.def. , por lo que el siguiente test
adecuado es:
  OLS −  IV ' D−1   OLS − IV 
T 3=
↝ 2G 
2

donde 
 2=
(5.110)
 y−x  IV  ' I −P z  y −x  IV 
, G=rango(x) y K2=rango de z 2 .
n−G−K 2
Si no se rechaza la hipótesis nula significa que ambos estimadores son iguales:
sabiendo que el estimador de mínimos cuadrados ordinarios es sesgado, se concluye que
los instrumentos no pueden ser ortogonales al error.
¿Qué sucede si los instrumentos no están fuertemente relacionados con las
variables que se quiere instrumentar? Este problema es llamado instrumentos débiles.
Existe una creciente literatura al respecto con diferentes enfoques. Hall, Rudebusch y
Wilcox (1996)43 estudian la mínima correlación canónica entre instrumentos y regresores.
Shea (1997) desarrolla un test de R² basado en el uso de regresores adicionales. 44 El
trabajo de Stock y Yogo (2002) 45 es superior a éstos en el sentido que proponen una
definición formal y un test de la debilidad de los instrumentos que , además, nos ayuda
a entender el problema. Si el modelo es de la forma y =Y  y su forma reducida es
43 Hall, A., G.D. Rudebusch and D. Wilcox (1996): “Judging Instrument Relevance in
Instrumental Variables Estimation,” International Economic Review 37:283-298.
44 Shea, J. (1997): “Instrument Relevance in Multivariate Linear Models: A Simple Measure,”
Review of Economics and Statistics 79:348–352.
45 J. Stock y M. Yogo “Testing for weak instruments in linear IV regressions”, NBER Technical
Papers 284, 2002.
5.52
del tipo Y =z  , donde z es la matriz de instrumentos, entonces el estimador de
variables instrumentales en dos etapas se puede escribir como:
 2SLS =Y ' P z Y −1 Y ' P z
(5.111)
Rothenberg (1984)46 demuestra que este estimador puede ser escrito como:
 
 
  2SLS −=
 
½
 u S  /
(5.112)
12  / S  /2
½
½
donde u = ' z /    ' z ' z  , =' z  /   ' z ' z  , S  =' P z  /  ,
½
y S  =V ' P z /      .
2
El parámetro  = ' z ' z  /  es el “coeficiente de atenuación” y es otra
versión del que estudiamos en la ecuación (5.25). Note que si los instrumentos son fijos y
los residuos normales, entonces  y  se distribuyen como normales estándares y
S   y S   son elementos de una matriz con distribución de Wishart. Así, las
distribuciones de estos cuatro elementos no dependen del tamaño de muestra. De hecho,
en la ecuación (5.112) el tamaño de muestra solo entra a través de μ. Más aún, μ cumple
exactamente el rol que  T cumple en la derivación del estimador de mínimos
cuadrados.
La importancia de esta descomposición radica en que si los instrumentos son
2
débiles,  será muy pequeño y la inferencia basada en (5.112) estará sesgada (el
estimador puede estar sesgado y los errores estándares estarán potencialmente mal
computados). Habrá, entonces, dos preguntas prácticas que se derivan de esta
2
observación: ¿cuán pequeño tiene que ser  para que los instrumentos sean débiles? y,
2
si  (y por tanto  ) son desconocidos, ¿como se hace en la práctica para saber si  es
suficientemente pequeño como para señalar que los instrumentos son débiles?
Respecto de la definición de instrumento débil, Stock y Yogo presentan dos
alternativas: (1) un grupo de instrumentos es débil si el sesgo del estimador de variables
instrumentales, relativo a aquel del estimador de mínimos cuadrados, es mayor que un
cierto punto de referencia, b (b=10%, 15%, etc.) y (2) un grupo de instrumentos es débil si
el test de Wald convencional tiene un tamaño que excede algún punto de referencia r (r
=10%, 15%, etc.)
46 T.J. Rothemberg (1984): “Approximating the Distributions of Econometric Estimators and Test
Statistics” Ch. 15 in Handbook of Econometrics, Vol. II, ed. by Z. Griliches and M.D. Intriligator.
Amsterdam: North Holland, 881–935.
5.53
Dada estas definiciones de debilidad, el test propuesto es una variación del test
−1
de Cragg y Donald (1993).47 Retomemos la matriz M X =I −X  X ' X  X ' para escribir
−1
el estimador de mínimos cuadrados como  OLS =  M 0 Y '  M 0 Y    M 0 Y '  M 0 y   ,
en tanto que el estimador de clase k es:
 =[  M X Y '  I −kM Z '  M X Y  ]−1[  M X Y ' I −kM Z '  M X y ]−1
k
(5.113)
El test de Wald asociado a la hipótesis nula H 0 : =0 es:
W k =
donde uu =
[  k −0 ] ' [ M X Y  ' I −kM Z '  M X Y ] [  k −0 ]
n    k
(5.114)
  M X u  k

 M X u  k'
 .

y u  k=
y −Y k
T −K 1−n
El test de Stock y Yogo se hace sobre el mínimo valor propio de la matriz GT (
g min =mineval G T  ), que es una matriz análoga al test F de la primera etapa de 2SLS:
G T =  ½VV '  M X Y ' P Z '  M X Y   ½VV / K 2 donde  VV = M X Y ' M Z Y /T −K 1−K 2 .
La distribución del test no es estándar, pero los autores proveen las tablas con los
valores críticos.
47 Cragg, J.G. and S.G. Donald (1993): “Testing Identifiability and Specification in Instrumental
Variable Models,” Econometric Theory, 9: 222–240.
5.54
Apéndice A:
Ejercicios
1.
Considere la función de producción con elasticidad de sustitución constante
(CES):
Y i ,t = [ 1− K  H
−
i,t
−
i ,t
]
−
 
i ,t
e
Donde los subíndices i y t, son firmas y tiempo respectivamente, Y es el
producto, K es el capital, y H es el empleo calificado y donde los parámetros
 , , y  se denominan parámetros de eficiencia, distribución, rendimientos de
escala, y sustitución, respectivamente. Como la función CES no es lineal en los
parámetros no pueden estimarse por MCO. Demuestre que la función puede linealizarse
utilizando la técnica de Taylor de la siguiente manera:
[
]
2
LnK i , t
ln Y i ,t =i 1 LnK i ,t 2 LnH i , t 3
 i ,t
H i ,t
y encuentre las expresiones de equivalencia entre los estimadores  y los parámetros de
la segunda ecuación.
2.
Usted trabaja en la Viña Don Timoteo. Su jefe (el conocido don Timoteo) le pidió
computar la elasticidad acidez-temperatura del vino syrah. Usted tomó datos por hora
de ambas variables durante varias semanas y estimó usando un modelo de mínimos
cuadrados ordinarios que ésta era -0.82 y el R² era 0.84. Al presentar los resultados, don
Timoteo notó que la medición de temperatura estaba en escala Farenheit y la acidez en
la escala de Gousset, pero el quería la temperatura en grados celsius y la acidez en la
escala PH. ¿Cuál es la nueva elasticidad? ¿Cuál es el nuevo ajuste de la regresión? La
regla de conversión de Farenheit a Celsius es ̊ C =5/9F −32 y la regla de conversión
de Gousset a PH es ̊ G =−1.8 PH .
3.
Después de crecer sostenidamente entre 1985 y 1999, la economía entró en un
ciclo recesivo entre 2000 y 2003. El ministro de Hacienda desea saber si ha habido un
quiebre estructural en la siguiente ecuación que describe el crecimiento de la economía:
 PIB t = 01
Inv t −1
2  PCu t −1 3 CH t −1t
PIB t −1
donde Δ es la primera diferencia, Inv es la formación bruta de capital fijo, PC es el precio
del principal bien de exportación, y CH es el stock de capital humano. ¿Cómo hace usted
un test de Chow de cambio de régimen?
5.55
4.
Suponga que Ud. sospecha que hay cambio estructural en su muestra de n
observaciones a partir del instante T. ¿Qué haría Ud. si desea testear esta hipótesis
usando un test de Chow y su modelo tiene kn−T variables?
5.
Suponga que Ud. cree que hay cambio estructural en su modelo, pero no sabe
dónde se produce. Describa con precisión el test de CUSUM. Plantee el modelo como si
el quiebre fuese en la tendencia y capturable con una dummy. Obtenga el estimador de
los parámetros del modelo con quiebre y compárelo con el del modelo que excluye un
quiebre.
6.
En un trabajo reciente se analizan los determinantes de la migración en función
de costos de transporte y atractivo relativo entre las regiones de origen y destino. El
trabajo postula que en el periodo 1987-92, la fuerza con que migraron las personas no
habría decrecido de manera significativa con respecto al periodo 1977-82. Para ello, se
comparan los resultados de dos regresiones de mínimos cuadrados del siguiente tipo
usando tests de Chow. Haga dos críticas fundamentales al procedimiento.
ln
M ij
=01 P i 2 P j 3 D4 D 2 5 W i −W j 6  W i − W j 6 U i 7 U j
Mi
Donde M es migración, P es población, D es distancia, W son los salarios, Δ es la
primera diferencia y U desempleo. Los subíndices i y j se refieren a cada región y si
estan juntos se refiere “de i a j”.
7.
Suponga que el parámetro arbitrario en el estimador tipo “ridge” es r. Demuestre
que el sesgo del estimador bajo colinealidad crece mientras menor es r.
8.
Demuestre que el R² de una estimación usando el estimador de ridge podría ser
mayor a 1.
9.
La presencia de multicolinealidad hace que el estimador de mínimos cuadrados
no sea MELI (BLUE).
10.
Suponga que dos variables, y , x , son observadas con error de medición, es
decir, para t =1, T
y t = y t  ty
x t =x t  xt
donde las innovaciones se distribuyen i.i.d. Suponga que el modelo de regresión lineal
es el adecuado para las variables no observables:
y t =0 1 x t t
5.56
¿Bajo qué condiciones el estimador de  de la regresión basada en {x,y} es
inconsistente?
d
11.
Al revisar los datos de un estudio de demanda q i = f  p i , y i ;  Ud.
descubre el siguiente fraude: el autor rellenó las observaciones faltantes. Pruebe que el
estimador de la elasticidad precio está sesgado. Pruebe que el estimador de la elasticidad
ingreso (donde no faltan datos) también lo está.
12.
Demuestre que el estimador de mínimos cuadrados generalizados es consistente.
13.
Comente: Resulta innecesario preocuparse por los problemas de
heterocedasticidad si existe la matriz de White (1990). Describa en líneas generales la
extensión de Newey y West (1987).
14.
Aún si se violan los supuestos de homocedasticidad en el modelo clásico de
regresión lineal, los estimadores convergen en probabilidad a normal estándares porque
los residuos se distribuyen asintóticamente normal debido a la ley de los grandes
números no-estocásticos de Markov-Rao.
15.
Al estimar los determinantes de la distribución del ingreso en Guyana (Si) se
encontró que ésta depende de la educación de los padres (Ei), el stock de riqueza de la
familia (Wi), el consumo de drogas de los padres(Xi), el tamaño de la familia (Li) y una
dummy para los padres o madres solteras. Pero además se descubrió que los errores
estaban “ordenados”, de modo tal que para las familias más numerosas los residuos
2
2
2
parecían ser más grandes ( σ i =σ h [ L i ,Z i ] ), donde Z es una variable desconocida
ortogonal a L. Plantee formalmente una estrategia de estimación del modelo usando el
estimador de mínimos cuadrados generalizados (ojo, Z no es observable así es que
plantee primero el estimador GLS suponiendo que Z es conocido y luego intente
resolver el problema de que no conoce Z. No use la matriz de White.
16.
Suponga que en un modelo tipo y =x  se sabe que hay heterocedasticidad
provocada por el uso de variables nominales. Demuestre que en el modelo de mínimos
cuadrados ponderados que utiliza datos reales, el R² está mal definido y la “constante”
es variable ¿Cómo se recuperan los parámetros de interés (  ) del modelo estimado?
17.
Es preferible, en ocasiones, usar mínimos cuadrados en vez de variables
instrumentales aunque el estimador de mínimos cuadrados no sea consistente y el de
variables instrumentales sí lo sea.
18.
Considere el siguiente modelo y t =' x t t , donde algún componente de x es
no observable. Plantee un estimador de variables instrumentales válido. ¿Bajo qué
condiciones este estimador es asintóticamente consistente? Pruebe las condiciones.
19.
El siguiente problema demuestra la necesidad de usar variables instrumentales.
Considere el siguiente modelo:
5.57
c t = y t t
t → N 0,  2 
y t =c t i t
donde i es exógena,
1
T
lim t →∞

=

∑ i t −i =2i .
t
Pruebe que el estimador de mínimos cuadrados de  es
2
 1/ 
2
es ruido blanco (con media cero y varianza σ²) y
2
y que, por lo tanto, hay que usar un instrumento para yt.
2
  i /1−
20.
El test de Durbin-Watson de autocorrelación no se puede aplicar si los errores
son heterocedásticos.
21.
Suponga que su modelo es el siguiente, donde los residuos están
correlacionados:
Y t = Y t −1u t
u t =t t −1
 → N  0,  2 I 
Demuestre que el estimador mínimos cuadrados de δ, es inconsistente.
22.
Demuestre que el siguiente estadígrafo es aproximadamente equivalente a la
correlación de primer orden de los residuos del siguiente modelo: y t = x t t
T
1
=1−
2
∑  yt −1− x t −1− yt − x t 2
i=2
T
∑  yt −1− x t −1 2
i=1
23.
Suponga que su modelo es:
Y t = Y t −1t |  |0
u t =t   t−1
→ N 0,  2 I 
Demuestre

plim =
que
si
se

1−
con =
12 
12
estima
 ∑ Y t Y t −1 / ∑ Y 2t −1 ,
=
entonces
5.58
24.
En un trabajo reciente (Spatial Inequality, Growth, and Migration in Chile, R.
Soto y A. Torche, 2004) se analizan los determinantes de la migración de población entre
regiones en función de costos de transporte y atractivo relativo entre el origen y el
destino. Los datos de migración provienen de los censos de 1982 y 1992 donde se
pregunta ¿dónde vivía usted hace 5 años? El modelo planteado es:
ln
M ij
=01 P i 2 P j 3 D4 D 25W i −W j 6 U i  7 U j
Mi
donde M es migración, P es población, D es distancia, W son los salarios reales, y U el
desempleo. Los subíndices i y j se refieren a cada región y si están juntos se refiere “de i
a j”. Este modelo no es panel.
Compute el sesgo de los estimadores de α1 y α2 si las poblaciones están medidas
con un error que se distribuye con media cero y varianza μ².
¿Son inconsistentes los coeficientes α 3 a α7? Pruébelo usando matrices
particionadas.
25.
Cuando Alvaro estudió el consumo de marihuana en una población de
Concepción, obtuvo el siguiente modelo estimado usando mínimos cuadrados:
C t =0.92 C t −1u t
0.19
donde C es el consumo y el valor entre paréntesis es la desviación estándar del
estimador. Karol observó, sin embargo, que los residuos seguían el siguiente modelo:
u t =t 0.16 t−1
0.02
Compute el sesgo del estimador.
26.
Demuestre que cuando se computa el estimador de mínimos cuadrados
generalizados posibles de los parámetros del siguiente modelo, no se necesita que el
estimador de θ sea eficiente y basta con que sea consistente.
c i =10.580.88∗ y i i
3.48 0.27
(a)
 2 =z i
i
27.
Suponga que su modelo es y = x  , donde y es el salario por hora y x son
características del individuo. Suponga ahora que por ley no se puede pagar menos que
el salario mínimo, y . ¿Cómo afecta esta restricción al estimador de β? Analice
consistencia y eficiencia.
5.59
28.
Suponga un modelo econométrico lineal dado por y = x  para el cual la
estructura del error tiene las siguientes propiedades: t = ht t donde ht es una variable
no correlacionada e independiente de xt. Considere además que t = t −1 t , con
∣∣1 y μ ruido blanco.
(a) Calcule la varianza y función de autocovarianza de t .
(b) Suponga que usted dispone de datos sobre ht. ¿Cuál es el estimador más eficiente
de β? Describa detalladamente los pasos necesarios para calcularlo.
(c) Suponga ahora que no dispone de datos sobre ht. ¿Cómo podría estimar
eficientemente el parámetro? Explique detalladamente los pasos necesarios para
calcularlo.
29.
Considere el siguiente modelo lineal y=x  . Sea  el estimador de mínimos
cuadrados ordinarios y sea  = y− x  el residuo del modelo. Sea  el estimador de
variables instrumentales para algún instrumento Z y sea el residuo de variables
 . Si el instrumento es verdaderamente exógeno, ¿tendrá el
instrumentales  = y−z 
modelo estimado con variables instrumentales un mejor ajuste que el de mínimos
cuadrados ordinarios (menor SRC), al menos en muestra grande?
30.
Considere el modelo y=x  . Suponga que hay heterocedasticidad derivada
del uso de variables nominales (tanto x como y). Suponga que el modelo estimado
usando datos reales o deflactados no tiene heterocedasticidad. Demuestre que el valor
esperado del estimador de mínimos cuadrados de β es el mismo en ambos modelos.
Demuestre que, a pesar de lo anterior, el R2 no es el mismo en ambas ecuaciones.
Sea el modelo lineal de la forma y i= z i i con E [ | z ]=0 . Suponga que
 =E [2 | z ] es conocido. Demuestre que el estimador de mínimos cuadrados
generalizados de β es un estimador de variables instrumentales para algún x i (es decir,
encuentre la expresión para que dicho x i cumpla lo deseado).
31.
2
Capítulo 6
Modelos no lineales
El área de los modelos no lineales es muy extensa y, posiblemente, es aquella que
se ha desarrollado con mayor interés en los últimos años, como resultado del veloz
desarrollo de la computación. La gran mayoría de los modelos no lineales se resuelven
por medio de métodos de cálculo numérico –es decir, usando algoritmos de
aproximación a la solución— debido a que no existen formas cerradas que permitan
derivar expresiones matriciales simples para obtener los estimadores. En la primera
parte de este capítulo desarrollamos el instrumental necesario para entender los
métodos de optimización no lineal que se usan para la estimación de modelos no
lineales. En la segunda parte se discute los métodos y estimadores no lineales.
6.01
Elementos de cálculo numérico
Existe un gran número de técnicas de optimización no lineal que resultan de gran
utilidad para solucionar modelos no lineales, agrupadas bajo el nombre de cálculo
numérico. Naturalmente, las técnicas no lineales no son de interés per-se en este curso 1,
sino en la medida que nos sirven para entender cómo operan y cómo se hace la
estimación no lineal.
Generación de números aleatorios
Una parte importante de los métodos de optimización se basan en el uso de
números aleatorios. Naturalmente, es imposible generar números verdaderamente
aleatorios; cualquier algoritmo que se use para producir numeros puramente aleatorios
es replicable y, por tanto, sus resultados no son estrictamente aleatorios. 2
No obstante, hay algoritmos útiles para nuestros propósitos. En general éstos son
del tipo:
1. Dé un número de partida (del reloj), llamado semilla, S .
2. Actualize la semilla:
S j =S j−1∗A ,
A = cte.
3. Transforme semilla:
x j =S j∗B ,
B = cte.
4. Guarde xj y vaya a (2)
1
2
Un tratamiento exhaustivo se encuentra en Numerical Methods in Economics, K. Judd (2000) MIT Press.
Anyone who considers arithmetic methods of producing random digits is, of course, in a state of sin . John von
Neuman
6.2
El típico algoritmo de los programas de computación se basa en:
•
Dados P, Q, R y la semilla S j .
•
Compute
S j1=Mod  R∗S j , P
x j1=S j1 /Q
donde la función Mod produce el entero de R*S/P.
La rutina anterior produce valores entre 0 y 1 para números R,Q,P relativamente
grandes (ej, 2,147,483,647). Obviamente, esta no es exactamente una muestra aleatoria.
Dada las constantes y la semilla inicial, es replicable. Pero el algoritmo puede ser
suficientemente complejo como para que el problema de replicabilidad sea mínimo y,
por lo tanto, que se justifique su uso. Sin embargo, es inevitable que el generador en
algún punto producirá un ciclo y comenzará a repetir los “números aleatorios”. 3
Muestreo estadístico
A pesar de que la rutina anterior produce numeros no exactamente aleatorios, es
una alternativa útil para hacer muestras de variables aleatorias derivadas de una
distribución uniforme [0,1]. Pero se expande para cualquier uniforme, multiplicando los
límites de manera adecuada.
La ventaja de tener una secuencia {Z } de números de una uniforme [0,1] es que
ésta se puede reinterpretar como una secuencia de valores de la acumulada de otra
distribución. Conociendo la función de la acumulada F . , tenemos una secuencia de
valores aleatorios derivados de la distribución:
x =F −1 Z 
(6.1)
Por ejemplo, hay aproximaciones conocidas para el caso de la normal estándar
(Abramovitz y Stegun, 1971):
F
−1
≈
c 0  c1T  c2T 2
1  d 1T  d 2 T 2  d 3T 3
(6.2)
Una vez que se tiene una normal estándar, es trivial construir una χ², una F u
otras distribuciones de uso común.
3
John von Neumann sugirió el siguiente algoritmo. Suponga que desea una secuencia de números
aleatorios de 4 dígitos. (1) Elija cualquier número de 4 dígitos –por ejemplo, 6235. (2) Tome su cuadrado
(38,875,225). (3) Extraiga los cuatro dígitos interiores de ese cuadrado (i.e., 8752). (4) Use ahora este
segundo número para iterar (ir a 1).
6.3
Muestreo de Gibbs
Supongamos que existe una densidad conjunta que queremos modelar
f x , y 1 , y 2 ,... , y k  . Si estamos interesados por algún momento del problema,
debiesemos calcular expresiones como:
f x =∫ ∫ ... ∫ f x , y 1 , y 2 ,... , y k  dy1 dy 2 ...dy k
y1 y2
yk
(6.3)
El problema puede ser demasiado complejo de resolver directamente. La
alternativa es construir una aproximación indirecta de la densidad marginal f x  .
La idea es aprovechar las densidades condicionales para construir la marginal.
Supongamos que la densidad es bivariada, f x , y  y que se conoce f x | y y
f  y | x  (a partir de la muestra). El algoritmo de Gibbs consiste en:
•
Dado un y 0 , genere un x 1 a partir de f x | y .
•
Dado x 1 , genere y 1 a partir de f  y | x  .
•
Dado un y 1 , genere un x 2 a partir de f x | y , etc.
Estudios de Montecarlo4
Una técnica frecuentemente usada en econometría para obtener la distribución
empírica de los parámetros o de un test es la simulación de Montecarlo. Usualmente lo
que se hace es estudiar cómo cambia un resultado si se alteran las condiciones del
problema, típicamente cuando se puede controlar bien dichas condiciones. Por ejemplo,
si tenemos dudas de la calidad de un estimador debido a que la muestra no es muy
grande y conocemos cómo se genera éste, podemos hacer el experimento artificial de ver
cómo cambian los resultados al variar el tamaño de muestra.
Bootstrapping5
Frecuentemente no es posible tener una buena idea de las propiedades de un
estimador y, en particular, sobre su comportamiento en la muestra. Una solución es
4
5
Este método fue sugerido por John von Neuman y Stanislaw M. Ulam en un trabajo no publicado (“The
Origin of the Montecarlo Method”). Ulam señaló que el método se le ocurrió jugando solitario mientras
estaba enfermo en 1946. El nombre Monte Carlo se le puso porque éste era el método usado para hacer
simulaciones de fisión nuclear en el proyecto de la bomba atómica cuyo nombre clave era Proyecto
Montecarlo.
El término bootstrap fue acuñado por Bradley Efron (“Bootstrap methods: another look at the jackknife”,
Annals of Statistics, 7:1-26, 1979). El término se deriva de una historia del libro del siglo 18 “Las
Aventuras del Baron Munchausen”, de Rudolph Erich Raspe, en las que el protagonista había caído al
fondo de un profundo pozo, del cual no había escapatoria, de no ser por la proverbial idea del Barón de
salir “tirando fuertemente de los cordones de sus botas (bootstraps)”.
6.4
hacer bootstrapping. Supongamos que de un experimiento (modelo) obtuvimos el
 n con una muestra de tamaño n.
estimador 
Es posible hacer una muestra con m observaciones y luego estimar de nuevo
 m . De hecho, es posible generar una secuencia de largo T de estos estimadores
1
{  Bm }1T sobre la cual obtener la media, varianza, etc.
T
La media de n sería
1
 m .
∑ B
T B=1
Cálculo de derivadas
En muchos casos es necesario calcular derivadas de alguna función. Típicamente,
como ya hemos visto, cuando se computan estimadores utulizando la función de
verosimilitud. En pocos casos se conoce la derivada analítica de la función de
verosimilitud (ej, Poisson) y se puede computar directamente. Cuando no se conoce
analíticamente, hay que buscar una aproximación. La más natural es:
∂ F  x  F  x −F  x −
≈
∂x
2
(6.4)
o, más generalmente,
∂ F  x  F  x 1, x 2 ,... ,x i  ,...−F x 1, x 2 ,... , x i − ,...
≈
∂xi
2
(6.5)
Obviamente, el cálculo de las derivadas (por ejemplo, para obtener x tal que la
derivada sea cero) puede ser tedioso y largo. Además, la elección de ε no es trivial. Si se
escoge un valor muy grande, el algoritmo puede hacer muchas iteraciones antes de
converger al resultado. Si, por el contrario, el valor elegido es muy chico, la estimación
estará sujeta a mayor imprecisión. Finalmente, si se usa esta aproximación, habrá error
por definición. Si se hacen muchos cálculos sobre ella, el error acumulado puede ser
sustancial.
6.5
6.02
Optimización no lineal
Cuando la función es lineal o las derivadas tienen forma cerrada, la optimización
se hace analíticamente (Lagrange). Si la función no es lineal y sus derivadas no tienen
solución analítica, tendremos que aproximar la condición de óptimo (es decir, que las
primeras derivadas sean iguales a cero) con algún método numérico.
Grid search (búsqueda tipo cuadrícula)
La alternativa más simple es hacer un barrido por los posibles valores de los
parámetros de modo de obtener el óptimo. Esto se puede hacer cuando el número de
parámetros es pequeño (1 o 2), pues de otro modo es demasiado costoso. Además, se
necesita saber el rango de valores que puede tomar el parámetro y qué tan fina es la
estimación (¿cuánto hay que incrementar el parámetro?).
Algoritmos iterativos
Los algoritmos iterativos se basan en la siguiente lógica:
•
Dar un parámetro inicial arbitrario,  0 .
•
Si 0 no es el óptimo, actualizar el parámetro según:
 j = j −1 j −1  j −1
(6.6)
donde λ es un “paso” (¿cuánto?) y Δ un vector de dirección (¿para dónde?).
El problema es que λ y Δ cambian en cada iteración, por lo que se necesita una
manera de determinarlos. Determinar la dirección es fácil. La matriz de derivadas
parciales (g) de la función (F) que se quiere optimizar da una respuesta inmediata.
Determinar el paso es más complejo. En principio se debiera buscar λ tal que:
∂ F  j  j  j 
= g  j  j  j  '  j =0
∂ j
(6.7)
pero esto raramente se hace porque es ineficiente y costoso en tiempo. Optimizar el paso
implica que en cada iteración hay que hacer dos movimientos. Por lo general se usa λ fijo
en los métodos que estudiamos a continuación.
6.6
Figura 6.1
1
F1
F2
j+1
j
2
Métodos de gradiente
Los métodos de gradiente descomponen el vector de dirección en dos
componentes:
 j =W j g j
(6.8)
donde W es una matriz definida positiva, g es el gradiente (matriz de primeras
derivadas) de la función que se optimiza, y j se refiere a la iteración j-ésima.
Naturalmente, W opera como una matriz de ponderadores de las gradientes.
¿De dónde viene la descomposición de la ecuación (6.8)? Considere la expansión
de Taylor de la función F:
F  j  j  j =F  j  j g  j   j
(6.9)
es decir:
F  j  j  j −F  j = jg  j  j
(6.10)
por lo tanto
F  j  j  j −F  j ≃ j g  j ' W j g  j 
(6.11)
el lado derecho es positivo si λ es pequeño y g no es cero. Entonces, una iteración
adicional siempre aumenta la función F.
6.7
Método Steepest Ascent
Este método es poco sutil pero efectivo. Básicamente consiste en escoger W =I y
= g . Es decir, pondere por 1 la información de las gradientes y ajuste los coeficientes
equivalentemente.
Es un método muy rápido y tiene vector de dirección óptimo conocido:
∂2 F 
−g ' g
j=
donde H=
g ' Hg
∂ ∂'
(6.12)
El método no está exento de problemas. Primero, hay que computar segundas
derivadas, lo que sabemos puede ser complejo y tedioso. Segundo, si H no es negativa
definida, el método diverge. Tercero, el método converge muy lento, pues tiende a
“pasarse de largo”, como en la Figura 6.1.
Método de Newton
Como todo óptimo de Newton, éste se basa en la idea es que en dicho óptimo, las
derivadas de F son cero. Se puede hacer una expansión de Taylor alrededor de cero:
∂ F 
= g  0H 0 −0=0
∂
(6.13)
resolviendo para θ y generalizando:
 j1= j H −1
j g j
(6.14)
entonces la recomendación es
W =−H −1
−1
=−H g
=1
(6.15)
El método converge rápido cerca del óptimo. Si la función es cuadrática converge
en 1 paso, porque la derivada es lineal. Es probablemente el mejor algoritmo si el
problema es cóncavo. Pero tiene dos problemas: (1) lejos del máximo con funciones no
muy “bien comportadas” puede diverger, y (2) también puede diverger si la matriz H no
es negativa definida.
6.8
Quadratic Hill Climbing6
Este método enfrenta el segundo problema del método de Newton. Si H no es
negativa definida, entonces se recomienda usar H ’ =H − I , con  grande e I la
matriz identidad. Esta transformación asegura que H sea negativa en la siguiente
iteración.
Metodos tipo Cuasi Newton
La idea de este tipo de métodos es evitar el cálculo de la segunda derivada. La
base de análisis consiste en reconocer que al actualizar la matriz de ponderaciones en
cada iteración W j 1 =W j E es siempre positiva si E es positiva. Más aún si partimos
de W 0 =I .
Davidon, Fletcher y Powell (1958)7 sugieren utilizar el siguiente algoritmo de
métrica variable:
W
j 1
=W j 
 j j ' W j  j j ' W j '

 j'  j
 j'W j j
(6.16)
donde  j = j  j y  j = g  j − g  j−1  . Entonces lo que se propone es aproximar la
inversa de la segunda derivada H −1 por el cambio ponderado en la primera derivada,
 j = g  j − g  j −1  . Por ello, el método va acumulando los errores cometidos en la
aproximación de la inversa de las segundas derivadas:
W
=W j aa ' bb ' =W j [a b ][a b ]'
j 1
(6.17)
debido a que la matriz [a b] es de rango 2 se le llama actualización de segundo rango.
Broyden et al. (1970)8 sugieren usar una actualización de tercer rango, que es más
eficiente, pues le añade un término del tipo dd ' , donde:
d j=
6
7
8
1
' j  j
 j−
1
W jj
' jW jj
(6.18)
Goldfeld, S.M.; Quandt, R.E.; and Trotter, H.F. (1966), "Maximisation by Quadratic Hill-Climbing",
Econometrica, 34, 541-551.
W. C. Davidon, AEC Research and Development Rept. ANL 5900 (Rev.) 1959. Fletcher, R. and Powell,
M.J.D. (1963), "A Rapidly Convergent Descent Method for Minimization", Comput.J., 6, 163-168.
C. G. Broyden, J. Inst. Mat. Appl. 6:222-231, 1970. R. Fletcher, Comp. J., 13:317-322, 1970. D. Goldfarb Mat.
Comp. 24: 23-26, 1970. D. F. Shanno, Mat. Comp. 24:647-656, 1970.
6.9
6.03
Estimación de mínimos cuadrados no lineales
La definición de un modelo no lineal se hará por la técnica de estimación y no
por la naturaleza del modelo. Supongamos la existencia de un modelo genérico del
siguiente tipo:
(6.19)
y i =h  x i ;  i
Si se mantiene la noción de minimización de la suma de residuos al cuadrado y
se aplica al modelo anterior, la estrategia sería buscar un estimador  tal que minimice
la suma, S:
S =∑ 2i =∑  y i −h x i ; 
i
2
(6.20)
i
Note que si el error se distribuye normal, entonces  corresponde al estimador
de máxima verosimilitud. Así, el estimador de máxima verosimilitud es un estimador
adecuado para parametrizar modelos no lineales, reteniendo las propiedades y
limitaciones que ya estudiamos en los capítulos anteriores. No obstante, es posible
derivar un estimador de mínimos cuadrados –en este caso mínimos cuadrados no
lineales– que opera de manera análoga al estimador de mínimos cuadrados ordinarios.
De la ecuación (6.20) es posible obtener:
∂h x i ; 
∂S
=−2 ∑ [ y i −h  x i ;  ]
∂
∂
i
(6.21)
Como es evidente, si la función h(.) es lineal, entonces la ecuación (6.21) no
difiere de las ecuaciones normales derivadas en el capítulo 4. Cuando el modelo es no
lineal, la ecuación (6.21) no es de forma cerrada y debiese ser resuelta por los métodos
numéricos que ya estudiamos. No obstante, considere una expansión de Taylor
alrededor de 0 de tal modo que el modelo quede aproximado por:
K
∑ ∂ h x i ; 0 
h x i ;  ≈h  x i ; 0 k =1
(6.22)
 k−k 
∂ k
0
0
Este conjunto de ecuaciones es llamado modelo de regresión generalizado y
puede ser convenientemente reescrito como:

h x i ;  ≈ h  x i ; 0 −
K
∂ h x i ; 0 
∑
k =1
∂ k
0
0

k 
K
∂h x i ; 0 
∑
k =1
∂k
0
k
(6.23)
6.10
Llamando x 0 a la derivada de la función h, tenemos
h x i ;  ≈  h x i ; 0 −x 0 k  x 0 k
(6.24)
0
lo que en términos matriciales se puede sintetizar como:
h x i ;  ≈h 0 −x 0 k x 0 k
(6.25)
0
Note que una vez escogido 0 los dos términos al interior del paréntesis son
constantes, por lo que pueden pasar al lado izquierdo pues son expresiones conocidas.
y 0=h x i ; −h 0 x 0 k ≈ x 0 k
(6.26)
0
Añadiéndole el término de error, se obtiene finalmente
y 0=x 0 k
(6.27)
Así, dado un valor de 0 es posible estimar k directamente por mínimos
cuadrados. A diferencia de su contraparte lineal, el estimador de mínimos cuadrados no
lineales no ocupa directamente las variables sino una transformación de ellas y de la
función original, estimándose el modelo sobre las derivadas de la misma. Por ello, en
este caso se trabaja con pseudo-estimadores.
Propiedades del Estimador Mínimos Cuadrados no Lineales
El estimador de mínimos cuadrados lineales aplicado a las primeras derivadas de
la función no lineal puede proveer una estimación de los parámetros del modelo. Por
razones de eficiencia, la estimación se hace, en realidad, de manera iterativa, de modo de
minimizar el error que se comete en la aproximación. Lo que nos preocupa es si este
estimador es consistente y/o eficiente. Al igual que en el caso del estimador de mínimos
cuadrados del modelo lineal, sólo si los residuos son normales podemos estar seguros
que es eficiente. En otros casos, tenemos que hacer algunos supuestos.
En el caso lineal, supusimos que los regresores cumplían
1
 x ' x → Q. Ahora
n
haremos el mismo supuesto para los pseudo-regresores construidos según (6.26):
[
n
∂ h x i ; 0
1
1
plim x 0 ' x 0 = plim ∑
n
n i=1
∂ k
0
][
'
]
∂h  x i ; 0
= Q0
∂ k
0
(6.28)
6.11
Para que el estimador
 NLS
sea consistente tiene que cumplirse que
1
plim x 0 =0 . Finalmente, el estimador será asintóticamente normal cuando:
n
n
1
x i i → N 0,  2 Q 0 
∑
 n i=1
(6.29)
El estimador de la varianza de los residuos puede ser encontrado usando:9
n
 2 =
1
∑ [ y −h x i ; ]2
n i =1 i
(6.30)
Cómputo del estimador de mínimos cuadrados no lineales
La estimación de  NLS se hace de manera iterativa, lo que exige determinar el
algoritmo de actualización y el criterio de fin de búsqueda.
Note que para estimar (6.27) se requiere haber fijado la derivada de la función x 0 - para lo cual se tuvo que haber usado algún 0 . Una vez computado  NLS por
primera vez, se puede usar éste para construir [ y 0 x 0] y volver a estimar  NLS
repitiéndose el ciclo hasta que se cumpla el criterio de fin de búsqueda.
No existe una regla para escoger los parámetros iniciales, pero su elección puede
afectar bastante el resultado. El problema de escoger mal los parámetros iniciales es que
los algoritmos suelen diverger o pueden tomar un número muy grande de iteraciones
antes de converger. Algunos autores prefieren usar parámetros derivados
aleatoriamente de alguna distribución. Otros autores usan los parámetros obtenidos de
una regresión lineal del mismo problema que se está estudiando. Finalmente, es posible
usar los parámetros de otros estudios.
Respecto del criterio de fin de búsqueda hay varias alternativas. Es posible usar
el cambio en la función de verosimilitud de la estimación: si ésta no cambia en algún
monto fijo en la iteración (p.e., 10-5), no siga buscando. Muchas veces, los cambios en la
función de verosimilitud continúan, cuando los parámetros sólo cambian en el quinto o
sexto decimal. Desde un punto de vista económico, la precisión en el quinto decimal de
una elasticidad es irrelevante, por lo que un criterio de fin de búsqueda usado es detener
las iteraciones cuando los parámetros cambian en el tercer o cuarto decimal.
9
Note que el estadígrafo R² no está acotado entre 0 y 1.
6.12
6.04
Estimación de variables instrumentales no lineales
El estimador de variables instrumentales descrito en los capítulos anteriores
también puede ser aplicado al caso no lineal si existen sospechas que pudiese existir
correlación entre regresores y residuos. El problema en el caso no lineal es que la
correlación regresor-residuo se traspasa a los pseudo-regresores x 0 . Entonces,
supongamos que tenemos un conjunto de variables z tal que:
1
plim z ' x 0 = Q 0zx
n
1
plim z ' =0
n
(6.31)
Aplicando la misma lógica del estimador de mínimos cuadrados no-lineales
tenemos que el modelo linealizado es:
y 0 ≈ x 0 
(6.32)
premultiplicamos por z ’ y tomamos plim:
plim



1
1
0
0
z ' y ≈ plim z ' x 
n
n

(6.33)
Supongamos, aunque esto no es crucial, que el rango de z es el mismo de x,
entonces el estimador de variables instrumentales en este caso parecería ser
directamente
 NIV =z ' x 0 −1 z ' y 0
(6.34)
El problema con el estimador (6.34) es que el vector de parámetros β aparece a
ambos lados de la ecuación. Una alternativa es buscar un punto fijo, es decir, un vector β
que satisfaga dicha ecuación. Un algoritmo posible –pero no eficiente– sería darle 0 ,
computar los pseudo-regresores, estimar 1 , computar los pseudo-regresores, etc.
Una solución general al problema –que además elimina la restricción de rango de
z– es:
min  S =½  [ y −h x i ; ]' z  z ' z −1 [ y −h x i ; ]' z 
=½ ' z z ' z −1 ' z
(6.35)
cuyas derivadas son:
∂
=−x 0 ' z z ' z −1 z ' =0
∂
(6.35)
6.13
Este es un problema de optimización no-lineal que ya hemos estudiado. Si los
pseudo-regresores se comportan razonablemente, el algoritmo debiese producir una
estimación del parámetro eficientemente (Davidson y McKinnon, 1993). 10
6.05
No linealidad de la variable dependiente
Supongamos ahora que la no linealidad también envuelve a la variable
dependiente, es decir:
(6.36)
g  y i ; =h x i ; i
La estimación de los parámetros puede hacerse por dos métodos: mínimos
cuadrados y máxima verosimilitud. Este último es más eficiente. Si los residuos se
distribuyen normales, entonces la densidad de cada observación es:
∣ ∣
∣ ∣
∂i
f  y i =
[2  2 ]1 /2⋅e
∂ yi
donde
−[ g  y i , −h x i ; ]
2 2
2
(6.37)
∂ i
es el Jacobiano de la transformación, es decir:
∂ yi
∣ ∣
∂ i ∂ g  y i ; 
=
=Ji
∂ yi
∂ yi
(6.38)
Por ello, la función de verosimilitud de la muestra es (en logs):
n
n
−n
n
1
log L =
log 2− log  2 ∑ J i  y i ; − ∑ [ g  y i ; −h x i ; ]2
2
2
2 i=1
i =1
(6.39)
Debe notarse que la presencia del término J i  y i ;  hace que el estimador de
mínimos cuadrados no lineales no sea equivalente al estimador de máxima
verosimilitud. Por lo tanto, es necesario usar este último estimador. No obstante, es
posible usar una aproximación por iteración cuando la dimensión de θ es pequeña (1 o
2). El algoritmo sería el siguiente:
1. Fijar  0 , computar g  y i ;  0  y estimar los parámetros usando el estimador de
mínimos cuadrados no lineales y computar el valor de la función de
verosimilitud.
10 Davidson, Russell and James G. MacKinnon (1993). Estimation and Inference in Econometrics, Oxford:
Oxford University Press.
6.14
2. Actualizar 1=0 i , computar g  y i ; 1  y re-estimar los parámetros usando
el estimador de mínimos cuadrados no lineales y computar el valor de la función
de verosimilitud.
3. Usar las funciones de verosimilitud computadas en (1) y (2) para determinar la
dirección de ajuste de los parámetros e iterar hasta que converja.
6.06
Interpretación de los parámetros de un modelo no lineal
La intepretación de los parámetros no es fácil en el caso de los modelos no
lineales. Consideremos que en el modelo lineal los parámetros miden:
∂ E [ yi | xi ]
=i
∂ xi
(6.40)
por lo que, si las variables están medidas en logarítmos, se obtienen directamente las
elasticidades. En el modelo no lineal, sin embargo, los parámetros son:
∂ E [ y i | xi ] ∂h  x i ;  1
≈
∂ xi
∂ xi
g '  yi 
(6.41)
por lo que los parámetros no son las elasticidades. Estas últimas se computan,
usualmente, en la media muestral. Es decir,
i ≈
6.07
∂ h  x i ;  1 x i
∂ xi
g '  y i  yi
(6.42)
Tests de hipótesis
A diferencia de los modelos lineales, el testeo de hipótesis en el caso de los
modelos no-lineales requiere que las restricciones impuestas sean de sobreidentificación.
 =∑ i la suma de residuos al cuadrado del modelo sin restringir y sea
Sea S  
2
S  * =∑ *2i su contraparte en el modelo restringido.
Los siguientes tests son válidos asintóticamente:
6.15
 J
[S   * −S  ]/
 F [ J ,n−k]

[S  /n−k
]
●
Test F asintótico
●
2

Test Razones de Verosimilitud −2 log L  * −log L  
[ J ,n−k ]
●
 −q ]VAE R  −q

Test de Wald [R  
 [R   −q ]'  [ J , n−k ]
-1
2
Capítulo 7
Modelos con Datos de Panel
Los métodos de panel data combinan observaciones de corte transversal con
observaciones de series de tiempo. Por el momento no vamos a imponer restricciones
para que la mezcla sea válida, pero más adelante vamos a discutir exactamente qué tipo
de observaciones de corte transversal se pueden mezclar con cuál tipo de observaciones
de series de tiempo.
Cuando hablamos de observaciones de corte transversal nos referimos a
observaciones para una determinada cohorte y por lo tanto el tipo de pregunta que se
puede responder se refiere a hipótesis respecto de la heterogeneidad de los individuos
que componen dichas cohorte. Por ejemplo, ¿por qué, en algún instante del tiempo,
algunas personas con determinadas características trabajan y otras no lo hacen?
Cuando nos referimos a observaciones de series de tiempo nos referimos a que es
posible observar el comportamiento de un individuo repetidamente en el tiempo. Por
ello, el tipo de hipótesis que se puede enfrentar se refiere a la evolución del
comportamiento de un individuo y sus determinantes. En particular, y manteniendo la
simetría con el ejemplo anterior, ¿qué hace que un individuo trabaje en algunos periodos
y no lo haga en otros?
Como vemos, mientras las observaciones de corte trasversal son útiles para
responder preguntas relacionadas con heterogeneidad, los de series de tiempo sirven
para estudiar la evolución temporal. Las técnicas de panel nos permiten responder
ambos tipos de preguntas –y otras que no pueden ser respondidas por corte transversal
o series de tiempo– porque usan información sobre una cohorte donde hay individuos
heterogéneos a los que se les observa repetidamente en el tiempo. Es decir observaremos
N individuos durante T periodos de tiempo.
Esto presenta varias ventajas con respecto a los modelos de corte transversal o
series de tiempo por separado. Entre ellas:
●
Aumento en grados de libertad: Esta es una razón bastante obvia: si observamos
una cohorte dos veces en el tiempo, las observaciones disponibles aumentan a 2N
para el mismo número de potenciales parámetros a estimar, k. Esto permite
mejorar la precisión con la cuál se estiman dichos parámetros y mejorar la
calidad de las predicciones hechas con el modelo.
●
Control de efectos fijos individuales: Un problema complejo de los métodos de
corte transversal es que no pueden identificar la presencia de efectos fijos
individuales. Estos efectos cambian entre individuos pero no para cada
individuo y, como no se observan, son absorbidos por el residuo. Cuando dichos
7.2
efectos individuales están correlacionados con los regresores hay sesgo en el
estimador del parámetro.
Por ejemplo, suponga que se desea estudiar el rendimiento de alumnos de
educación primaria (Rend) de una cohorte como una función de calidad establecimiento
(Cal), las horas de estudio (Horas) y la educación de los padres (EP). El modelo estimado
es Rend i = 0 1 Cal i 2 Horas i 3 EP i i . El verdadero modelo debe incluir la
inteligencia o habilidad natural del individuo (Hab), pero ésta no es observable. Por ello,
el residuo no es ruido blanco ya que incluye el efecto de la habilidad y tiene la forma
i = 4 Hab i i .
Recuerde que si el modelo es y i = x i i , el estimador de mínimos cuadrados
 x ' x −1 x ' y , reemplazando y i obtenemos:
es =
 x ' x −1 x ' [ x ]
=
= x ' x −1 x ' x  x ' x −1 x ' 
−1
= x ' x  x ' 
(7.1)
Entonces, el estimador de los parámetros del ejemplo es:
 i =i 4 x i ' Hab i
(7.2)
Así, si la habilidad está relacionada, por ejemplo, con las horas de estudio,
entonces habrá sesgo en el estimador del parámetro. Lo mismo sucede si los colegios
seleccionan a los alumnos por habilidad.
●
Modelación de efectos temporales sin sesgo de agregación: Los modelos de series
de tiempo tienen frecuentemente el problema que se agrupan individuos
heterogéneos como si ellos fuesen idénticos entre sí. Sin embargo, no siempre el
comportamiento del individuo promedio es representativo de un individuo
particular. Por ejemplo, cuando se estudia el consumo en un país en las últimas
dos décadas se agrupa a individuos que, por diferentes razones, tienen
comportamientos potencialmente muy diferentes. Los consumidores reaccionan
diferentes a cambios en ingresos corrientes en distintos periodos del ciclo de
vida; los consumidores que están “restringidos de liquidez” reaccionan distinto
de aquellos que pueden usar el mercado de capitales para suavizar variaciones
de ingreso y mantener el consumo estable.
Hay pocas desventajas en el caso de los modelos de panel. En primer lugar, aún
hay pocas bases de datos –sobre todo en América Latina– y éstas frecuentemente deben
ser “limpiadas” de numerosos errores. En segundo lugar, los programas
computacionales para econometría de panel son aún limitados y frecuentemente del tipo
caja negra (es decir, se desconoce exactamente qué procedimientos usa). Un tercer
problema, que es propio de los modelos de panel, es llamado desgaste de la muestra
(sample attrition) que proviene del hecho que algunos miembros de la cohorte van
desapareciendo a medida que pasa el tiempo. Por ejemplo, porque migran o
7.3
desaparecen (las personas mueren o las firmas salen del mercado) o porque cambian las
condiciones que les hacía participar de la cohorte (solteros). Si el desgaste es aleatorio el
único problema es que se pierde eficiencia en la estimación. Si el desgaste no es aleatorio
(p.e. cuando el desgaste es por muerte de los mayores de la muestra), hay problemas de
sesgo de selección.
7.1
Modelo canónico de datos de panel
El modelo canónico o genérico de datos de panel tiene la siguiente forma:
y it =it  x it  it
(7.3)
donde i=1, ... , N y t=1,... , T . La variable x it contiene todos los regresores del modelo,
es decir, incluye x 1ti , x 2ti , , x k it . La existencia de efectos individuales está recogida en
la constante que ahora está subindizada t para recoger efectos temporales y
supraindizada i para recoger efectos individuales.
Modelo con todos las observaciones juntas (pooled)
Una alternativa posible –pero no óptima– es simplemente asumir que todos las
observaciones corresponden a un mismo individuo. En ese caso, suponemos que no hay
efectos individuales, por lo que
y it = x it it
(7.4)
p
y el estimador de mínimos cuadrados es aplicable, es decir,  = x i ' x i  x i ' y i . La
principal ventaja de este modelo respecto de usar datos de corte transversal es que ahora
se dispone de NT observaciones en vez de N y eso mejora la precisión del estimador
porque:

Var  =
 2
=
x i ' x i NT
−1
 2
x i − x ' x i − x 
∑
i =1
(7.5)
7.4
Modelo de efectos fijos individuales
Una alternativa para modelar los efectos individuales es suponer que éstos son
fijos en el tiempo y sólo se refieren a características del individuo. Es decir, el modelo
queda como:
y it =i  x it ti
(7.6)
Como los efectos son fijos podemos modelarlos con variables mudas y usar
mínimos cuadrados ordinarios, es decir, pondremos una variable muda (dummy) por
cada intercepto.
[ ][ ] [ ] []
y1
i 0
y2
0 i
=
⋮ ⋮
⋮
0 0
yn
⋯
⋯
⋱
⋯
1
x1
0
0
x

 2  2
⋮
⋮
⋮
i
xn
n
(7.7)
donde  y  son vectores, es decir, contienen n y k parámetros respectivamente. Si
llamamos D a la matriz de dummies, entonces el modelo se reduce a:
y it =D  x it ti
(7.8)
Todos los resultados clásicos sobre técnicas de estimación de mínimos
cuadrados, optimalidad del estimador, bondad de ajuste, y distribuciones de los
estimadores y los tests se mantienen. Este estimador es llamado LSDV por least squares
dummy variables.
Note, además, que es posible hacer un test formal de igualdad de efectos fijos
usando simplemente el test de Wald para H 0 :  i = j .
¿Cuál es la importancia de estimar usando efectos fijos? Como se muestra en la
Figura 1, el estimador pooled es sesgado cuando hay efectos individuales. Las
observaciones en este ejemplo están ordenadas en dos grupos. 1 El estimador pooled
intenta minimizar el error cuadrático de ambos grupos simultáneamente. No obstante si
se modela cada grupo de la siguiente forma:
y it =1  x it it si el individuo es tipo 1
y it =2  x it it si el individuo es tipo 2
el estimador es insesgado.
1
Naturalmente, en la realidad es posible tener un gran número de grupos.
(7.9)
7.5
Figura 7.1
y
Modelo
Pooled
Modelo
Efecto Fijo
α1
α2
x
La situación podría ser mucho más dramática. Considere el siguiente fenómeno
estudiado por Vial y Soto (2002).2 Algunos estudios señalan que el puntaje en las
pruebas de selección universitaria (PAA o PSU) no es una buena prueba de selección
porque no hay una correlación positiva entre puntaje de entrada y rendimiento posterior
en la universidad. La evidencia es que la correlación en datos pooled es estadísticamente
cero (si no es negativa). Pero, la selección de alumnos por puntaje de entrada segmenta
las carreras (las carreras cierran las vacantes en puntos de corte que están ordenados):
cuando se hace un modelo de panel permitiendo que cada carrera tenga su propio
intercepto se obtiene una correlación positiva invalidando la conclusión anterior.
2
Bernardita Vial y Raimundo Soto. “¿Predice la PAA el rendimiento o éxito en la universidad?”,
Administración y Economía, 24-27, 2002.
7.6
Figura 7.2
Rendimiento
Modelo
Efecto Fijo
α1
Modelo
Pooled
α2
Puntaje
El estimador intragrupos
Existe un problema evidente cuando la muestra es grande en la dimensión de
corte transversal (N), porque es poco práctico poner un número elevado de variables
mudas. Si usted usa la CASEN podría enfrentarse con el problema de tener que poner
5.000 dummies. Una alternativa interesante consiste en tomar el promedio en el tiempo
para un individuo de la ecuación (7.6):
i
i
i
i
y =  x
 
(7.10)
y restarlo de la ecuación (7.6) para obtener:
y it − y i =i  x it it − i − x i −i
=  x it − x i  ti −i
(7.11)
Si definimos las desviaciones con respecto a la media del individuo en el tiempo
como y* y x*, entonces:
 x *t ' x *t −1 x *t ' y *t 
=
(7.12)
Debido a que este estimador usa desviaciones con respecto a la media de cada
grupo, las variables han sido normalizadas para estudiar sólo las desviaciones con
respecto a la media grupal, es decir, permite ver lo que sucede al interior del grupo. Por
ello le llamamos estimador intragrupal (within groups estimator).
7.7
Figura 7.3
y
Estimación Intragrupal
x
Es decir, al tomar diferencias con respecto a la media en el tiempo de las
observaciones se elimina la constante y los efectos fijos. Nótese que la transformación
retira la media de cada variable por grupo i-ésimo, no con respecto a la media global de
las variables.
Para recuperar el efecto fijo, se usa la ecuación (7.10) porque el promedio de los
i
i
i
grupos cumple  = y − x
 
Vamos a definir unas sumas de cuadrados que serán de gran utilidad. En el caso
del estimador pooled o total (p) usamos todas las observaciones:
N
T
p
S xx
=∑ ∑ x it − x ' x it −x 
i=1 j =1
N
T
(7.13)
S =∑ ∑ x −x '  y − y 
p
xy
i=1 j =1
i
t
i
t
donde x es la media de x en todos los grupos y todos las observaciones. Computamos
el estimador como:
p
S
 p = xyp
S xx
(7.14)
En el caso del estimador intragrupos w  usamos los datos en desviaciones con
respecto a la media en el tiempo de cada individuo, 
xi :
7.8
N
T
S =∑ ∑ x it − x i '  x it − x i 
w
xx
i=1 j =1
N
T
(7.15)
S =∑ ∑ x −x  '  y − y 
w
xy
i
t
i=1 j =1
i
i
t
i
w
S xy
y computamos el estimador como: w = w
S xx
p
Pero notemos que S xx puede ser escrito como:
N
T
S =∑ ∑ x it − x ' x it −x 
p
xx
N
i=1 j =1
T
=∑ ∑ x it − x i  x i − x '  x it − x i  x i −x 
i=1 j =1
N T
=∑ ∑   x ti − x i  x i −x  '  x it − x i  x i − x  
i=1 j =1
N T
N
(7.16)
T
=∑ ∑ x − x '  x − x ∑ ∑  x i − x  '  x i −x 
i
t
i
i=1 j =1
N T
w
xx
i=1 j =1
i
t
i
i =1 j=1
=S ∑ ∑  x −x '  x − x 
i
i
N
T
por lo tanto S =S −∑ ∑  x −x '  
x − x  . Más adelante estudiaremos la doble
w
xx
p
xx
i
i
i=1 j =1
suma. Por el momento apliquemos la ecuación (7.5) al modelo en (7.11) para obtener la
varianza del estimador intragrupos:
Var  w =
 2
N
T
∑ ∑ x i − x i  ' x i − x i 
i =1 i =1
 2
¿
=
N
T
¿
p
S xx
−∑ ∑  x i − x  '  x i −x 
(7.17)
i=1 i=1
entonces la varianza del estimador intragrupos es mayor que la del modelo pooled. Por
eso, el estimador intragrupos es insesgado pero más ineficiente que el pooled.
Un problema de remover efectos fijos del modelo usando diferencias con
respecto a la media grupal es que también se remueven todas aquellas variables que son
fijas pero observables y que podrían ser de interés. En el ejemplo de la educación
primaria, la educación de los padres está fija en el tiempo (suponga que no se capacitan
en el periodo de estimación). El modelo podría ser escrito de manera genérica como:
y it =i  x it z i ti
(7.18)
7.9
y, al usar el estimador intragrupos, se perderían todos las variables z. Típicamente con
este método se pierden variables tales como género, religión, raza, ubicación geográfica,
atributos fijos, etc.
El modelo con efectos temporales fijos
Podemos extender el modelo anterior para incluir efectos fijos que no se
relacionan con unidades sino con el tiempo. Es frecuente que estemos interesados en
algún fenómeno determinístico que afecta todas las unidades en un determinado
instante de tiempo. Por ejemplo, cambios en el salario mínimo –una variable
determinística– afectan la participación en el mercado laboral a través de cambios en la
tasa de desempleo y, por lo tanto, los incentivos para entrar o salir del mercado laboral.
y it =i t  x it ti
(7.19)
Para modelar este tipo de fenómeno se puede usar una dummy temporal, es deir,
que tome valor uno para el t=1 y 0 en todo otro instante, otra dummy con valor uno en
t=2 y 0 en todo otro instante, etc.
El modelo de la ecuación (7.19) con efectos fijos individuales y temporales es
conocido como two-way fixed effects model. Se debe tener cuidado con poner T
dummies temporales y N dummies individuales porque produce colinealidad perfecta.
El estimador intergrupos
Retomemos el modelo original
y it =i  x it ti
(7.20)
como sabemos de econometría básica, el modelo econométrico es una descripción de la
medias condicionales y por lo tanto la ecuación (7.19) se cumple en las medias de cada
grupo, i . La figura 4 muestra, esquemáticamente, el hecho que la regresión pasa por las
medias de cada grupo:
7.10
Figura 7.4
y
E[y1]
E[y2]
E[x 2]
E[x 1]
x
Entonces si en el modelo tomamos media con respecto al grupo tenemos:
Ei [ y it ]=E i [i  x it  it ]
y i =i  xi i
(7.21)
y podemos computar el estimador de  usando las siguientes sumas:
N
T
S =∑ ∑  x i −x  x i −x '
b
xx
i=1 j =1
N
T
(7.22)
S =∑ ∑  x − x  y − y '
b
xy
i
i
i=1 j =1
b
S xy
Consecuentemente el estimador es b = b .
S xx
Este estimador es llamado intergrupos (between groups) precisamente porque al
usar la media grupal elimina toda la variación intragrupal. Note que la suma de
cuadrados Sxx en (7.22) es exactamente el término que habíamos dejado sin identificar en
(7.16). Es decir, se cumple:
p
S xx
=S wxxS bxx
(7.23)
7.11
Relación entre los estimadores totales, intra e intergrupos
Es importante entender qué tipo de estimación es la que realiza cada uno de los
estimadores que hemos derivado. Hemos escrito el modelo de efectos fijos en tres
distintas formas:
a  y it =i  x it  it
i
i
i
i
i
i
b y t − y =[x t − x ]t −
c  y i =i  x i i
(7.24)
Obviamente (a) es el modelo pooled ; (b) es el modelo en desviaciones con
respecto a la media grupal (within), y (c) es el modelo en las medias grupales (between).
Recordemos que las sumas de cuadrados de cada especificación son las que se muestran
en el Cuadro 7.1:
Cuadro 7.1
Comparación de estimadores de datos de panel
Estimador
Sxx
N
Pooled
Sxy
T
N
N
T
∑ ∑  x − x  x − x '
i =1 j =1
N
Between
T
∑ ∑  x ti − x  yit − y  '
i =1 j=1
Within
N
∑ ∑  x ti − x  x it −x '
i
t
i
i
t
i
T
∑ ∑  x it− x  x it − x '
i =1 j=1
i =1 j=1
T
∑ ∑  x ti − x i  yti − yi  '
i =1 j =1
N
T
∑ ∑  x ti − x  yit − y  '
i =1 j=1
Los tres estimadores son:
p −1 p
 p =[S xx
] S xy
w
w −1 w
 =[S xx ] S xy
 b =[S bxx ]−1 S bxy
(7.25)
p
w
b
p
w
b
Nóte que como S xx =S xxS xx y S xy =S xy S xy , podemos escribir el estimador
pooled como una combinación de los otros dos estimadores:
7.12
 p =F w  w [I −F w ]  b
S wxx
w
F = w
S xx S bxx
(7.26)
Este es un resultado muy importante: el estimador pooled es un promedio de
ponderado de los estimadores intra e intergrupos, cuya ponderación depende de la
variación de cada grupo. Ello implica:
●
Si no hay variación intragrupal F w =0 , sólo hay variación intergrupos
●
Si no hay variación intergrupal F b=0 , sólo hay variación intragrupos
Estimador de la varianza de los errores
Un elemento práctico que no hemos resuelto es de dónde se obtiene el estimador
de la varianza de los errores. En general, el estimador tradicional de econometría clásica
basado en los residuos es válido, pero debe considerarse correctamente los grados de
libertad en este caso:
N
T
 2
∑ ∑  y it − i −x it 
 2= i =1
j=1
(7.27)
NT −N – K
Modelo de efectos aleatorios
En muchos casos existe una buena razón a priori para suponer que los efectos
son fijos, es decir, sin hacer un test que nos permita diludicar si es que el supuesto es
aceptado por los datos. Cuando se observan a todos los componentes de un grupo o una
muestra exahustiva de los mismos, entonces el efecto individual estará exactamente
identificado o se le aproximará bastante bien. Por ejemplo, en un experimento con un
grupo de control es fácil saber si un individuo recibió o no recibió el tratamiento. En tal
caso, es razonable suponer que las diferencias entre individuos son cambios
paramétricos.
Sin embargo, cuando sólo se cuenta con una muestra de individuos de un grupo,
la identificación del efecto individual de ese grupo será dependiente de la conformación
de dicha muestra. En tal caso es más razonable considerar que el efecto individual es
sólo una realización de una variable aleatoria, i.e., la conformación de la muestra. Esto es
natural porque estamos tratando tanto con series de tiempo como porque la constante
refleja el promedio de shocks aleatorios que dan vida al error. Vamos a permitir que la
i
i
constante tenga un componente aleatorio:  = . De ahi el nombre random effects.
7.13
y it =i  x it ti
(7.28)
donde μ es una variable aleatoria. Supondremos que la estructura de la parte estocástica
es:
E[it ]=E [i ]=0
E[it ]2 = 2
E[i ]2 = 2
i
i
i
(7.29)
j
i
j
E[t  ]=E[t t ]=E [  ]=0
La estructura en la ecuación (7.29) es inocua excepto por el supuesto que
E[ε , μ ]=0 , como veremos más adelante.
Obviamente, ambos “errores” (ε y μ) se tratan como una entidad. Entonces, para
un grupo –la i-ésima unidad– su matriz de covarianzas de los errores es:
[
 2  2
=
 2
⋮
 2
 2
...
 2
 2  2 ...
 2
⋮
⋱
⋮
2
2

...    2
]
(7.30)
Como los errores entre las unidades no están correlacionados entre sí, la matriz
de covarianza de residuos de la muestra completa es:
[
 0 ... 0
0  ... 0
V=
⋮ ⋮ ⋱ ⋮
0 0 ... 
]
(7.31)
Entonces, resulta natural tratar el problema como si fuese uno de
heterocedasticidad. Necesitamos construir el estimador de mínimos cuadrados
generalizados con esta estructura de estocasticidad. Recordemos que la técnica de
mínimos cuadrados generalizados consiste en encontrar una transformación del modelo
original tal que el modelo transformado sea homocedástico. Es decir, buscamos una
matriz de transformación T tal que al aplicársela al modelo haga que sea homocedástico:
Ty i =Tx i T i
(7.32)
E[T ]=0 y E[ T  ' T ' ]= 2 T ' T . Imponiendo la restricción que
T ' Ω T =I , encontramos T y soluciomos el problema de heteocedasticidad. En nuestro

1/2
caso, se puede demostrar analíticamente que basta con usar  =I − ii ' donde  es:
T
donde
7.14
=1−

 T  
2

(7.33)
2

y hacer la transformación de las variables de acuerdo a
y it − y i
x it − x i
(7.34)
El resto del procedimiento es sencillo, encontrándose una expresión análoga a
(25) para el estimador pooled:
 p =F * w  w [I −F * w ]  b
w
S xx
*w
F =
 2
w
S xx  2
S bxx
2
  T  
(7.35)
Notemos propiedades importantes del estimador de efectos aleatorios:
2
●
Si  =0 –es decir si no hay efectos aleatorios– se obtiene el modelo pooled como
esperabamos por congruencia
●
Si T→∞ se obtiene el modelo de efectos fijos. Esto es muy razonable: si la muestra
es enorme, entonces será representativa de la población.
Algoritmo de estimación del modelo de efectos aleatorios
El problema de la solución anterior es que Ω no es conocida. El siguiente
algoritmo permite obtener un estimador de Ω sobre la base del estimador de las
varianzas de los shocks y del estimador de los parámetros de efectos fijos.
2
  usando los residuos del estimador intragrupos usando LSDV.
1. Compute 
2
2

  
usando el residuo del estimador intragrupos. De aquí se
T
obtiene el estimador  despejando convenientemente. Nótese que esto sólo se
2. Compute
puede hacer porque se ha supuesto que ambos shocks están no correlacionados.
=
3. Calcule 
4. Obtenga


  T 
2

2

y it − y i y x it − x i y haga la regresión
7.15
 w ,  b
5. Compute los estimadores de efectos aleatorios  p , 
Hay, sin embargo, un segundo supuesto implícito que es necesario tomar en
cuenta. Cuando modelamos el efecto aleatorio como:
y it =i  x it ti
(7.36)
es indispensable que no exista correlación entre el efecto aleatorio, μi, y los regresores,
x it , pues de otro modo el estimador de efectos aleatorios es inconsistente.
Si este supuesto se cumple, el estimador es consistente y, como usa el estimador
de Ω, es eficiente asintóticamente (es decir, en muestra grande).
Paneles desbalanceados
Es común que en la práctica falten observaciones de alguna variable para
unidades u observaciones. Estos se llaman paneles desbalanceados o incompletos. Este
no es un problema serio. Nótese que en tanto hayan suficientes observaciones para
computar la media grupal o la media temporal, la pérdida de observaciones no afecta a
los estimadores de panel por la simple razón que éstos usan siempre la información
disponible.
La incompletitud de una base de datos de panel sí afecta los estimadores de las
varianzas de los errores y, en particular, los tests de hipótesis porque, al contar los
grados de libertad, no se puede suponer que haya NT observaciones sino que un
número menor. En este sentido, el estimador de la varianza de los residuos de la
ecuación (26) debe ser corregido.
7.2
Modelación con datos de panel
Resulta natural preguntarse qué tipo de modelo se debe usar. Primero, si es
imprescindible usar un modelo con efectos (ya sea fijos o aleatorios) o si es posible usar
un modelo pooled. Una vez descartada la segunda alternativa, uno puede preguntarse si
es necesario usar un modelo de efectos fijos o éste debe ser de efectos aleatorios. Una
manera de enfocar el problema es notar que cada tipo de modelo exige una distinta
relación entre los regresores y el efecto fijo y derivar del modelo analítico la disciplina
necesaria para el modelo empírico. Es decir, si el modelo económico es capaz de
identificar ex-ante el tipo de efecto individual, entonces ya tenemos la especificación
necesaria y se puede testear si ésta describe adecuadamente los datos o no.
La mayor parte de las veces, sin embargo, los modelos teóricos no son capaces de
identificar el tipo de efecto individual que se debe usar en el trabajo empírico. Para ello,
7.16
se han diseñado tests estadísticos que ayudan en la especificación. En esta sección
estudiamos los principales tests que nos permiten evaluar la aplicabilidad de los
distintos estimadores en modelos de panel.
¿Efectos fijos o aleatorios?
Resulta natural preguntarse cuándo es preferible usar un modelo de efectos fijos
o de efectos aleatorios. Es posible usar el test de Hausman para inferir cuál modelo usar.
La base del test es precisamente la restricción del modelo de efectos aleatorios de que no
haya correlación entre dichos efectos y los regresores.
Recordemos que si no hay correlaciónentre efectos individuales y regresores el
estimador GLS es consistente y eficiente. Por otro lado, el estimador LSDV es consistente
–pero ineficiente– tanto si hay correlación como si no la hay. Así, las hipótesis del test
son:
●
Ho (si no hay correlación): OLS y GLS son consistentes, pero OLS es ineficiente.
●
H1 (si hay correlación): OLS es consistente, pero GLS es inconsistente.
El test entonces estudia la diferencia entre los estimadores de efectos fijos y
 − ] un sencillo test de Wald. Recuerde que el test de Wald en
aleatorios usando [ 
RE
FE
forma genérica es:
2

 −
 2
(7.38)
aplicado a la diferencia entre estimadores, el problema es encontrar la varianza de
[  RE − FE ] .
Var [  RE − FE ]=Var [  RE ]Var [  FE ]−2Cov [  FE ,  RE ]
(7.39)
La contribución de Hausman es notar que un estimador eficiente es ortogonal a
“su diferencia con respecto a un estimador ineficiente”. Recuerde que dos variables
correlacionadas comparten información y, por lo tanto, se puede usar una para predecir
–con menor incertidumbre– la otra. Así, si el estimador LSDV es eficiente no puede estar
 RE − FE ] pues, de otro modo,
correlacionado con su diferencia con otro estimador [ 
podríamos usar esa información para construir un estimador aún más eficiente. Por ello,
0=Cov [  RE −  FE ,  FE ]=Cov [  FE ,  RE ]−Var [  FE ]
 FE ,  RE ]=Var [  FE ]
Así, Cov [ 
(7.40)
7.17
 . Entonces el test de Hausman
y por lo tanto Var [ RE− FE ]=Var [ RE ]−Var [ FE ]= 
es directamente:
 −1 [ FE −ℜ ] ↝ 2  K 
[ FE −ℜ]' 
(7.41)
i
donde k es el número de regresores en x t .
Tests de Poolability
Después de haber estudiado si un modelo de efectos fijos es preferible a un
modelo de efectos aleatorios, resulta natural preguntarse si un modelo pooled es
preferible a un modelo de efectos aleatorios. El siguiente test –llamado de Breusch y
Pagan– se emplea comúnmente (es un simple test de heterocedasticidad aplicado a datos
de panel).
i
i
Recordemos que el efecto aleatorio lo modelamos como  = con E[ ]=0
. Entonces, si no hay efectos aleatorios, es obvio que α será constante. Así, las hipótesis
del tests son:
H 0 :  2=0
H 1 :  2 ≠ 0
i
t :
El test se aplica sobre los residuos del modelo pooled que denotamos por 
[ ]
N
NT
2 N −1
 
T
∑ ∑ 
i =1
N
2
i
t
i =1
T
−1 ↝ 21
(7.42)
∑ ∑ { }
i 2
t
i=1 i=1
Tests de igualdad de efectos fijos
Después de haber estudiado si un modelo de efectos fijos es preferible a un
modelo de efectos aleatorios y si un modelo pooled es preferible a un modelo de efectos
aleatorios, resulta natural preguntarse si el modelo de efectos fijos es preferible a un
modelo pooled. El test es bastante sencillo:
H 0 : 1=2 =...=n
H 1 : 1 ≠ 2 ≠ ...≠n
Este es un simple test de Chow, en el sentido que la H 0 señala un modelo
restringido y la alternativa un modelo sin restringir. Computamos la suma de residuos
7.18
al cuadrado de cada uno y formamos el test F:

SRCR −SRCU / N −1
N −1
↝F
SRCU /T  N−1−K
T  N −1−K

(7.43)
donde SRCR es la suma de residuos al cuadrado del modelo restringido y SRCU es la
suma de residuos al cuadrado del modelo no restringido.
7.3
Modelos de panel dinámicos
El modelo canónico o genérico de datos de panel dinámico tiene la siguiente
forma
y it =i  x it  y it −1  it
(7.44)
i
donde i =1, ... , N y t =1, ... ,T . La variable x t contiene todos los regresores estáticos del
i
i
i
i
modelo, es decir, incluye x 1t , x 2t ,... , x kt e incorporamos y t−1 para capturar la dinámica
del fenómeno. Seguimos suponiendo que el error εit es homocedástico y no
correlacionado.
i
i
i
Consideremos que el error de (7.44) puede ser escrito como t =  t :
y it = x it  y ti −1ti
(7.45)
La existencia de efectos dinámicos complica el análisis porque produce
i
i
correlación entre regresor y residuo: si y t depende de i entonces y t−1 también está
correlacionado con i . En este caso, el estimador pooled es inconsistente.
Consideremos el estimador de efectos fijos. La técnica de tomar primeras
diferencias va a eliminar αi pero no va a ser una solución viable en este caso porque:
y t − y = [ x t − x ] [ y t −1− y t −1] t −

i
= [ x t − x ]  [ y t −1− y t −1 ]t −
i
i
i
i
i
i
i
i
i
i
i
i
i
(7.46)
T
pero
y
i
t−1
∑
=
t =2
y it−1
T −1
i
i
i
está relacionado con t − 
 porque, por construcción, y t−1 está
i
i
correlacionado con 
 porque en este último se incluye t −1 .
El estimador de efectos fijos será inconsistente. El sesgo del estimador dependerá
del tamaño de muestra. Cuando T tiende a ∞, el sesgo desaparecerá. Sin embargo en este
7.19
contexto T moderadamente alto aún producirá un estimador sesgado. Estudios con
datos artificiales señala que con muestras de tamaño T=30, el estimador puede estar
sesgado en un 20% o más.
El estimador de efectos aleatorios también será sesgado. Recordemos que para
i
i
construir el estimador hay que cuasi-diferenciar de la forma y t − y . Así, nuevamente
T
1
i
i
i
i
y t−1 = T −1 ∑ y t −1 estará relacionado con t −  por construcción.
t =2
i
sería:
i.
Una alternativa de solución sería usar primeras diferencias y t − y t −1 El modelo
y it − y it −1 =i  x it  y it−1it − i − x it −1 y it −2it −1
= [ x it −x it −1]  [ y it −1− y it−2 ]it −it −1
(7.47)
lo que elimina el efecto fijo. Pero va a haber correlación entre regresor  y t −1 y el
residuo. Para controlar esta problema la solución sería usar variables instrumentales.
Estimador de Anderson y Hsiao (1981)
Usar  y t −2 como un instrumento de  y t −1 . Nótese que como y t−2 e y t−3
suceden antes que t y t−1 entonces no hay correlación entre instrumento y residuo.
Además, hay covariación obvia entre  y t −2 y  y t −1 . En este caso, el estimador de
variables instrumentales (Anderson y Hsiao, 1981) es consistente pero no
necesariamente eficiente. Este último fenómeno se debe a que el estimador no hace uso
i
i
de la estructura característica de los residuos, t −t −1 .
Estimador de Arellano (1989)
El problema de eficiencia se reduce notablemente si se usa y t−2 como un
instrumento de  y t −1 , en vez de  y t −2 . Nótese que como y t−2 sucede antes que t
y t−1 entonces no hay correlación entre instrumento y residuo y, por otro lado, hay
covariación entre y t−2 y  y t −1 .
Estimador de Arellano y Bond (1991)
Arellano y Bond (1991) desarrollan el estimador de momentos en el contexto de
i
i
i
panel data. Consideremos el modelo dinámico más simple y t = y t −1t . Tomamos
primera diferencia:
7.20
 y ti =  y it −1  it
(7.48)
y nos concentramos en definir la matriz de instrumentos Z adecuados para estimar el
modelo:
●
Para t=3, que es el primer período que podemos estimar, los instrumentos
disponibles y adecuados son: y 1 .
●
Para t=4, los instrumentos disponibles y adecuados son:
y1 e y2 .
●
Para t=5, los instrumentos disponibles y adecuados son:
y 1 , y 2 e y 3.
●
etc.
Por lo tanto la matriz de instrumentos Z va creciendo con la muestra.
Premultipliquemos el modelo por Z ’ :
Z '  y it =Z '  y it −1 Z '  it
(7.50)
Todo está OK, excepto que el residuo es ahora heterocedástico. De hecho, la
2
i
matriz de covarianza de  t es de la forma   G . Por lo tanto, usamos mínimos
cuadrados generalizados y obtenemos el estimador de Arellano y Bond consistente de
una etapa:
−1
 [  y it −1 ' Z  W ' GW −1 Z '  y t−1 ]
=
[ y
i
t −1
' Z  W ' GW  Z '  y t ]
−1
(7.51)
El estimador eficiente, sin embargo, que corresponde al caso en que N→∞ con T
N
fijo en cuyo caso el estimador de W'GW es V n =∑ Z '  i  i ' Z . Entonces:
i=1
−1
i
−1
 [  y it −1 ' Z V −1
=
n Z '  y t −1 ] [  y t −1 ' Z V n Z '  y t ]
7.4
(7.52)
Tests de raíces unitarias en panel
Esta es un área reciente de tests y aún son algo primitivos. Un primer test es el
de Bhargava, Franzini y Narendrathan (1982) que desarrollan una variación del test de
Durbin-Watson para panel y que puede ser usada para testear si el AR(1) tiene una raíz
unitaria.
7.21
El primer test de raíces unitarias propiemente es el de Levin y Lin (1992).
Consideremos el modelo canónico:
y it =z it  i y it −1 it
(7.53)
i
El test asume que t es i.i.d. y que ρi=ρ, es decir que el coeficiente de la variable
endógena rezagada es igual en todos los grupos. Esto es equivalente a suponer que la
dinámica es la misma en todos los grupos. La hipótesis nula es que existe una raíz
unitaria:
H0 : =1
H1: 1
h t ,s =z t ʹ
Definimos

T

∑ztztʹ zs ,
i =1
T
 ti = it −∑ h t ,s  is ,
y
i =1
T
i
y = y −∑ h t , s y s entonces Levin y Lin (1992) encuentran la distribución de:
i
t
i
t
i =1
N
T
1
1
i
i
∑
∑
y t −1  t
 N i=1 T i=1

 N T  −1=
N
T
1
1
∑ ∑ y i y i
N i=1 T 2 i =1 t −1 t −1
(7.54)
y del estadístico

 −1
t =

1
NT

N
T
∑ ∑ y it −1 y it−1
i =1 i =1
N
T
(7.55)
∑ ∑  it −1  it −1
i=1 i=1
Al igual que en el caso de las series de tiempo univariadas (p.e., test de DickeyFuller), las distribuciones de (72) y (73) dependen de lo que contenga z (nada, constante,
un shock individual, o un shock individual y una tendencia lineal). Así:
7.22
Cuadro 7.2
z ti
0
1
μi

tρ

N 0,2
 N T  −1⇒
t  ⇒ N 0,1

N 0,2
 N T  −1⇒
t  ⇒ N 0,1
0,51
t   1.875N⇒ N 0,1

 N T  −13
 N ⇒ N  5   1.25
(μi, t)

0,2895
 t   3.75N  ⇒ N 0,1
488

 N [ T  −17.5
] ⇒ N  112  277
Nota: ⇒ significa “convergencia débil a”.
Las distribuciones son obtenidas siguiendo un proceso de convergencia
secuencial, es decir, primero se hace T→∞ y luego N→∞ . Esto es una debilidad si la
muestra no es grande en alguna dimensión.
Harris y Tzavalis (1999) derivan la distribución cuando T es fijo y N→∞ para los
siguientes casos:
Cuadro 7.3
z ti

0

0,2
 ⇒ N
 N T  −1
T T −1
μi
(μi, t)

3
 

⇒ N 0,
 N T −1
T 1


 N T −1
 

317T 2−20T17
5T −1T 13

15
15193T 2 −728T 1147
⇒ N 0,
2T 2
112T 23 T −2

Nota: ⇒ significa “convergencia débil a”.
O' Connell (1998) demuestra que estos tests sufren pérdida de poder y distorsión
de tamaño cuando hay correlación contemporánea entre los νi. El problema aquí es
complejo porque envuelve entender qué es y cómo opera la correlación espacial.
7.23
Im, Pesaran y Shin (1997) proponen un test que (1) evita suponer que ρi=ρ, y (2)
es menos complejo de estudiar. El test se basa en usar un promedio de los tests ADF
hechos para cada cross-section de modo independiente:
pi
 =∑  ij t − j t
i
t
i
i
(7.56)
j=1
sustituyendo en la ecuación (71)
pi
i
t
i
t
y =z  i y
i
t −1
∑  ij  y ti − j it
(7.57)
j =1
La hipótesis nula es que cada ρi es una raíz unitaria:
H0 : ρi = 1 para todos los i
H1 : ρi < 1 para al menos un i
El estadístico de Im, Pesaran, y Shin, llamado t bar, es el promedio de los N ttests de la ecuación (75):
N
t =
1
∑t
N i=1 
(7.58)
i
La distribución del estadístico t bar no es fácil de computar porque depende del
valor promedio y la varianza det bar que son desconocidas. Im, Pesaran, y Shin
encuentran los valores por simulación con datos artificiales. En tal caso:


N t
 N
−1
∑ E [t i | i =1]
N i=1
N
1
∑ V [t i | i =1]
N i=1

⇒ N 0,1
(7.59)
La distribución de este test se obtiene, nuevamente, siguiendo el proceso de
convergencia secuencial, es decir, primero se hace T→∞ y luego N→∞, pero tiene la
restricción adicional que N/T→0 . Esto es una debilidad si la muestra no es grande en
alguna dimensión o si N no es relativamente pequeño.
Maddala y Wu (1999) y Choi (2001) proponen hacer tests de raíces unitarias en
cada cross-section y computar el valor p en cada caso. El siguiente estadístico:
7.24
N
P =−2 ∑ ln p i ⇒ χ² 2N
(7.60)
i =1
Las ventajas de este estimador son (1) no requiere un panel balanceado, (2) los
largos de rezagos pueden diferir entre cross-section, (3) no requiere ρi=ρ. Las
desventajas es que los valores p tienen que ser obtenidos por simulación de Montecarlo
en cada caso.
Descargar