Estimación de modelos no lineales Alfonso Novales Departamento de Economía Cuantitativa Universidad Complutense Septiembre 2013 Versión preliminar No citar sinpermiso del autor @Copyright 2013 Contents 1 Estimación de modelos no lineales 1.1 Minimos Cuadrados en modelos no lineales . . . . . . . . . . . . 1.1.1 Aproximación lineal del modelo no lineal . . . . . . . . . . 1.1.2 Ejemplo 1: Modelo exponencial con constante. Aproximación lineal . . . . . . . . . . . . . . . . . . . . . . . . . 1.1.3 Ejemplo 2: Modelo potencial. Aproximación lineal . . . . 1.2 Minimización de una función . . . . . . . . . . . . . . . . . . . . 1.3 Estimación por Mínimos Cuadrados . . . . . . . . . . . . . . . . 1.4 Algoritmos numéricos: Gauss-Newton y Newton-Raphson . . . . 1.4.1 Condiciones iniciales . . . . . . . . . . . . . . . . . . . . . 1.4.2 Ejemplo 4: Modelo potencial . . . . . . . . . . . . . . . . 1.4.3 Ejemplo 5: Una función de consumo . . . . . . . . . . . . 1.4.4 Ejemplo 6: Modelo exponencial sin constante. . . . . . . . 1.4.5 Ejemplo 7: Otra función exponencial . . . . . . . . . . . . 1.4.6 Ejemplo 8: Un modelo no identi…cado . . . . . . . . . . . 1.5 Estimador de Máxima Verosimilitud . . . . . . . . . . . . . . . . 1.6 Criterios de convergencia . . . . . . . . . . . . . . . . . . . . . . 1.7 Di…cultades prácticas en el algoritmo iterativo de estimación . . 1.8 Estimación condicionada y precisión en la estimación . . . . . . . 1.9 Algunos modelos típicos . . . . . . . . . . . . . . . . . . . . . . . 1.9.1 Estimación de modelos MA(q) . . . . . . . . . . . . . . . 1.10 Estimación por Máxima Verosimilitud de modelos dinámicos . . 1.10.1 Modelo AR(1), sin autocorrelación . . . . . . . . . . . . . 1.10.2 Modelo constante, con autocorrelación . . . . . . . . . . . 1.10.3 Estimación de Máxima Verosimilitud del modelo AR(1) con perturbaciones AR(1) . . . . . . . . . . . . . . . . . . 1 2 2 3 5 6 6 7 9 10 11 12 13 16 17 17 20 21 23 24 24 26 26 30 34 1 Estimación de modelos no lineales Es bien conocido que el estimador de Mínimos Cuadrados Ordinarios de un modelo de relación lineal, yt = x0t + ut ; t = 1; 2; :::; T (1) viene dado por la expresión matricial, ^ = (X 0 X) 1 XY siendo X la matriz T xk que tiene por columnas las T observaciones de cada una de las k variables explicativas contenidas en el vector xt ; e Y el vector columna, de dimensión T , formado por las observaciones de yt : Este estimador, que es lineal (función lineal del vector Y ), es insesgado. Es el de menor varianza entre los estimadores lineales si la matriz de covarianzas de los términos de error tiene una estructura escalar, V ar(u) = 2 u IT Si, además de tener dicha estructura de covarianzas, el término de error tiene una distribución Normal, entonces el estimador de Mínimos Cuadrados coincide con el estimador de Máxima Verosimilitud, siendo entonces e…ciente: estimador de menor varianza, entre todos los estimadores insesgados, sea cual sea su dependencia respecto del vector de Y . Supongamos que se pretende estimar la relación, yt = f (xt ; ) + ut ; (2) donde f (xt ; ) es una función no lineal de los componentes del vector kx1; : Si f (xt ; ) es no lineal únicamente en las variables explicativas xt ; un cambio de variable permite transformar el modelo anterior en un modelo lineal. Excluimos, sin embargo, inicialmente, la estimación de relaciones implícitas, representables a partir de un modelo general del tipo, g(yt ; xt ; ) + ut ; 1.1 Minimos Cuadrados en modelos no lineales El procedimiento de Mínimos Cuadrados no Lineales en este modelo consiste en resolver el problema de optimización: min SR(^) = min T X u ^t ^ = min t=1 T X [yt t=1 lo que implica resolver el sistema de ecuaciones, @f (xt ; ) @ 0 y= @f (xt ; ) @ 2 0 2 f (xt ; )] f (X; ) donde el vector gradiente es T xk, y f (X; ) es T x1. Este sistema puede no tener solución, o tener múltiples soluciones. A diferencia del estimador de Mínimos Cuadrados aplicado a un modelo lineal, el estimador no es insesgado. La matriz de covarianzas del estimador resultante es: V ar(^) = 2 u " 0 @f (xt ; ) @ @f (xt ; ) @ # 1 que se reduce a la matriz de covarianzas 2u (X 0 X) 1 en el caso de un modelo lineal. Si quisiéramos aplicar Mínimos Cuadrados directamente, en el modelo exponencial, yt = f (xt ; ) + ut = con =( ; 1; 2) ; + 2 xt 1e + ut tendríamos que resolver el problema, min SR(^) = min T h X u ^t ^ t=1 i2 = min T X yt ( + 1e e2 2 xt X + 1 xt e2 2 xt 2 xt ) 2 t=1 que conduce a las condiciones de optimalidad, yt = yt e 2 xt = yt xt e 2 xt = X X X T+ X X 1 e X 2 xt xt e2 e + 2 xt 2 xt 1 X que carece de solución explícita, por lo que debe resolverse por procedimientos numéricos. 1.1.1 Aproximación lineal del modelo no lineal Para evitar recurrir a los métodos numéricos, en los que siempre es complicado saber si hemos encontrado el tipo de solución que buscábamos, un primer enfoque consiste en estimar la aproximación lineal del modelo (2) ; alrededor de una estimación inicial, yt = f (xt ; ^ ) + @f (xt ; ) @ ^ + ut ; =^ Haciendo el cambio de variable: yt = yt f (xt ; ^ ) + @f (xt ; ) @ =^ ^; y generando asimismo ”datos” para cada una de las k variables de…nidas por el t; ) gradiente @f (x ;podemos estimar el modelo lineal @ =^ yt ' @f (xt ; ) @ 3 + ut ; =^ por el procedimiento habitual de Mínimos Cuadrados. Podemos pensar que en realidad estamos estimando un modelo distinto del que pretendíamos, y que de poco nos servirá, si el modelo que estimamos tiene una variable dependiente y unas variables explicativas diferentes de las que aparecían en el modelo original. Lo que sucede es que una vez más (como también sucede al estimar por MCG un modelo de regresión inicial en el que el término de error tiene heterocedasticidad o autotocorrelación), lo que hacemos es transformar las variables del modelo para obtener otro modelo diferente, que comparte con el primero los mismos coe…cientes, y en el que la estimación de mínimos cuadrados tiene buenas propiedades. Además, veremos pronto que esta estrategia de estimación se puede interpretar como el resultado de un verdadero problema de minimización de la suma de cuadrados de residuos (ver algoritmo de Gauss Newton, más adelante). La estimación resultante es, ~= " @f (xt ; ) @ 0 =^ @f (xt ; ) @ =^ # 1 @f (xt ; ) @ 0 y =^ donde el vector gradiente es una matriz de pseudo-datos, de dimensión T xk; e y es un vector T x1. Sustituyendo y por la expresión que utilizamos para de…nir a esta variable, podemos escribir el estimador como, ~=^+ " @f (xt ; ) @ 0 =^ @f (xt ; ) @ =^ # 1 @f (xt ; ) @ 0 u ^: =^ Este resultado es muy interesante, pues permite poner en práctica un procedimiento iterativo, del siguiente modo: en cada etapa, partimos de unos determinados valores numéricos para los parámetros del modelo, que utilizamos para generar los errores de ajuste, u ^; y estimamos una regresión de dichos errores t; ) sobre las variables que con…guran el vector gradiente @f (x : Los coe…cientes @ estimados en dicha regresión son las correcciones que hay que introducir sobre el estimador disponible en en dicha etapa para obtener un nuevo vector de estimaciones. Para comenzar este proceso, hemos de empezar con unas estimaciones iniciales, que se seleccionan bien utilizando información muestral, o bien escogiendo valores numéricos que simpli…quen el modelo. El estimador resultante tras la convergencia del procedimiento tiene una distribución asintótica Normal, con esperanza matemática igual al verdadero vector de parámetros ; y su matriz de covarianzas puede estimarse por, ^ 2u con ^ 2u = 1 T k PT " t=1 @f (xt ; ) @ 0 =~ @f (xt ; ) @ u ~2t ;siendo el residuo u ~ t = yt 4 =~ # 1 f (xt ; ~ ): (3) 1.1.2 Ejemplo 1: Modelo exponencial con constante. Aproximación lineal Consideremos la estimación del modelo exponencial: yt = + 1e 2 xt + ut = f (xt ; ) + ut con = ( ; 1 ; 2 ) : El gradiente de la función f que de…ne la relación entre variable dependiente e independiente es, @f (xt ; ) 0 = 1; e 2 xt ; 1 xt e 2 xt @ por lo que la aproximación lineal al modelo original es, yt ' f (xt ; ^) + @f (xt ; ) @ 0 ^ + ut ; t = 1; 2; :::; T; =^ que de…niendo variables: = yt z1t = e 2 xt ^ = ^ 1 xt e 2 xt z2t @f (xt ; ) @ f (xt ; ^) + yt 0 =^ ^ = yt + ^ ^ e ^ 2 xt 1 2 ^ conduce a estimar el modelo, yt = + 1 z1t + 2 z2t + ut ; t = 1; 2; :::; T (4) A partir de unas estimaciones iniciales denotadas por el vector ^ = ^ ; ^ 1 ; ^ 2 ; generamos observaciones numé…cas para la variable yt , así como para las varaibles z1t ; z2t ; y procedemos a estimar el modelo (4) ; obteniendo las nuevas estimaciones numéricas de los tres parámetros. Con ellos, podríamos volver a obtener observaciones numéricas de yt , z1t ; z2t ; e iterar el procedimiento. Como hemos visto antes, este procedimiento puede también ponerse en práctica estimando la regresión de los residuos sobre el vector gradiente: u ^t = 0 + 1 z1t + 2 z2t Tanto el cálculo del vectror de residuos como la generación de datos para el vector gradiente dependerán de la estimación concreta disponible en ese momento, y procederemos a la actualización de valores numéricos de los parámetros, mediante: ^n = ^n siendo u ^ t = yt 1 + ^0 ; ^ 1;n = ^ 1;n f (xt ; ^n 1 ): 5 1 + ^1 ; ^ 2;n = ^ 2;n 1 + ^2 1.1.3 Ejemplo 2: Modelo potencial. Aproximación lineal Supongamos que queremos estimar el modelo potencial: yt = + xt + ut ; t = 1; 2; :::; T la función f (xt ; ) es: f (xt ; ) = @f (xt ; ) = @ + xt ; de modo que el vector gradiente es: @f (xt ; ) @f (xt ; ) @f (xt ; ) ; ; @ @ @ = (1; xt ; xt ln xt ) [Recordemos que la derivada de la función x con respecto a es igual a x ln x]: Nótese que para cada observación t tenemos un vector de tres valores numéricos para el vector @f @(xt ; ) ; que siempre tiene como primer elemento en este caso el número 1. A partir de unas estimaciones ^ ; calculamos los errores de ajuste: u ^ t = yt ^ ^ x ^ ; t = 1; 2; :::; T t y estimamos una regresión con u ^t como variable dependiente, y las tres variables del vector @f @(xt ; ) como variables explicativas. El vector de estimaciones se añade, con el signo que haya tenido (es decir, se suma si es positivo, y se resta si es negativo), de las estimaciones iniciales, para tener una nueva estimación. el algoritmo continua hasta que alcance la convergencia, y el punto al que converge se toma como estimación del vector : En este modelo, una estimación inicial razonable consistiría en partir de = 1;que simpli…ca el modelo haciéndolo lineal. Si estimamos una regresión lineal por mínimos cuadrados: yt = + xt + ut ; t = 1; 2; :::; T; el vector ^ ; ^ ; 1 ; donde ^ y ^ denotan las estimaciones de mínimos cuadrados del modelo lineal, servirían como estimaciones iniciale para comenzar el procedimiento iterativo. 1.2 Minimización de una función Supongamos que queremos hallar el valor del vector de parámetros que minimiza una función F ( ) : A partir de una estimación inicial del valor de dicho vector, ^n 1 , aproximamos la función F (:) : h i0 F ( ) ' F ^n + rF ^n ^n + 1 2 ^n 0 h r2 F ^n i ^n M( ) Si quisiéramos minimizar la función M ( ) ;resolveríamos el sistema de ecuaciones, h i h i ^n = 0 M ( ) = rF ^n + r2 F ^n 6 que conduce a, h = ^n r2 F ^n i 1 h rF ^n i valor numérico que puede tomarse como la nueva estimación, ^n+1 : Por supuesto, convendrá comprobar que el Hessiano r2 F ^n es de…nido positivo. El algoritmo se basa en condiciones de primer orden por lo que, cuando el algoritmo converja, no sabremos si hemos alcanzado un máximo o un mínimo, y necesitaremos hacer alguna exploración adicional. Si aplicamos la expresión anterior a la minimización de una función cuadrática: F ( ) = a 2 + b + c; obtenemos: ^n = b=2a; llegando a este punto crítico de la función sin necesidad de hacer ninguna iteración. Este es un algoritmo iterativo, conocido como algoritmo de Newton-Raphson. Converge en una sóla etapa al mínimo local cuando la función F ( ) es cuadrática. En los demás casos, no hay ninguna seguridad de que el algoritmo vaya a converger. Incluso si lo hace, no hay seguridad de que converja al mínimo global, frente a hacerlo a un mínimo local. Además, no es posible saber si el límite alcanzado es o no un mínimo de naturaleza local. Por eso, conviene repetir el ejercicio partiendo de condiciones iniciales muy distintas para, si converge, certi…car que lo hace a un mínimo local peor que el alcanzado previamente. Las iteraciones continúan hasta que se satisfacen las condiciones de convergencia que hallamos diseñdo. Estas pueden ser una combinación de condiciones de diverso tipo, ^n h ^n 1 rF ^n F ^n 0 ^n ^n 1 i0 h i rF ^n F ^n 1 < "1 < "2 < "3 En este tipo de algoritmos puede utilizarse un parámetro de longitud de paso, para tratar de controlar la velocidad de convergencia y, con ello, posibilitar que nos aproximemos al mínimo global, o que no abandonemos demsiado pronto una determinada región del espacio paramétrico: = ^n 1.3 h r2 F ^n i 1 h rF ^n i Estimación por Mínimos Cuadrados Si queremos obtener el estimador de Mínimos Cuadrados del modelo no lineal, querremos minimizar la función, F( )= T X (yt 2 f (xt ; )) = SR( ) t=1 7 y la regla iterativa anterior se convierte en, ^ =^ n n 1 en la que es fácil ver que, rF ^ n 1 = r2 F ^ n 1 = @SR( ) = @ h r2 F ^ n 2 1 i 1 h rF ^ n 1 i T X @f (xt ; ) ut @ t=1 T X @ 2 SR( ) 0 =2 @ @ t=1 @f (xt ; ) @ @f (xt ; ) @ 0 2 T X @ 2 f (xt ; ) ut @ @ 0 t=1 en este caso, el algoritmo de Newton-Raphson consiste en: ^ =^ n n " 1+ T X t=1 @f (xt ; ) @ @f (xt ; ) @ 0 @ 2 f (xt ; ) ut @ @ # 1 " T X @f (xt ; ) ut @ t=1 El estimador resultante es asintóticamente insesgado, con matriz de covarianzas, 2 u h r2 F ^n i 1 estimándose el parámetro 2u del modo antes referido, mediante el cociente de la Suma de Cuadrados de los errores de ajuste y el número de grados de libertad del modelo. El algoritmo de Gauss-Newton consiste en ignorar la presencia de la segunda derivada en la matriz inversa anterior, y considerar el esquema iterativo, ^ =^ n n 1 + " T X t=1 @f (xt ; ) @ @f (xt ; ) @ 0 # 1 " T X @f (xt ; ) ut @ t=1 # Al despreciar la segunda derivada, este algoritmo entra en di…cultades cuando la super…cie a optimizar no tiene su…ciente curvatura que, como veremos más adelante, son las situaciones que en términos estadísticos, corresponden a identi…cación imperfecta de los parámetros del modelo. El interés de este segundo algoritmo estriba en que la expresión matricial que aparece en el segundo sumando corresponde con las estimaciones de mínimos cuadrados del vector de errores, calculado con las estimaciones actuales, t; ) . Son k variables, sobre las k variables de…nidas por el vector gradiente @f (x @ tanta como parámetros hay que estimar, porque el vector gradiente consta de una derivada parcial con respecto a cada uno de los k parámetros del modelo. Las estimaciones resultantes son las correcciones a introducir sobre las actuales estimaciones del vector para tener un nuevo vector de estimaciones numéricas. 8 # 1.4 Algoritmos numéricos: Gauss-Newton y Newton-Raphson Consideremos de nuevo la estimación del modelo exponencial, yt = + 1e 2 xt + ut = f (xt ; ) + ut Si denotamos por F ( ) la función Suma de Cuadrados de Residuos, tenemos el gradiente y matriz hessiana, rF ( ) = r2 F ( ) 2 X @f (xt ; ) u ^t = @ X @ft @ft @ @ 0 T 1 X @ e 2 xt = 2 2 xt t=1 1 xt e 0 T 1 X @ e 2 xt = 2 2 xt t=1 1 xt e = 2 2 X @ft u ^t = @ 0 2 X @ 2 ft 2 @ e 2 xt e2 2 xt 2 1 xt e X 2 xt 1; e ; 1 2 xt 1 xt e 2 1 xt e 2 2 2 1 xt e 2 xt u ^t A 2 xt 2 xt 2 xt xt e 2 1 xt e u ^t 0 0 0 @ 0 0 2 t=1 0 xt e 1 xt e 1e 1 xt e u ^t = 2 xt e 2 xt e2 2 xt xt e 2 xt 2 T X 2 xt 2 xt u ^t + 2 xt 1e 2 1 xt e 2 xt y el algoritmo de Newton-Raphson consiste en actualizar los valores numéricos de los parámetros mediante el esquema, ^n = ^n 1 h r2 F ^n 1 i 1 rF ^n 1 El algoritmo de Gauss-Newton es una versión simpli…cada del anterior, sustituyendo la matriz hessiana por el producto, T X t=1 @ft @ =^ @ft @ 0 =^ que equivale a despreciar las derivadas de segundo orden. La aproximación será apropiada por tanto cuando la función a optimizar sea aproximadamente cuadrática. En ese caso, el hessiano sería constante. Como en la expresión del algoritmo Newton-Raphson aparece la suma de productos del hessiano por el residuo, si el hessiano es aproximadamente constante, la suma seria proporcional a la suma de residuos, que debería ser pequeña (sería cero si el modelo fuese lineal). Bajo esta aproximación, tenemos el esquema iterativo, ^n = ^n 1 + " T X t=1 @ft @ =^n 1 @ft @ 9 0 =^n 1 # 1 " 2 xt T X @f (xt ; ) u ^t @ t=1 # 2 xt u ^t 1 0 Au xt e 2 xt ^t = 2 2 xt 1 xt e 1 A que, como puede verse, coincide con la estimación de la aproximación lineal al modelo no lineal que antes analizamos. En el modelo exponencial tendríamos, ^n = ^n 2 0 T 1 X 4 @ e 1+ t=1 e 2 xt e2 2 xt 2 1 xt e 2 xt 1 xt e 2 xt 2 xt 1 xt e 2 1 xt e 2 2 2 1 xt e 2 xt 2 xt 2 xt 13 A5 1 2 13 0 T u ^t X 4 A5 @ e 2 xt u ^t x t 2 t=1 u ^t 1 xt e Pero lo verdaderamente interesante del algoritmo de Gauss-Newton es que la actualización en el estimador puede llevarse a cabo mediante una regresión de los errores de ajuste, calculados con el estimador actualmente disponible, sobre el vector gradiente de la función f . Los coe…cientes estimados en esta regresión auxiliar se añaden a los actuales valores numéricos de los parámetros para obtener el nuevo estimador, y se continúa de modo iterativo hasta lograr a convergencia del algoritmo. 1.4.1 Condiciones iniciales En algunos casos, puede comenzarse de estimaciones iniciales sencialles, pero no demasiado. La estructura de este modelo sugiere comenzar de 2 = 0; con lo que desaparecería el término exponencial, y = 0; con lo que tendríamos 1 = y; y residuos: u ^t = yt y: Sin embargo, en este caso, las matrices a invertir en los algoritmos de Newton- Raphson y Gauss-Newton resultan, respectivamente: 0 1 @ 1 2 t=1 yxt T X 1 1 xt u ^t + yxt 1 yxt A = xt u ^t + yxt 2 2 2 ^t + y xt xt y u 0 1 1 @ 1 1 2 t=1 yxt xt yt + 2yxt 0 1 T 1 1 yxt X @ 1 1 yxt A t=1 yxt yxt y 2 x2t T X siendo la segunda de ellas singular. Afortunadamente, las condiciones de optimalidad del procedimiento de Mínimos Cuadrados nos sugieren cómo obtener estimaciones iniciales razonables. Notemos que la primera condición puede escribirse, = m(y) 2 xt 1 m(e ) que, sustituida en la segunda, nos proporciona, m(yt e 2 xt ) = m(e 2 xt Dado un valor numérico de 1 = )m(y) 2; 1 m(e 2 xt ) 2 + tenemos, m(yt e m(e2 2 xt ) 2 xt ) 10 m(e 2 xt [m(e )m(y) 2 2 xt )] 2 1 m(e 2 xt ) 1 yxt A; xt yt + 2yxt 2 2 2 xt yyt + 2y xt que, como es habitual, tiene la forma de cociente entre una covarianza y una varianza muestrales. La última condición de optimalidad nos dice, m yt xt e 2 xt = m xt e2 que proporcionaría otra elección de 1 = m(xt e2 + xt e2 1m 2 xt 1; 2 xt m(yt xt e 2 xt m(xt e2 ) 2 xt 2 xt [m(xt e2 ) )m(y) 2 xt 2 )] Podríamos optar por escoger el valor numérico de 1 con cualquiera de ellas: También podríamos caracterizar la intersección, si existe, de las dos curvas para elegir ambos parámetros, 1 y 2 . 1.4.2 Ejemplo 4: Modelo potencial Consideremos la utilización del modelo potencial para estimar la relación entre el tipo de interés a largo plazo Rt y el tipo de interés a corto plazo rt , Rt = 1 + 2 rt + ut son, T X (Rt 2 rt ) = 0 ) rt = 0 ) rt ln rt = 0 1 t=1 T X (Rt 2 rt 1 t=1 2 T X (Rt 1 2 rt t=1 que constituyen las ecuaciones normales del problema de estimación. De las dos primeras ecuaciones, obtenemos, T X Rt = T 1+ t=1 T X R t rt 2 T X t=1 = 1 t=1 T X t=1 ) 2 = rt + rt ) T m(R) = T 2 T X t=1 1 + 2 T m(r )) rt2 ) T m(Rr ) = T m(R)m(r ) 1 = m(R) 2 T m(r 2 m(r )2 + m(Rr ) m(R)m(r ) m(r2 ) m(r )2 El primer resultado sugiere que la estimación del término independiente se obtenga, una vez estimados 2 y ; de modo similar a como se recupera el término independiente en la estimación de un modelo lineal. 11 ) 2 T m(r 2 )) Lo más interesante es observar que la segunda ecuación sugiere estimar el parámetro 2 en función de momentos muestrales de algunas funciones de los tipos a largo y a corto plazo. Para calcular dichos momentos precisamos conocer el parámetro , pero también podemos poner en marcha una búsqueda de red puesto que, por las características de la función de consumo, dicho parámetro ha de ser positivo y no muy elevado. Por tanto, una red que cubra el intervalo (0:5; 2:0) puede ser su…ciente. De hecho, para cada valor numérico posible de podemos utilizar la expresión anterior para estimar 2 ;sin necesidad de optimizar, y después utilizar la primera condición de optimalidad para estimar 1: 1.4.3 Ejemplo 5: Una función de consumo Para apreciar el grado de di…cultad, consideremos las condiciones de optimalidad correspondientes a la estimación por mínimos cuadrados del modelo de consumo, Ct = 1 + 2 Yt + ut en el que la función f (X; ) tiene gradiente: @f (xt ; ) = (1; Yt ; @ 2 Yt ln Yt ) que son, T X (Ct 2 Yt 1 ) = 0 = 0 = 0 t=1 T X (Ct 1 2 Yt ) Yt t=1 2 T X (Ct 1 2 Yt ) Yt ln Yt t=1 que constituyen las ecuaciones normales del problema de estimación. De las dos primeras ecuaciones, obtenemos, T X Ct = T 1+ t=1 T X Ct Yt 2 T X t=1 = 1 t=1 T X t=1 ) 2 = Yt + Yt ) T m(C) = T 2 T X t=1 1 + 2 T m(Y )) 1 Yt2 ) T m(CY ) = T m(C)m(Y ) = m(C) 2 T m(Y m(CY ) m(C)m(Y ) m(Y 2 ) m(Y )2 Este procedimiento funciona muy bien desde el punto de vista numérico, como puede verse en el archivo Ajuste_consumo.xls. La única limitación del 12 2 m(Y )2 + ) 2 T m(Y 2 )) método es que no proporciona la estructura de varianzas y covarianzas que permitiría llevar a cabo el análisis de inferencia estadística al modo habitual. Puede analizarse, sin embargo, la región paramétrica consistente con una variación de la suma de cuadrados de residuos inferior a un cierto umbral de, por ejemplo, un 5%. Esto sería como construir una región de con…anza del 95% para el vector de parámetros. 1.4.4 Ejemplo 6: Modelo exponencial sin constante. Consideremos ahora la estimación del modelo, yt = e xt + ut = f (xt ; ) + ut con = ( ; ) : Entre muchas otras aplicaciones, este modelo se ha utilizado para representar una función de demanda de dinero, que relaciona la cantidad de saldos monetarios reales en la economía en función de las expectativas de in‡ación: Mt Pt d = e e t + ut ; t = 1; 2; :::; T; > 0; <0 El gradiente de la función f que de…ne la relación entre variable dependiente e independiente, es, @f (xt ; ) 0 = e xt ; xt e xt @ Es importante apreciar la expresión analítica de las derivadas parciales de esta función, @y @2y 2 xt = e xt ; = e ; @x @x2 Como la función exponencial es positiva con independencia del signo de y de xt ; tenemos que la primera derivada tendrá el signo del producto , mientras que la segunda derivada tendrá el signo del parámetro : Esto nos puede dar pautas para la elección de condiciones iniciales. Por ejemplo, si la nube de puntos de yt sobre xt tiene un per…l decreciente y convexo, tendríamos un valor positivo de ; debido a la convexidad, junto con un valor negativo de : Aproximación lineal por lo que la aproximación lineal al modelo original es, yt ' f (xt ; ^) + @f (xt ; ) @ 0 ^ + ut ; t = 1; 2; :::; T; =^ que, de…niendo las variables yt = yt e ^ xt ; z2t = ^ xt e ^ xt ; puede escribirse: 13 f (xt ; ^) + @f (xt ; ) @ 0 =^ .^; z1t = yt = z1t + z2t + ut ; t = 1; 2; :::; T; (5) A partir de unas estimaciones iniciales denotadas por el vector ^ = ^ ; ^ ; generamos observaciones numéricas para la variable yt , así como para las variables z1t ; z2t ; y procedemos a estimar el modelo (5) ; obteniendo las nuevas estimaciones numéricas de y . Con ellos, podríamos volver a obtener series temporales para las variables yt , z1t ; z2t ; e iterar el procedimiento. Como es sabido, este procedimiento puede también ponerse en práctica estimando la regresión, u ^t = 1 z1t + 2 z2t y procediendo a la actualización de valores numéricos de los parámetros, ^n = ^n siendo u ^ t = yt f (xt ; ^n 1 + ^1 ; ^ n = ^ n 1 + ^2 1 ): Algoritmo de Newton-Raphson Si denotamos por F ( ) la función Suma de Cuadrados de Residuos, min SR(^) = min T X u ^t ^ = min t=1 T X (yt 2 f (xt ; ) = min T X yt t=1 t=1 que conduce a las condiciones de optimalidad, X X yt e xt = yt xt e xt = X X e2 xt xt e2 xt donde la primera condición sugiere tomar como estimación inicial, ^= m(ye x ) m(e2 x ) mientras que de la segunda condición tenemos: ^= m(yxe x ) m(xe2 x ) 14 e xt 2 Ejercicio práctico con rutina Matlab Considerando nuevamente la función Suma de Cuadrados de Residuos, min SR(^) = min T X u ^t ^ = min t=1 T X 2 (yt f (xt ; ) = min t=1 T X yt e xt 2 t=1 Comenzamos generando una serie temporal de datos simulando la variable xt a partir de un proceso i., id., N ( ; 2x ); y para el término de error del modelo a partir de un proceso N (0; 2u ): Por último, generamos la serie temporal de datos para yt utilizando la estructura del modelo y las series temporales de xt y de ut , una vez que hemos …jado valores numéricos para los parámetros y : Con las series temporales fyt ; xt gTt=1 ; podemos estimar el modelo siguiendo varios procedimientos: Utilizando la instrucción "fminunc" de Matlab, para minimizar la suma PT 2 e xt : de cuadrados de los residuos o errores de ajuste M in t=1 yt ; Utilizando la instrucción "fsolve" de Matlab, que encuentra las raices o soluciones de una ecuación lineal o no lineal, lo que se puede aplicar al sistema formado por las dos condiciones de optimalidad o de primer orden del problema de minimización de la suma de cuadrados de los errores, 2 T X yt e xt e xt = 0 xt e xt = 0 t=1 2 T X yt e xt t=1 Utilizando el algoritmo de Gauss-Newton (9), con expresiones analíticas para el gradiente (6) y el hessiano (7) de la función objetivo, que es la Suma de Cuadrados de los errores de ajuste. Tenemos el gradiente y matriz hessiana, rF ( ) = r2 F ( ) = 2 X @f (xt ; ) u ^t = @ 2 T X t=1 = 2 T X t=1 e2 xt xt e2 e2 xt xt e xt 2 X @ft @ xt e2 xt 2 2 2 xt xt e xt e xt u ^t 15 u ^t = 2 2 X T X t=1 e xt 0 xt e ; xt e xt xt e xt e xt u ^t x2t e xt e xt u ^t xt u ^t (6) xt e xt x2t e xt (7) u ^t por lo que el algoritmo de Newton-Raphson sería, ^n = ^n 1 " T X e2 xt xt e xt t=1 xt e # xt e xt e xt u ^t x2t e xt e xt u ^t u ^t 1 " T X xt e xt e t=1 xt u ^t # (8) mientras que el algoritmo de Gauss-Newton sería, ^n = ^n 1 " T X e2 xt xt e2 t=1 # xt e2 xt 2 2 2 xt xt e xt 1 " T X xt e xt e t=1 xt u ^t # (9) Utilizando el algoritmo de Gauss-Newton (9), con evaluación numérica de las derivadas parciales que aparecen en el gradiente (6) y el hessiano (11) de la función objetivo, que es la Suma de Cuadrados de los Errores: f (x1 ; ::; xi + "; ::; xn ) f (x1 ; ::; xi @f = lim "!0 @xi 2" @2f @xi @xj siendo las derivadas segundas: = @g @xj ; @2f f (x1 ; ::; xi + "; ::; xj + "; ::; xn ) = lim "!0 @xi @xj 1.4.5 "; ::; xn ) donde g = ; i = 1; 2; :::; n @f @xi ; de modo que: f (x1 ; ::; xi + "; ::; xj "; ::; xn ) f (x1 ; ::; xi 4"2 Ejemplo 7: Otra función exponencial En el caso del modelo, yt = + e xt + ut tenemos el vector gradiente @f (xt ; ) = (1; e @ xt ; xt e xt ) y las ecuaciones normales, T X yt e xt = t=1 T X yt e xt e xt = t=1 T X t=1 yt e xt xt e xt = 0) 0) 0) T X yt = T + t=1 T X t=1 16 e xt t=1 yt e xt T X = t=1 T X T X e xt T X + t=1 yt xt e xt = T X t=1 ^m e )^=y e2 xt t=1 xt e xt + T X t=1 xt e2 xt xt "; ::; xj + "; ::; xn ) La primera ecuación sugiere estimar la constante mediante la regla habitual en el procedimiento de mínimos cuadrados de igualar las medias muestrasles de ambos miembros del modelo econométrico. La segunda ecuación conduce a, = m yt e xt m (e2 xt m(yt )m e xt ) [m (e 2 xt )] por lo que es sencillo obtener una estimación de ( ; ) condicional en ujn valor numérico de : De este modo, podríamos utilizar una rejilla de valores de este último parámetro para obtener estimaciones mínimocuadráticas de los tres parámetros del modelo. 1.4.6 Ejemplo 8: Un modelo no identi…cado Supongamos, por último, que pretendemos estimar el modelo, yt = + 1 2 xt + ut en el que la aplicación del algoritmo de Newton-Raphson resulta en, 1 0 1 0 1 0 0 0 2 xt 1 xt 2 2 2 A @ 0 0 xt A ut @ 2 xt 1 2 xt 2 xt 2 2 2 0 xt 0 1 xt 1 2 xt 1 xt mientras que el algoritmo de Gauss-Newton consistiría en, 1 0 1 2 xt 1 xt 2 2 2 A @ 2 xt 1 2 xt 2 xt 2 2 2 1 xt 1 2 xt 1 xt 1.5 Estimador de Máxima Verosimilitud Otra estrategia de estimación consiste en utilizar un procedimiento de Máxima Verosimilitud, lo que requiere establecer un determinado supuesto acerca del tipo de distribución que sigue el término de error (innovación) del modelo. El estimador resultante es e…ciente supuesto que la hipótesis acerca del tipo de distribución sea correcta. En el caso de que supongamos que ut N (0; 2u ), la función de verosimiltud es, " # T T =2 1 1 X 2 2 L( ; u ) = exp (yt f (xt ; )) 2 2u 2 2u t=1 y su logaritmo, ln L( ; 2 u) = T ln 2 2 T ln 2 17 2 u 2 T 1 X 2 u t=1 (yt 2 f (xt ; )) cuyo gradiente, de dimensión k + 1 hay que igualar a 0k+1 para obtener la estimación de Máxima Verosimilitud. Su matriz de covarianzas es la inversa de la matriz de información, V ar ^ M V = I( ; 2 u) 1 = 1 @ 2 ln L( ) E @2 = " T X @ 2 ln lt ( ) E @2 t=1 # 1 donde = ; 2u y ln lt ( ) denota el logaritmo de la función de densidad correspondiente a un período de tiempo. Es fácil probar que esta matriz es diagonal a bloques, en y 2u ; por lo que la estimación del vector y del parámetro 2u son independientes, siendo por tanto, estadísticamente e…ciente llevarlas a cabo por separado. En el aso del modelo exponencial: ln L(yt ; xt ; ; 2 u) = T ln 2 2 T ln 2 2 u 2 T 1 X 2 u t=1 yt ( + 1e 2 xt ) 2 tendremos el conocido resultado de que la elección de valores numéricos para los componentes de que maximiza la función de verosimilitud resultante coinciden con los valores numéricos que minimizan la suma de cuadrados de los errores de estimación. En este procedimiento, sin embargo, a diferencia de la estimación por Mínimos Cuadrados, consideramos la estimación de la varianza del término de error, 2 u ; simultáneamente con la de los parámetros que componen el vector : La ecuación de optimalidad correspondiente nos dirá, como también es habitual, que la estimación de máxima verosimilitud de dicho parámetro se obtiene dividiendo por T la suma de cuadrados de los residuos que resultan al utilizar las estimaciones de máxima verosimilitud de los parámetros que entran en : Si queremos maximizar el logaritmo de la función de verosimilitud, tendremos F ( ) = ln L( ; 2u ) y el algoritmo Newton-Raphson es, ^n = ^n 1 1 @ 2 ln L( ) @ @ 0 : =^n 1 @ ln L( ) @ =^n 1 y el estimador resultante es asintóticamente insesgado, con distribución Normal y matriz de covarianzas, @ 2 ln L( ) @ @ 0 V ar ^n = 1 =^n El algoritmo conocido como quadratic hill-climbing consiste en sustituir en cada iteración la matriz hessiana por, r2 F ^n 1 18 + Ik de modo que sea siempre de…nida positiva. Cuando esta corrección se introduce en el algoritmo de Gauss-Newton, se tiene el algoritmo de Marquardt. El algoritmo de scoring consiste en sustituir la matriz hessiana del logaritmo de la verosimilitud, por su esperanza matemática, la matriz de información cambiada de signo, lo que simpli…ca mucho su expresión analítica y, por tanto, los cálculos a efectuar en cada etapa del algoritmo, ! T h i 1 X @ ln lt ( ) ^n = ^n 1 + I(^n 1 ) : @ =^n 1 ^ t=1 = n 1 y la matriz de covarianzas del estimador resultante es, por supuesto, la inversa de la matriz de información. El algoritmo de Gauss-Newton, aplicado a la estimación por máxima verosimilitud, es, ^n = ^n 1 + " T X t=1 0 @ ln lt ( ) @ @ ln lt ( ) @ # 1 =^n 1 T X @ ln lt ( ) : @ t=1 ! =^n 1 En este caso, el algoritmo Gauss-Newton está justi…cado por la conocida propiedad teórica de la función de verosimilitud, # " 1 0 @ ln L( ) @ 2 ln L( ) @ ln L( ) = E E @ @ @2 En el caso del modelo exponencial, el gradiente de la función logaritmo de la verosimilitud es, 1 0 PT ^t t=1 u P T C e 2 xt u ^t 1 B C B r ln L(yt ; xt ; ; 2u ) = 2 B PTt=1 C 2 xt u ^ A t u @ t=1 1 xt e P T 1 2 u ^ + 2 2 2 t 2 2( ) u u y la matriz hessiana es, H= 0 1 T B e 2 xt 1 XB B B 2 2 xt u t=1 @ 1 xt e PT 1 2 u t=1 2 xt e e2 u ^t 2 xt 2 2 xt 1 xt e PT 1 2 t=1 u e 2 xt u ^t 2 xt 1 xt e 2 2 xt 1 xt e 2 2 2 2 xt 1 xt e PT 1 2 t=1 u 1 1 xt e 2 xt u ^t Al tomar esperanza matemática en los elementos de la matriz hessiana y cambiar su signo, obtenemos la matriz de información, que tendrá ceros en la última …la y columna, correspondientes a la estimación de 2u ; excepto en su elemento diagonal. 19 PT u ^t Pt=1 T 1 e 2 xt u ^t 2 u Pt=1 T 1 2 xt u x e ^t 2 t=1 1 t u P 2 T 1 u ^t 2( 2u )2 ( 2u )3 2 u 1 C C C C A I ; 2 u 0 1 T e 2 xt 1 XB B = 2 @ 1 xt e u t=1 0 2 xt e 2 xt e2 2 xt 2 1 xt e 0 2 xt 1 xt e 2 1 xt e 2 2 2 1 xt e 2 xt 0 2 xt 2 xt 1 0 0 0 T 2( 2 )2 u C C A que demuestra que el estimador de máxima verosimilitud de dicho modelo es estadísticamente independiente de los estimadores de los restantes parámetros, lo que no sucede con los estimadores de máxima verosimilitud de estos entre sí, que tienen covarianzas no nulas. 1.6 Criterios de convergencia Antes de ello, vamos a establecer criterios de convergencia: decimos que el algoritmo iterativo anterior ha convergido, y detenemos el procedimeitno numérico de estimación, cuando se cumple alguna de las siguientes condiciones: el valor numérico de la función objetivo varía menos que un cierto umbral previamente establecido al pasar de una estimación ^n 1 , a la siguiente, ^n ; el gradiente de la función objetivo, evaluado en la nueva estimación, rF ^n ; es pequeño, en el sentido de tener una norma reducida. Para comprobar el cumplimiento de esta condición, puede utilizarse la norma euclídea: raiz cuadrada de la suma de los cuadrados de los valores numéricos de cada componente del gradiente, o puede utilizarse el valor numérico de cualquier forma cuadrática calculada con el vector gradiente y una matriz de…nida positiva. la variación en el vector de estimaciones es inferior a un umbral previamente establecido. Para comprobar esta condición utilizaríamos una norma del vector diferencia ^n ^n 1 ; se ha alcanzado el máximo número de iteraciones establecido en el programa de cálculo numérico que lleva a cabo la actualización de estimaciones descrita en (??) : Esto se hace con el objeto de que el programa de estimación no continúe iterando durante un largo período de tiempo, especialmente, si no está mejorando signi…cativamente la situación de estimación. El programa de estimación puede diseñarse para que se detenga cuando se cumple uno cualquiera de estos criterios, o todos ellos. Es importante puntualizar, por tanto, que al estimar mediante un algoritmo numérico, el investigador puede controlar: i ) las estimaciones iniciales, ii ) el máximo número de iteraciones a efectuar, y iii ) el tamaño del gradiente, iv ) la variación en el vector de parámetros y v ) el cambio en el valor numérico de la función objetivo por 20 debajo de los cuales se detiene la estimación. Cuando se utiliza una rutina proporcionada por una librería en un determinado lenguaje, dicha rutina incorpora valores numéricos para todos los criterios señalados, que pueden no ser los que el investigador preferiría, por lo que es muy conveniente poder variar dichos parámetros en la rutina utilizada. Alternativamente, lo que es mucho más conveniente, el investigador puede optar por escribir su propio programa de estimación numérica. Estos aspectos afectan asimismo a la presentación de los resultados obtenidos a partir de un esquema de estimación numérica: como generalmente no sabemos si hemos alcanzado un óptimo local o global, esto debe examinarse volviendo a repetir el ejercicio de estimación a partir de condiciones inniciales sustancialmente diferentes de las utilizadas en primer lugar, con objeto de ver si se produce la convergencia, y cual es el valor de la función objetivo en dicho punto. Conviene repetir esta prueba varias veces. Asimismo, cuando se presentan estimaciones, deberían acompañarse de la norma del graidnet en dicho punto, así como de los umbrales utilizados para detener el proceso de estimación, tanto en términos del vector gradiente, como de los cambios en el vector de estimaciones, o en el valor numérico de la función objetivo, como hemos explicado en el párrafo anterior. 1.7 Di…cultades prácticas en el algoritmo iterativo de estimación Cuando se utilizan algoritmos numéricos para la maximización de la función de verosimilitud es frecuente encontrar situaciones en las que el algoritmo numérico encuentra di…cultades para encontrar una solución al problema de optimización. Es muy importante que, en todos los casos en que la rutina de estimación o de optimización se detenga, examinemos cuál es el criterio de parada que ha actuado. Cuando el programa se ha escrito de modo que se detenga cuando se cumple alguno de los criterios antes señalados, conviene incluir en el programa un mensjae que haga explícito cuál de los criterios ha conducido a su parada, de modo que reduzcamos el umbral asociado a dicho criterio. Si la razón es que se ha excedido el máximo número de iteraciones propuesto en el programa, siempre se debe volver a ejecutar dicho programa. En la mayoría de los casos, es razonable elevar el número máximo de iteraciones y, posiblemente, comenzar a partir del vector de parámetros en el que se haya detenido. En ocasiones la rutina numérica itera un número reducido de veces y, sin exceder del máximo número de iteraciones, se detiene en un punto muy próximo al que hemos utilizado como condiciones iniciales. Esto puede deberse a que los umbrales de parada que hemos seleccionado, o que están escritos como valores por defecto en la rutina que implemente el algoritmo numérico son demasiado grandes. Así, en los primeros cálculos, 21 los cambios en las estimaciones o en el valor de la función objetivo son inferiores a dichos umbrales, y el algoritmo se detiene. Deben reducirse dichos umbrales y volver a estimar. Si el programa se detiene sin exceder el máximo número de iteraciones, es importante comparar los valores paramétricos en los que se detiene, con los que se utilizaron como condiciones iniciales. Esta comparación que, lamentablemente, no suele efectuarse, muestra frecuentemente que en alguno de los parámetros el algoritmo no se ha movido de la condición inicial. Salvo que tengamos razones sólidas para creer que dicha condición inicial era ya buena, esto signi…ca que, o bien el algoritmo está teniendo di…cultades para encontrar en que sentido mover en la dirección de dicho parámetro para mejorar el valor numérico de la función objetivo, o no ha tenido su…ciente posibilidad de iterar en esa dirección, dadas las di…cultades que encuentra en otras direcciones (o parámetros). En estos casos quizá conviene ampliar el número máximo de iteraciones, y quizá también reducir la tolerancia del algoritmo (la variación en o en F que se ha programado como criterio de parada), para evitar que el algoritmo se detenga demasiado pronto. Todo esto no es sino re‡ejo, en general, de un exceso de parametrización, que conduce a que la super…cie que representa la función objetivo, como función de los parámetros, sea plana en algunas direcciones (o parámetros). Esto hace que sea di…cil identi…car los valores numéricos de cada uno de los parámetros del modelo por separado de los demás, por lo que el algoritmo encuentra di…cultades en hallar una dirección de búsqueda en la que mejore el valor numérico de la función objetivo. Una variación, incluso si es de magnitud apreciable, en la dirección de casi cualquier parametro, apenas varía el valor numérico de la función objetivo. Por eso, el algoritmo no encuentra un modo de variar los valores paramétricos de modo que la función objetivo cambie por encima de la tolerancia que hemos …jado, y se detiene. En estos casos, el gradiente va a ser también muy pequeño, que puede ser otro motivo por el que el algoritmo se detenga. De hecho, la función objetivo varía de modo similar (poco, en todo caso) tanto si el algoritmo varía uno como si cambia varios parámetros, que es lo que genera el problema de identi…cación, similar al que se obtiene en el modelo lineal general cuando existe colinealidad entre alguna de las variables explicativas. Las di…cultades en la convergencia del algoritmo producidas por una excesiva sobreparametrización del modelo se re‡ejan en unas elevadas correlaciones de los parámetros estimados. Como en cualquier otro problema de estimación, conviene examinar no sólo las varianzas de los parámetros estimados, sino también las correlaciones entre ellos. Otra di…cultad puede presentarse en la forma de cambios muy bruscos en el estimador. Ello se corrige introduciendo en el algoritmo (??) un parámetro que se conoce como longitud de salto, 22 = ^0 h r2 F ^0 i 1 rF ^0 (10) Hay que tener en cuenta que posiblemente esté incorporado en el programa una determinada magnitud para , que el investigador puede alterar cuando observe cambios bruscos en el vector de parámetros. 1.8 Estimación condicionada y precisión en la estimación Para tratar estas situaciones, cuando se identi…can uno o dos parámetros altamente correlacionados con los demás, puede llevarse a cabo una estimación condicionada, …jando valores alternativos de dichos parámetros a lo largo de una red, maximizando la verosimilitud respecto de los demás, y comparando resultados para alcanzar el máximo absoluto. En otras ocasiones, sin necesidad de incurrir en di…cultades numéricas, se aprecia que imponer un valor unmérico para uno o dos parámetros simpli…ca enormemente la estructura del modelo a estimar, por ejemplo, haciéndola linear. Si este es el caso, puede establecerse una red de búsqueda en dichos parámetros y, para cada uno de ellos, estimar el modelo lineal resultante. Se resuelve así un conjunto de muchos problemas simples, frente a la alternativa de resolver un único problema complicado que es, en ocasiones, mucho más difícil. Una limitación de esta estrategia de estimación, que tantas veces simpli…ca el problema computacional, es que no nos proporciona una estimación de la varianza para el parámetro o los parámetros sobre los que se ha hecho la estimación condicional. Según cuál sea el grado de simpli…cación alcanzado, podríamos no tener varianzas para ninguno de los parámetros. Esto sugiere una cuestión aún más profunda, acerca del signi…cado real de las varianzas proporcionadas por el problema de estimación. En realidad, lo que el investigador quiere tener es una medida del grado de precisión obtenido en su estimación, y ello bien puede depender del objetivo …nal de la estimación del modelo. Por ejemplo, consideremos el habitual problema de calcular la volatilidad implícita de una opción. Obtener las sensibilidades de la respuesta a dicha pregunta a variaciones en el valor de alguno de los parámetros que se …ja equivale a determinar un rango de con…anza para el parámetro que se estima. Consideremos que el subyacente de una opción call cotiza a 100, que el precio de ejercicio de la misma es 95, el tipo de interés, supuesto constante hasta el vencimiento, es 7,5%, el plazo residual es 3 meses, y el precio de la opción es de 10. La inversión de la fórmula de Black Scholes (BS) proporciona una volatilidad de 31,3%. Este no es un problema estadístico, y no se ha llevado a cabo ningún proceso de muestreo. Sin embargo, el usuario que conoce la limitación del modelo BS por los supuestos que incorpora, puede estar dispuesto a aceptar un rango de valores de volatilidad que no generen un precio teórico que se separe en más de 0,25 del precio observado en el mercado. Ello le llevará a considerar un rango de volatilidades entre 29,8% y 32,7%. La misma idea puede aplicarse en un problema de estimación para evaluar la precisión con que se ha estimado un determinado parámetro. En función de 23 la utilidad que se vaya a dar al modelo, el usuario puede determinar que está dispuesto a aceptar variaciones de hasta un 1% alrededor del valor de la función objetivo que ha obtenido en su estimación. Se trata entonces de perturbar el valor numérico del parámetro cuya precisión se quiere medir, y estimar condicionando en dicho valor mientras que el valor resultante para la función objetivo satisfaga la condición pre…jada. Se obtiene así numericamente, un intervalo de con…anza alrededor de la estimación inicialmente obtenida. En principio, esta región no tiene por qué coincidir con la tradicional región de con…anza. Puede resultar extraño hablar de regiones de con…anza paramétricas en el caso del cálculo de la volatilidad implícita pues, como hemos dicho, no es realmente un problema estadístico. Existe un razonamiento distinto del anterior, con más base estadística que conduce asimismo a una región de con…anza paramétrica. Para ello, consideremos que el usuario de la expresión BS, consciente de que el tipo de interés relevante no va a permanecer constante hasta vencimiento, y desconociendo su evolución establece un conjunto de posibles escenarios de evolución de los tipos, cada uno acompañado de una probabilidad que recoge la mayor o menor verosimilitud asignada a dicho escenario, e identi…ca cada escenario con distintos niveles constantes del tipo de interés. Calculando la volatilidad implícita para cada nivel de tipos de interés considerado, mientras se mantienen constantes los restantes parámetros, generaríamos una distribución de probabilidad para la volatilidad implícita. Por supuesto, este argumento se puede generalizar el caso en que la incertidumbre a priori se recoge en la forma de una distribución de probabilidad multivariante para el vector de parámetros sobre los que se condiciona en el proceso de estimación. 1.9 1.9.1 Algunos modelos típicos Estimación de modelos MA(q) Una aplicación interesante de este procedimiento consiste en la estimación de estructuras de medias móviles en modelos lineales de series temporales. Modelo MA(1) Consideremos un modelo MA(1), yt = " t "t 1 El modelo es de la forma: yt = f (xt ; ) + ut ;con = ; f (xt ; ) "t 1 0 t; ) = " ; por lo que, siendo una estimación y ut "t ;de modo que: @f (x t 1 @ inicial del parámetro del modelo, podemos escribir la erxpresión genérica para 0 t; ) t; ) la aproximación lineal yt f (xt ; 0 ) + @f (x = @f (x + "t ; @ @ 0 0 = para este modelo particular, obteniendo: 24 = yt f (xt ; 0 )+ @f (xt ; ) @ @f (xt ; ) @ 0 = + "t = 0 = yt + "t 0 1 "t 1 = yt = "0t 0 0 "t 1 0 "0t = 1 + "t ; 0 lo que nos lleva a: 0 0 "t 1 "0t "0t = 1 + "t que conduce a estimar el modelo lineal de regresión, wt = x1t + "t donde, wt x1t = "0t = "0t 0 0 "t 1 1 Pero el término de error "0t no es observable, por lo que utilizamos la propia expresión del modelo M A(1), escrito en la forma, "t = yt + para generar la serie temporal "01 "02 "03 "04 "0t ; t = 0; = y2 + = y3 + 0 0 "1 0 0 "2 = y4 + 0 0 "3 0 "t 1 = 2; ::::T; mediante: = y2 ; = y3 + = y4 + 0 y2 0 y3 + 0 2 y2 y así sucesivamente. Ahora podemos generar series temporales para las variables del modelo, wt y x1t a partir de la serie temporal de "0t : Nótese que en este caso, la estimación de la regresión auxiliar wt = x1t + "t nos proporciona el valor numérico del estimador del parámetro ; no la corrección a introducir en una pre-estimación. Pero el procedimiento es iterativo, pues las series temporales de "0t ; wt ; x1t ; dependen del valor numérico que se considere para el parámetro : Modelo MA(2) Como ejemplo, consideremos un modelo MA(2), yt = "t 1 "t 1 que puede aproximarse linealmente por, 25 2 "t 2 "t ' "0t + 0 @"t @ 1 0 1 1 + = @"t @ 2 0 2 2 0 = 0 0 0 1; 2 siendo = una estimación inicial de los parámetros del modelo. En este modelo se tiene, @"t = "t @ 1 @"t = "t @ 2 1; 2 por lo que podemos escribir la aproximación anterior como, @"t @ 1 0 1 "0t 0 2 = 0 @"t @ 2 = = 1 0 @"t @ 1 @"t @ 2 2 = 0 + "t = 0 es decir, "0t 0 0 1 "t 1 0 0 2 "t 2 0 1 "t 1 = 0 2 "t 2 + "t que conduce a estimar el modelo lineal de regresión, wt = 1 x1t + 2 x2t + "t donde, wt x1t x2t = "0t = "0t = "0t 0 0 1 "t 1 0 0 2 "t 2 1 2 Para obtener los errores en este caso, se …jan los 2 primeros igual a su esperanza matemática, cero, y se utiliza la propia expresión del modelo M A(2), escrito en la forma, "t = yt + 0 1 "t 1 + 0 2 "t 2 para generar la serie temporal "0t ; t = 1; 2; ::::T: 1.10 1.10.1 Estimación por Máxima Verosimilitud de modelos dinámicos Modelo AR(1), sin autocorrelación Encuentre las expresiones analíticas del estimador de Máxima Verosimilitud y de su matriz de varianzas y covarianzas, en el modelo AR(1): yt E"t = = + yt 1 + "t ; t = 1; 2; ::: 0; E("t "t s ) = 0 8s 6= 0; E("2t ) = 26 2 La distribución de probabilidad de yt condicional en su propio pasado es N + yt 1 ; 2 : Es decir, una vez observado el valor numérico de yt ; el valor esperado de yt+1 es + yt ; y la varianza de los posibles valores de yt+1 alrededor de + yt es 2 : Como puede apreciarse, la esperanza condicional es una variable aleatoria, tomando valores numéricos cambiantes en el tiempo. La varianza condicional de yt es igual a la varianza de la innovación, 2 ; re‡ejando el hecho de que es ésta la única fuente de error en la predicción del valor de yt un período hacia adelante. Esto es válido para todo t 2: Son embargo, para t = 1 no podemos condicionar y1 en ningún valor previo, por lo que no podemos hablar de su distribución condicional. La distribución marginal, absoluta o incondicional 2 de y1 es N 1 ; 1 2 ; es decir, que si no contamos con ninguna observación previa, el valor esperado de y1 es 1 ; y la dispersión esperada alrededor de dicho 2 valor es de 1 2 ; mayor de la que tendríamos si dispusiésemos de la observación del período anterior. Nótese que: E (Et 1 yt ) = E( + yt 1 ) = + Eyt 1 ; pero Eyt 1 = 1 ; por lo que: E (Et 1 yt ) = + 1 = 1 = Eyt , lo cual no hace sino comprobar que se cumple en este ejemplo concreto, la conocida propiedad: Eyt = E (Et 1 yt ) : La función de verosimilitud muestral puede escribirse: L(y1 ; y2 ; :::; yT ) = L(y1 )L(y2 =y1 )L(y3 =y2 ):::L(yT =yT 1) de modo que, ln L = ln(y1 ) + T X ln L(yt =yt 1) = 2 = T 1 2 2 " 1 ln 2 1 1 ln 2 2 ln 2 " 2 2 T 1 X 2 " 2 2 1 2 (yt y1 2 " yt 1 ! T 1 2 ln 2 2 1) 2 El problema de maximización de esta función se simpli…ca si ignoramos los primeros términos, que proceden de la distribución marginal de y1 , L(y1 ); y consideramos: ln L = T 1 2 ln 2 T 1 2 ln 2 " 2 T 1 X 2 " (yt yt 2 1) (11) 2 que es la función de verosimilitud condicionada en el valor numérico de y1 ; frente a la anterior, que era la función de verosimilitud exacta. Las condiciones de maximización de esta función de verosimilitud condicionada, que resultan de igualar a cero su gradiente, son, 27 @ ln L @ = @ ln L @ = @ ln L @ 2" = T 1 X 2 " (yt yt 2 T 1 X 2 " (yt yt 1 )yt 1 1 2 " 2 1 2( 2 )2 " + 1 2( T X 2 )2 " 2 " T X T X u ^t = 0 2 =0) 1 2 T = 1) = 0 ) T X u ^ t yt yt 2 1) 1 =0 2 (yt T = 1 1 2 " 2 2 + 1 2( 2 )2 " T X 2 u ^t 2 = 0 2 donde hemos utilizado el hecho de que, para estimaciones numéricas de y ; la diferencia yt yt 1 es igual al residuo, u ^t : Vemos, por tanto, que las estimaciones de máxima verosimilitud condicionada de y son aquellos valores numéricos que generan unos residuos de suma cero, a la vez que están incorrelacionados con yt 1 : Ello signi…ca que son residuos con correlación nula con las dos variables explicativas del modelo, (1; yt 1 ) y coincide, en consecuencia, con el estimador de mínimos cuadrados ordinarios del modelo AR(1), que utilizaría datos desde t = 2 hasta T . Por otra parte, la tercera ecuación nos proporciona el estimador de máxima verosimilitud condicionada de 2" : ^ 2" = PT u ^t 2 T 1 2 ligeramente diferente del estimador de mínimos cuadrados del model AR(1), P T u ^ 2 que habría sido: ^ 2" = T2 2t : Si sustituimos la expresión de ^ 2" en (11) ; tenemos: ln L = = T 1 2 T ln 2 1 2 T ln 2 + 1 2 ln T X u ^t 2 + 2 T 1 2 ln(T 1) T 1 2 T ln(T 1 2 1) T 1 2 T T 1 X 2 u ^t = PT 2 2 2u ^t 2 ln T X u ^t 2 2 que se conoce como función de verosimilitud condicional concentrada, y que muestra que maximizarPln L equivale, claramente, a minimizar la suma de T cuadrados de residuos, 2 u ^t 2 : La matriz de información del estimador de máxima verosimilitud es la inversa de la matriz de información, para lo que hemos de obtener las derivadas segundas, 28 u ^t 2 @ 2 ln L @ 2 @ 2 ln L @ 2 @ 2 ln L @( 2 )2 " T 1 X = 2 " 1 = = @ 2 ln L @ @ = @ 2 ln L @ @ 2" = @ 2 ln L @ @ 2" = 2 " T 1 1 ( 2 )2 " 2 )3 " T X yt 2 )2 " 1 ( ( )E 1 2 1 ( @ 2 ln L @ 2 )E 2 2 2 " yt2 1 2 )2 " T X 2 T X u ^t ) E u ^ t yt 1 2 " 2 T X 1 1 T ( 1) = 1 2 T X 2 T = 2 " @ 2 ln L u ^t 2 ) E @ 2 ln L @ @ = @ 2 ln L @ @ 2" =0 @ 2 ln L @ @ 2" )E @( 2 )2 " T 1 2 " 2 2 " 1 1 ! 2 = + 2 (1 T 1 ( 2 )2 " ) ! 1 =0 donde, para obtener la esperanza matemática en la última línea, hemos utilizado: E " 1 @ 2 ln L = E Et 1 = 2 E Et @ @ 2" ( 2" ) " T # X 1 = yt 1 (Et 1 u ^t ) = 0 2E ( 2" ) 2 @ 2 ln L @ @ 2" T X 1 u ^ t yt 1 2 !# = por lo que, 0 1 ^ @ ^ A ^ 2" 0 B NB @ ; 2 " 2 " T 1 0 B @ 1 1 1 1 0 0 1 0 2 " 2 + 2 (1 )2 0 1 2 2 " C A 1 1 C C A donde la matriz de varianzas y covarianzas debería evaluarse en los estimaciones de máxima verosimilitud obtenidas para los tres parámetros del modelo. Para estimar este modelo mediante el algoritmo de Newton-Raphson, habría que iterar mediante, ^n = ^n 0 T 1 B PT y + @ 1 PT2 t ^t 2 u 1 PT y PT2 t2 1 y PT2 t 1 ^ t yt 2 u 1 PT u ^ P2T t u t yt 2 ^P T 1 ( 29 2 )3 " 2 1 2 " u ^t 2 1 C A 1 0 PT ^t 2 u B PT u yt 1 @ 2 ^tP T 1 2 2 " 2 2 " u ^2t 1 C A donde denota el vector de parámetros, = ; ; 2" ; mientras que el algoritmo de scoring, más sencillo, aproxima el hessiano del logaritmo de la función de verosimilitud por la matriz de información, ^n = ^n 1+ 1 T 1 0 B @ 1 1 1 1 0 0 1 0 2 " 2 + 2 (1 )2 0 1 2 2 " 1 C A 0 PT ^t 2 u B PT u yt 1 @ 2 ^tP T 1 2 2 " 2 2 " u ^2t 1 C A y el algoritmo de Gauss-Newton, que no requiere calcular segundas derivadas, pero incurre en un mayor error de aproximación numérico, consistiría en: ^n = ^n 0 PT 2 u ^t P2T 2 2B ^ t yt 1+ "@ 2 u PT 1 0 PT ^t 2 u B PT u yt 1 :@ 2 ^tP T 1 2 1.10.2 2 " 2 2 " 2 2 " 2 u ^2t PT 1 u ^t 1 u ^2t 2 " C A u ^2t yt 1 P2T 2 2 ^ t yt 1 2 u PT 1 ^ t yt 1 2 u 2 2" 1 2 " u ^2t Modelo constante, con autocorrelación Encuentre las expresiones analíticas del estimador de Máxima Verosimilitud y de su matriz de varianzas y covarianzas, en el modelo constante con autocorrelación: yt ut = = + ut ; t = 1; 2; :::; ut 1 + "t = 0 E"t = 0; E ("t "s ) = 0; 8s 6= 0; E("2t ) = 2 " El modelo puede escribirse en función de la innovación del mismo, yt = (1 ) + yt 1 + "t que muestra que, dado yt 1 ; la distribución de probabilidad de yt condicional en su propio pasado es N (1 ) + yt 1 ; 2" : Es decir, una vez observado el valor numérico de yt ; el valor esperado de yt+1 es (1 ) + yt 1 ; y la varianza de los posibles valores de yt+1 alrededor de dicho valor esperado es 2" : La esperanza condicional es una variable aleatoria, tomando valores numéricos cambiantes en el tiempo. La varianza condicional de yt es igual a la varianza de la innovación, 2" ; re‡ejando el hecho de que es ésta la única fuente de error en la predicción del valor de yt un período hacia adelante. Esto es válido para todo t 2: Son embargo, para t = 1 no podemos condicionar y1 en ningún valor previo, por lo que no podemos hablar de su distribución condicional. La distribución marginal, absoluta o incondicional de 2 y1 es N ; 1 " 2 ; es decir, que si no contamos con ninguna observación previa, 30 PT ^2t ^t 2" u 2 u P T 1 ^t yt 1 2" 2 u 2 2" P 2 T 1 2 u ^2t " 2 4 2" 2 2 " u ^2t 1 C A 1 : el valor esperado de y1 es ; y la dispersión esperada alrededor de dicho valor 1 2 " es de 1 2 ; mayor de la que tendríamos si dispusiésemos de la observación del período anterior. La función de verosimilitud muestral puede escribirse: L(y1 ; y2 ; :::; yT ) = L(y1 )L(y2 =y1 )L(y3 =y2 ):::L(yT =yT 1) de modo que, ln L = ln(y1 ) + T X ln L(yt =yt 1) = 2 = = 1 ln 2 2 1 ln 2 T ln 2 2 T ln 2 2 u 2 " 1 2 T y2 2 1 1 2 u 1 ln(1 2 2 T ln 2 2 2 1 ) 1 2 2 " 2 " ln 2 2 (y1 ) 2 T 1 X 2 " T 1 X 2 " (yt (1 ) yt 2 (yt (1 ) yt 2 donde hemos utilizado el hecho de que la distribución incondicional de y1 es N (0; 2u ): Esta función de verosimilitud es similar, pero no idéntica, a la que llegaríamos estableciendo la hipótesis de Normalidad directamente sobre la innovación del modelo, "t : En efecto, si "t i.,i.d., N (0; 2" ); tendríamos: ln L = = T ln 2 2 T ln 2 2 " T ln 2 2 T ln 2 2 " 2 T 1 X 1 2 2 " 2 " "2t = 1 [y1 (1 2 ) y0 ] 2 T 1 X 2 " (yt (1 2 en la que y0 ; no observable, sería un parámetro más a estimar. Utilizando la representación de la innovación del modelo: "t = yt (1 ) + yt 1 ; las condiciones de optimalidad serían, @ ln L @ = @ ln L @ = @ ln L @ 2" = 1 2 " 1 2 " " " (y1 (y1 (1 ) + y0 ) + T X "t = 0 2 (1 ) y0 ) (y0 # )+ T X "t (yt 1 2 T X T 1 1 + (yt 2 2 2" 2 ( 2" ) 2 (1 ) + yt 2 1) # ) =0 =0 Una vez más, calcularemos el estimador de Máxima Verosimilitud condicional en la primera observación, que tomaremos como dada. 31 2 1) ) yt 2 1) 2 1) = ln L T = 1 2 T = 1 2 T ln 2 1 2 T ln 2 1 2 ln ln 2 " 2 T 1 X 1 2 " 2 " "2t = 2 T X (yt 2 2 " 1) =0) (1 ) 2 1) yt 2 con condiciones de optimalidad: @ ln L @ = @ ln L @ = @ ln L @ 2" = = T X 1 2 " (yt (1 ) yt 2 T 1 X 2 " (yt (1 ) yt 1 ) (yt 1 1 1 2 " 2 1 2( 2 )2 " + T X 2 ( 1 2( 2 " 2 )2 " T X (yt (1 ) = PT 2 "2t ) = 0 ) 2 " "t = 0 2 )=0) 2 T T X 2 T yt T X 2 1) "t (yt 1 )=0 2 = "2t 1 Las dos primeras condiciones muestran que el estimador de MV condicionada puede obtenerse estimando por Mínimos Cuadrados Ordinarios el modelo: yt = 0 + 1 yt 1 + "t ; pues las estimaciones numéricas resultantes generarían residuos ^"t con suma cero, e incorrelacionados con la variable explicativa de dicha regresión, yt 1 ; satisfaciendo así las dos primeras de las condiciones de optimalidad anteriores. Posteriormente, la estimación de 2" se obtendría a partir de la tercera condición. Una vez estimado el modelo, los parámetros del modelo original se obtendrían mediante las condiciones de identi…cación: ^ ^ = ^ 1 ; ^ = 1 0^ : Como sabemos, la estimación de mínimos cuadrados puede 1 efectuarse, excepto para el término constante, estimando el modelo en desviaciones respecto de la media: y~t = 1 y~t 1 + "t ; en el que una vez estimado ^ 1 ; que resultaría numéricamente igual a la estimación en el modelo que incluye un término constante, tendríamos: ^ 0 = y ^ 1 y: Finalmente, recuperaríamos ^ y ^ a partir de las expresiones previas. Como Ey = ; esperararímos que ^ y ' ; por lo que la expresión ^ = 1 0^ debe proporcionar un buen estimador 1 del término independiente. La matriz de información del estimador de máxima verosimilitud es la inversa de la matriz de información, para cuyo calculo hemos de obtener la esperana matemática de los elementos del hessiano de la función logaritmo de la verosimilitud condicionada, 32 @ 2 ln L @ 2 @ 2 ln L @ 2 @ 2 ln L @( 2 )2 " = E @ ln L @ @ = @ 2 ln L @ @ 2" = @ 2 ln L @ @ 2" = 1 2 " 2 " T )2 (1 T 1 X = 2 @ 2 ln L @ @ 2" T = T 1 X 1 1 1 2 " ) )E 1 2 4 " 2 T X 6 " [(yt 2 T X 4 " 2 T 1 X 4 " = E Et "t ) E "t (yt 1 2 1 2 "t ) E ) (1 1 2 1 @ 2 ln L @ 2 2 (yt @ 2 ln L @ @ 2" = @ 2 ln L @( 2 )2 " ! ))E " 1 2 " = T 2 2 u 1 4 " @ 2 ln L @ @ ) + "t ] ) E @ 2 ln L @ @ 2" T =0 =0 @ 2 ln L @ @ 2" = E Et 1 =0 T X 2 "t u t 1 !# =0 donde en la última igualdad hemos utilizado el hecho de que ut 1 depende de "t 1 ; "t 2 ; "t 3 ; :::, pero no de "t ni de sus valores futuros. Por tanto, 0 0 1 11 0 1 2 (1 ) 0 0 ^ 2 B 2 B C C " " @ A NB ; 0 A C @ 0 2 A @ 1 T 1 2 1 ^ 2" 0 0 " 2 " donde la matriz de varianzas y covarianzas debería evaluarse en los estimaciones de máxima verosimilitud obtenidas para los tres parámetros del modelo. La estructura diagonal de la matriz de información muestra que los estimadores de los tres parámetros son independientes entre sí. Ello hace que en, este modelo, una estimación condicional que generase estimaciones numéricas de unos parámetros condicionales en estimaciones de los otros, sería tan e…ciente como la estimación simultánea de todos ellos. Para estimar este modelo mediante el algoritmo de Newton-Raphson, habría que iterar mediante, 33 ^n 0 PT (T 1) (1 )2 [u (1 P P2T 2t 1 B T [u (1 ) + " ] u = ^n 1 + 2" @ t 1 t 2 PT PT2 t 1 (1 ) 2 "t 2 "t u t 1 1 0 PT (1 ) 2 "t C B PT ut 1 :@ A 2 "tP T 1 2 2 ( " ) 2 " t 2 2 ) + "t ] PT (1 ) 2 "t PT "t ut 1 2P T 1 2 1 2 " 2 2 " "t 1 1 C A 2 : " El algoritmo de scoring, más sencillo, aproxima el hessiano del logaritmo de la función de verosimilitud por la matriz de información, ^n = ^n 0 )2 (1 1 @ 0 1+ T 1 0 0 2 u 0 0 0 1 2 2 " 1 1 A 0 PT (1 ) 2 "t B PT ut 1 @ 2 "tP T 1 2 2 2( " 2 " "2t ) 1 C ^ A= n 1+ y el algoritmo de Gauss-Newton, con mayor error de aproximación numérico, consistiría en: ^n 0 PT 2 2 "t P B T ) 2 "2t ut = ^n 1 + @ (1 PT 1 2 2 "t ( " 2 2" 0 1 PT (1 ) 2 "t P B C T ut 1 :@ A 2 "tP T 1 2 "2t ) 2( " 2 2 (1 2 ) 1 "2t ) (1 PT ) PT 2 "2t ut 1 2 2 ("t ut 1 ) P T 1 2 2 "t ut 1 ( " 2 2" "2t ) Estimación de Máxima Verosimilitud del modelo AR(1) con perturbaciones AR(1) Consideramos en esta sección la estimación de Máxima Verosimilitud y de su matriz de varianzas y covarianzas, del modelo AR(1) con término de error AR(1): yt ut = = yt ut + ut ; t = 1; 2; ::: 1 + "t = 0 E"t = 0; E("t "t (12) 1 2 s ) = 0 8s 6= 0; E("t ) = 2 " donde como se ve, hemos supuesto, por simplicidad, que no hay término independiente. Bajo el supuesto de que E"t = 0; se tiene: Eyt = Eut = 0: El cálculo de la varianza de yt es bastante más complejo. Para ello, representamos Para t 2; el modelo puede escribirse: yt = ( + ) y t 1 34 yt 2 + "t 1 B @ PT 1 2 2 "t ( " 2 2" P T 1 "t ut 1 ( 2 2" PT 2 2 1 "2t )2 2( " 4 4" " 1.10.3 1 T 0 (13) 1 PT 2 "t PT C "t ut 1 A 2 uP 2 T 2 "2t ) 2( " 1 1+ 1 "2t ) 2 " 1 C "2t ) A 1 : que es un modelo cuyo término de error no presenta autocorrelación. En consecuencia, la presencia de los retardos de la variable dependiente como variables explicativas no deteriora las propiedades estadísticas del estimador de mínimos cuadrados de los parámetros del modelo: yt = 1 yt 1 + 2 yt 2 + "t donde tendríamos únicamente el problema de identi…car o recuperar los parámetros ; del modelo original a partir de estimaciones de 1 ; 2 : Esto se debe a que los parámetros ; entran de forma totalmente simétrica en el modelo transformado (13) de modo que un vez que hubiéramos obtenido una solución ^ ; ^ del sistema: + = ^ = 1 ^ 2 podríamos intercambiar los valores numéricos de ambos parámetros y tendríamos otra solución. Por tanto, existensiempre dos soluciones, y el modelo se dice que está subidenti…cado. Para obtener la expresión analítica de la varianza del proceso (12), utilizamos (1 ) 2 : Como en el hecho de que la varianza de un proceso AR(2) es (1+ ) (1 2 )"2 2 [ 2 1] nuestro caso, 1 = + ; 2 = ; tenemos: V ar (yt ) = (1 h (1 + ) (1 + ) 2 ) 2 ( + ) 2 " i Si dispusiéramos de algún tipo de información adicional acerca de alguna característica de la distribución de probabilidad de yt ; quizá podríamos identi…car los dos parámetros por separado. Este no es el caso, sin embargo de que conociéramos, al menos aproximadamente, la relación existente entre las volatilidades de yt y "t pues, como puede verse en la expresión anterior, dicha relación debe ser igual al valor numérico de la fracción que en ella aparce, pero ambos parámetros entran de forma simétrica, por lo que intercambiarlos no altera el valor numérico de la volatilidad relativa de ambas variables. Algo similar ocurriría para cualquier información relativa al valor numérico de cualquier estadístico de yt ; cuya expresión analítica depende de 1 y 2 ; por lo que y entran siempre de modo simétrico. Cuestión distinta sería si dispusiéramos de alguna información acerca de la 2 volatilidad relativa de yt y ut puesto que, como V ar(ut ) = 1 " 2 ; tendríamos: V ar (yt ) = V ar(ut ) (1 (1 + ) 1 h 2 ) (1 + ) 35 2 2 ( + ) i que es distinto para las combinaciones de valores numéricos ^ ; ^ y ^; ^ : Por ejemplo, si = 0; 6; = 0; 9; tendríamos: V ar (yt ) = 5; 23V ar(ut ); mientras que si = 0; 9; = 0; 6; tendríamos: V ar (yt ) = 17; 62V ar(ut ): La función de verosimilitud muestral del proceso (12) puede escribirse: L(y1 ; y2 ; :::; yT ) = L(y1 ; y2 )L(y3 =y2 ; y1 )L(y4 =y3 ; y2 ):::L(yT =yT 1 ; yT 2) donde la necesidad de condicionar ahora la función de densidad de cada observación en los valores numéricos tomados por las dos observaciones previas es bastante evidente. Ignorando el primer factor, tenemos la función de verosimilitud condicional en (y1 ; y2 ); cuyo logaritmo es, ln L = ln(y1 ) + T X ln L(yt =yt 1) = 2 = = 1 ln 2 2 1 ln 2 1 T ln 2 2 T ln 2 2 " T 1 2 2 " 2 1 ln 1 2 + 1 ln 2 ln 2 2 y12 2 " 2 " 2 2 1 2 2 1 2 " 2 y12 T 1 X 2 " 2 T 1 X 2 " (yt yt 2 1) 2 (yt yt 2 1) 2 El problema de maximización de esta función se simpli…ca si ignoramos los términos tercero y cuarto, que proceden de la distribución marginal de y1 , L(y1 ); y consideramos: ln L = T X ln L(yt =yt 1 ; yt 2 ) T = 2 2 3 ln 2 T 2 2 ln 2 " 2 T 1 X 2 " (yt ( + ) yt 1+ T 1 X yt yt 2 2) 2 ) "t =0 2 cuyas condiciones de optimalidad son, @ ln L @ = @ ln L @ = @ ln L @ 2" = T 1 X 2 " T 2 ( + ) yt 1 + yt 2 ) (yt 1 yt 2 )] = 3 T 1 X 2 " [(yt (yt yt 1 2 ) "t 2 " (yt 1 3 =0 3 2 2 " + 1 2( 2 )2 " T X (yt ( + ) yt 2 1 + yt 2 2) = T 2 2 2 " + 1 2( Por tanto, las estimaciones de Máxima Verosimilitud Condicionada de y son aquellos valores numéricos que generan unos residuos incorrelacionados 36 2 )2 " T X 2 "t 2 = 0 = simultáneamente con yt 1 yt 2 y y t 1 yt 2 ; lo que vuelve a mostrar la simetría existente entre estos parámetros. Escribiendo el modelo (13) en la forma, yt yt 1 = (yt 1 yt 2) + "t vemos que la primera condición sugiere estimar por Mínimos Cuadrados Ordinarios esta ecuación en variables cuasidiferenciadas para obtener la estimación MVC del parámetro : Por otra parte, la segunda ecuación sugiere obtener el estimador MVC del parámetro estimando por MCO la ecuación: yt yt 1 = (yt 1 yt 2) + "t que también equivale a (13) : Por último, la tercera ecuación nos proporciona el estimador de Máxima Verosimilitud Condicionada de 2" : PT ^"t 2 T 2 Esta interpretación sugiere que el estimador MVC puede obtenerse estimando la regresión en variables transformadas y~t = yt yt 1 ; para un determinado valor numérico de ; para obtener la estimación de ; y utilizar ésta para llevar a cabo la transformación: ~yt = yt ^ yt 1 para estimar como el coe…ciente en un modelo AR(1) en esta variable. Esta última transformada puede interpretarse como el residuo del modelo AR(1) original, dada la estimación ^ : Ha de notarse, sin embargo, que tal esquema precisaría de un valor inicial para uno de los dos parámetros, o ; para comenzar a partir de él estimando, sucesiva y recursivamente, cada uno de ellos. Tal procedimiento iterativo aproximaría el estimador MVC. Sin embargo, éste requiere la estimación simultánea de ambos parámetros, como sugiere la solución del sistema de ecuaciones de optimalidad anterior. El esquema iterativo puede conducir o no a la misma solución que la solución simultánea que requiere, en todo caso, de un algoritmo numérico. Ambas soluciones coincidirán si el modelo propuesto es la especi…cación correcta, pero no en caso contrario, y el investigador nunca puede estar seguro de este aspecto en su trabajo empírico. También coincidirán si los estimadores MVC de ambos parámetros fuesen independientes. La matriz de información del estimador de máxima verosimilitud es la inversa de la matriz de información, para lo que hemos de obtener las derivadas segundas, ^ 2" = 3 37 @ 2 ln L @ 2 = @ 2 ln L @ 2 = @ 2 ln L @( T 1 X 2 " 2 " = 2 )2 " @ 2 ln L @ @ = @ 2 ln L @ @ 2" = @ 2 ln L @ @ 2" = 2 ( T 1 X 2 " 2 2) yt 1 T X 1 1 2 )2 " ( 2 )3 " ["t yt 2 + (yt 3 T = 2 " "t ) E yt ! @ 2 ln L 2 T = 2 )2 " @( 2 ) (yt 1 yt T 1 = 2 1 @ 2 ln L @ 2 )E 1 2 " 2 2 2 2 " 2 2 " = 2 1 T 2 ( 2 )2 " 2 )] 3 1 2 )2 " 1 ( (yt @ 2 ln L @ 2 )E 3 2 ( 1 3 T 1 X T u2t 2 )2 " T X "t (yt 1 yt 2) )E @ 2 ln L @ @ 2" = E Et 1 @ 2 ln L @ @ 2" =0 "t (yt 1 yt 2) )E @ 2 ln L @ @ 2" = E Et 1 @ 2 ln L @ @ 2" =0 yt = E [(yt 3 T X 3 donde hemos utilizado la propiedad: E ["t (yt yt 1 2 )] = E (Et 1 ["t (yt 1 2 )]) yt 1 2 ) Et 1 " t ] =0 así como la propiedad análoga cuando la transformación de variables utiliza el parámetro : Asimismo: h E (yt yt 1 E ["t (yt 1 2 2) yt i = E " 2 )] E ("t yt 1 X s s=0 1 X = E "t 2) = E "t s=0 1 X "t s s 1 "t s !2 s 1 ut E [(yt 1 yt 2 ) (yt 1 yt 2 )] = E ut 1 1 X # s 2 s=0 s "t = 2 " 2 1 = E ("t "t ! s 1 s=0 = 2 " 1 ^ @ ^ A ^ 2" 0 ! =E " 1 B NB @ ; 2 " 2 " T 2 0 B @ 38 2 " 1 1 1 2 1 1 1 0 0 1 2 1 0 0 1 2 2 " + "t " t 2 + :::) = 0 =0 Por tanto, 0 1 C A 1 1 C C A 1 X i=0 i "t i ! 1 X s=0 s "t s !# = donde la matriz de varianzas y covarianzas debería evaluarse en los estimaciones de máxima verosimilitud obtenidas para los tres parámetros del modelo. ELa estructura de esta matriz de información prueba que, si bien los estimadores de MVC de los parámetros y son independientes del estimador MVC de 2" ; sin embargo los dos primeros no son independientes entre sí. Para estimar este modelo mediante el algoritmo de Newton-Raphson, habría que iterar mediante, ^n 0 P 2 T yt 2 ) 3 (yt 1 B = ^n 1 + @ A21 PT 3 "t ut 1 1 0 P T (yt 1 yt 2 ) " t 3 C B PT :@ A 3 utP1 "t T 1 2 2 " t " 2 2 2 PT [" y PT3 2t t u P3T t 1 3 "t (yt 2 + ut 1 yt 1 (yt yt 1 2 )] 2) PT "u PT3 t t 1 " 3Pt (yt 1 T 1 2 1 4 3 2 " 1 C yt 2 ) A "t 2 1 : mientras que el algoritmo de scoring, más sencillo, aproxima el hessiano del logaritmo de la función de verosimilitud por la matriz de información, ^n = ^n 1+ 1 T 1 0 B @ 1 1 1 1 0 0 1 0 2 " 2 + 2 )2 (1 0 1 2 2 " C A 1 0 P T (yt 1 B P3T @ 3 utP1 "t T 1 2 2 2 yt 2 " 2 ) "t "t 2 1 C A y el algoritmo de Gauss-Newton, aún más simple, pero con mayor error de aproximación numérico, consistiría en: ^n = ^n 1 + 0 PT (yt 1 B PT3 +@ 3 (yt 1 PT 1 0 B :@ 2 2 4 PT (y PT3 t 1 u 3 tP1 "t T 1 2 2 4 yt yt 2 " yt 2 " 2 2 2 ) "t 2 2 ) "t ut 1 "t 2 (yt 1 2 ) "t "t 2 1 C A 39 yt 2 ) "t PT (y PT3 2t 1 2 u 3 t 1 "t PT 1 2 4 2 yt 2 " "t 2 u t 1 "t PT P2T 1 4 2 P 2 T 1 1 2 2 ) "t u t 1 2 4 8 2 " 2 " 4 2 2 " "t 2 (yt 1 "t 2 ut 1 "t "t 2 2