ESTADÍSTICA ESPAÑOLA Vol. 45, Núm. 154, 2003, págs. 363 a 383 Distribuciones a priori unidimensionales en Modelos No Regulares: Medidas de Información(∗ ∗) por FRANCISCO JAVIER ORTEGA IRIZO JESÚS BASULTO SANTOS Departamento de Economía Aplicada I. Facultad de Ciencias Económicas y Empresariales Universidad de Sevilla RESUMEN A partir de la Medida de Información de Akahira y Takeuchi (1991) que generaliza la Información de Fisher a modelos no regulares, se propone una extensión de la regla de Jeffreys que permite obtener funciones a priori imparciales en modelos no regulares. Palabras Clave: Medidas de Información, Información de Fisher, Modelo regular, Distribución a priori no informativa (o imparcial), Regla de Jeffreys. Clasificación AMS: 62F15, 62A15, 62B10 (∗) Los autores queremos expresar nuestro agradecimiento al evaluador, cuyas sugerencias han contribuido a mejorar notablemente la versión inicial del trabajo. 364 ESTADÍSTICA ESPAÑOLA 1. INTRODUCCIÓN Podemos decir que el objetivo fundamental de la estadística es extraer la información relevante que hay contenida en un conjunto de datos acerca de alguna característica desconocida. A la vista de ello, es fundamental disponer de técnicas de reducción de la dimensionalidad, es decir, métodos que permitan disponer de la misma cantidad de información relevante pero con datos encuadrados en un espacio de dimensión más pequeña (o en definitiva, trabajando con menos datos). En este sentido, juegan un papel fundamental los estadísticos, que son funciones del espacio muestral (de dimensión igual al número de observaciones n) en otros espacios que pueden ser, y generalmente son, de menor dimensión; dentro de ellos, son de especial importancia los estadísticos suficientes, que, en esencia, son aquellos que contienen la misma información relevante que la muestra de tamaño n. Es necesario entonces tener alguna medida de la cantidad de información relevante que contiene un estadístico dado sobre la característica desconocida o parámetro desconocido. Una de estas medidas, como es bien conocido, es la Información de Fisher, cuya aplicación se limita a los llamados modelos regulares. De todos es conocido las propiedades interesantes que tiene dicha medida de información, que permite conocer cuándo un estadístico es suficiente y, caso de no serlo, cuantificar la pérdida de información que se produce al trabajar con él. Por otra parte, ya Jeffreys, en su gran obra Theory of Probability , usó medidas de información, sobre todo la Información de Fisher, para construir distribuciones a priori no informativas. Así, teniendo en cuenta la importancia del concepto de información y que la Información de Fisher sólo es aplicable a los modelos regulares, se hace necesario disponer de una medida análoga para los llamados modelos no regulares, algunos de los cuales son de verdadero interés tanto teórico como práctico. A partir de aquí, resumiremos, en la sección primera, la definición y propiedades de la Información de Fisher. A continuación se analizarán los modelos no regulares, dando una medida de información aplicable a estos casos y que hereda las propiedades importantes de la Información de Fisher lo que permite conocer la pérdida de información que se produce al trabajar con un estadístico no suficiente. En la sección 2, siguiendo los pasos de Jeffreys, se propone una regla para construir distribuciones a priori no informativas aplicable también a los modelos no regulares y que se va a basar en el concepto de información estudiado, viéndose posterior- DISTRIBUCIONES A PRIORI UNIDIMENSIOANALES EN MODELOS NO REGULARES: MEDIDAS DE INFORMACIÓN 365 mente algunas de las propiedades de la distribución así definida. En la última sección, se señalarán las conclusiones fundamentales y los problemas abiertos. 2. INFORMACIÓN DE FISHER E INFORMACIÓN DE AKAHIRA En esta sección, vamos a recordar la definición y propiedades más importantes de la Información de Fisher, para posteriormente considerar una medida de información aplicable a modelos regulares y no regulares, que reproduce las propiedades de la información de Fisher, y ver la relación existente entre ambas. 2.1. Información de Fisher. Propiedades Como sabemos, la Información de Fisher es aplicable sólo a los modelos regulares. Las condiciones de regularidad pueden variar ligeramente de unos autores a otros según el problema que se esté tratando. Aquí vamos a seguir la definición propuesta en Azzalini (1996). Definición: Dada una familia de distribuciones Ρθ , θ∈ Θ ⊆ ℜ κ con funciones de densidad f (x, θ) , decimos que constituyen un modelo regular si se verifican las siguientes condiciones: i) El modelo es identificable, en el sentido de que ∀ θ1 ≠ θ 2 ∈ Θ , ha de existir al menos un conjunto B del espacio muestral tal que Ρθ1 (Β) ≠ Ρθ 2 (Β) . ii) El espacio paramétrico Θ es un intervalo abierto de ℜ κ . iii) Todas las funciones de densidad especificadas por el modelo tienen el mismo soporte. iv) Para la función f, la derivación con respecto a θ y la integración con respecto a x pueden intercambiarse hasta orden dos. Concretamente: 1. ∫ ∂ ∂ f (x, θ)dx = f (x,θ)dx ∂θ ∂θ ∫ y 2. ∂2 ∫ ∂θ 2 f (x, θ)dx = ∂2 ∂θ 2 ∫ f(x, θ)dx donde debe entenderse que si k>1, entonces ∂ 2 ∂θ2 representa ∂ 2 ∂θ∂θt . Como es conocido, a partir de las hipótesis anteriores pueden obtenerse las dos propiedades siguientes: ∂ log f (x, θ) =0 ∂θ 1. Ε θ ∀θ y ∂ logf (x, θ) 2 ∂ 2 log f (x, θ) = − Εθ ∂θ ∂θ 2 2. Ε θ ∀θ 366 ESTADÍSTICA ESPAÑOLA Definición: Se llama Información de Fisher que la variable X proporciona sobre el parámetro θ ∈ Θ ⊆ ℜκ a ∂ log f (x,θ) 2 Ι x (θ) = −Ε θ . ∂θ Aplicando la propiedad 2, se obtiene que ∂ 2 log f (x,θ) . Ι x (θ) = − Εθ ∂θ2 Dada una muestra aleatoria simple X 1 ,..., X n y un estadístico T (X 1 ,..., X n ) , uti- lizaremos la siguiente notación a partir de ahora: Ι x1 (θ) = Ι (θ) será la información proporcionada por una muestra de tamaño 1; Ι x (θ) será la información proporcio- nada por la muestra de tamaño n; Ι Τ (θ) será la información proporcionada por el estadístico T. Nota: En el caso de más de un parámetro, podemos aprovechar la propiedad 2 para definir la matriz de Información de Fisher como la matriz dada por: ∂ 2 logf (x, θ) ∂ 2 log f (x, θ) ( ( ) ) Ι θ = − Ε , es decir , Ι (θ)= − Εθ . θ t i, j ∂θi∂θ j ∂θ∂θ Recordemos que la Información de Fisher verifica varias propiedades interesantes, entre las que destacamos: i) Si T y S son estadísticos independientes, entonces Ι (T ,S) (θ) = IT (θ) + Ι S (θ) . Como consecuencia inmediata, Ι x (θ) = nΙ x1 (θ). . ii) T es auxiliar (es decir, su distribución no depende del parámetro θ) Ι T (θ) = 0 ∀θ . sii iii) Ι T (θ)≤ Ι x (θ) , dándose la igualdad ∀θ sii T es suficiente. La Información de Fisher es de gran interés y utilidad desde diversas perspectivas. En primer lugar, podemos estudiar la pérdida de información que se produce al trabajar con un estadístico T no suficiente calculando Ι x (θ) − Ι Τ (θ) o bien Ι Τ (θ) Ι x (θ ) . La Información de Fisher también juega un papel relevante al propor- cionar la conocida cota de Cramer-Rao para la varianza de los estimadores insesgados y la varianza asintótica del estimador máximo-verosímil, que en modelos DISTRIBUCIONES A PRIORI UNIDIMENSIOANALES EN MODELOS NO REGULARES: MEDIDAS DE INFORMACIÓN 367 regulares coincide con la cota y, por tanto, dicho estimador en estos casos es asintóticamente eficiente. Además, a partir de los trabajos de Jeffreys (1946,1961), el concepto de Información de Fisher tomó también relevancia dentro del enfoque Bayesiano, ya que dada una reparametrización biyectiva y regular ϕ=ϕ(θ) (donde suponemos que ambos parámetros son unidimensionales), sabemos que Ι (ϕ ) = Ι (θ) ∂θ / ∂ϕ 2 y por tanto, la regla de obtención de distribuciones a priori consistente en tomar π(θ)∝ Ι (θ) es invariante ante reparametrizaciones, ya que verifica π(ϕ )∝ Ι (ϕ ) = Ι (θ) ∂θ ∂θ = π(θ) ∂ϕ ∂ϕ Así, este autor propuso la llamada regla de Jeffreys para construir distribuciones a priori no informativas basándose en el concepto de Información de Fisher. En el caso univariante, esta es la opción actualmente más aceptada. La importancia del concepto de Información de Fisher es indudable, aunque eso sí, recordando siempre que sólo es aplicable a modelos regulares. Por ello, es natural plantearse si habrá alguna forma de generalizar este concepto o al menos definir una medida de información aplicable a modelos no regulares y que tenga en esencia todas las propiedades de la Información de Fisher. La idea entonces es que una tal medida de información permitiera, en los modelos no regulares, calcular la pérdida de información correspondiente a un estadístico no suficiente y construir una regla de elección de distribuciones a priori no informativas, que es el objetivo del presente trabajo. 2.1. Información de Akahira. Propiedades Hay muchas definiciones de medidas de información aplicables a modelos no regulares, aunque nosotros vamos a trabajar sólo con la que utilizan Akahira, y Takeuchi (1991). Consideremos una familia de distribuciones de probabilidad cuyas funciones de densidad, con respecto a la medida de Lebesgue, sea {f (x, θ), θ∈ Θ ⊆ ℜ} y Χ 1 ,..., Χ n una muestra aleatoria simple del modelo f (x, θ) . Definimos la cantidad de informa- ción entre f (•, θ1 ) y f (•, θ 2 ) como: ∫ Jx1 (θ1, θ2 ) = − 8 log f (x, θ1)1 / 2 f (x, θ2 )1 / 2 dx 368 ESTADÍSTICA ESPAÑOLA La integral que aparece en la definición es conocida como la afinidad entre f (•, θ1 ) y f (•, θ 2 ) (que llamaremos Α x1 (θ1 , θ 2 ) ). Podemos observar de forma trivial que: • Si θ1 = θ 2 , entonces la afinidad es uno (es decir, la afinidad de una variable consigo misma es uno). • Si sop (Χ θ1 )∩ sop (Χ θ 2 ) = ∅ , entonces la afinidad entre las distribuciones es cero (donde sop (Χ θi ) representa el soporte de la densidad f (x, θi ) ). La afinidad es una medida de “cuán parecidas” son las distribuciones, que toma valores entre 0 y 1 (Matusita, 1955). Al ser la información una función decreciente de la afinidad, obtendremos que la información es una medida de “cuán distintas” son las variables. Remarquemos también que la información entre dos variables estará comprendida entre 0 e infinito, alcanzándose estos valores en los dos casos extremos reseñados anteriormente. Dada una muestra aleatoria simple Χ 1 ,..., Χ n y un estadístico Τ(Χ ) , la cantidad de información aportada por T será: ∫ 1/ 2 JΤ (θ1 , θ 2 ) = − 8 log f (t, θ1 ) f (t, θ 2 )1/ 2 dt La Información de Akahira, reproduce las tres propiedades más importantes de la información de Fisher. Propiedad 1: Dados los estadísticos S y T independientes, se verifica J(S,T ) (θ1 , θ 2 ) = JS (θ1 ,θ 2 ) + JT (θ1 , θ 2 ) . Notemos que a partir de este resultado es inmediato establecer que la información proporcionada por una muestra aleatoria simple de tamaño n será n veces la proporcionada por una muestra de tamaño 1. Propiedad 2: Τ (Χ ) es un estadístico auxiliar (es decir, su distribución es independiente del parámetro) si y sólo si JT (θ1, θ 2 )= 0 . Propiedad 3: Dado un estadístico Τ (Χ ) se verifica JΤ (θ1,θ2 ) ≤ Jx (θ1, θ 2 ) , dándose la igualdad para todo par de valores θ1 , θ2 si y sólo si T es suficiente para el parámetro θ. La demostración de estas propiedades puede verse en Akahira y Takeuchi, (1991). Ejemplo 2.1: Consideremos el modelo Exponencial de parámetro θ>0, cuya función de densidad es f (x, θ) = θe − θx , x > 0 . DISTRIBUCIONES A PRIORI UNIDIMENSIOANALES EN MODELOS NO REGULARES: MEDIDAS DE INFORMACIÓN ( En este caso, ∀θ1 , θ 2 > 0 , tenemos Α(θ1, θ2 ) = 2 θ1θ2 / θ1 + θ2 ( ( J(θ1, θ2 ) = − 8 log 2 θ1 θ2 / θ1 + θ2 ) ). ) 369 y por tanto, Ejemplo 2.2: Consideremos el modelo U (θ − 1/ 2, θ + 1/ 2), θ ∈ ℜ . Dados dos valores θ1 y θ2, en este caso obtenemos: − 8 log (1 + θ2 − θ1 ) si θ2 ≥ θ1 y sop (Χ1 ) ∩ sop (Χ 2 ) ≠ ∅ J (θ1, θ2 ) = − 8 log (1 + θ1 − θ2 ) si θ1 ≥ θ2 y sop (Χ1 ) ∩ sop (Χ 2 ) ≠ ∅ + ∞ si sop (Χ1) ∩ sop (Χ 2 ) = ∅ donde Χi ≈ U (θi − 1 / 2, θi + 1 / 2), i = 1,2 . Esta fórmula, puede ser resumida en − 8 log (1− θ1 − θ 2 ) si θ1 − θ 2 ≤ 1 J (θ1 , θ 2 ) = si θ1 − θ 2 > 1 + ∞ 2.2.3 Relación entre las Informaciones de Fisher y de Akahira Como hemos señalado anteriormente, la medida de información de Akahira puede usarse como alternativa a la información de Fisher en aquellos modelos en los que ésta no se puede calcular (es decir, en los llamados modelos no regulares). En el caso de modelos regulares, existe una conexión entre ambas medidas de información reflejada en la siguiente proposición, cuya demostración puede verse en Akahira y Takeuchi (1991). Proposición: En los modelos regulares, para h suficientemente pequeño se verifica: ( ) J (θ, θ + h) = Ι (θ) h2 + o h2 A partir de la proposición, podemos establecer inmediatamente el siguiente corolario: Corolario: En los modelos regulares, se verifica Ι (θ) = lim h→ 0 J (θ, θ + h) h2 De este corolario, podemos extraer las dos conclusiones siguientes: a) Tenemos que J (θ, θ + h) tiende a cero cuando h tiende a cero (para cualquier valor de θ) y además la velocidad de esta convergencia es del orden de h2. 370 ESTADÍSTICA ESPAÑOLA b) Dado un h pequeño y fijo, mientras mayor sea Ι (θ) , “más distintas” serán f (x, θ) y f (x, θ + h) y, por tanto, mayor será la “capacidad de discriminación” entre θ y θ+h. Según Pitman, (1979), págs. 18 y 19, el término de “información” de Fisher es inadecuado y propone que Ι (θ) debería ser la “sensibilidad” en θ, ya que nos muestra la variación que experimentan las distribuciones ante pequeños cambios en los parámetros. Vemos así que a través de esta definición alternativa de la Información de Fisher se mantiene la idea de su significado y, quizás, éste queda aún más claro que a través del proceso convencional de considerar la tasa de variación relativa (∂ log (f (x; θ) / ∂θ)) y calcular su varianza tras observar que la esperanza de dicha cantidad es cero. Indiquemos también que Pitman (1979), adopta como definición de modelo regular la existencia de lim J (θ, θ + h) / h2 , resaltando que para que se cumpla esta h→0 ( ) propiedad no es necesario que el recorrido de la variable no dependa del parámetro. En efecto, si consideramos el modelo cuya densidad es: f (x, θ) = 1 (θ− x ) (x − θ)2 x ≥ θ , e 2 es fácil comprobar que se verifican: 1. lim h→0 2. lim h→ 0 J (θ, θ + h) ∂ log f (x, θ) =Ε =0 h ∂θ J (θ, θ + h) h2 ∂ log f (x, θ) 2 ∂ 2 log f (x, θ) = 1 = Ε = − Ε ∂θ ∂θ2 y por tanto este modelo sería regular, aunque el recorrido dependa del parámetro. Es muy importante destacar que la propiedad expresada en este corolario, en esencia, puede encontrarse en el artículo del propio Jeffreys (1946), pág. 455. Aunque con notaciones muy distintas, y usando dos medidas de información diferentes (ambas con el mismo comportamiento local, ante pequeñas variaciones en los parámetros, que la medida usada en el presente trabajo), establece que las medidas de información consideradas “son aparentemente las únicas que habitualmente son de segundo orden en la diferencia de los parámetros de las leyes cuando esta diferencia es pequeña”. Además, también indica que su propuesta de DISTRIBUCIONES A PRIORI UNIDIMENSIOANALES EN MODELOS NO REGULARES: MEDIDAS DE INFORMACIÓN 371 obtención de la distribución a priori no siempre es aplicable, poniendo como ejemplo el modelo U (0, θ) , donde el comportamiento es de primer orden (indica también la excepción de los modelos con espacio paramétrico discreto, en los cuales no podemos derivar). Estas observaciones han sido fundamentales para el desarrollo de la propuesta que nosotros haremos en el epígrafe siguiente. Nota: Obsérvese cómo la información puede calcularse sin problemas en el caso de más de un parámetro. De hecho, la definición de información puede establecerse de forma más general usando directamente medidas de probabilidad. En concreto, en Akahira y Takeuchi (1991), la definición que se ofrece es: Dada una variable aleatoria X definida sobre un espacio muestral χ y P y Q medidas absolutamente continuas respecto a una medida σ-finita µ, definimos la cantidad de información entre P y Q como: 1/ 2 dP J (P, Q ) = − 8 log dµ ∫ 1/ 2 dQ dµ dµ La definición ofrecida inicialmente en este trabajo no es más que un caso particular, donde P y Q son las medidas de probabilidad inducidas por las variables correspondientes a los parámetros θ1, θ2, la medida σ-finita considerada es la de Lebesgue y las derivadas respecto a esta medida son las funciones de densidad de las variables. 3. OBTENCIÓN DE DISTRIBUCIONES A PRIORI NO INFORMATIVAS 3.1. Elección de la distribución a priori Tras observar la relación entre ambas medidas de información en los modelos regulares, nos podemos preguntar qué ocurriría en el caso de considerar un modelo no regular. Antes de pasar a resultados generales, vamos a ver un ejemplo. Ejemplo 3.1: Consideremos el modelo U (0, θ), θ ∈ (0, + ∞ ) , con función de densidad f (x, θ) = θ −1 , 0 ≤ x ≤ θ . Como es conocido, este modelo es no regular, puesto que ∂ 1 ∂ ∫ ∂θ f (x, θ)dx = − θ ≠ 0 = ∂θ ∫ f (x, θ) dx 372 ESTADÍSTICA ESPAÑOLA Para h>0 obtendremos J (θ, θ + h) = − 4 log (θ / (θ + h)) mientras que para h<0 se tendrá J (θ, θ + h) = − 4 log ((θ + h) / θ ) , por lo que en este modelo se verifica lim h→ 0 J (θ, θ + h) =+∞ h2 Es decir, J(θ,θ+h) converge a cero cuando h tiende a cero, pero la velocidad de esta convergencia es inferior a la de h2. Sin embargo, podemos comprobar que dicha convergencia es tan rápida como la de h. En efecto, cálculos elementales de límites nos llevan a: lim+ h→0 J (θ, θ + h) J (θ, θ + h) = lim− = 4/θ h→0 h h Hemos visto así que en ambos casos (modelo regular y no regular) se tiene lim J (θ, θ + h) = 0 (recordar que J (θ, θ) = 0 ), si bien la velocidad de esta converh→ 0 gencia es más rápida en los modelos regulares que en el modelo uniforme. En la literatura estudiada hasta ahora, esta medida de información ha sido usada fundamentalmente para definir la pérdida de información que se produce al trabajar con un estadístico no suficiente en un modelo no regular y ver si esta pérdida de información converge a 0 y con qué velocidad lo hace. Este trabajo, sin embargo, trata de aprovechar la relación existente entre ambas medidas de información para proporcionar una propuesta de obtención de distribución a priori no informativas, que sea aplicable tanto a modelos regulares como no regulares. Sabemos que en los modelos regulares (con un único parámetro) la distribución a priori no informativa comúnmente aceptada es la de Jeffreys, a saber, π(θ)∝ (Ι (θ))1/ 2 que podemos escribir a partir del corolario como J (θ, θ + h) π(θ) ∝ lim 2 h→0 h 1/ 2 Según el ejemplo visto anteriormente de la distribución uniforme, y puesto que la convergencia es del orden de h, proponemos como distribución a priori para el parámetro θ π(θ) ∝ lim h→ 0 J (θ, θ + h) h De forma global, nuestra propuesta es la siguiente: DISTRIBUCIONES A PRIORI UNIDIMENSIOANALES EN MODELOS NO REGULARES: MEDIDAS DE INFORMACIÓN 373 1. Obtener k tal que J (θ, θ + h) lim = C (θ) h→ 0 hk donde C(θ) es una función que puede ser constante (pero no idénticamente nula ni infinito). 2. Elegir como distribución a priori J (θ, θ + h) 1 / k π (θ) ∝ lim k h→ 0 h Ejemplo 3.1. (continuación): En el ejemplo anterior de la distribución uniforme en (0,θ), como obtuvimos que el límite era 4/θ, tendremos π (θ) ∝ θ −1 que es la distribución que se acepta comúnmente como no informativa para este modelo, y que coincide con la distribución a priori de referencia de Bernardo y Smith (1994) y con la distribución imparcial de Basulto (1997). Ejemplo 3.2: Consideremos el modelo U (θ − 1/ 2, θ + 1/ 2), θ ∈ ℜ , con función de densidad f (x, θ) = 1, θ− 1 1 ≤x≤θ+ 2 2 Para h>0, obtenemos J (θ, θ + h) = − 8 log (1 − h) , mientras que para h<0 la información es J (θ, θ + h) = − 8 log (1 + h) . Puede comprobarse sin dificultad que también en este caso la velocidad de convergencia a 0 es del orden de h y que se verifica lim h→0 J (θ, θ + h) =8 h y por tanto, la distribución a priori sería para este caso π (θ) ∝ 1 , que coincide con la distribución a priori de referencia de Bernardo y Smith (1994) y con la distribución a priori imparcial de Basulto (1997). Ejemplo 3.3: Consideremos la familia de modelos f (x, θ) = g (θ)−1 , a (θ) ≤ x ≤ b(θ) 374 ESTADÍSTICA ESPAÑOLA donde a(θ) y b(θ) pueden ser constantes, pero suponemos que si no lo son, entonces a(θ) es estrictamente creciente y b(θ) es estrictamente decreciente, siendo ambas funciones derivables. En este caso, se tendrá que g(θ) = b(θ) − a(θ) ≥ 0 y además g(θ) es estrictamente decreciente y diferenciable. Señalemos que si suponemos a(θ) estrictamente decreciente y b(θ) estrictamente creciente el desarrollo del modelo es totalmente análogo. Esta familia puede verse en Basulto (1997) y en Kosmas (1990). Para el caso h>0, la información es J (θ, θ + h) = −4(log g (θ + h) − log g (θ)) Por lo tanto, teniendo en cuenta que la función g es derivable, vamos a obtener lim h→ 0 + ∂ log g (θ) J (θ, θ + h) = −4 ∂θ h El mismo resultado se tendrá para el límite por la izquierda, con lo que, teniendo en cuenta que g (θ) es decreciente, la distribución a priori que tomaremos será π (θ) ∝ ∂ log g (θ) ∂θ que coincide con la obtenida a través de la propuesta de Basulto(1997), y que además tiene unas propiedades muy interesantes como veremos posteriormente. Nota: Puede comprobarse que el resultado es el mismo si consideramos el modelo f (x, θ) = c (x ) / g (θ), a (θ) ≤ x ≤ b (θ) imponiendo las mismas condiciones y además que c (x ) ≥ 0 y que exista C(x) primitiva de c(x). Ejemplo 3.4: Consideremos el modelo de Cauchy uniparamétrico definido por: f (x, θ) = ( 1 π 1 + (x − θ)2 ) , x, θ ∈ ℜ Dados dos valores del parámetro θ1 y θ2 , la medida de información J (θ1 , θ 2 ) no puede ser obtenida explícitamente, ya que la integral que aparece al aplicar la definición no es resoluble en este caso. No obstante, este modelo verifica todas las propiedades de regularidad especificadas en la sección 2.1, por lo que, aplicando el corolario de la proposición establecida en la sección 2.2.3., obtendremos que DISTRIBUCIONES A PRIORI UNIDIMENSIOANALES EN MODELOS NO REGULARES: MEDIDAS DE INFORMACIÓN lim h→0 375 J(θ, θ + h) = Ι (θ ) , h2 y por tanto la distribución a priori será π (θ)α Ι (θ) . Por otra parte, en este modelo tendremos: +∞ ∂ 2 log f (x, θ) 4 (x − θ)2 2 Ι (θ) = − Ε θ = − 2 2 ∂θ 1 + (x − θ)2 − ∞ 1 + (x − θ) ∫ ( ) 2 f (x, θ) dx = 1 , 2 y por tanto, la distribución a priori sería π (θ)α1 . 3.2. Expresión alternativa para la obtención de la distribución a priori En esta sección vamos a considerar una familia de modelos para los cuales vamos a deducir una expresión alternativa de la distribución a priori, que permite su cálculo con mayor facilidad. Dicha familia de modelos es la que se considera en Ghosal y Samanta (1997). En este artículo se estudia una familia no regular que verifica una serie de condiciones y en ella se obtiene un desarrollo asintótico para la distribución a posteriori y la distribución límite de la misma. La situación que se plantea en este trabajo es la que sigue. Sean Χ 1 ,..., Χ n independientes e idénticamente distribuidas con distribución Ρθ y con densidad f(x,θ) respecto a la medida de Lebesgue en ℜ , donde θ ∈ Θ ⊆ ℜ siendo Θ abierto. Suponemos que ∀θ∈Θ, f(•,θ) es estrictamente positiva en un intervalo cerrado (acotado o no) S (θ) = [a1 (θ), a2 (θ)] y vale cero fuera de él. Está permitido que uno de los extremos sea constante y puede ser más o menos infinito. Vamos a exigir también que los conjuntos S(θ) sean crecientes o decrecientes en θ (es decir, que ∀ θ1 < θ 2 se verifique S (θ1 ) ⊆ S (θ 2 ) o bien S (θ1 ) ⊇ S (θ 2 ) ). En lo que sigue se supone que son decrecientes (si son crecientes el desarrollo es completamente análogo), es decir, a1 (θ) es creciente y a2 (θ) decreciente; aún más, vamos a suponer que estas funciones son estrictamente monótonas y continuamente diferenciables a menos que sean constantes o valgan más o menos infinito. Vamos a suponer además las siguientes hipótesis: {(x, θ) : x ∈ S (θ)}, f (x, θ) es conjuntamente continua en (x, θ) . log f(x, θ) es dos veces diferenciable respecto a θ en el conjunto 1) En el conjunto 2) Para cada x, {a1 (θ) < x < a2 (θ)} . 3) ∀θ ∈ Θ, Ε θ [∂ log f (x, θ) / ∂θ] es finita. 376 ESTADÍSTICA ESPAÑOLA Nota 1: Estas son algunas de las hipótesis (no todas), que se suponen en la familia que aparece en el artículo de Ghosal y Samanta (1997). Indiquemos que, según se afirma en dicho trabajo, en Ghosal et al.(1995) se demuestra que las condiciones exigidas son suficientes para la existencia de un límite en probabilidad de la distribución a posteriori; Ghosh et al. (1994) aplican sus resultados a diversas familias que no cumplen estas condiciones y obtienen que para ellas no existe un límite. Así, en vista de estos dos artículos, la familia considerada es esencialmente la única para la que existe el límite a posteriori. Nota 2: Los modelos más importantes que pertenecen a esta familia son: 1. La familia de localización: f (x, θ) = f0 (x − θ), θ ∈ ℜ donde f0 (z) es una densidad en el intervalo [0,+ ∞ ) . En este caso, a1 (θ) = θ y a2 (θ) ≡ +∞ . 2. f (x, θ) = c(x ) / g (θ), 3.3). a(θ) ≤ x ≤ b(θ) (es decir, la familia tratada en el ejemplo Observemos que esta familia incluye a gran cantidad de modelos, entre los que podemos destacar los modelos uniformes con soporte en (i) [0,θ], θ>0, (ii) [-θ,θ],θ>0, (iii) [θ,1/θ], 0<θ<1, así como la familia truncada f (x, θ) = g(x ) / G (θ), x > θ donde g(•) es una densidad en (0,+∞ ) y ∫ +∞ G (x) = g (t ) dt . Indiquemos que el modelo de Pareto pertenece a la familia truncax da, ya que en este caso la función de densidad es f (x, θ) = αθ α x − (1+ α ) , ∫ x > θ y así +∞ estamos en la situación descrita tomando g (x ) = αx 1− α y G (θ) = g (t ) dt = θ −α . x Señalemos también que modelos tales como los uniformes en [θ − 1 / 2, θ + 1/ 2] o en [θ,2θ] no están en esta familia por no ser los soportes ni crecientes ni decrecientes en θ (es decir, dados θ1 < θ 2 en general no se verifica ni sop (θ1 ) ⊆ sop (θ 2 ) ni sop (θ1 ) ⊇ sop (θ 2 ) ). Suponiendo las condiciones de regularidad (1), (2) y (3) vamos a establecer una proposición análoga a la que se desarrolla en Akahira y Takeuchi (1991) y que va a servir para asegurar la existencia del límite y decir cuánto vale éste. Proposición. Bajo las condiciones señaladas anteriormente, se tiene: lim h→0 J (θ, θ + h) ∂ log f (x, θ) = 4Ε ∂θ h La demostración puede llevarse a cabo siguiendo un camino similar al desarrollado para el caso regular, siendo la diferencia más significativa que al hacer desa- DISTRIBUCIONES A PRIORI UNIDIMENSIOANALES EN MODELOS NO REGULARES: MEDIDAS DE INFORMACIÓN 377 rrollos de Taylor de log f (x, θ) tomaremos orden 1 en vez de orden 2, ya que en el caso regular se verifica ∂ log f (x, θ) Εθ = ∂θ ∫ ∂ log f (x, θ) f (x, θ) dx = 0 ∂θ quedando así el comportamiento del desarrollo que se hace marcado por el término de segundo orden, mientras que en el caso no regular dicho comportamiento lo marca el término de primer orden al no ser su esperanza nula. Como consecuencia de la proposición, la distribución a priori que elegiríamos en este caso sería: ∂ log f (x, θ) π (θ) ∝ Ε ∂θ Nota: Si mantenemos todas las condiciones anteriores, pero suponiendo ahora que a1 (θ) es estrictamente decreciente y que a2 (θ) es estrictamente creciente, se puede repetir toda la demostración, obteniéndose π (θ) ∝ − Ε [∂ log f (x, θ) / ∂θ]. En definitiva, en la familia de modelos estudiada en Ghosal y Samanta (1997), obtenemos como distribución a priori π (θ) ∝ Ε [∂ log f (x, θ) / ∂θ] que, evidentemente, será una distribución válida siempre que dicha esperanza no sea idénticamente nula. Observemos también que en el caso de la familia (2) tratada anteriormente en el ejemplo 3.3 se tiene ∂ log f (x, θ ) ∂ log g(θ) ∂ log f (x, θ) ∂ log g(θ ) =− ⇒ Ε = Ε ∂θ ∂θ ∂ θ ∂θ con lo que el resultado obtenido en el ejemplo concuerda con el obtenido a partir de la proposición. Puede verse también fácilmente que en el modelo U (0, θ) ambos resultados coinciden. Ejemplo 3.5: Consideremos la familia de localización: f (x, θ) = f0 (x − θ), θ ∈ ℜ donde f0 (z) es una densidad en el intervalo [0,+∞ ) . En este caso, al aplicar el resultado obtenido en la proposición tenemos lo siguiente: ∂ log f (x, θ ) − f0' (x − θ) ∂ log f (x, θ) = ⇒Ε =− ∂θ ∂θ f0 (x − θ) ∫ +∞ 0 f0' (z ) dz = f0 (0 ) 378 ESTADÍSTICA ESPAÑOLA De esta forma, la distribución a priori sería π (θ) ∝ 1 siempre que f0(0) ≠ 0, en cuyo caso lo que ocurre es que la convergencia de la información es de orden dos, con lo que tendríamos que calcular el límite dividiendo por h2. 3.3. Propiedades de la distribución a priori propuesta 3.3.1. Invarianza ante reparametrizaciones La expresión alternativa que hemos propuesto en el epígrafe 3.2 para obtener nuestra distribución a priori no informativa conlleva a que, al menos en la familia de Ghosal y Samanta (1997), la regla de construcción de distribuciones a priori sea invariante ante reparametrizaciones. En efecto, trivialmente tenemos que: ∂ log f (x, ϕ) π (ϕ) ∝ Ε ∂ϕ ∂ log f (x, θ) ∂θ ∂ log f (x, θ) = Ε = Ε ∂θ ∂ϕ ∂θ ∂θ , ∂ϕ y, en definitiva, se obtiene π (ϕ )∝ π (θ) ∂θ / ∂ϕ que es precisamente la propiedad de invarianza buscada. 3.3.2 Propiedades frecuencialistas de los intervalos Bayesianos Uno de los argumentos más usados en la literatura para construir distribuciones a priori no informativas (o para decidir si una determinada distribución a priori no informativa es una elección buena) es poder calcular con dichas distribuciones intervalos bayesianos de probabilidad 1-α cuyo nivel de confianza, en el sentido de la estadística clásica, sea también 1-α ( o al menos, de forma aproximada). El primer trabajo que puede considerarse en este sentido es el de Welch y Peers (1963), en el que se demuestra que en modelos regulares y con un sólo parámetro la distribución de Jeffreys es la única que verifica Ρ θ < g(S, α) θ = 1 − α + O n −1 donde g(S, α) es el extremo superior del intervalo [ ] ( ) bayesiano unilateral de probabilidad 1-α obtenido a partir de una muestra S de la variable X , es decir, Ρ θ < g(S, α)S = 1 − α , o lo que es lo mismo, g(S, α) es el [ ] percentil de orden 1 − α de la distribución a posteriori de θ dada la muestra S. En Ghosal (1999), se demuestra que, bajo las condiciones descritas en el epígrafe 3.2 para la familia de Ghosal y Samantha (1997), cualquier distribución a priori diferenciable lleva a intervalos unilaterales con probabilidad de cubrimiento en sentido frecuencialista 1 − α + O n−1 ; sin embargo, también se establece en dicho artículo que la única distribución a priori que verifica que los intervalos bayesianos unilaterales de probabilidad 1 − α tienen probabilidad de cubrimiento 1 − α + O n −2 , es la obtenida según nuestra propuesta. ( ) ( ) DISTRIBUCIONES A PRIORI UNIDIMENSIOANALES EN MODELOS NO REGULARES: MEDIDAS DE INFORMACIÓN 379 Hagamos notar que en esta situación no es aconsejable trabajar con intervalos bilaterales, ya que tanto la distribución a posteriori como la distribución muestral de θ̂ , en el límite, son muy asimétricas y están muy concentradas en uno de los extremos de su recorrido. Aunque este resultado general es bastante importante, queremos destacar también tres casos en los que la coincidencia de resultados entre la inferencia bayesiana y clásica es exacta, que son los que pasamos a describir a continuación. a) Sea la familia de modelos considerada en el ejemplo 3.3, cuya densidad viene dada por f (x, θ) = c (x ) / g (θ), a (θ) ≤ x ≤ b (θ) , donde suponemos además que a (θ) es estrictamente creciente y b (θ) estrictamente decreciente. Para esta familia, en Basulto (1997) se establece que si g (− ∞ ) ≡ +∞ , entonces, siendo r(π,θ) la función de distribución a posteriori usando la distribución a priori propuesta en el presente trabajo, se verifica que r(π,θ) es una variable aleatoria cuya distribución en el muestreo es U(0,1), lo que asegura que un intervalo unilateral bayesiano de probabilidad 1-α construido a partir de r(π,θ) tiene también nivel de confianza exactamente 1-α (el intervalo Bayesiano coincidiría con el intervalo clásico basado en la cantidad pivotal r(π,θ)). Si g (−∞ ) = c > 0 , entonces el resultado se tiene asintóticamente. b) Sea la familia de localización considerada en el ejemplo 3.4, cuya densidad viene dada por f (x, θ) = f0 (x − θ), θ ∈ ℜ donde f0 (z) es una densidad en [0,+ ∞ ) . Puesto que este modelo pertenece a la familia de Ghosal y Samantha (1997), es aplicable el resultado general enunciado anteriormente. No obstante, es muy interesante señalar que, para este caso, se establece que r (π, θ) es una variable aleatoria cuya distribución condicionada al estadístico auxiliar {c 2 ,K , c n } es uniforme en (0,1) , siendo c k = y k − y1 , k = 2, K , n donde y 1 ,K , y n representa la muestra ordenada. Por tanto, obtenemos a través del procedimiento Bayesiano un intervalo que coincide con el intervalo clásico que se obtiene al condicionar al estadístico auxiliar (Basulto, 1997). c) Consideremos por último el modelo U(θ − 1/ 2, θ + 1/ 2) , θ ∈ ℜ , que no responde a las condiciones de Ghosal y Samantha (1997) por no ser los soportes crecientes ni decrecientes en θ. Con la distribución a priori que se ha propuesto, es decir, π(θ) ∝ 1 , puede probarse que la función de distribución a posteriori r(π, θ) sigue una distribución U(0,1) (Basulto, 1997). 380 ESTADÍSTICA ESPAÑOLA 4. CONSIDERACIONES ACERCA DEL CASO MULTIPARAMÉTRICO Cuando hay más de un parámetro, es decir, cuando θ ∈ Θ ⊆ ℜm , la regla general de Jeffreys, aplicable al caso regular, consiste en tomar π(θ) ∝ Ι (θ) , donde Ι (θ) representa el determinante de la matriz de información, lo que sigue asegurando la invarianza ante reparametrizaciones arbitrarias. No obstante, esta opción presenta deficiencias importantes, que hacen que en muchos casos no sea la opción habitualmente elegida. En el caso del modelo Normal, X ≈ N(µ, σ ) , con ambos parámetros desconocidos, la regla general de Jeffreys conduce a tomar como distribución a priori π(µ, σ) ∝ σ −2 . El mismo Jeffreys (1961), p.182 encuentra esta distribución inaceptable, ya que cuando se extiende al caso de k medias desconocidas µ 1 ,K , µ k y varianza común σ 2 , los grados de libertad resultantes en la distribución marginal t-Student de cada µ i no dependen de k. Un resultado muy similar ocurre en el modelo de regresión lineal, pues si aplicamos la regla general de Jeffreys para obtener la distribución a priori, obtendremos que la distribución a posteriori para la varianza poblacional se relaciona con una distribución χ n2 , independientemente del número de variables explicativas del modelo. Para evitar estos inconvenientes, Jeffreys sugirió una modificación para su regla general en el caso multiparamétrico que debía aplicarse en los modelos con parámetros de localización y escala. Propuso que en estos casos, debían de tratarse los parámetros de localización separadamente del resto (Jeffreys, 1961, p.182-183); es decir, cuando tenemos parámetros de localización µ 1 ,K , µ k y un parámetro adicional de escala σ, entonces el autor recomienda utilizar π(µ 1 , K, µ k , σ ) ∝ Ι (σ ) , donde Ι (σ ) se calcula considerando µ 1 ,K , µ k fijos, lo que llevará definitivamente a to- mar π(µ 1 ,K , µ k , σ) ∝ σ −1 . Así, aplicando la regla modificada al modelo Normal obtendremos π(µ, σ ) ∝ σ −1 en vez de π(µ, σ) ∝ σ −2 . Observemos que la regla modificada resulta equivalente a obtener la distribución de cada parámetro suponiendo que los otros son fijos y posteriormente, la distribución multiparamétrica será el producto de las correspondientes unidimensionales. Un camino interesante para la construcción de distribuciones a priori multidimensionales consiste en obtener las mismas a partir de ciertas distribuciones unidimensionales (bien marginales o bien condicionadas). Supongamos por simplicidad que θ = (θ1 , θ 2 ) ∈ Θ ⊆ ℜ 2 ; sean π(θ1 , θ 2 ) la distribución a priori conjunta, π1 (θ1 ) y π 2 (θ 2 ) las respectivas distribuciones marginales y π1 2 (θ1 θ 2 ) y π 2 1 (θ 2 θ1 ) las condicionadas. En este caso, podemos plantearnos definir la distribución a priori π(θ1 , θ 2 ) como producto de las marginales o bien como producto de DISTRIBUCIONES A PRIORI UNIDIMENSIOANALES EN MODELOS NO REGULARES: MEDIDAS DE INFORMACIÓN 381 una condicionada por una marginal (si nuestro parámetro de interés es θ1 consideraríamos π1 2 (θ1 θ 2 )π 2 (θ 2 ) y en caso contrario π 2 1 (θ 2 θ1 )π1 (θ1 ) ). Otro camino posible, cuando los dos parámetros son de interés, es obtener π1 2 (θ1 θ 2 ) y π 2 1 (θ 2 θ1 ) y buscar posteriormente una distribución conjunta compatible con ambas condicionadas (que no siempre tiene por qué existir). En este sentido, en Arnold y otros (1999), pág. 8, se establece que las dos distribuciones condicionadas definen una conjunta compatible si, denotando { } N1 = (θ1 , θ 2 ) : π1 2 (θ1 θ 2 ) > 0 y { } N2 = (θ1 , θ 2 ) : π 2 1 (θ 2 θ1 ) > 0 se verifica que N1 = N2 = N y además existen funciones h(θ1 ) y h(θ 2 ) tales que π1 2 (θ1 θ 2 ) / π 2 1 (θ 2 θ1 ) = h(θ1 )h(θ 2 ), ∀(θ1 , θ 2 ) ∈ N donde ∫ h(θ )dθ 1 1 < ∞ . Para el caso que nos ocupa, es decir, la búsqueda de distri- buciones a priori, la última condición de integrabilidad puede obviarse, ya que las densidades a priori pueden ser, y de hecho son muy a menudo, impropias (Arnold y otros, pág. 133). Pensamos que la posible generalización al caso multidimensional de nuestra propuesta debe basarse en esta última vía de construir la distribución a partir de ciertas marginales o condicionadas, aunque es todavía un tema abierto y que será objeto de trabajos futuros. 5. CONCLUSIONES Acudiendo a los trabajos e ideas originales de Jeffreys, hemos propuesto un procedimiento para obtener distribuciones a priori no informativas, aplicable tanto a modelos regulares como no regulares. Puesto que si el modelo es regular, nuestra distribución a priori coincide con la que se obtiene a través de la regla de Jeffreys, puede entenderse que nuestra propuesta es una generalización de la misma. La medida de Información usada por Akahira y Takeuchi (1991), se revela sumamente interesante, pues reproduce las propiedades de la Información de Fisher. Como hemos comprobado, la distribución a priori propuesta muestra buen comportamiento en lo que se refiere a la propiedad de invarianza ante reparametrizaciones. Asimismo, vemos que los intervalos bayesianos obtenidos, tienen buen comportamiento frecuencialista. 382 ESTADÍSTICA ESPAÑOLA Es importante resaltar que, cuando en el modelo no existe un estadístico suficiente de la misma dimensión que el espacio paramétrico, los intervalos bayesianos coinciden con los obtenidos a través del Principio de Condicionar de Fisher y no con los intervalos clásicos no condicionados. Aunque esta última propiedad sólo se ha comentado en el presente trabajo para el modelo f (x, θ) = f0 (x − θ), θ ∈ ℜ hemos podido comprobar que se repite en más casos. REFERENCIAS AKAHIRA, M. and TAKEUCHI, K. (1991), «A Definition of Information Amount Applicable to Non-Regular Cases», Journal of Computing and Information, 2, 71-92. ARNOLD, B.C., CASTILLO, E. and SARABIA, J.M. (1999), «Conditional Specification of Statistical Models», Springer Series in Statistics, Springer-Verlag, New York. AZZALINI, A. (1996), «Statistical Inference Based on the Likelihood», Chapman and Hall, London. BASULTO, J. (1997), «Funciones a Priori Imparciales Unidimensionales», Estadística Española, 39, nº 142, 99-128. BERNARDO, J.M. and SMITH, A.F.M. (1994), «Bayesian Theory», John Wiley and Sons, Chichester. COX, D.R. and REID, N. (1987), «Parameter Ortogonality and Approximate Conditional Inference», J. Roy. Statist. Soc., Ser. B, 49, 1-39. GHOSAL, S. (1999), «Probability Matching Priors for Non-Regular Cases», Biometrika, 86, nº 4, 956-964. GHOSAL, S. and SAMANTA, T. (1997), «Asymptotic Expansions of Posterior Distributions in Non-Regular Cases», Ann. Inst. Statist. Math., 49, nº 1, 181-197. GHOSAL, S., GHOSH, J.K. and SAMANTA, T. (1995), «On Convergence of Posterior Distributions», Ann. Statist., 23, 2145-2152. GHOSH, J.K., GHOSAL, S. and SAMANTA, T. (1994), «Stability and Convergence of Posterior in Non-Regular Problems», Statistical Decision Theory and Related Topics V, (eds. SS. Gupta and J.O. Berger), 183-199, Springer, New-York. JEFFREYS, H. (1946), «An Invariant Form for the Prior Probability in Estimation Problems», Proc. Roy. Soc. (London), Ser. A, 186, 453-461. JEFFREYS, H. (1961), «Theory of Probability», 3rd. edition, Oxford University Press, London. DISTRIBUCIONES A PRIORI UNIDIMENSIOANALES EN MODELOS NO REGULARES: MEDIDAS DE INFORMACIÓN 383 KOSMAS, K.F. (1990), «Shortest Confidence Intervals for Families of Distributions Involving Truncation Parameters», The American Statician, 44, 167-168. MATUSITA, K. (1955), «Decisión Rules Based on the Distance for Problems of Fit, two Samples and Estimation», Ann. Math. Statist., 26, 631-640. PITMAN, E.J. (1979), «Some Basic Theory for Statistical Inference», Chapman and Hall, London. W ELCH, B.L. and PEERS, H.W. (1963), «On Formulae for Confidence Points Based on Integral of Weithed Likelihoods», J.R. Statist. Soc., Ser. B, 25, 318-329. ONE-PARAMETER PRIOR DISTRIBUTIONS FOR NON-REGULAR MODELS: AMOUNTS OF INFORMATION SUMMARY From the Information Measure of Akahira and Takeuchi (1991), that it generalizes the Fisher Information to non-regular models, an extension of the Jeffreys’ Rule sets out, that allows to obtain noninformative prior distributions in non-regular cases. Key words: Amount of Information, Fisher Information, Regular model, Noninformative prior distribution, Jeffreys Rule AMS classificcation: 62F15, 62A15, 62B10