Estadística Bayesiana

ESTADÍSTICA BAYESIANA Notas Índice 1. INTRODUCCIÓN .............................................................................................................1 2. ESTADÍSTICA BAYESIANA ............................................................................................2 3. ¿QUÉ ES LA INFERENCIA BAYESIANA?......................................................................3 4. CONCEPTOS BAYESIANOS BÁSICOS .........................................................................5 4.1. Teorema de Bayes ..................................................................................................................................... 5 4.2. Naturaleza secuencial del teorema de Bayes ............................................................................................ 7 4.3. Distribución a priori difusa o no informativa ............................................................................................... 7 4.4. Distribución a priori conjugada ................................................................................................................. 10 5. INFERENCIA BAYESIANA............................................................................................12 5.1. Estimación puntual ................................................................................................................................... 12 5.2. Intervalos de credibilidad o regiones veraces .......................................................................................... 16 5.3. Prueba de hipótesis para una muestra .................................................................................................... 17 5.4. Prueba de hipótesis para dos muestras................................................................................................... 18 6. CONCLUSIONES ..........................................................................................................20 7. BIBLIOGRAFÍA..............................................................................................................20 1. Introducción Como anunciaba Lindley en el primer Congreso Internacional de Estadística Bayesiana, falta menos para el 2021 año en el que el adjetivo bayesiano para la estadística sería superfluo al ser bayesianas todas las aproximaciones a la estadística. El objetivo de la estadística, y en particular de la estadística Bayesiana, es proporcionar una metodología para analizar adecuadamente la información con la que se cuenta (análisis de datos) y decidir de manera razonable sobre la mejor forma de actuar (teoría de decisión). Toma de decisiones Población Inferencia Muestreo Muestra Análisis de datos Figura 1. Diagrama de la Estadística Tipos de inferencia: clásica y bayesiana • La toma de decisiones es un aspecto primordial en la vida de un profesional, por ejemplo, un médico debe de tomar decisiones. • La metodología estadística clásica se puede ver como un conjunto de recetas que resultan apropiadas en determinados casos y bajo ciertas condiciones. • Sin embargo, existe una metodología unificada y general que se deriva de analizar el proceso lógico que debe de seguirse para tomar una decisión (teoría de la decisión), y que incluye como caso particular al conjunto de recetas clásicas. • La estadística esta basada en la teoría de probabilidades. Formalmente la probabilidad es una función que cumple con ciertas condiciones, pero en general puede entenderse como una medida o cuantificación de la incertidumbre. • Aunque la definición de función de probabilidad es una, existen varias interpretaciones de la probabilidad: (a) clásica: Supone que el experimento aleatorio produce resultados igualmente verosímiles (posibles) y propone como medida de probabilidad el cociente entre los casos favorables y los casos totales, Pr ( A ) = nA n (b) frecuentista: Supone que un experimento aleatorio puede ser repetido un número infinito de veces bajo condiciones similares y propone como medida de probabilidad la proporción de veces que ocurrió el evento de interés, Pr ( A ) = n lim ∞ nA n (c) subjetiva: Es simplemente una medida de la incertidumbre, asociada a un evento, asignada por un decisor. En otras palabras, es un juicio personal sobre la verosimilitud de que ocurra un resultado. Pr ( A ) = • La metodología bayesiana está basada en la interpretación subjetiva de la probabilidad y tiene como punto central el Teorema de Bayes. Figura 2. Retrato del Reverendo Thomas Bayes (1702-1761) 2. Estadística bayesiana El interés por el teorema de Bayes trasciende la aplicación clásica, especialmente cuando se amplía a otro contexto en el que la probabilidad no se entiende exclusivamente como la frecuencia relativa de un suceso a largo plazo, sino como el grado de convicción personal acerca de que el suceso ocurra o pueda ocurrir (definición subjetiva de la probabilidad). Afirmaciones del tipo "es muy probable que el partido X gane las próximas elecciones", "es improbable que Juan haya sido quien llamó por teléfono" o "es probable que se encuentre un tratamiento eficaz para el sida en los próximos cinco años", normales en el lenguaje común, no pueden cuantificarse formalmente; resultan ajenas, por tanto, a una metodología que se desenvuelva en un marco frecuentista. Una cuantificación sobre base subjetiva resulta, sin embargo, familiar y fecunda para el enfoque bayesiano. Al admitir un manejo subjetivo de la probabilidad, el analista bayesiano podrá emitir juicios de probabilidad sobre una hipótesis H y expresar por esa vía su grado de convicción al respecto, tanto antes como después de haber observado los datos. En su versión más elemental y en este contexto, el teorema de Bayes asume la forma siguiente: Pr ( H | datos ) = Pr ( datos | H ) Pr ( H ) Pr ( datos ) 2 La probabilidad a priori de una hipótesis, Pr ( H ) , se ve transformada en una probabilidad a posteriori, Pr ( H | datos ) , una vez incorporada la evidencia que aportan los datos. El caso considerado se circunscribe a la situación más simple, aquella en que Pr ( H ) representa un número único; sin embargo, si se consiguiera expresar la convicción inicial (y la incertidumbre) mediante una distribución de probabilidades. Entonces una vez observados los datos, el teorema "devuelve" una nueva distribución, que no es otra cosa que la percepción probabilística original actualizada por los datos. Esta manera de razonar de la inferencia bayesiana, radicalmente diferente a la inferencia clásica o frecuentista (que desdeña en lo formal toda información previa de la realidad que examina), es sin embargo muy cercana al modo de proceder cotidiano, e inductivo. Debe subrayarse que esta metodología, a diferencia del enfoque frecuentista, no tiene como finalidad producir una conclusión dicotómica (significación o no significación, rechazo o aceptación, etc.) sino que cualquier información empírica, combinada con el conocimiento que ya se tenga del problema que se estudia, "actualiza" dicho conocimiento, y la trascendencia de dicha visión actualizada no depende de una regla mecánica. Los métodos bayesianos han sido cuestionados argumentando que, al incorporar las creencias o expectativas personales del investigador, pueden ser caldo de cultivo para cualquier arbitrariedad o manipulación. Se podría argüir, por una parte, que el enfoque frecuentista no está exento de decisiones subjetivas (nivel de significación, usar una o dos colas, importancia que se concede a las diferencias, etc.); de hecho, la subjetividad (algo bien diferente de la arbitrariedad o el capricho) es un fenómeno inevitable, especialmente en un marco de incertidumbre como en el que operan las ciencias biológicas y sociales. Por otra parte, las "manipulaciones" son actos de deshonestidad, que pueden producirse en cualquier caso (incluyendo la posibilidad de que se inventen datos) y que no dependen de la metodología empleada sino de la honradez de los investigadores. Aunque las bases de la estadística bayesiana datan de hace más de dos siglos, no es hasta fechas recientes cuando empieza a asistirse a un uso creciente de este enfoque en el ámbito de la investigación. Una de las razones que explican esta realidad y que a la vez anuncian un impetuoso desarrollo futuro es la absoluta necesidad de cálculo computarizado para la resolución de algunos problemas de mediana complejidad. Hoy ya existe software disponible (BUGS, macros para MINITAB, próxima versión de EPIDAT y First Bayes, entre otros) que hace posible operar con estas técnicas y augura el "advenimiento de una era Bayesiana". El proceso intelectual asociado a la inferencia bayesiana es mucho más coherente con el pensamiento usual del científico que el que ofrece el paradigma frecuentista. Los procedimientos bayesianos constituyen una tecnología emergente de procesamiento y análisis de información para la que cabe esperar una presencia cada vez más intensa en el campo de la aplicación de la estadística a la investigación clínica y epidemiológica. 3. ¿Qué es la inferencia bayesiana? El marco teórico en que se aplica la inferencia bayesiana es similar a la clásica: hay un parámetro poblacional respecto al cual se desea realizar inferencias y se tiene un modelo que determina la probabilidad de observar diferentes valores de X, bajo diferentes valores de los parámetros. Sin embargo, la diferencia fundamental es que la inferencia bayesiana considera al parámetro como una variable aleatoria. Esto parecería que no tiene demasiada importancia, pero realmente si lo tiene pues conduce a una aproximación diferente para realizar el modelamiento del problema y la inferencia propiamente dicha. Algunos ejemplos que justifican lo anterior son: la verdadera proporción de artículos defectuosos que produce un proceso de manufactura puede fluctuar ligeramente pues depende de numerosos factores, la verdadera proporción de casas que se pierden por concepto de hipoteca varia dependiendo de las condiciones económicas, la demanda promedio semanal de automóviles también fluctuará como una función de varios factores incluyendo la temporada. En esencia, la inferencia bayesiana esta basada en la distribución de probabilidad del parámetro dado los datos (distribución a posteriori de probabilidad Pr (θ y) , en lugar de la distribución de los datos dado el parámetro. Esta diferencia conduce a inferencias mucho más naturales, lo único que se requiere para el proceso de inferencia bayesiana es la especificación previa de una distribución a priori de probabilidad 3 Pr (θ ) , la cual representa el conocimiento acerca del parámetro antes de obtener cualquier información respecto a los datos. La noción de la distribución a priori para el parámetro es el corazón del pensamiento bayesiano. El análisis bayesiano hace uso explícito de las probabilidades para cantidades inciertas (parámetros) en inferencias basadas en análisis estadísticos de datos. El análisis bayesiano lo podemos dividir en las siguientes etapas: 1. Elección de un modelo de probabilidad completo. Elección de una distribución de probabilidad conjunta para todas las cantidades observables y no observables. El modelo debe ser consistente con el conocimiento acerca del problema fundamental y el proceso de recolección de la información; 2. Condicionamiento de los datos observados. Calcular e interpretar la distribución a posteriori apropiada que se define como la distribución de probabilidad condicional de las cantidades no observadas de interés, dados los datos observados; 3. Evaluación del ajuste del modelo y las implicancias de la distribución a posteriori resultante. ¿Es el modelo apropiado a los datos?, ¿son las conclusiones razonables?, ¿qué tan sensibles son los resultados a las suposiciones de modelamiento de la primera etapa?. Si fuese necesario, alterar o ampliar el modelo, y repetir las tres etapas mencionadas. La inferencia bayesiana se basa en el uso de una distribución de probabilidad para describir todas las cantidades desconocidas relevantes a un problema de estimación, la concreción técnica de este resultado consiste en lo siguiente: Si se dispone de una colección de variables aleatorias intercambiables {x , x 1 2 ,… , x n } es decir que su distribución sólo depende del valor de esas variables y no del orden en que han sido observadas, entonces la distribución de probabilidad n f ( x 1 , x 2 ,… , x n ) = donde Θ ∫ ∏ f ( x |θ ) π (θ ) dθ Θ i i =1 es la distribución inicial f ( x i |θ ) es el modelo de probabilidad; θ es el límite de alguna función de las observaciones; y π (θ ) es una distribución de probabilidad sobre la distribución inicial Θ . El concepto de intercambiabilidad es más débil que el de muestra aleatoria simple. Por ejemplo, si las variables intercambiables x i toman el valor 0 ó 1, el teorema de representación toma la forma f ( x 1 , x 2 ,… , x n ) = n ∫ ∏θ (1− θ ) Θ xi 1− x i π (θ ) dθ i =1 n donde: θ = n lim ∞ ∑x i =1 i n Es importante notar que lo que quiere decir el anterior resultado es que siempre que se tenga una colección de variables intercambiables, y en una muestra aleatoria sencilla lo son, existe una distribución inicial sobre el parámetro θ . Además, el valor del parámetro puede obtenerse como límite de las frecuencias relativas. La aproximación bayesiana implica entonces, que la información muestral y la distribución inicial se actualizan mediante el teorema de Bayes para dar lugar a la distribución final. π (θ | x1 , x 2 ,… , x n ) = π (θ ) f ( x1 , x 2 ,… , x n |θ ) ∫ π (θ ) f ( x Θ 1 , x 2 ,… , x n |θ ) dθ Ahora todas las inferencias, la estimación por punto, la estimación por regiones veraces y los contrastes de hipótesis, se realizan mediante la distribución final. 4 4. Conceptos bayesianos básicos 4.1. Teorema de Bayes { } Sea Y = y 1 , y 2 ,… , y n ' un vector de n observaciones cuya distribución de probabilidad Pr ( y |θ ) depende de k parámetros involucrados en el vector θ = {θ 1 ,θ 2 ,… ,θ n } ' . Supóngase también que q tiene una distribución de probabilidades Pr (θ ) . Entonces, la distribución de conjunta de θ e Y es: Pr ( y |θ ) = Pr ( y |θ ) Pr (θ ) = Pr (θ | y ) Pr ( y ) de donde la distribución de probabilidad condicional de θ dado el vector de observaciones Y resulta: Pr (θ | y ) = Pr ( y |θ ) Pr (θ ) Pr ( y ) con Pr ( y ) ≠ 0 A esta ecuación se lo conoce como el teorema de Bayes, donde Pr ( y ) es la distribución de probabilidad marginal de Y y puede ser expresada como:  Pr ( y |θ ) Pr (θ ) dθ Pr ( y ) =  ∫  ∑ Pr ( y |θ ) Pr (θ ) si θ es continuo si θ es discreto donde la suma o integral es tomada sobre el espacio paramétrico de θ . De este modo, el teorema de Bayes puede ser escrito como: Pr (θ | y ) = c Pr ( y |θ ) Pr (θ ) ≈ Pr ( y |θ ) Pr (θ ) donde: Pr (θ ) [1] representa lo que es conocido de θ antes de recolectar los datos y es llamada la distribución a priori de θ; Pr (θ | y ) representa lo que se conoce de θ después de recolectar los datos y es llamada la distribución posterior de θ dado Y ; c es una constante normalizadora necesaria para que Pr (θ | y ) sume o integre uno. Dado que el vector de datos Y es conocido a través de la muestra, Pr ( Y | θ ) es una función de θ y no de Y . En este caso a Pr ( Y | θ ) se le denomina función de verosimilitud de θ dado Y y se le denota por l ( θ | Y ) . Entonces la formula de Bayes puede ser expresada como: Pr ( θ|y ) ≈ l ( θ|y ) Pr ( θ ) Ejemplo. Sea el parámetro θ que a priori tiene una distribución uniforme en el intervalo [0,1] y la variable aleatoria Y que tiene una distribución de probabilidades binomial con parámetros m y θ , m conocido por conveniencia. Entonces se tienen las siguientes funciones de distribución: Pr (θ ) 0 ≤ θ ≤1 = 1 m m− y Pr ( y |θ ) =   θ y (1 − θ ) y = 0,1,… , m  y Ahora, para una muestra aleatoria de tamaño n la función de verosimilitud estará dada por:  n  m  nm− y y l (θ | y ) = ∏    θ ∑ i (1 − θ ) ∑ i y  i =1  i   5 y i = 0,1,… , m ∀i y aplicar el teorema de Bayes dado en [1], la distribución a posteriori de expresada como: Pr (θ | y ) = c n ( m !) n n ∏ y !∏ ( m − y )! i i =1 θ∑ yi (1 − θ ) θ mn− dada la muestra y queda ∑ yi i i =1 Esta expresión puede escribirse de la siguiente manera: Pr (θ | y ) = c n ( m !) n n ∏ y ! ∏ ( m − y )! i =1 i θ (∑ ) y i + 1 −1 (1 − θ ) ( nm− ∑ y i +1) −1 i i =1         que tiene la forma de una distribución beta con parámetros  ∑ y + 1 y  n m − ∑ y + 1 . i i Luego el valor adecuado de la constante normalizadora c será: c = Γ  ∑ y + 1 i   ( ) ∏ y !∏ m − y ! i i n ( m !) Γ  n m − ∑ y + 1 i   Γ ( n m + 2) Nótese que es a través de l ( θ | Y ) que los datos (información muestral) modifican el conocimiento previo de q dado por Pr (θ ) . Este proceso de revisión de las probabilidades iniciales, dada la información muestral, se ilustra en la figura 3. Información inicial Información nueva Distribución a priori Pr(θ) Teorema de Bayes Distribución a posteriori Función de verosimilitud l(θ | y) Figura 3. Por ultimo, es conveniente señalar que la información muestral Y por lo general será introducida en el modelo a través de estadísticas suficientes para θ , dado que estas contienen toda la información referente a los datos. Así, dado un conjunto de estadísticas suficientes t para los parámetros en θ , Pr ( y |θ ) podrá ser intercambiada por Pr ( t |θ ) , para lo cual bastara con calcular la distribución condicional de t dado θ . 6 Valoración a priori acerca de si la hipótesis es verdadera antes de ver los datos Componente subjetivo x x Factor de Bayes Componente de los datos (evidencia) Valoración a posteriori de que hipótesis nula sea verdadera Probabilidad de la veracidad Figura 4. Teorema de Bayes 4.2. Naturaleza secuencial del teorema de Bayes Supóngase que se tiene una muestra inicial y 1 . Entonces, por la fórmula de Bayes dada anteriormente se tiene: Pr (θ | y 1 ) ∝ l (θ | y 1 ) Pr (θ ) Ahora supóngase que se tiene una segunda muestra y 2 independiente de la primera muestra, entonces: Pr (θ | y 1 , y 2 ) ∝ l (θ | y 1 , y 2 ) Pr (θ ) = l (θ | y 1 ) l (θ | y 2 ) Pr (θ ) Pr (θ | y 1 , y 2 ) ∝ l (θ | y 2 ) Pr (θ | y 1 ) De esta manera, la distribución a posteriori obtenida con la primera muestra se convierte en la nueva distribución a priori para ser corregida por la segunda muestra. En este proceso puede repetirse indefinidamente. Así, si se tienen r muestras independientes, la distribución a posteriori puede ser recalculada secuencialmente para cada muestra de la siguiente manera: Pr (θ | y 1 , y 2 ,… , y m ) ∝ l (θ | y m ) Pr (θ | y 1 , y 2 ,… , y m −1 ) Nótese que (θ | y 1 para m = 2,3,… , r , y 2 ,… , y m ) podría también ser obtenido partiendo de Pr (θ ) y considerando al total de las r muestras como una sola gran muestra. La naturaleza secuencial del teorema de Bayes, es tratada por Bernardo como un proceso de aprendizaje en términos de probabilidades, el cual permite incorporar al análisis de un problema de decisión, la información proporcionada por los datos experimentales relacionados con los sucesos (parámetros) inciertos relevantes. 4.3. Distribución a priori difusa o no informativa La distribución a priori cumple un papel importante en el análisis bayesiano ya que mide el grado de conocimiento inicial que se tiene de los parámetros en estudio. Si bien su influencia disminuye a medida que más información muestral es disponible, el uso de una u otra distribución a priori determinara ciertas diferencias en la distribución a posteriori. Si se tiene un conocimiento previo sobre los parámetros, este se traducirá en una distribución a priori. Así, será posible plantear tantas distribuciones a priori como estados iniciales de conocimiento existan y los diferentes resultados obtenidos en la distribución a posteriori bajo cada uno de los enfoques, adquirirán una importancia en relación con la convicción que tenga el investigador sobre cada estado inicial. Sin embargo, cuando nada es conocido sobre los parámetros, la selección de una distribución a priori adecuada adquiere una connotación especial pues será necesario elegir una distribución a priori que no influya sobre ninguno de los posibles valores de los parámetros en cuestión. Estas distribuciones a priori reciben el nombre de difusas o no informativas y en esta sección se tratara algunos criterios para su selección. 7 Método de Jeffreys En situaciones generales, para un parámetro θ el método mas usado es el de Jeffreys (1961) que sugiere que, si un investigador es ignorante con respecto a un parámetro θ , entonces su opinión a cerca de θ dado las evidencias X debe ser la misma que el de una parametrización para θ o cualquier transformación uno a uno de θ , g (θ ) , una priori invariante sería: Pr (θ ) ∝ donde I (θ ) es la matriz de información de Fisher: I (θ ) Si θ = (θ ,θ 1 2  ∂ 2 Lnf ( y |θ )  = − Eθ   ∂θ 2   ,… ,θ n ) ' es un vector, entonces: Pr (θ ) ∝ donde I (θ ) I (θ ) det I (θ ) [2] es la matriz de información de Fisher de orden p × p El elemento ( i j ) de esta matriz es:  ∂ 2 Lnf ( y |θ )  I i j = − E0    ∂ θ i ∂ θ j  Por transformación de variables, la densidad a priori Pr (θ ) es equivalente a la siguiente densidad a priori para φ: Pr (φ ) = Pr (θ = h −1 (φ ) ) dθ dφ [3] El principio general de Jeffreys consiste en que al aplicar el método para determinar la densidad a priori Pr (θ ) , debe obtenerse un resultado equivalente en Pr (φ ) si se aplica la transformación del parámetro para calcular Pr (φ ) a partir de Pr (θ ) en la ecuación [3] o si se obtiene Pr (φ ) directamente a partir del método inicial. Es decir, debe cumplirse la siguiente igualdad: I (φ ) = I (θ ) Ejemplo. Sea la variable Y con una distribución B ( n , θ ) 8 dθ dφ n n− y = Pr ( y |θ ) =   θ y (1 − θ )  y n = log   + y log θ + ( n − y ) log (1 − θ )  y f ( y |θ ) log f ( y |θ ) d log f ( y |θ ) dθ y = d log f ( y |θ ) dθ 2 θ 2 = −  y n− y  E − 2 +  2  θ (1 − θ )    y n− y  E − 2 +  2  θ (1 − θ )   + y n− y 1−θ n− y + (1 − θ )  nθ E ( n − y )  −− 2 +  2  θ (1 − θ )   = θ 2 2 n θ (1 − θ ) = n θ 1−θ o θ Prescindiendo de n se obtiene que la distribución a priori de Pr (θ ) ∝ esto es, θ es: 1−θ θ ≈ Beta ( 0,5 , 0,5 ) . Ejemplo. Se aplicara el método de Jeffreys para calcular una distribución conjunta a priori para los parámetros de un modelo normal. Sea y ∼ N ( µ , σ ) , ambos parámetros desconocidos. Entonces: 2  ( y −µ)2  1 exp  −  2   σ 2 2π µ   f ( y|µσ ) = ln f ( y | µ σ ) ( y−µ) 1 = ln − ln σ − 2σ 2 2π µ 2 y la matriz de información de Fisher estará dada por: I (θ )  ∂2 ln f ( y | µ , σ )  2 µ ∂ = − E0   ∂2 ln f ( y | µ , σ )  ∂σ ∂ µ I (θ )  1  − 2 σ = − E0   2( y − µ ) − σ3  9  ∂2 ln f ( y | µ , σ )  ∂ µ ∂σ   ∂2 ln f ( y | µ , σ )  2 ∂σ  2( y − µ )   σ  2 µ − y 3 ( )  1 −  σ2 σ4  − 3  1 σ 2 = − E0   0  I (θ )  0   2  σ 2  Ahora, según la ecuación [2], la distribución a priori no informativa para 2 Pr ( µ , σ ) ∝ Nótese que aplicando las reglas anteriores, dado que escala, las distribuciones a priori para µ y σ σ µ 4 ∝ θ = ( µ ,σ ) será: 1 σ2 es un parámetro de posición y serian Pr ( µ ) = 1 y Pr (σ ) = σ −1 independencia entre ambos parámetros se tendría Pr ( µ , σ ) = Pr ( µ ) Pr (σ ) = σ σ un parámetro de , por lo que si se supone −1 en vez de σ 2. Jeffreys resolvió este problema estableciendo que µ y σ deberían ser tratados a priori independientemente y por separado. Así, cuando el método de Jeffreys es aplicado al modelo normal con σ fijo, resulta una a priori uniforme para µ y cuando es aplicado con µ fijo, se obtiene la a priori Pr (σ ) = σ −1 lo cual conduce a: Pr ( µ , σ ) = σ −1 , que es lo más deseable. 4.4. Distribución a priori conjugada En este caso, la distribución a priori es determinada completamente por una función de densidad conocida. Berger presenta la siguiente definición para una familia conjugada: una clase P de distribuciones a priori es denominada una familia conjugada para la clase de funciones de densidad F , si Pr (θ | y ) está en la clase P para todo f ( y |θ )∈ F y Pr (θ )∈ P . En este caso, la distribución inicial dominará a la función de verosimilitud y Pr (θ | y ) tendrá la misma forma que Pr (θ ) , con los parámetros corregidos por la información muestral. Ejemplo. Sea el parámetro θ que a priori tiene una distribución beta con parámetros aleatoria Y que tiene una distribución de probabilidad binomial con parámetros m y conveniencia. Entonces se tienen las siguientes funciones de distribución: Pr (θ ) = α y β la variable θ , m conocido por Γ (α + β ) β −1 θ α −1 (1 − θ ) I 0,1 (θ ) Γ (α ) Γ ( β ) m m− y y = 0,1,… , m Pr ( y |θ ) =   θ y (1 − θ )  y Ahora para una muestra aleatoria de tamaño n la función de verosimilitud estará dada por:  n m m n− y y l ( y |θ ) =  ∏    θ ∑ i (1 − θ ) ∑ i  i =1  y   y al aplicar el teorema de Bayes, la distribución posterior de siguiente manera: Pr (θ | y ) ∝ θ α+ y = 0,1,… , m θ ∀i dada la muestra y queda expresada de la ∑ y i −1 (1 − θ ) β + m n − ∑ y i −1 que tiene la forma de una distribución beta con parámetros (α + ∑ y ) i y β + n m ∑ yi . Luego, la distribución tiene la misma forma que la distribución a priori por lo que la clase de distribuciones a priori beta es una familia conjugada para la clase de funciones de densidad binomial. 10 Otro caso importante es el de la distribución normal θ Sea el parámetro con una distribución N variable X con una distribución N (µ 0 ,τ 0 ) , donde µ 0 y τ 0 son parámetros conocidos y la (θ , σ ) donde σ 2 2 es un parámetro conocido. Entonces tenemos las siguientes funciones de distribución: Pr (θ ) 1 = 2π τ 0 1 (θ − µ 0 ) exp − 2 τ 02 1 1 ( x −θ ) exp − 2 σ2 2π σ Pr ( x |θ ) = y al aplicar el teorema de Bayes, la distribución posterior de siguiente manera: 1 Pr (θ | x ) = 1 donde µ1 = τ 2 0 µ0 + 1 τ 1 τ 2 1 = 1 τ 2 0 + 2 0 + 1 σ2 2π τ 0 θ 2 2 dada la muestra x queda expresada de la 1 (θ − µ 1 ) exp − 2 τ 12 2 x 1 σ2 1 σ2 Luego Pr (θ | x ) ∼ N (µ 1 ,τ 12 ) de donde se pueden sacar conclusiones: Precisiones de las distribuciones a priori y a posteriori Precisión = 1/varianza Precisión a posteriori = precisión a priori + precisión de los datos 1 τ 2 1 = 1 τ 2 0 + 1 σ2 Otro caso importante es el de la distribución normal con múltiples observaciones { } Sea x1 , x 2 ,… , x n un vector de n observaciones, siendo x i observaciones idénticamente distribuidas θ ∼ N ( µ 0 ,τ 02 ) x ∼ N (θ , σ 2 ) Entonces al aplicar el teorema de Bayes, la distribución posterior de θ dada la muestra x i queda expresada de la siguiente manera: Pr (θ | x ) ∝ Pr (θ ) Pr ( x |θ ) = Pr (θ ) Pr ( x1 |θ ) Pr ( x 2 |θ )… Pr ( x n |θ ) n Pr (θ | x ) ∝ Pr (θ ) Pr ( x |θ ) = Pr (θ ) ∏ Pr ( x i |θ ) i =1 11 2 2     1  (θ − µ 0 )  n 1  ( x i −θ )  − Pr (θ | x ) ∝ exp − exp ∏ 2  τ 02 2 σ 2  i =1     2   2 n n 1  (θ − µ 0 ) + 2 ∑ ( x i −θ )  Pr (θ | x ) ∝ exp −  σ i =1 2  τ 02   n Pr (θ | x ) depende únicamente de X a través de x = modelo. (θ ,σ Ya que, x |θ ∼ N 2 donde µn = τ 2 0 τ NOTA: Si valor 2 n = µ0 + 1 1 τ 2 0 n i , es decir, x es un estadístico suficiente del Pr (θ | x1 , x 2 ,… , x n ) = Pr (θ | x ) ∼ N (θ | µ n ,τ n2 ) τ 1 i =1 | n ) y considerando a x como una simple observación, se aplican los resultados anteriores, luego: 1 ∑x 2 0 + τ 02 = σ 2 + n σ2 x n σ2 n σ2 entonces la distribución a priori tiene el mismo peso como una observación extra con el µ 0 . Es decir, si τ 0 → ∞ con n fijo, o conforme n → ∞ con τ 02 fijo, entonces:  σ2 Pr (θ | x ) ∼ N  θ | x ,  n   5. Inferencia bayesiana Dado que la distribución posterior, contiene toda la información concerniente al parámetro de interés θ (información a priori y muestral), cualquier inferencia con respecto a θ consistirá en afirmaciones hechas a partir de dicha distribución. 5.1. Estimación puntual La distribución posterior reemplaza la función de verosimilitud como una expresión que incorpora toda la información. Π (θ | y ) es un resumen completo de la información acerca del parámetro θ. Sin embargo, para algunas aplicaciones es deseable (o necesario) resumir esta información en alguna forma. Especialmente, si se desea proporcionar un simple “mejor” estimado del parámetro desconocido. (Nótese la distinción con la estadística clásica en que los estimados puntuales de los parámetros son la consecuencia natural de una inferencia). Por lo tanto, en el contexto bayesiano, ¿cómo se puede reducir la información en una Pr (θ | y ) a un simple “mejor” estimado?, ¿qué se debe entender por “mejor”? Existen dos formas de enfrentar el problema: (a) Estimador de Bayes posterior (b) Aproximación de teoría de decisión 12 Estimador de Bayes posterior El estimador de Bayes posterior se define de la siguiente manera: Sean {x , x 1 2 ,… , x n } una muestra aleatoria de f ( x |θ ) , donde θ es un valor de la variable aleatoria θ con función de densidad g θ ( i ) . El estimador de Bayes posterior de es definida como E Ejemplo. Sean (τ (θ ) | x , x 1 {x , x 1 2 2 τ (θ ) ,… , x n ) . con respecto a la priori g θ ( i ) ,… , x n } una muestra aleatoria de f ( x |θ ) = θ x (1 − θ ) 1− x para x = 1, 0 y g θ (θ ) = I ( 0,1) (θ ) . ¿Cuáles son los estimadores de θ y θ (1 − θ ) ? n g θ (θ ) ∏ f ( x i |θ ) f (θ | x1 , x 2 ,… , x n ) = i =1 1 n 0 i =1 ∫ g θ (θ ) ∏ f ( x |θ ) dθ θ∑ f (θ | x1 , x 2 ,… , x n ) = xi 1 (1 − θ ) i n− ∑ x i I (θ ) ( 0,1) ∫θ ∑ x i (1 − θ )n − ∑ x i dθ ∫θ θ ∑ x i (1 − θ )n − ∑ x i dθ 0 1 E (θ | x1 , x 2 ,… , x n ) = 0 1 ∫θ ∑ x i (1 − θ )n − ∑ x i dθ 0 E (θ | x1 , x 2 ,… , x n ) n  n  B  ∑ x i + 2 , n − ∑ x i + 1 i =1 i =1  =  n n   B  ∑ x i + 1 , n − ∑ x i + 1 i =1  i =1  n ∑x E (θ | x1 , x 2 ,… , x n ) = i =1 θ, +1 2 n Luego el estimador a posteriori de Bayes de i ∑x i =1 i +1 es un estimador sesgado. El estimador máximo n+2 n verosímil de θ, ∑x i =1 n i es un estimador insesgado. 1 E (θ (1 − θ ) | x1 , x 2 ,… , x n ) = ∫ θ (1 −θ )θ ∑ x i (1 − θ )n − ∑ x i dθ 0 1 ∫θ 0 13 ∑ x i (1 − θ )n − ∑ x i dθ E (θ (1 − θ ) | x1 , x 2 ,… , x n ) n  n    Γ  ∑ xi + 2  Γ  n − ∑ xi + 2  i =1 i =1    = =  Γ ( n + 4) E (θ (1 − θ ) | x1 , x 2 ,… , x n ) estimador de θ (1 − θ ) Γ ( n + 2)  n   Γ  ∑ x i + 1 Γ  n −  i =1   n ∑x i =1 i  + 1  n  n    ∑ x i + 1  n − ∑ x i + 1 i =1 i =1   =  ( n + 3) ( n + 2 ) con respecto a la a priori uniforme. Aproximacion a la teoría de la decisión Para los bayesianos, el problema de estimación es un problema de decisión. Asociada con cada estimador a hay una pérdida L (θ , a ) que refleja la diferencia entre θ y a. Se especifica una función de perdida L (θ , a ) que cuantifica las posibles penalidades en estimar θ por a . Hay muchas funciones pérdida que se pueden usar. La elección en particular de una de ellas dependerá de contexto del problema. Las más usadas son: 1. Pérdida cuadrática: L (θ , a ) = (θ − a ) ; 2 2. Pérdida error absoluto o lineal absoluta: L (θ , a ) = θ − a ; 3. Pérdida 0,1: a −θ ≤ ∈ a −θ > ∈ 0 L (θ , a ) =  si 1 4. Pérdida lineal: para g , h > 0 : a >θ  g ( a − θ ) L (θ , a ) =  si a <θ  h (θ − a ) En cada uno de los casos anteriores, por la minimización de la pérdida esperada posterior, se obtienen formas simples para la regla de decisión de Bayes, que es considerado como el estimado punto de θ para la elección en particular de la función pérdida. Nota: L (θ , a ) es la pérdida incurrida al adoptar la acción a cuando el verdadero estado de la naturaleza es θ . Pr ( a , x ) es la perdida esperada posterior. Luego: R a (θ ) = E ( L (θ , a ) ) = Pr ( a , x ) = ∫ L (θ , a ) Pr (θ | x ) dθ Regla de decisión de Bayes (estimador de Bayes): d ( x ) es la acción que minimiza Pr ( a , x ) . Riesgo de Bayes: RB ( d ) = Ejemplo. Sean {x , x 1 2 ∫ ρ ( d ( x ) , x ) ρ ( x ) dx ,… , x n } una muestra aleatoria de una distribución normal, L (θ , a ) = (θ − a ) , y θ ∼ N ( µ 0 ,1) . 2 (a) El estimador de Bayes posterior es la media de la distribución posterior de 14 θ N (θ ,1) ,    f (θ | x ) = ∞  ∫  −∞  n   1 n 2 2 1  1 exp  − (θ − µ 0 )   exp  − ∑ ( x i − θ )   2   2 i =1  2π  n  1 n 2 2 1  1  1 exp  − (θ − µ 0 )  dθ  exp  − ∑ ( x i − θ )  2π   2   2 i =1  2π 1 2π Considerando x 0 = µ 0 : f (θ | x ) = ∞ ∫ −∞ f (θ | x ) =  1 n 2 1 exp  − ∑ ( x i − θ )  2π  2 i =1  n  1 2 1 exp  − ∑ ( x i − θ )  dθ 2π  2 i =1   n +1  1 exp  − θ −  2  2π  n +1 E (θ | x1 , x 2 ,… , x n ) = xi   ∑ i =1 n + 1  n 2     xi n ∑ n +1 i=0 var (θ | x1 , x 2 ,… , x n ) = 1 n +1 (b) Aproximación bayesiana Cuando L (θ , a ) = (θ − a ) , la regla de Bayes (o estimador de Bayes ) es la media de Π (θ | x ) = Pr (θ | x ) . 2 Por lo tanto; el estimador de Bayes o regla de Bayes con respecto a la perdida cuadrado del error es: n x0 + ∑ xi i =1 n +1 n µ 0 + ∑ xi i =1 = n +1 Es decir, en este caso, la decisión óptima que minimiza la pérdida esperada es θ = E (θ ) . La mejor estimación de θ con pérdida cuadrática es la media de la distribución de producirse la estimación. θ en el momento de Si L (θ , a ) = w (θ )(θ − a ) , la regla de Bayes es: 2 d ( x) = d ( x) = Si L (θ , a ) = q − a 2 E Π (θ | x ) E (θ w (θ ) ) ( w (θ ) ) Π (θ | x ) ∫ θ w (θ ) f ( x |θ ) dθ ∫ w (θ ) f ( x |θ ) dθ , cualquier mediana de Π (θ | x ) es un estimador de Bayes de  K 0 (θ − a ) θ − a ≥ 0 K0 si cualquier fractil de Π (θ | x ) es un estimador de Bayes θ −a < 0 K 0 + K1  K 1 ( a − θ ) Si L (θ , a ) =  de θ. θ. 15 Resumen En el contexto bayesiano, un estimado puntual de un parámetro es una simple estadística descriptiva de la distribución posterior Π (θ | x ) . Utilizando la calidad de un estimador a través de la función perdida, la metodología de la teoría de decisión conduce a elecciones optimas de estimados puntuales. En particular, las elecciones más naturales de función perdida conducen respectivamente a la media posterior, mediana y moda como estimadores puntuales óptimos. 5.2. Intervalos de credibilidad o regiones veraces La idea de una región veraz o intervalo de credibilidad es proporcionar el análogo de un intervalo de confianza en estadística clásica. El razonamiento es que los estimados puntuales no proporcionan una medida de la precisión de la estimación. Esto causa problemas en la estadística clásica desde que los parámetros no son considerados como aleatorios, por lo tanto no es posible dar un intervalo con la interpretación que existe una cierta probabilidad que el parámetro este en el intervalo. En la teoría bayesiana, no hay dificultad para realizar esta aproximación porque los parámetros son tratados como aleatorios. Definición: Un conjunto veraz 100 (1 − α ) para 1 − α ≤ Pr ( C | x ) = ∫ dF θ Π (θ | x ) C es un subconjunto C de (θ )  Π (θ | x ) dθ  C∫ =   ∑ Π (θ | x ) θ ∈C θ tal que: ( caso continuo ) ( caso discreto ) Un aspecto importante con los conjuntos veraces (y lo mismo sucede con los intervalos de confianza) es que ellos no son únicamente definidos. Cualquier región con probabilidad (1 − α ) cumple la definición. Pero solamente se desea el intervalo que contiene únicamente los valores “más posibles” del parámetro, por lo tanto es usual imponer una restricción adicional que indica que el ancho del intervalo debe ser tan pequeño como sea posible. Para hacer esto, uno debe considerar solo aquellos puntos con Π (θ | x ) más grandes. Esto conduce a un intervalo (o región) de la forma: donde γ C = C α ( x ) = {θ : f (θ | x ) ≥ γ } es elegido para asegurar que ∫ f (θ | x ) dθ = 1 − α C La región C que cumple las anteriores condiciones se denomina “región de densidad posterior más grande” (HPD), máxima densidad. Generalmente, un HPD es encontrado por métodos numéricos, aunque para muchas distribuciones univariadas a posteriori, los valores de la variable aleatoria correspondientes son tabulados para un rango de valores de α . Ejemplo (media de una normal). Sean {x , x 1 2 ,… , x n } una muestra aleatoria de una distribución normal N (θ , σ 2 ) , con σ 2 conocido, con una a priori para θ de la forma: θ ∼ N ( b , d 2 ) . Se sabe que:  b nx  d 2 +σ 2 1 θ |x ∼ N  , 1 n 1 n  2+ 2 + 2 2 σ σ d d Si n → ∞ , entonces x ± z α σ 2 n 16      luego el conjunto veraz es igual al de estadística clásica. Pero sus interpretaciones son distintas. ¿Cómo se obtiene el intervalo de mínima longitud (máxima densidad)? Los pasos a seguir son: 1. Localizar la moda de la función de densidad (posterior) de θ; 2. A partir de la moda trazar líneas rectas horizontales en forma descendiente hasta que se acumule (1 − α ) de probabilidad. Figura 5. Distribución gamma 5.3. Prueba de hipótesis para una muestra Pruebas de hipótesis son decisiones de la forma en que se deben elegir entre dos hipótesis diferentes  H 0 : θ ∈Ω 0   H 1 : θ ∈Ω 1 Se considera el caso simple donde Ω 0 y Ω 1 consisten de puntos simples, por lo tanto la prueba es de la forma: H 0 : θ =θ 0   H 1 : θ =θ 1 Aproximación clásica Ejecutar la prueba utilizando la razón de verosimilitud λ = f ( x |θ 1 ) f ( x |θ 0 ) Si λ asume valores grandes significa que los datos observados X son mas probables que hayan ocurrido si θ es el verdadero valor de θ en lugar de θ 0 . Aproximación bayesiana La aproximación natural es realizar la prueba bajo las consideraciones en las probabilidades a posteriori relativas de los valores formulados en las hipótesis. Es decir: λB = f (θ 1 | x ) f (θ 2 | x ) = f (θ 1 ) f ( x |θ 1 ) f (θ 0 ) f ( x |θ 0 ) razón de apuestas a posteriori = razón de apuestas a priori x razón de verosimilitud Si λB asume valores grandes significa que hay preferencia por H 1 17 Definición: la razón f (θ 1 | x ) α1 = α0 f (θ 0 | x ) es la razón de apuestas a posteriori de H 1 a H 0 , y de apuestas a priori. La cantidad: B = Π1 Π0 es la razón f (θ 1 | x ) razon de apuestas a posteriori = razon de apuestas a priori f (θ 0 | x ) f (θ 1 ) f (θ 0 ) B = f (θ 1 | x ) f (θ 0 ) f ( x |θ 1 ) α1 Π 0 = λ = α 0 Π1 f ( x |θ 0 ) = f (θ 0 | x ) f (θ 1 ) se denomina factor de Bayes en favor de Θ 1 . B es una medida del peso de la información que contienen los datos en favor de H 1 sobre H 0 . Si B es grande, este anula cualquier preferencia a priori por H 0 . La preferencia a posteriori es H 1 . 5.4. Prueba de hipótesis para dos muestras A continuación se tratará el caso de dos muestras donde aplicaremos la prueba de hipótesis para dos muestras. La forma general de hacerlo es generalizando el factor de Bayes para el caso de dos muestras esto quiere decir en vez de tomar una distribución de probabilidad para una muestra ahora se tomará para dos muestras, es decir una distribución conjunta: Dadas las hipótesis: H 0 : µ1 = µ 2   H 1 : µ1 ≠ µ 2 Sean µ 1 = { x 1 , x 2 ,… , x n } y µ 2 = { y 1 , y 2 ,… , y n } a posteriori será para el caso discreto: Pr ( µ 1 , µ 2 | x ) = dos muestras independientes, entonces la distribución Pr ( µ 1 , µ 2 ) Pr ( x | µ 1 , µ 2 ) ∑∑ Pr ( µ 1 , µ 2 ) Pr ( x | µ 1 , µ 2 ) la distribución a posteriori será para el caso continuo: f ( µ1 , µ 2 | x) = f ( µ1 , µ 2 ) f ( x | µ1 , µ 2 ) ∫∫ f ( µ 1 , µ 2 ) f ( x | µ1 , µ 2 ) d µ1 d µ 2 Y se procederá de manera similar que el caso de una muestra. Con fines prácticos, suponiendo que se trabaja con poblaciones normales y que las varianzas poblacionales son conocidas, se puede tomar la prueba de hipótesis de otra forma: El problema de dos muestras normales Ahora se considerara la situación de dos muestras independientes con distribución normal: x1 , x 2 ,… , xn ∼ N ( λ , φ ) y 1 , y 2 ,… , yn ∼ N ( µ ,ψ ) Que son independientes, aunque realmente el valor de interés es la distribución a posteriori de: δ = λ−µ 18 El problema se da en situaciones comparativas, por ejemplo, al comparar los valores de colesterol entre niños y niñas. Combinaciones pareadas Antes de continuar, se debería tomar precauciones contra una posible mala aplicación del modelo. Si m = n y cada una de las x esta de algún sentido emparejados con las y , es decir que x i e y i deben estar definidos: w i = x i − y i y entonces investigar los w como una muestra w1 , w 2 ,… , w n ∼ N ( δ , ω ) , para algún ω . Esto se conoce como el método de comparaciones pareadas. El caso cuando las varianzas son conocidas En el caso del problema de dos muestras, se pueden presentar tres casos: 1. Cuando φ y ψ son conocidos; 2. Cuando se sabe que 3. Cuando φ φ =ψ pero se desconocen sus valores; y ψ son desconocidos. Ciñéndose al primer caso, ya que esta situación implica menor complejidad cuando las varianzas son conocidas. Si λ y µ tienen como referencia unas a prioris independientes (constante) Pr ( λ ) = Pr ( µ ) ≈ 1 entonces, como se ha visto anteriormente con varias observaciones normales con una a priori normal, la distribución a posteriori para λ   será N  x , φ  y, de forma similar, la distribución a posteriori para µ será m  ψ N  y ,  que es independientemente de λ . De lo cual se deduce:  n φ ψ  δ = λ − µ ∼ Nx−y , +  m n  Información a priori importante El método se generaliza para este caso cuando la información a priori importante esta disponible. Cuando la distribución a priori para λ es N (λ 0 , φ 0 ) entonces la distribución a posteriori es: λ ∼ N ( λ1 , φ 1 ) −1  −1  φ  −1  donde: φ 1 =  φ 0 +    ; y   m       λ0 x  λ1 = φ 1  +  φ   φ0 m  De modo semejante si la distribución a priori para para µ es N (µ 1 µ es N (µ 0 , ϕ 0 ) y entonces la distribución a posteriori , ϕ 1 ) y donde ϕ 1 y µ 1 están definidos de modo semejante, como sigue: δ = λ − µ ∼ N ( λ1 − µ 1 , φ 1 +ψ 1 ) y las inferencias se proceden igual que antes. 19 6. Conclusiones Los procedimientos basados en la distribución en el muestreo son ad hoc para prácticamente cada aplicación o grupo de aplicaciones con los que se esté trabajando. En contraposición, los procedimientos bayesianos siempre funcionan de la misma manera; hay que determinar una distribución inicial que recoja la información que se tenga del problema, construir la distribución final y esta es la que recoge, en forma de una distribución de probabilidad, la información suministrada por la muestra. Una crítica que suele hacerse a la aproximación bayesiana es que está influenciada por la distribución inicial, pero es hoy perfectamente factible examinar el problema con una variedad de distribuciones iniciales, o bien emplear distribuciones iniciales objetivas, y en todo caso se debe tener en cuenta que para tamaños muestrales grandes la verosimilitud domina a la distribución inicial por lo que las inferencias se ven poco afectadas por la distribución inicial. A cambio, los métodos bayesianos siempre tratan la incertidumbre mediante la probabilidad y la precisión de los mismos se mide siempre en términos de probabilidad. 7. Bibliografía 1. Berger JO. Statistical decision theory and Bayesian analysis. Springer-Verlag: New York, 1985. 2. Bernardo JM. Intrinsic credible regions. An objetcive Bayesian approach to interval estimation. Test 2005;14(2): 317-384 (disponible en http://www.uv.es/~bernardo/2005Test.pdf) 3. Chu J. Bayesian function estimation using overcomplete dictionaries with application in genomics. Department of Statistical Science. Duke University, 2007 (disponible en www.stat.duke.edu/people/theses/ jenhwa.html) 4. Gunn LH. Bayesian order restricted methods with biomedical applications. Institute of Statistics and Decision Sciences. Duke University, 2004 (disponible en www.isds.duke.edu/people/theses/laura.ps). 5. House LL. Nonparametric bayesian models in expression proteomic applications. Institute of Statistic and Decision Sciences. Duke University, 2006 (disponible en: http://www.isds.duke.edu/people/theses/ leanna.pdf) 6. O´Hagan A, Luce BR. A primer on bayesian statistics in health economics and outcomes Research. MEDTAP International Inc., 2003 (disponible en http://www.shef.ac.uk/content/1/c6/07/15/10/primer.pdf). 7. Rodriguez A. Some advances in Bayesian nonparametric modelling. Institute of Statistic and Decision Sciences. Duke University, 2007 (disponible en: http://www.stat.duke.edu/people/theses/abel.pdf). 8. Thornburg H. Introduction to bayesian statistics. CCRMA. Stanford University 2006 (disponible en http://ccrma.stanford.edu/~jos/bayes/bayes.pdf). 9. Yupanqui Pacheco RM: Introducción a la estadística bayesiana. UNMSM. Facultad de Ciencias Matemáticas. EAP de Estadística, Lima, 2005 (disponible en: http://sisbib.unmsm.edu.pe/ bibvirtualdata/Tesis/Basic/yupanqui_pr/yupanqui_pr.pdf). 10. http://halweb.uc3m.es/esp/Personal/personas/mwiper/docencia/Spanish/Bayesian_Methods/apuntes .html 20

Estadística Bayesiana

Documentos relacionados

Productos

Apoyo

Estadística Bayesiana

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib