Tema 4: Introducción a la inferencia bayesiana

Inferencia y Decisión. Licenciado en Ciencias y Técnicas Estadı́sticas Curso 2010/2011. Prof. Dr. Francisco de Ası́s Torres Ruiz Tema 4: Introducción a la inferencia bayesiana Página www Página inicial Contenido JJ II J I Página 1 de 11 Regresar Pantalla completa Cerrar Abandonar Inferencia y Decisión. Licenciado en Ciencias y Técnicas Estadı́sticas Curso 2010/2011. Prof. Dr. Francisco de Ası́s Torres Ruiz Tema 4: Introducción a la inferencia bayesiana Índice 1. Introducción 2 2. Distribución a priori y a posteriori 2 3. Familias conjugadas 4 4. Estimadores bayesianos 7 5. Regiones de confianza bayesianas 6. Contrastes bayesianos 9 10 Página www Página inicial Contenido JJ II J I Página 1 de 11 Regresar Pantalla completa Cerrar Abandonar 1. Introducción Página www Página inicial Contenido JJ II J I Página 2 de 11 Regresar Pantalla completa Cerrar Abandonar 1. Introducción Como ya se ha comentado en repetidas ocasiones, un problema de inferencia estadı́stica es un problema en el que se han de analizar datos que han sido generados de acuerdo con alguna distribución de probabilidad desconocida, planteando determinadas cuestiones sobre tal distribución que permitan, tras analizar los datos, conocer la distribución que los ha generado. Página www Página inicial Contenido JJ II J I Página 2 de 11 Regresar Pantalla completa Cerrar Abandonar 1. Introducción Como ya se ha comentado en repetidas ocasiones, un problema de inferencia estadı́stica es un problema en el que se han de analizar datos que han sido generados de acuerdo con alguna distribución de probabilidad desconocida, planteando determinadas cuestiones sobre tal distribución que permitan, tras analizar los datos, conocer la distribución que los ha generado. En muchas ocasiones la distribución de probabilidad es conocida salvo para los valores de uno o más parámetros. En la perspectiva clásica, que hemos seguido hasta ahora, esos parámetros son desconocidos pero son cantidades fijas pertenecientes a un determinado espacio, el espacio paramétrico. De esta forma se han diseñado procedimientos para obtener estimaciones puntuales de los parámetros, estimaciones por regiones de confianza, ası́ como tests de hipótesis que ayuden a decidir sobre cuestiones planteadas acerca de dichos parámetros. Página www Página inicial Contenido JJ II J I Página 2 de 11 Regresar Pantalla completa Cerrar Abandonar 1. Introducción Como ya se ha comentado en repetidas ocasiones, un problema de inferencia estadı́stica es un problema en el que se han de analizar datos que han sido generados de acuerdo con alguna distribución de probabilidad desconocida, planteando determinadas cuestiones sobre tal distribución que permitan, tras analizar los datos, conocer la distribución que los ha generado. En muchas ocasiones la distribución de probabilidad es conocida salvo para los valores de uno o más parámetros. En la perspectiva clásica, que hemos seguido hasta ahora, esos parámetros son desconocidos pero son cantidades fijas pertenecientes a un determinado espacio, el espacio paramétrico. De esta forma se han diseñado procedimientos para obtener estimaciones puntuales de los parámetros, estimaciones por regiones de confianza, ası́ como tests de hipótesis que ayuden a decidir sobre cuestiones planteadas acerca de dichos parámetros. Sin embargo existe otra aproximación a un problema de inferencia, la perspectiva bayesiana, que parte de otra premisa como es la de que el parámetro de interés es una variable aleatoria, con las implicaciones que ello conlleva en todo el planteamiento de la inferencia. Página www Página inicial Contenido JJ II J I Página 2 de 11 Regresar Pantalla completa Cerrar Abandonar 1. Introducción Como ya se ha comentado en repetidas ocasiones, un problema de inferencia estadı́stica es un problema en el que se han de analizar datos que han sido generados de acuerdo con alguna distribución de probabilidad desconocida, planteando determinadas cuestiones sobre tal distribución que permitan, tras analizar los datos, conocer la distribución que los ha generado. En muchas ocasiones la distribución de probabilidad es conocida salvo para los valores de uno o más parámetros. En la perspectiva clásica, que hemos seguido hasta ahora, esos parámetros son desconocidos pero son cantidades fijas pertenecientes a un determinado espacio, el espacio paramétrico. De esta forma se han diseñado procedimientos para obtener estimaciones puntuales de los parámetros, estimaciones por regiones de confianza, ası́ como tests de hipótesis que ayuden a decidir sobre cuestiones planteadas acerca de dichos parámetros. Sin embargo existe otra aproximación a un problema de inferencia, la perspectiva bayesiana, que parte de otra premisa como es la de que el parámetro de interés es una variable aleatoria, con las implicaciones que ello conlleva en todo el planteamiento de la inferencia. Este enfoque alternativo se fundamenta en que en ocasiones, antes de disponer de las observaciones muestrales de la variable objeto de estudio, el experimentador dispone de información adicional acerca de dónde es probable que se encuentre el valor del parámetro y esa información la puede expresar en términos de una distribución de probabilidad en el espacio paramétrico. Por lo tanto, lo que estamos diciendo es que la información previa de la que se dispone permite al investigador tener la creencia de que es más probable que el parámetro se encuentre en una determinada región del espacio paramétrico que en otra. Ello conduce al concepto de distribución inicial o distribución a priori. Página www Página inicial Contenido JJ II J I Página 2 de 11 Regresar Pantalla completa Cerrar Abandonar 1. Introducción Como ya se ha comentado en repetidas ocasiones, un problema de inferencia estadı́stica es un problema en el que se han de analizar datos que han sido generados de acuerdo con alguna distribución de probabilidad desconocida, planteando determinadas cuestiones sobre tal distribución que permitan, tras analizar los datos, conocer la distribución que los ha generado. En muchas ocasiones la distribución de probabilidad es conocida salvo para los valores de uno o más parámetros. En la perspectiva clásica, que hemos seguido hasta ahora, esos parámetros son desconocidos pero son cantidades fijas pertenecientes a un determinado espacio, el espacio paramétrico. De esta forma se han diseñado procedimientos para obtener estimaciones puntuales de los parámetros, estimaciones por regiones de confianza, ası́ como tests de hipótesis que ayuden a decidir sobre cuestiones planteadas acerca de dichos parámetros. Sin embargo existe otra aproximación a un problema de inferencia, la perspectiva bayesiana, que parte de otra premisa como es la de que el parámetro de interés es una variable aleatoria, con las implicaciones que ello conlleva en todo el planteamiento de la inferencia. Este enfoque alternativo se fundamenta en que en ocasiones, antes de disponer de las observaciones muestrales de la variable objeto de estudio, el experimentador dispone de información adicional acerca de dónde es probable que se encuentre el valor del parámetro y esa información la puede expresar en términos de una distribución de probabilidad en el espacio paramétrico. Por lo tanto, lo que estamos diciendo es que la información previa de la que se dispone permite al investigador tener la creencia de que es más probable que el parámetro se encuentre en una determinada región del espacio paramétrico que en otra. Ello conduce al concepto de distribución inicial o distribución a priori. Además, una vez que se obtienen las observaciones muestrales, parece lógico pensar que esa información adicional debe servir para actualizar la distribución inicial. Ello da origen a la distribución final o distribución a posteriori, distribución que recoge la creencia sobre el parámetro una vez que los datos han sido observados (por lo tanto es condicional a ellos) y que, por lo tanto, debe ser la base sobre la que se cimente la inferencia sobre el parámetro. Página www Página inicial Contenido JJ II J I Página 2 de 11 Regresar Pantalla completa Cerrar Abandonar 2. Distribución a priori y a posteriori Página www Página inicial Contenido JJ II J I Página 2 de 11 Regresar Pantalla completa Cerrar Abandonar 2. Distribución a priori y a posteriori Como se ha dicho, la interpretación que ha de hacerse sobre la distribución inicial o a priori es el grado de creencia acerca de la ocurrencia de los distintos valores del parámetro que se tiene antes de disponer de las observaciones muestrales. Esta distribución puede determinar, con mayor o menor precisión, ese nivel de creencia. Página www Página inicial Contenido JJ II J I Página 2 de 11 Regresar Pantalla completa Cerrar Abandonar 2. Distribución a priori y a posteriori Como se ha dicho, la interpretación que ha de hacerse sobre la distribución inicial o a priori es el grado de creencia acerca de la ocurrencia de los distintos valores del parámetro que se tiene antes de disponer de las observaciones muestrales. Esta distribución puede determinar, con mayor o menor precisión, ese nivel de creencia. Ejemplo 2.1. Sea θ la probabilidad de obtener una cara cuando se lanza una moneda y supongamos que se sabe que la moneda es equilibrada o que tiene dos caras. Por lo tanto, los valores posibles de θ forman el espacio paramétrico Θ = {1/2, 1}. Si llamamos p a la probabilidad inicial de que la moneda sea equilibrada, entonces la distribución a priori es π(1/2) = p, π(1) = 1 − p. Página www Página inicial Contenido JJ II J I Página 2 de 11 Regresar Pantalla completa Cerrar Abandonar 2. Distribución a priori y a posteriori Como se ha dicho, la interpretación que ha de hacerse sobre la distribución inicial o a priori es el grado de creencia acerca de la ocurrencia de los distintos valores del parámetro que se tiene antes de disponer de las observaciones muestrales. Esta distribución puede determinar, con mayor o menor precisión, ese nivel de creencia. Ejemplo 2.1. Sea θ la probabilidad de obtener una cara cuando se lanza una moneda y supongamos que se sabe que la moneda es equilibrada o que tiene dos caras. Por lo tanto, los valores posibles de θ forman el espacio paramétrico Θ = {1/2, 1}. Si llamamos p a la probabilidad inicial de que la moneda sea equilibrada, entonces la distribución a priori es π(1/2) = p, π(1) = 1 − p. Ejemplo 2.2. Sea θ la proporción de artı́culos defectuosos en un gran lote de productos manufacturados elaborados en una cadena de producción. Evidentemente, en este caso Θ = [0, 1], por lo que, a expensas de disponer de información más precisa, podrı́a considerarse π(θ) = I[0≤θ≤1] . Página www Página inicial Contenido JJ II J I Página 2 de 11 Regresar Pantalla completa Cerrar Abandonar 2. Distribución a priori y a posteriori Como se ha dicho, la interpretación que ha de hacerse sobre la distribución inicial o a priori es el grado de creencia acerca de la ocurrencia de los distintos valores del parámetro que se tiene antes de disponer de las observaciones muestrales. Esta distribución puede determinar, con mayor o menor precisión, ese nivel de creencia. Ejemplo 2.1. Sea θ la probabilidad de obtener una cara cuando se lanza una moneda y supongamos que se sabe que la moneda es equilibrada o que tiene dos caras. Por lo tanto, los valores posibles de θ forman el espacio paramétrico Θ = {1/2, 1}. Si llamamos p a la probabilidad inicial de que la moneda sea equilibrada, entonces la distribución a priori es π(1/2) = p, π(1) = 1 − p. Ejemplo 2.2. Sea θ la proporción de artı́culos defectuosos en un gran lote de productos manufacturados elaborados en una cadena de producción. Evidentemente, en este caso Θ = [0, 1], por lo que, a expensas de disponer de información más precisa, podrı́a considerarse π(θ) = I[0≤θ≤1] . Página www Página inicial Observemos que en los dos ejemplos se aporta una información inicial que refleja una determinada creencia sobre el parámetro. No obstante hay una gran diferencia entre ellos. En efecto, en el primer caso se trata de una distribución a priori en la que cada posible valor del parámetro tiene asignada una determinada probabilidad mientras que en el segundo se reparte por igual la masa de probabilidad inicial en el espacio paramétrico, lo cual es indicativo de que no hay ninguna preferencia a priori sobre alguno o algunos valores del parámetro. Este caso es frecuente ya que no siempre se tiene información del tipo plasmada en el primer ejemplo, y las distribuciones de ese tipo suelen recibir el nombre de no informativas. Contenido JJ II J I Página 2 de 11 Regresar Pantalla completa Cerrar Abandonar 2. Distribución a priori y a posteriori Como se ha dicho, la interpretación que ha de hacerse sobre la distribución inicial o a priori es el grado de creencia acerca de la ocurrencia de los distintos valores del parámetro que se tiene antes de disponer de las observaciones muestrales. Esta distribución puede determinar, con mayor o menor precisión, ese nivel de creencia. Ejemplo 2.1. Sea θ la probabilidad de obtener una cara cuando se lanza una moneda y supongamos que se sabe que la moneda es equilibrada o que tiene dos caras. Por lo tanto, los valores posibles de θ forman el espacio paramétrico Θ = {1/2, 1}. Si llamamos p a la probabilidad inicial de que la moneda sea equilibrada, entonces la distribución a priori es π(1/2) = p, π(1) = 1 − p. Ejemplo 2.2. Sea θ la proporción de artı́culos defectuosos en un gran lote de productos manufacturados elaborados en una cadena de producción. Evidentemente, en este caso Θ = [0, 1], por lo que, a expensas de disponer de información más precisa, podrı́a considerarse π(θ) = I[0≤θ≤1] . Página www Página inicial Observemos que en los dos ejemplos se aporta una información inicial que refleja una determinada creencia sobre el parámetro. No obstante hay una gran diferencia entre ellos. En efecto, en el primer caso se trata de una distribución a priori en la que cada posible valor del parámetro tiene asignada una determinada probabilidad mientras que en el segundo se reparte por igual la masa de probabilidad inicial en el espacio paramétrico, lo cual es indicativo de que no hay ninguna preferencia a priori sobre alguno o algunos valores del parámetro. Este caso es frecuente ya que no siempre se tiene información del tipo plasmada en el primer ejemplo, y las distribuciones de ese tipo suelen recibir el nombre de no informativas. El conocimiento a priori sobre el parámetro, expresado por la distribución inicial o a priori, puede ser actualizado mediante los datos muestrales observados. Para ello, el Teorema de Bayes proporciona un forma de combinar ambos tipos de información, tanto la inicial acerca del parámetro como la proporcionada por los datos. Ello da lugar a una nueva distribución, la distribución a posteriori o final. Contenido JJ II J I Página 2 de 11 Regresar Pantalla completa Cerrar Abandonar Sea X una variable aleatoria con distribución en una familia paramétrica {Pθ : θ ∈ Θ}. La función de densidad, o masa de probabilidad, de X será notada ahora como f (x | θ) para hacer notar que θ es una variable y que, por lo tanto, la distribución de X depende del valor concreto que tome el parámetro en tanto en cuanto es una variable aleatoria. Página www Página inicial Contenido JJ II J I Página 3 de 11 Regresar Pantalla completa Cerrar Abandonar Sea X una variable aleatoria con distribución en una familia paramétrica {Pθ : θ ∈ Θ}. La función de densidad, o masa de probabilidad, de X será notada ahora como f (x | θ) para hacer notar que θ es una variable y que, por lo tanto, la distribución de X depende del valor concreto que tome el parámetro en tanto en cuanto es una variable aleatoria. Si X = (X1 , . . . , Xn )0 es una muestra aleatoria de X y notamos f (x | θ) a la función de densidad, o masa de probabilidad, de X condicionada a θ, y π(θ) a la distribución inicial de θ, entonces es inmediato comprobar que la distribución conjunta de X y θ será f (x; θ) = f (x | θ)π(θ) Página www Página inicial Contenido JJ II J I Página 3 de 11 Regresar Pantalla completa Cerrar Abandonar Sea X una variable aleatoria con distribución en una familia paramétrica {Pθ : θ ∈ Θ}. La función de densidad, o masa de probabilidad, de X será notada ahora como f (x | θ) para hacer notar que θ es una variable y que, por lo tanto, la distribución de X depende del valor concreto que tome el parámetro en tanto en cuanto es una variable aleatoria. Si X = (X1 , . . . , Xn )0 es una muestra aleatoria de X y notamos f (x | θ) a la función de densidad, o masa de probabilidad, de X condicionada a θ, y π(θ) a la distribución inicial de θ, entonces es inmediato comprobar que la distribución conjunta de X y θ será f (x; θ) = f (x | θ)π(θ) de donde la marginal de la muestra será X  f (x | θ)π(θ)     θ∈Θ m(x) = Z     f (x | θ)π(θ) dθ  en el caso discreto Página www en el caso continuo. Página inicial Θ Contenido JJ II J I Página 3 de 11 Regresar Pantalla completa Cerrar Abandonar Sea X una variable aleatoria con distribución en una familia paramétrica {Pθ : θ ∈ Θ}. La función de densidad, o masa de probabilidad, de X será notada ahora como f (x | θ) para hacer notar que θ es una variable y que, por lo tanto, la distribución de X depende del valor concreto que tome el parámetro en tanto en cuanto es una variable aleatoria. Si X = (X1 , . . . , Xn )0 es una muestra aleatoria de X y notamos f (x | θ) a la función de densidad, o masa de probabilidad, de X condicionada a θ, y π(θ) a la distribución inicial de θ, entonces es inmediato comprobar que la distribución conjunta de X y θ será f (x; θ) = f (x | θ)π(θ) de donde la marginal de la muestra será X  f (x | θ)π(θ)     θ∈Θ m(x) = Z     f (x | θ)π(θ) dθ  en el caso discreto Página www en el caso continuo. Página inicial Θ Contenido Aplicando el Teorema de Bayes se obtiene la distribución final o a posteriori JJ II J I Página 3 de 11 Regresar Pantalla completa Cerrar Abandonar Sea X una variable aleatoria con distribución en una familia paramétrica {Pθ : θ ∈ Θ}. La función de densidad, o masa de probabilidad, de X será notada ahora como f (x | θ) para hacer notar que θ es una variable y que, por lo tanto, la distribución de X depende del valor concreto que tome el parámetro en tanto en cuanto es una variable aleatoria. Si X = (X1 , . . . , Xn )0 es una muestra aleatoria de X y notamos f (x | θ) a la función de densidad, o masa de probabilidad, de X condicionada a θ, y π(θ) a la distribución inicial de θ, entonces es inmediato comprobar que la distribución conjunta de X y θ será f (x; θ) = f (x | θ)π(θ) de donde la marginal de la muestra será X  f (x | θ)π(θ)     θ∈Θ m(x) = Z     f (x | θ)π(θ) dθ  en el caso discreto Página www en el caso continuo. Página inicial Θ Contenido Aplicando el Teorema de Bayes se obtiene la distribución final o a posteriori JJ II           J I π(θ | x) =          Página 3 de 11 Regresar Pantalla completa Cerrar Abandonar Sea X una variable aleatoria con distribución en una familia paramétrica {Pθ : θ ∈ Θ}. La función de densidad, o masa de probabilidad, de X será notada ahora como f (x | θ) para hacer notar que θ es una variable y que, por lo tanto, la distribución de X depende del valor concreto que tome el parámetro en tanto en cuanto es una variable aleatoria. Si X = (X1 , . . . , Xn )0 es una muestra aleatoria de X y notamos f (x | θ) a la función de densidad, o masa de probabilidad, de X condicionada a θ, y π(θ) a la distribución inicial de θ, entonces es inmediato comprobar que la distribución conjunta de X y θ será f (x; θ) = f (x | θ)π(θ) de donde la marginal de la muestra será X  f (x | θ)π(θ)     θ∈Θ m(x) = Z     f (x | θ)π(θ) dθ  en el caso discreto Página www en el caso continuo. Página inicial Θ Contenido Aplicando el Teorema de Bayes se obtiene la distribución final o a posteriori JJ II           J I π(θ | x) = f (x; θ) =  m(x)         Página 3 de 11 Regresar Pantalla completa Cerrar Abandonar Sea X una variable aleatoria con distribución en una familia paramétrica {Pθ : θ ∈ Θ}. La función de densidad, o masa de probabilidad, de X será notada ahora como f (x | θ) para hacer notar que θ es una variable y que, por lo tanto, la distribución de X depende del valor concreto que tome el parámetro en tanto en cuanto es una variable aleatoria. Si X = (X1 , . . . , Xn )0 es una muestra aleatoria de X y notamos f (x | θ) a la función de densidad, o masa de probabilidad, de X condicionada a θ, y π(θ) a la distribución inicial de θ, entonces es inmediato comprobar que la distribución conjunta de X y θ será f (x; θ) = f (x | θ)π(θ) de donde la marginal de la muestra será X  f (x | θ)π(θ)     θ∈Θ m(x) = Z     f (x | θ)π(θ) dθ  en el caso discreto Página www en el caso continuo. Página inicial Θ Contenido Aplicando el Teorema de Bayes se obtiene la distribución final o a posteriori π(θ | x) =  f (x | θ)π(θ)   X    f (x | θ)π(θ)     θ∈Θ f (x; θ) =  m(x)         JJ II J I Página 3 de 11 Regresar Pantalla completa Cerrar Abandonar Sea X una variable aleatoria con distribución en una familia paramétrica {Pθ : θ ∈ Θ}. La función de densidad, o masa de probabilidad, de X será notada ahora como f (x | θ) para hacer notar que θ es una variable y que, por lo tanto, la distribución de X depende del valor concreto que tome el parámetro en tanto en cuanto es una variable aleatoria. Si X = (X1 , . . . , Xn )0 es una muestra aleatoria de X y notamos f (x | θ) a la función de densidad, o masa de probabilidad, de X condicionada a θ, y π(θ) a la distribución inicial de θ, entonces es inmediato comprobar que la distribución conjunta de X y θ será f (x; θ) = f (x | θ)π(θ) de donde la marginal de la muestra será X  f (x | θ)π(θ)     θ∈Θ m(x) = Z     f (x | θ)π(θ) dθ  en el caso discreto Página www en el caso continuo. Página inicial Θ Contenido Aplicando el Teorema de Bayes se obtiene la distribución final o a posteriori π(θ | x) =  f (x | θ)π(θ)   X    f (x | θ)π(θ)     θ∈Θ f (x; θ) =  m(x)         en el caso discreto JJ II J I Página 3 de 11 Regresar Pantalla completa Cerrar Abandonar Sea X una variable aleatoria con distribución en una familia paramétrica {Pθ : θ ∈ Θ}. La función de densidad, o masa de probabilidad, de X será notada ahora como f (x | θ) para hacer notar que θ es una variable y que, por lo tanto, la distribución de X depende del valor concreto que tome el parámetro en tanto en cuanto es una variable aleatoria. Si X = (X1 , . . . , Xn )0 es una muestra aleatoria de X y notamos f (x | θ) a la función de densidad, o masa de probabilidad, de X condicionada a θ, y π(θ) a la distribución inicial de θ, entonces es inmediato comprobar que la distribución conjunta de X y θ será f (x; θ) = f (x | θ)π(θ) de donde la marginal de la muestra será X  f (x | θ)π(θ)     θ∈Θ m(x) = Z     f (x | θ)π(θ) dθ  en el caso discreto Página www en el caso continuo. Página inicial Θ Contenido Aplicando el Teorema de Bayes se obtiene la distribución final o a posteriori π(θ | x) =  f (x | θ)π(θ)   X    f (x | θ)π(θ)     θ∈Θ f (x; θ) =  m(x)  f (x | θ)π(θ)   Z      f (x | θ)π(θ) dθ Θ en el caso discreto JJ II J I Página 3 de 11 Regresar Pantalla completa Cerrar Abandonar Sea X una variable aleatoria con distribución en una familia paramétrica {Pθ : θ ∈ Θ}. La función de densidad, o masa de probabilidad, de X será notada ahora como f (x | θ) para hacer notar que θ es una variable y que, por lo tanto, la distribución de X depende del valor concreto que tome el parámetro en tanto en cuanto es una variable aleatoria. Si X = (X1 , . . . , Xn )0 es una muestra aleatoria de X y notamos f (x | θ) a la función de densidad, o masa de probabilidad, de X condicionada a θ, y π(θ) a la distribución inicial de θ, entonces es inmediato comprobar que la distribución conjunta de X y θ será f (x; θ) = f (x | θ)π(θ) de donde la marginal de la muestra será X  f (x | θ)π(θ)     θ∈Θ m(x) = Z     f (x | θ)π(θ) dθ  en el caso discreto Página www en el caso continuo. Página inicial Θ Contenido Aplicando el Teorema de Bayes se obtiene la distribución final o a posteriori π(θ | x) =  f (x | θ)π(θ)   X    f (x | θ)π(θ)     θ∈Θ f (x; θ) =  m(x)  f (x | θ)π(θ)   Z      f (x | θ)π(θ) dθ Θ en el caso discreto JJ II J I Página 3 de 11 Regresar Pantalla completa en el caso continuo Cerrar Abandonar Ejemplo 2.3. Sea X una variable aleatoria de Bernoulli de parámetro θ y consideremos π(θ) = I(0,1) (θ). Tras observar una muestra aleatoria simple de tamaño n de X se tiene π(θ | x) = Página www Página inicial Contenido JJ II J I Página 4 de 11 Regresar Pantalla completa Cerrar Abandonar Ejemplo 2.3. Sea X una variable aleatoria de Bernoulli de parámetro θ y consideremos π(θ) = I(0,1) (θ). Tras observar una muestra aleatoria simple de tamaño n de X se tiene f (x | θ)π(θ) π(θ | x) = Z 1 f (x | θ) dθ 0 Página www Página inicial Contenido JJ II J I Página 4 de 11 Regresar Pantalla completa Cerrar Abandonar Ejemplo 2.3. Sea X una variable aleatoria de Bernoulli de parámetro θ y consideremos π(θ) = I(0,1) (θ). Tras observar una muestra aleatoria simple de tamaño n de X se tiene Pn Pn θ i=1 xi (1 − θ)n− i=1 xi I(0,1) (θ) f (x | θ)π(θ) π(θ | x) = Z 1 = Z 1 P Pn n f (x | θ) dθ θ i=1 xi (1 − θ)n− i=1 xi dθ 0 0 Página www Página inicial Contenido JJ II J I Página 4 de 11 Regresar Pantalla completa Cerrar Abandonar Ejemplo 2.3. Sea X una variable aleatoria de Bernoulli de parámetro θ y consideremos π(θ) = I(0,1) (θ). Tras observar una muestra aleatoria simple de tamaño n de X se tiene Pn Pn Pn Pn θ i=1 xi (1 − θ)n− i=1 xi I(0,1) (θ) θ i=1 xi (1 − θ)n− i=1 xi I(0,1) (θ) f (x | θ)π(θ) Pn Pn π(θ | x) = Z 1 = Z 1 P · = Pn n Beta( x + 1, n − x + 1) i i i=1 i=1 f (x | θ) dθ θ i=1 xi (1 − θ)n− i=1 xi dθ 0 0 Página www Página inicial Contenido JJ II J I Página 4 de 11 Regresar Pantalla completa Cerrar Abandonar Ejemplo 2.3. Sea X una variable aleatoria de Bernoulli de parámetro θ y consideremos π(θ) = I(0,1) (θ). Tras observar una muestra aleatoria simple de tamaño n de X se tiene Pn Pn Pn Pn θ i=1 xi (1 − θ)n− i=1 xi I(0,1) (θ) θ i=1 xi (1 − θ)n− i=1 xi I(0,1) (θ) f (x | θ)π(θ) Pn Pn π(θ | x) = Z 1 = Z 1 P · = Pn n Beta( x + 1, n − x + 1) i i i=1 i=1 f (x | θ) dθ θ i=1 xi (1 − θ)n− i=1 xi dθ 0 0 En consecuencia, la distribución a posteriori es una beta de parámetros Pn i=1 xi + 1 y n − Pn i=1 xi + 1. Página www Página inicial Contenido JJ II J I Página 4 de 11 Regresar Pantalla completa Cerrar Abandonar Ejemplo 2.3. Sea X una variable aleatoria de Bernoulli de parámetro θ y consideremos π(θ) = I(0,1) (θ). Tras observar una muestra aleatoria simple de tamaño n de X se tiene Pn Pn Pn Pn θ i=1 xi (1 − θ)n− i=1 xi I(0,1) (θ) θ i=1 xi (1 − θ)n− i=1 xi I(0,1) (θ) f (x | θ)π(θ) Pn Pn π(θ | x) = Z 1 = Z 1 P · = Pn n Beta( x + 1, n − x + 1) i i i=1 i=1 f (x | θ) dθ θ i=1 xi (1 − θ)n− i=1 xi dθ 0 0 En consecuencia, la distribución a posteriori es una beta de parámetros 3. Pn i=1 xi + 1 y n − Pn i=1 xi + 1. Familias conjugadas Página www Página inicial Contenido JJ II J I Página 4 de 11 Regresar Pantalla completa Cerrar Abandonar Ejemplo 2.3. Sea X una variable aleatoria de Bernoulli de parámetro θ y consideremos π(θ) = I(0,1) (θ). Tras observar una muestra aleatoria simple de tamaño n de X se tiene Pn Pn Pn Pn θ i=1 xi (1 − θ)n− i=1 xi I(0,1) (θ) θ i=1 xi (1 − θ)n− i=1 xi I(0,1) (θ) f (x | θ)π(θ) Pn Pn π(θ | x) = Z 1 = Z 1 P · = Pn n Beta( x + 1, n − x + 1) i i i=1 i=1 f (x | θ) dθ θ i=1 xi (1 − θ)n− i=1 xi dθ 0 0 En consecuencia, la distribución a posteriori es una beta de parámetros 3. Pn i=1 xi + 1 y n − Pn i=1 xi + 1. Familias conjugadas La principal dificultad que surge en los problemas de inferencia bajo la perspectiva bayesiana es tanto la licitación de la distribución a priori como el cálculo de la distribución a posteriori. La primera cuestión es importante ya que la inferencia que se realice posteriormente puede depender de la elección hecha de la distribución inicial, razón por la cual en muchos casos se recurre a distribuciones no informativas, que no imponen unas condiciones muy fuertes sobre el parámetro, o bien se puede aprovechar parte de la información muestral para mejorar la distribución inicial, dando origen a las denominadas distribuciones intrı́nsecas a priori, de gran auge en la actualidad. En cuanto a la segunda opción, el cálculo de la distribución a posteriori no tiene por qué conducir a una distribución tratable y, en ocasiones, hay que recurrir a métodos numéricos para poder trabajar con ellas. Página www Página inicial Contenido JJ II J I Página 4 de 11 Regresar Pantalla completa Cerrar Abandonar Ejemplo 2.3. Sea X una variable aleatoria de Bernoulli de parámetro θ y consideremos π(θ) = I(0,1) (θ). Tras observar una muestra aleatoria simple de tamaño n de X se tiene Pn Pn Pn Pn θ i=1 xi (1 − θ)n− i=1 xi I(0,1) (θ) θ i=1 xi (1 − θ)n− i=1 xi I(0,1) (θ) f (x | θ)π(θ) Pn Pn π(θ | x) = Z 1 = Z 1 P · = Pn n Beta( x + 1, n − x + 1) i i i=1 i=1 f (x | θ) dθ θ i=1 xi (1 − θ)n− i=1 xi dθ 0 0 En consecuencia, la distribución a posteriori es una beta de parámetros 3. Pn i=1 xi + 1 y n − Pn i=1 xi + 1. Familias conjugadas La principal dificultad que surge en los problemas de inferencia bajo la perspectiva bayesiana es tanto la licitación de la distribución a priori como el cálculo de la distribución a posteriori. La primera cuestión es importante ya que la inferencia que se realice posteriormente puede depender de la elección hecha de la distribución inicial, razón por la cual en muchos casos se recurre a distribuciones no informativas, que no imponen unas condiciones muy fuertes sobre el parámetro, o bien se puede aprovechar parte de la información muestral para mejorar la distribución inicial, dando origen a las denominadas distribuciones intrı́nsecas a priori, de gran auge en la actualidad. En cuanto a la segunda opción, el cálculo de la distribución a posteriori no tiene por qué conducir a una distribución tratable y, en ocasiones, hay que recurrir a métodos numéricos para poder trabajar con ellas. Centrándonos en la segunda cuestión, interesa considerar familias de distribuciones a priori cuyas distribuciones a posteriori asociadas sean de fácil cálculo. En este sentido surge el concepto de familias a priori conjugadas. Página www Página inicial Contenido JJ II J I Página 4 de 11 Regresar Pantalla completa Cerrar Abandonar Ejemplo 2.3. Sea X una variable aleatoria de Bernoulli de parámetro θ y consideremos π(θ) = I(0,1) (θ). Tras observar una muestra aleatoria simple de tamaño n de X se tiene Pn Pn Pn Pn θ i=1 xi (1 − θ)n− i=1 xi I(0,1) (θ) θ i=1 xi (1 − θ)n− i=1 xi I(0,1) (θ) f (x | θ)π(θ) Pn Pn π(θ | x) = Z 1 = Z 1 P · = Pn n Beta( x + 1, n − x + 1) i i i=1 i=1 f (x | θ) dθ θ i=1 xi (1 − θ)n− i=1 xi dθ 0 0 En consecuencia, la distribución a posteriori es una beta de parámetros 3. Pn i=1 xi + 1 y n − Pn i=1 xi + 1. Familias conjugadas La principal dificultad que surge en los problemas de inferencia bajo la perspectiva bayesiana es tanto la licitación de la distribución a priori como el cálculo de la distribución a posteriori. La primera cuestión es importante ya que la inferencia que se realice posteriormente puede depender de la elección hecha de la distribución inicial, razón por la cual en muchos casos se recurre a distribuciones no informativas, que no imponen unas condiciones muy fuertes sobre el parámetro, o bien se puede aprovechar parte de la información muestral para mejorar la distribución inicial, dando origen a las denominadas distribuciones intrı́nsecas a priori, de gran auge en la actualidad. En cuanto a la segunda opción, el cálculo de la distribución a posteriori no tiene por qué conducir a una distribución tratable y, en ocasiones, hay que recurrir a métodos numéricos para poder trabajar con ellas. Centrándonos en la segunda cuestión, interesa considerar familias de distribuciones a priori cuyas distribuciones a posteriori asociadas sean de fácil cálculo. En este sentido surge el concepto de familias a priori conjugadas. Página www Página inicial Contenido JJ II J I Página 4 de 11 Regresar Pantalla completa Cerrar Definición 3.1. Una familia de distribuciones a priori P = {πα (θ), α ∈ A} se dice conjugada de la familia de funciones de densidad, o masa de probabilidad, P = {f (x | θ), θ ∈ Θ} cuando para cualquier distribución inicial perteneciente a P , la distribución final también pertenece a P . Abandonar Comentario 3.1. Algunas familias de distribuciones conjugadas son las siguientes: La familia de distribuciones beta es una familia de distribuciones a priori conjugada para muestras de distribuciones de Bernoulli, binomiales y binomiales negativas. Página www Página inicial Contenido JJ II J I Página 5 de 11 Regresar Pantalla completa Cerrar Abandonar Comentario 3.1. Algunas familias de distribuciones conjugadas son las siguientes: La familia de distribuciones beta es una familia de distribuciones a priori conjugada para muestras de distribuciones de Bernoulli, binomiales y binomiales negativas. La familia de distribuciones gamma es una familia de distribuciones a priori conjugada para muestras de distribuciones de Poisson y exponenciales. Página www Página inicial Contenido JJ II J I Página 5 de 11 Regresar Pantalla completa Cerrar Abandonar Comentario 3.1. Algunas familias de distribuciones conjugadas son las siguientes: La familia de distribuciones beta es una familia de distribuciones a priori conjugada para muestras de distribuciones de Bernoulli, binomiales y binomiales negativas. La familia de distribuciones gamma es una familia de distribuciones a priori conjugada para muestras de distribuciones de Poisson y exponenciales. La familia de distribuciones normales es una familia de distribuciones a priori conjugada para muestras de una distribución normal con varianza conocida. Página www Página inicial Contenido JJ II J I Página 5 de 11 Regresar Pantalla completa Cerrar Abandonar Comentario 3.1. Algunas familias de distribuciones conjugadas son las siguientes: La familia de distribuciones beta es una familia de distribuciones a priori conjugada para muestras de distribuciones de Bernoulli, binomiales y binomiales negativas. La familia de distribuciones gamma es una familia de distribuciones a priori conjugada para muestras de distribuciones de Poisson y exponenciales. La familia de distribuciones normales es una familia de distribuciones a priori conjugada para muestras de una distribución normal con varianza conocida. Ejemplo 3.1. Sea X una variable aleatoria de Poisson de parámetro λ > 0 y consideremos como distribución a priori una distribución gamma de parámetros a y b. Entonces, dada una muestra aleatoria simple de tamaño n se tiene Z +∞ f (x | λ)π(λ) dλ = 0 Página www Página inicial Contenido JJ II J I Página 5 de 11 Regresar Pantalla completa Cerrar Abandonar Comentario 3.1. Algunas familias de distribuciones conjugadas son las siguientes: La familia de distribuciones beta es una familia de distribuciones a priori conjugada para muestras de distribuciones de Bernoulli, binomiales y binomiales negativas. La familia de distribuciones gamma es una familia de distribuciones a priori conjugada para muestras de distribuciones de Poisson y exponenciales. La familia de distribuciones normales es una familia de distribuciones a priori conjugada para muestras de una distribución normal con varianza conocida. Ejemplo 3.1. Sea X una variable aleatoria de Poisson de parámetro λ > 0 y consideremos como distribución a priori una distribución gamma de parámetros a y b. Entonces, dada una muestra aleatoria simple de tamaño n se tiene Z +∞ Z +∞ −nλ Pn xi a−1 −λ/b e λ i=1 λ e Qn f (x | λ)π(λ) dλ = dλ a x ! Γ(a) b i 0 0 i=1 Página www Página inicial Contenido JJ II J I Página 5 de 11 Regresar Pantalla completa Cerrar Abandonar Comentario 3.1. Algunas familias de distribuciones conjugadas son las siguientes: La familia de distribuciones beta es una familia de distribuciones a priori conjugada para muestras de distribuciones de Bernoulli, binomiales y binomiales negativas. La familia de distribuciones gamma es una familia de distribuciones a priori conjugada para muestras de distribuciones de Poisson y exponenciales. La familia de distribuciones normales es una familia de distribuciones a priori conjugada para muestras de una distribución normal con varianza conocida. Ejemplo 3.1. Sea X una variable aleatoria de Poisson de parámetro λ > 0 y consideremos como distribución a priori una distribución gamma de parámetros a y b. Entonces, dada una muestra aleatoria simple de tamaño n se tiene Z +∞ Z +∞ −nλ Pn xi a−1 −λ/b Z +∞ a+Pn xi −1 −λ/(n+1/b)−1 i=1 e λ i=1 λ e λ e Qn Q f (x | λ)π(λ) dλ = dλ = dλ n a a x ! Γ(a) b x ! Γ(a) b i i 0 0 0 i=1 i=1 Página www Página inicial Contenido JJ II J I Página 5 de 11 Regresar Pantalla completa Cerrar Abandonar Comentario 3.1. Algunas familias de distribuciones conjugadas son las siguientes: La familia de distribuciones beta es una familia de distribuciones a priori conjugada para muestras de distribuciones de Bernoulli, binomiales y binomiales negativas. La familia de distribuciones gamma es una familia de distribuciones a priori conjugada para muestras de distribuciones de Poisson y exponenciales. La familia de distribuciones normales es una familia de distribuciones a priori conjugada para muestras de una distribución normal con varianza conocida. Ejemplo 3.1. Sea X una variable aleatoria de Poisson de parámetro λ > 0 y consideremos como distribución a priori una distribución gamma de parámetros a y b. Entonces, dada una muestra aleatoria simple de tamaño n se tiene Z +∞ Z +∞ −nλ Pn xi a−1 −λ/b Z +∞ a+Pn xi −1 −λ/(n+1/b)−1 i=1 e λ i=1 λ e λ e Qn Q f (x | λ)π(λ) dλ = dλ = dλ n a a x ! Γ(a) b x ! Γ(a) b i i 0 0 0 i=1 i=1 Página www Página inicial Contenido =Q n Γ (a + i=1 xi ! Γ(a) b Pn a i=1 xi ) P n 1 a+ i=1 xi n+ b Z 0 +∞ λ Γ (a + Pn −1 i=1 xi −1 e−λ/(n+1/b) Pn Pn 1 −a− i=1 xi i=1 xi ) n + b a+ dλ JJ II J I Página 5 de 11 Regresar Pantalla completa Cerrar Abandonar Comentario 3.1. Algunas familias de distribuciones conjugadas son las siguientes: La familia de distribuciones beta es una familia de distribuciones a priori conjugada para muestras de distribuciones de Bernoulli, binomiales y binomiales negativas. La familia de distribuciones gamma es una familia de distribuciones a priori conjugada para muestras de distribuciones de Poisson y exponenciales. La familia de distribuciones normales es una familia de distribuciones a priori conjugada para muestras de una distribución normal con varianza conocida. Ejemplo 3.1. Sea X una variable aleatoria de Poisson de parámetro λ > 0 y consideremos como distribución a priori una distribución gamma de parámetros a y b. Entonces, dada una muestra aleatoria simple de tamaño n se tiene Z +∞ Z +∞ −nλ Pn xi a−1 −λ/b Z +∞ a+Pn xi −1 −λ/(n+1/b)−1 i=1 e λ i=1 λ e λ e Qn Q f (x | λ)π(λ) dλ = dλ = dλ n a a x ! Γ(a) b x ! Γ(a) b i i 0 0 0 i=1 i=1 Página www Página inicial Contenido =Q n Γ (a + i=1 xi ! Γ(a) b =Q n Pn a Γ (a + i=1 xi ) P n 1 a+ i=1 xi n+ b Pn a i=1 xi ! Γ(a) b Z i=1 xi ) P a+ ni=1 xi · n + 1b 0 +∞ λ Γ (a + Pn −1 i=1 xi −1 e−λ/(n+1/b) Pn Pn 1 −a− i=1 xi i=1 xi ) n + b a+ dλ JJ II J I Página 5 de 11 Regresar Pantalla completa Cerrar Abandonar Comentario 3.1. Algunas familias de distribuciones conjugadas son las siguientes: La familia de distribuciones beta es una familia de distribuciones a priori conjugada para muestras de distribuciones de Bernoulli, binomiales y binomiales negativas. La familia de distribuciones gamma es una familia de distribuciones a priori conjugada para muestras de distribuciones de Poisson y exponenciales. La familia de distribuciones normales es una familia de distribuciones a priori conjugada para muestras de una distribución normal con varianza conocida. Ejemplo 3.1. Sea X una variable aleatoria de Poisson de parámetro λ > 0 y consideremos como distribución a priori una distribución gamma de parámetros a y b. Entonces, dada una muestra aleatoria simple de tamaño n se tiene Z +∞ Z +∞ −nλ Pn xi a−1 −λ/b Z +∞ a+Pn xi −1 −λ/(n+1/b)−1 i=1 e λ i=1 λ e λ e Qn Q f (x | λ)π(λ) dλ = dλ = dλ n a a x ! Γ(a) b x ! Γ(a) b i i 0 0 0 i=1 i=1 Página www Página inicial Contenido =Q n Γ (a + i=1 xi ! Γ(a) b =Q n Pn a Γ (a + Pn a i=1 xi ! Γ(a) b Ası́ pues, i=1 xi ) P n 1 a+ i=1 xi n+ b Z i=1 xi ) P a+ ni=1 xi · n + 1b 0 +∞ λ Γ (a + Pn −1 i=1 xi −1 e−λ/(n+1/b) Pn Pn 1 −a− i=1 xi i=1 xi ) n + b a+ dλ JJ II J I Página 5 de 11 Regresar Pantalla completa Cerrar Abandonar π(λ | x) = Comentario 3.1. Algunas familias de distribuciones conjugadas son las siguientes: La familia de distribuciones beta es una familia de distribuciones a priori conjugada para muestras de distribuciones de Bernoulli, binomiales y binomiales negativas. La familia de distribuciones gamma es una familia de distribuciones a priori conjugada para muestras de distribuciones de Poisson y exponenciales. La familia de distribuciones normales es una familia de distribuciones a priori conjugada para muestras de una distribución normal con varianza conocida. Ejemplo 3.1. Sea X una variable aleatoria de Poisson de parámetro λ > 0 y consideremos como distribución a priori una distribución gamma de parámetros a y b. Entonces, dada una muestra aleatoria simple de tamaño n se tiene Z +∞ Z +∞ −nλ Pn xi a−1 −λ/b Z +∞ a+Pn xi −1 −λ/(n+1/b)−1 i=1 e λ i=1 λ e λ e Qn Q f (x | λ)π(λ) dλ = dλ = dλ n a a x ! Γ(a) b x ! Γ(a) b i i 0 0 0 i=1 i=1 Página www Página inicial Contenido =Q n Γ (a + i=1 xi ! Γ(a) b =Q n Pn a Γ (a + Pn a i=1 xi ! Γ(a) b Ası́ pues, i=1 xi ) P n 1 a+ i=1 xi n+ b Z i=1 xi ) P a+ ni=1 xi · n + 1b 0 +∞ λ Γ (a + Pn −1 i=1 xi −1 e−λ/(n+1/b) Pn Pn 1 −a− i=1 xi i=1 xi ) n + b a+ dλ JJ II J I Página 5 de 11 Regresar Pantalla completa Cerrar Abandonar f (x | λ)π(λ) π(λ | x) = Z +∞ f (x | λ)π(λ) 0 dλ Comentario 3.1. Algunas familias de distribuciones conjugadas son las siguientes: La familia de distribuciones beta es una familia de distribuciones a priori conjugada para muestras de distribuciones de Bernoulli, binomiales y binomiales negativas. La familia de distribuciones gamma es una familia de distribuciones a priori conjugada para muestras de distribuciones de Poisson y exponenciales. La familia de distribuciones normales es una familia de distribuciones a priori conjugada para muestras de una distribución normal con varianza conocida. Ejemplo 3.1. Sea X una variable aleatoria de Poisson de parámetro λ > 0 y consideremos como distribución a priori una distribución gamma de parámetros a y b. Entonces, dada una muestra aleatoria simple de tamaño n se tiene Z +∞ Z +∞ −nλ Pn xi a−1 −λ/b Z +∞ a+Pn xi −1 −λ/(n+1/b)−1 i=1 e λ i=1 λ e λ e Qn Q f (x | λ)π(λ) dλ = dλ = dλ n a a x ! Γ(a) b x ! Γ(a) b i i 0 0 0 i=1 i=1 Página www Página inicial Contenido =Q n Γ (a + i=1 xi ! Γ(a) b =Q n Pn a Γ (a + i=1 xi ) P n 1 a+ i=1 xi n+ b Z 0 +∞ λ Γ (a + dλ JJ II J I Página 5 de 11 Pn a i=1 xi ! Γ(a) b Pn −1 i=1 xi −1 e−λ/(n+1/b) Pn Pn 1 −a− i=1 xi i=1 xi ) n + b a+ i=1 xi ) P a+ ni=1 xi · n + 1b Ası́ pues, Regresar Pantalla completa Cerrar Pn e−nλ λ Qn λa−1 e−λ/b a f (x | λ)π(λ) i=1 xi ! Γ(a) b π(λ | x) = Z +∞ dλ = Pn a+Pni=1 xi Γ (a + i=1 xi ) 1 f (x | λ)π(λ) Qn n + a 0 b i=1 xi ! Γ(a) b i=1 xi Abandonar Comentario 3.1. Algunas familias de distribuciones conjugadas son las siguientes: La familia de distribuciones beta es una familia de distribuciones a priori conjugada para muestras de distribuciones de Bernoulli, binomiales y binomiales negativas. La familia de distribuciones gamma es una familia de distribuciones a priori conjugada para muestras de distribuciones de Poisson y exponenciales. La familia de distribuciones normales es una familia de distribuciones a priori conjugada para muestras de una distribución normal con varianza conocida. Ejemplo 3.1. Sea X una variable aleatoria de Poisson de parámetro λ > 0 y consideremos como distribución a priori una distribución gamma de parámetros a y b. Entonces, dada una muestra aleatoria simple de tamaño n se tiene Z +∞ Z +∞ −nλ Pn xi a−1 −λ/b Z +∞ a+Pn xi −1 −λ/(n+1/b)−1 i=1 e λ i=1 λ e λ e Qn Q f (x | λ)π(λ) dλ = dλ = dλ n a a x ! Γ(a) b x ! Γ(a) b i i 0 0 0 i=1 i=1 Página www Página inicial Contenido =Q n Γ (a + i=1 xi ! Γ(a) b =Q n Pn a Γ (a + i=1 xi ) P n 1 a+ i=1 xi n+ b Z 0 +∞ λ Γ (a + Pn −1 i=1 xi −1 e−λ/(n+1/b) Pn Pn 1 −a− i=1 xi i=1 xi ) n + b a+ dλ II J I Página 5 de 11 Pn a i=1 xi ! Γ(a) b JJ i=1 xi ) P a+ ni=1 xi · n + 1b Ası́ pues, Regresar Pantalla completa Cerrar Pn e−nλ λ Qn λa−1 e−λ/b Pn a+ i=1 xi −1 −λ/(n+1/b)−1 a f (x | λ)π(λ) λ e x ! Γ(a) b i=1 i π(λ | x) = Z +∞ dλ = Pn a+Pni=1 xi = −a−Pni=1 xi · Pn 1 Γ (a + i=1 xi ) 1 Γ (a + i=1 xi ) n + b f (x | λ)π(λ) Qn n + a 0 b i=1 xi ! Γ(a) b i=1 xi Abandonar Por lo tanto, la distribución a posteriori es una gamma de parámetros a + Pn i=1 xi y (n + 1/b)−1 . Página www Página inicial Contenido JJ II J I Página 6 de 11 Regresar Pantalla completa Cerrar Abandonar Por lo tanto, la distribución a posteriori es una gamma de parámetros a + Pn i=1 xi y (n + 1/b)−1 . Ejemplo 3.2. Sea X una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y consideremos como distribución a priori una distribución normal de parámetros η y τ 2 . Entonces, dada una muestra aleatoria simple de tamaño n se tiene f (x | µ)π(µ) = Página www Página inicial Contenido JJ II J I Página 6 de 11 Regresar Pantalla completa Cerrar Abandonar Por lo tanto, la distribución a posteriori es una gamma de parámetros a + Pn i=1 xi y (n + 1/b)−1 . Ejemplo 3.2. Sea X una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y consideremos como distribución a priori una distribución normal de parámetros η y τ 2 . Entonces, dada una muestra aleatoria simple de tamaño n se tiene (µ − η)2 n 2 2 −n/2 2 −1/2 2 f (x | µ)π(µ) = 2πσ 2πτ exp − 2 s + (x − µ) − 2σ 2τ 2 Página www Página inicial Contenido JJ II J I Página 6 de 11 Regresar Pantalla completa Cerrar Abandonar Por lo tanto, la distribución a posteriori es una gamma de parámetros a + Pn i=1 xi y (n + 1/b)−1 . Ejemplo 3.2. Sea X una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y consideremos como distribución a priori una distribución normal de parámetros η y τ 2 . Entonces, dada una muestra aleatoria simple de tamaño n se tiene (µ − η)2 n 2 2 −n/2 2 −1/2 2 f (x | µ)π(µ) = 2πσ 2πτ exp − 2 s + (x − µ) − 2σ 2τ 2 2 ns 1 −n/2 −1/2 = 2πσ 2 2πτ 2 exp − 2 exp − 2 2 nτ 2 (x − µ)2 + σ 2 (µ − η)2 2σ 2σ τ Página www Página inicial Contenido JJ II J I Página 6 de 11 Regresar Pantalla completa Cerrar Abandonar Por lo tanto, la distribución a posteriori es una gamma de parámetros a + Pn i=1 xi y (n + 1/b)−1 . Ejemplo 3.2. Sea X una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y consideremos como distribución a priori una distribución normal de parámetros η y τ 2 . Entonces, dada una muestra aleatoria simple de tamaño n se tiene (µ − η)2 n 2 2 −n/2 2 −1/2 2 f (x | µ)π(µ) = 2πσ 2πτ exp − 2 s + (x − µ) − 2σ 2τ 2 2 ns 1 −n/2 −1/2 = 2πσ 2 2πτ 2 exp − 2 exp − 2 2 nτ 2 (x − µ)2 + σ 2 (µ − η)2 2σ 2σ τ 2 2 2 2 2 nx τ + σ η ns −n/2 −1/2 = 2πσ 2 2πτ 2 exp − 2 exp − 2σ 2σ 2 τ 2 Página www Página inicial Contenido JJ II J I Página 6 de 11 Regresar Pantalla completa Cerrar Abandonar Por lo tanto, la distribución a posteriori es una gamma de parámetros a + Pn i=1 xi y (n + 1/b)−1 . Ejemplo 3.2. Sea X una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y consideremos como distribución a priori una distribución normal de parámetros η y τ 2 . Entonces, dada una muestra aleatoria simple de tamaño n se tiene (µ − η)2 n 2 2 −n/2 2 −1/2 2 f (x | µ)π(µ) = 2πσ 2πτ exp − 2 s + (x − µ) − 2σ 2τ 2 2 ns 1 −n/2 −1/2 = 2πσ 2 2πτ 2 exp − 2 exp − 2 2 nτ 2 (x − µ)2 + σ 2 (µ − η)2 2σ 2σ τ 2 2 2 2 2 nx τ + σ η ns −n/2 −1/2 = 2πσ 2 2πτ 2 exp − 2 exp − 2σ 2σ 2 τ 2 1 2 2 2 2 2 × exp − 2 2 µ (nτ + σ ) − 2µ(nxτ + σ η) 2σ τ Página www Página inicial Contenido JJ II J I Página 6 de 11 Regresar Pantalla completa Cerrar Abandonar Por lo tanto, la distribución a posteriori es una gamma de parámetros a + Pn i=1 xi y (n + 1/b)−1 . Ejemplo 3.2. Sea X una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y consideremos como distribución a priori una distribución normal de parámetros η y τ 2 . Entonces, dada una muestra aleatoria simple de tamaño n se tiene (µ − η)2 n 2 2 −n/2 2 −1/2 2 f (x | µ)π(µ) = 2πσ 2πτ exp − 2 s + (x − µ) − 2σ 2τ 2 2 ns 1 −n/2 −1/2 = 2πσ 2 2πτ 2 exp − 2 exp − 2 2 nτ 2 (x − µ)2 + σ 2 (µ − η)2 2σ 2σ τ 2 2 2 2 2 nx τ + σ η ns −n/2 −1/2 = 2πσ 2 2πτ 2 exp − 2 exp − 2σ 2σ 2 τ 2 1 2 2 2 2 2 × exp − 2 2 µ (nτ + σ ) − 2µ(nxτ + σ η) 2σ τ ns2 nx2 τ 2 + σ 2 η 2 (nxτ 2 + σ 2 η)2 2 −n/2 2 −1/2 = 2πσ 2πτ exp − 2 exp − exp 2σ 2σ 2 τ 2 2σ 2 τ 2 (nτ 2 + σ 2 ) Página www Página inicial Contenido JJ II J I Página 6 de 11 Regresar Pantalla completa Cerrar Abandonar Por lo tanto, la distribución a posteriori es una gamma de parámetros a + Pn i=1 xi y (n + 1/b)−1 . Ejemplo 3.2. Sea X una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y consideremos como distribución a priori una distribución normal de parámetros η y τ 2 . Entonces, dada una muestra aleatoria simple de tamaño n se tiene (µ − η)2 n 2 2 −n/2 2 −1/2 2 f (x | µ)π(µ) = 2πσ 2πτ exp − 2 s + (x − µ) − 2σ 2τ 2 2 ns 1 −n/2 −1/2 = 2πσ 2 2πτ 2 exp − 2 exp − 2 2 nτ 2 (x − µ)2 + σ 2 (µ − η)2 2σ 2σ τ 2 2 2 2 2 nx τ + σ η ns −n/2 −1/2 = 2πσ 2 2πτ 2 exp − 2 exp − 2σ 2σ 2 τ 2 1 2 2 2 2 2 × exp − 2 2 µ (nτ + σ ) − 2µ(nxτ + σ η) 2σ τ ns2 nx2 τ 2 + σ 2 η 2 (nxτ 2 + σ 2 η)2 2 −n/2 2 −1/2 = 2πσ 2πτ exp − 2 exp − exp 2σ 2σ 2 τ 2 2σ 2 τ 2 (nτ 2 + σ 2 ) " #! 2 nτ 2 + σ 2 2 nxτ 2 + σ 2 η nxτ 2 + σ 2 η × exp − µ − 2µ + 2σ 2 τ 2 nτ 2 + σ 2 nτ 2 + σ 2 Página www Página inicial Contenido JJ II J I Página 6 de 11 Regresar Pantalla completa Cerrar Abandonar Por lo tanto, la distribución a posteriori es una gamma de parámetros a + Pn i=1 xi y (n + 1/b)−1 . Ejemplo 3.2. Sea X una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y consideremos como distribución a priori una distribución normal de parámetros η y τ 2 . Entonces, dada una muestra aleatoria simple de tamaño n se tiene (µ − η)2 n 2 2 −n/2 2 −1/2 2 f (x | µ)π(µ) = 2πσ 2πτ exp − 2 s + (x − µ) − 2σ 2τ 2 2 ns 1 −n/2 −1/2 = 2πσ 2 2πτ 2 exp − 2 exp − 2 2 nτ 2 (x − µ)2 + σ 2 (µ − η)2 2σ 2σ τ 2 2 2 2 2 nx τ + σ η ns −n/2 −1/2 = 2πσ 2 2πτ 2 exp − 2 exp − 2σ 2σ 2 τ 2 1 2 2 2 2 2 × exp − 2 2 µ (nτ + σ ) − 2µ(nxτ + σ η) 2σ τ ns2 nx2 τ 2 + σ 2 η 2 (nxτ 2 + σ 2 η)2 2 −n/2 2 −1/2 = 2πσ 2πτ exp − 2 exp − exp 2σ 2σ 2 τ 2 2σ 2 τ 2 (nτ 2 + σ 2 ) " #! 2 nτ 2 + σ 2 2 nxτ 2 + σ 2 η nxτ 2 + σ 2 η × exp − µ − 2µ + 2σ 2 τ 2 nτ 2 + σ 2 nτ 2 + σ 2 1/2 2 2 2 2 2 2 2 2 2 2 ns nx τ + σ η (nxτ + σ η) 2σ τ −n/2 exp = 2πσ 2 τ −1 exp − 2 exp − 2σ 2σ 2 τ 2 2σ 2 τ 2 (nτ 2 + σ 2 ) nτ 2 + σ 2 Página www Página inicial Contenido JJ II J I Página 6 de 11 Regresar Pantalla completa Cerrar Abandonar Por lo tanto, la distribución a posteriori es una gamma de parámetros a + Pn i=1 xi y (n + 1/b)−1 . Ejemplo 3.2. Sea X una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y consideremos como distribución a priori una distribución normal de parámetros η y τ 2 . Entonces, dada una muestra aleatoria simple de tamaño n se tiene (µ − η)2 n 2 2 −n/2 2 −1/2 2 f (x | µ)π(µ) = 2πσ 2πτ exp − 2 s + (x − µ) − 2σ 2τ 2 2 ns 1 −n/2 −1/2 = 2πσ 2 2πτ 2 exp − 2 exp − 2 2 nτ 2 (x − µ)2 + σ 2 (µ − η)2 2σ 2σ τ 2 2 2 2 2 nx τ + σ η ns −n/2 −1/2 = 2πσ 2 2πτ 2 exp − 2 exp − 2σ 2σ 2 τ 2 1 2 2 2 2 2 × exp − 2 2 µ (nτ + σ ) − 2µ(nxτ + σ η) 2σ τ ns2 nx2 τ 2 + σ 2 η 2 (nxτ 2 + σ 2 η)2 2 −n/2 2 −1/2 = 2πσ 2πτ exp − 2 exp − exp 2σ 2σ 2 τ 2 2σ 2 τ 2 (nτ 2 + σ 2 ) " #! 2 nτ 2 + σ 2 2 nxτ 2 + σ 2 η nxτ 2 + σ 2 η × exp − µ − 2µ + 2σ 2 τ 2 nτ 2 + σ 2 nτ 2 + σ 2 1/2 2 2 2 2 2 2 2 2 2 2 ns nx τ + σ η (nxτ + σ η) 2σ τ −n/2 exp = 2πσ 2 τ −1 exp − 2 exp − 2σ 2σ 2 τ 2 2σ 2 τ 2 (nτ 2 + σ 2 ) nτ 2 + σ 2 ! −1/2 2 nτ 2 + σ 2 nxτ 2 + σ 2 η 2σ 2 τ 2 −1/2 exp − µ− × (2π) nτ 2 + σ 2 2σ 2 τ 2 nτ 2 + σ 2 Página www Página inicial Contenido JJ II J I Página 6 de 11 Regresar Pantalla completa Cerrar Abandonar Por lo tanto, la distribución a posteriori es una gamma de parámetros a + Pn i=1 xi y (n + 1/b)−1 . Ejemplo 3.2. Sea X una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y consideremos como distribución a priori una distribución normal de parámetros η y τ 2 . Entonces, dada una muestra aleatoria simple de tamaño n se tiene (µ − η)2 n 2 2 −n/2 2 −1/2 2 f (x | µ)π(µ) = 2πσ 2πτ exp − 2 s + (x − µ) − 2σ 2τ 2 2 ns 1 −n/2 −1/2 = 2πσ 2 2πτ 2 exp − 2 exp − 2 2 nτ 2 (x − µ)2 + σ 2 (µ − η)2 2σ 2σ τ 2 2 2 2 2 nx τ + σ η ns −n/2 −1/2 = 2πσ 2 2πτ 2 exp − 2 exp − 2σ 2σ 2 τ 2 1 2 2 2 2 2 × exp − 2 2 µ (nτ + σ ) − 2µ(nxτ + σ η) 2σ τ ns2 nx2 τ 2 + σ 2 η 2 (nxτ 2 + σ 2 η)2 2 −n/2 2 −1/2 = 2πσ 2πτ exp − 2 exp − exp 2σ 2σ 2 τ 2 2σ 2 τ 2 (nτ 2 + σ 2 ) " #! 2 nτ 2 + σ 2 2 nxτ 2 + σ 2 η nxτ 2 + σ 2 η × exp − µ − 2µ + 2σ 2 τ 2 nτ 2 + σ 2 nτ 2 + σ 2 1/2 2 2 2 2 2 2 2 2 2 2 ns nx τ + σ η (nxτ + σ η) 2σ τ −n/2 exp = 2πσ 2 τ −1 exp − 2 exp − 2σ 2σ 2 τ 2 2σ 2 τ 2 (nτ 2 + σ 2 ) nτ 2 + σ 2 ! −1/2 2 nτ 2 + σ 2 nxτ 2 + σ 2 η 2σ 2 τ 2 −1/2 exp − µ− × (2π) nτ 2 + σ 2 2σ 2 τ 2 nτ 2 + σ 2 Página www Página inicial Contenido JJ II J I Página 6 de 11 Regresar Pantalla completa Cerrar Ası́, Z +∞ f (x | µ)π(µ) dµ = 2πσ −∞ Abandonar 2 −n/2 1/2 2 2 2 2 2 2 2 2 2 ns nx τ + σ η (nxτ + σ η) 2σ τ τ −1 exp − 2 exp − exp , 2σ 2σ 2 τ 2 2σ 2 τ 2 (nτ 2 + σ 2 ) nτ 2 + σ 2 y por lo tanto, π(µ | x) = Página www Página inicial Contenido JJ II J I Página 7 de 11 Regresar Pantalla completa Cerrar Abandonar y por lo tanto, π(µ | x) = Z f (x | µ)π(µ) +∞ f (x | µ)π(µ) dµ −∞ Página www Página inicial Contenido JJ II J I Página 7 de 11 Regresar Pantalla completa Cerrar Abandonar y por lo tanto, π(µ | x) = Z f (x | µ)π(µ) +∞ f (x | µ)π(µ) dµ = (2π)−1/2 2 2 2σ τ nτ 2 + σ 2 −1/2 2 exp − nτ + σ 2σ 2 τ 2 2 2 µ− 2 nxτ + σ η nτ 2 + σ 2 2 ! . −∞ Página www Página inicial Contenido JJ II J I Página 7 de 11 Regresar Pantalla completa Cerrar Abandonar y por lo tanto, π(µ | x) = Z f (x | µ)π(µ) +∞ f (x | µ)π(µ) dµ = (2π)−1/2 2 2 2σ τ nτ 2 + σ 2 −1/2 2 exp − nτ + σ 2σ 2 τ 2 2 2 µ− 2 nxτ + σ η nτ 2 + σ 2 2 ! . −∞ Ası́, la distribución a posteriori es una normal de parámetros nxτ 2 + σ 2 η nτ 2 + σ 2 y 2σ 2 τ 2 nτ 2 + σ 2 y ası́ la familia de distribuciones normal es conjugada Página www Página inicial Contenido JJ II J I Página 7 de 11 Regresar Pantalla completa Cerrar Abandonar y por lo tanto, π(µ | x) = Z f (x | µ)π(µ) +∞ = (2π)−1/2 f (x | µ)π(µ) dµ 2 2 2σ τ nτ 2 + σ 2 −1/2 2 exp − nτ + σ 2σ 2 τ 2 2 2 µ− 2 nxτ + σ η nτ 2 + σ 2 2 ! . −∞ Ası́, la distribución a posteriori es una normal de parámetros nxτ 2 + σ 2 η nτ 2 + σ 2 y 2σ 2 τ 2 nτ 2 + σ 2 y ası́ la familia de distribuciones normal es conjugada 4. Estimadores bayesianos Página www Página inicial Contenido JJ II J I Página 7 de 11 Regresar Pantalla completa Cerrar Abandonar y por lo tanto, π(µ | x) = Z f (x | µ)π(µ) +∞ = (2π)−1/2 f (x | µ)π(µ) dµ 2 2 2σ τ nτ 2 + σ 2 −1/2 2 exp − nτ + σ 2σ 2 τ 2 2 2 µ− 2 nxτ + σ η nτ 2 + σ 2 2 ! . −∞ Ası́, la distribución a posteriori es una normal de parámetros nxτ 2 + σ 2 η nτ 2 + σ 2 y 2σ 2 τ 2 nτ 2 + σ 2 y ası́ la familia de distribuciones normal es conjugada 4. Estimadores bayesianos Como, desde el punto de vista bayesiano, el parámetro sobre el que se realiza la inferencia es una variable aleatoria, parece lógico que dicha inferencia se base en caracterı́sticas calculadas a partir de distribuciones que representen la evolución del parámetro como variable aleatoria. Página www Página inicial Contenido JJ II J I Página 7 de 11 Regresar Pantalla completa Cerrar Abandonar y por lo tanto, π(µ | x) = Z f (x | µ)π(µ) +∞ = (2π)−1/2 f (x | µ)π(µ) dµ 2 2 2σ τ nτ 2 + σ 2 −1/2 2 exp − nτ + σ 2σ 2 τ 2 2 2 µ− 2 nxτ + σ η nτ 2 + σ 2 2 ! . −∞ Ası́, la distribución a posteriori es una normal de parámetros nxτ 2 + σ 2 η nτ 2 + σ 2 y 2σ 2 τ 2 nτ 2 + σ 2 y ası́ la familia de distribuciones normal es conjugada 4. Estimadores bayesianos Como, desde el punto de vista bayesiano, el parámetro sobre el que se realiza la inferencia es una variable aleatoria, parece lógico que dicha inferencia se base en caracterı́sticas calculadas a partir de distribuciones que representen la evolución del parámetro como variable aleatoria. En este sentido, la distribución a posteriori parece la más indicada para estos fines. No obstante, hay que tener en cuenta, como se vio en el tema 1, las funciones de pérdida (ası́ como las funciones de riesgo asociadas) que determinan los criterios de obtención de estimadores (recordemos, por ejemplo, como la pérdida cuadrática y la varianza como riesgo asociado a ella, fue el criterio más desarrollado desde el punto de vista clásico). Página www Página inicial Contenido JJ II J I Página 7 de 11 Regresar Pantalla completa Cerrar Abandonar y por lo tanto, π(µ | x) = Z f (x | µ)π(µ) +∞ = (2π)−1/2 f (x | µ)π(µ) dµ 2 2 2σ τ nτ 2 + σ 2 −1/2 2 exp − nτ + σ 2σ 2 τ 2 2 2 µ− 2 nxτ + σ η nτ 2 + σ 2 2 ! . −∞ Ası́, la distribución a posteriori es una normal de parámetros nxτ 2 + σ 2 η nτ 2 + σ 2 y 2σ 2 τ 2 nτ 2 + σ 2 y ası́ la familia de distribuciones normal es conjugada 4. Estimadores bayesianos Como, desde el punto de vista bayesiano, el parámetro sobre el que se realiza la inferencia es una variable aleatoria, parece lógico que dicha inferencia se base en caracterı́sticas calculadas a partir de distribuciones que representen la evolución del parámetro como variable aleatoria. En este sentido, la distribución a posteriori parece la más indicada para estos fines. No obstante, hay que tener en cuenta, como se vio en el tema 1, las funciones de pérdida (ası́ como las funciones de riesgo asociadas) que determinan los criterios de obtención de estimadores (recordemos, por ejemplo, como la pérdida cuadrática y la varianza como riesgo asociado a ella, fue el criterio más desarrollado desde el punto de vista clásico). Sea L(θ, T ) una función de pérdida para estimar una función paramétrica ψ(θ). Puesto que en la perspectiva bayesiana se parte de una distribución inicial que se actualiza con los datos para obtener la distribución final, el riesgo asociado a la pérdida L(θ, T ) también se actualiza en ese sentido, dando origen al riesgo a posteriori : Página www Página inicial Contenido JJ II J I Página 7 de 11 Regresar Pantalla completa Cerrar Abandonar y por lo tanto, π(µ | x) = Z f (x | µ)π(µ) +∞ = (2π)−1/2 f (x | µ)π(µ) dµ 2 2 2σ τ nτ 2 + σ 2 −1/2 2 exp − nτ + σ 2σ 2 τ 2 2 2 µ− 2 nxτ + σ η nτ 2 + σ 2 2 ! . −∞ Ası́, la distribución a posteriori es una normal de parámetros nxτ 2 + σ 2 η nτ 2 + σ 2 y 2σ 2 τ 2 nτ 2 + σ 2 y ası́ la familia de distribuciones normal es conjugada 4. Estimadores bayesianos Página www Como, desde el punto de vista bayesiano, el parámetro sobre el que se realiza la inferencia es una variable aleatoria, parece lógico que dicha inferencia se base en caracterı́sticas calculadas a partir de distribuciones que representen la evolución del parámetro como variable aleatoria. En este sentido, la distribución a posteriori parece la más indicada para estos fines. No obstante, hay que tener en cuenta, como se vio en el tema 1, las funciones de pérdida (ası́ como las funciones de riesgo asociadas) que determinan los criterios de obtención de estimadores (recordemos, por ejemplo, como la pérdida cuadrática y la varianza como riesgo asociado a ella, fue el criterio más desarrollado desde el punto de vista clásico). Sea L(θ, T ) una función de pérdida para estimar una función paramétrica ψ(θ). Puesto que en la perspectiva bayesiana se parte de una distribución inicial que se actualiza con los datos para obtener la distribución final, el riesgo asociado a la pérdida L(θ, T ) también se actualiza en ese sentido, dando origen al riesgo a posteriori : Z π RF (θ, T ) = L(θ, T )π(θ | x) dθ. θ∈Θ Página inicial Contenido JJ II J I Página 7 de 11 Regresar Pantalla completa Cerrar Abandonar El sentido de los estimadores bayesianos es que toda la información sobre θ, una vez observada la muestra, se encuentra contenida en la distribución final. En ese sentido, esa distribución es realmente el estimador bayesiano. no obstante, si se desea proporcionar un valor de θ (una estimación) se puede emplear una caracterı́stica de dicha distribución que minimice el riesgo seleccionado. Página www Página inicial Contenido JJ II J I Página 8 de 11 Regresar Pantalla completa Cerrar Abandonar El sentido de los estimadores bayesianos es que toda la información sobre θ, una vez observada la muestra, se encuentra contenida en la distribución final. En ese sentido, esa distribución es realmente el estimador bayesiano. no obstante, si se desea proporcionar un valor de θ (una estimación) se puede emplear una caracterı́stica de dicha distribución que minimice el riesgo seleccionado. Por ello, para pérdidas cuadráticas L(θ, t) = (θ − t)2 , se elige la media de la distribución a posteriori, mientras que para pérdidas del tipo L(θ, t) =| θ − t | se elige la mediana. Página www Página inicial Contenido JJ II J I Página 8 de 11 Regresar Pantalla completa Cerrar Abandonar El sentido de los estimadores bayesianos es que toda la información sobre θ, una vez observada la muestra, se encuentra contenida en la distribución final. En ese sentido, esa distribución es realmente el estimador bayesiano. no obstante, si se desea proporcionar un valor de θ (una estimación) se puede emplear una caracterı́stica de dicha distribución que minimice el riesgo seleccionado. Por ello, para pérdidas cuadráticas L(θ, t) = (θ − t)2 , se elige la media de la distribución a posteriori, mientras que para pérdidas del tipo L(θ, t) =| θ − t | se elige la mediana. Ejemplo 4.1. Sea X una variable aleatoria de Bernoulli de parámetro θ y consideremos π(θ) = I(0,1) (θ). Deseamos obtener el estimador bayesiano a partir de una muestra aleatoria simple de tamaño n, considerando la función de pérdida L(θ, t) = (θ − t)2 . Página www Página inicial Contenido JJ II J I Página 8 de 11 Regresar Pantalla completa Cerrar Abandonar El sentido de los estimadores bayesianos es que toda la información sobre θ, una vez observada la muestra, se encuentra contenida en la distribución final. En ese sentido, esa distribución es realmente el estimador bayesiano. no obstante, si se desea proporcionar un valor de θ (una estimación) se puede emplear una caracterı́stica de dicha distribución que minimice el riesgo seleccionado. Por ello, para pérdidas cuadráticas L(θ, t) = (θ − t)2 , se elige la media de la distribución a posteriori, mientras que para pérdidas del tipo L(θ, t) =| θ − t | se elige la mediana. Ejemplo 4.1. Sea X una variable aleatoria de Bernoulli de parámetro θ y consideremos π(θ) = I(0,1) (θ). Deseamos obtener el estimador bayesiano a partir de una muestra aleatoria simple de tamaño n, considerando la función de pérdida L(θ, t) = (θ − t)2 . Pn Puesto que la distribución a posteriori es una distribución beta de parámetros i=1 xi + 1 y n − Pn i=1 xi + 1, se deduce que, para la función pérdida considerada, el estimador bayes es Página www Página inicial Contenido JJ II J I Página 8 de 11 Regresar Pantalla completa Cerrar Abandonar El sentido de los estimadores bayesianos es que toda la información sobre θ, una vez observada la muestra, se encuentra contenida en la distribución final. En ese sentido, esa distribución es realmente el estimador bayesiano. no obstante, si se desea proporcionar un valor de θ (una estimación) se puede emplear una caracterı́stica de dicha distribución que minimice el riesgo seleccionado. Por ello, para pérdidas cuadráticas L(θ, t) = (θ − t)2 , se elige la media de la distribución a posteriori, mientras que para pérdidas del tipo L(θ, t) =| θ − t | se elige la mediana. Ejemplo 4.1. Sea X una variable aleatoria de Bernoulli de parámetro θ y consideremos π(θ) = I(0,1) (θ). Deseamos obtener el estimador bayesiano a partir de una muestra aleatoria simple de tamaño n, considerando la función de pérdida L(θ, t) = (θ − t)2 . Pn Puesto que la distribución a posteriori es una distribución beta de parámetros i=1 xi + 1 y n − Pn i=1 xi + 1, se deduce que, para la función pérdida considerada, el estimador bayes es n X T (x) = Página www xi + 1 i=1 n+2 · Página inicial Contenido JJ II J I Página 8 de 11 Regresar Pantalla completa Cerrar Abandonar El sentido de los estimadores bayesianos es que toda la información sobre θ, una vez observada la muestra, se encuentra contenida en la distribución final. En ese sentido, esa distribución es realmente el estimador bayesiano. no obstante, si se desea proporcionar un valor de θ (una estimación) se puede emplear una caracterı́stica de dicha distribución que minimice el riesgo seleccionado. Por ello, para pérdidas cuadráticas L(θ, t) = (θ − t)2 , se elige la media de la distribución a posteriori, mientras que para pérdidas del tipo L(θ, t) =| θ − t | se elige la mediana. Ejemplo 4.1. Sea X una variable aleatoria de Bernoulli de parámetro θ y consideremos π(θ) = I(0,1) (θ). Deseamos obtener el estimador bayesiano a partir de una muestra aleatoria simple de tamaño n, considerando la función de pérdida L(θ, t) = (θ − t)2 . Pn Puesto que la distribución a posteriori es una distribución beta de parámetros i=1 xi + 1 y n − Pn i=1 xi + 1, se deduce que, para la función pérdida considerada, el estimador bayes es n X T (x) = Página www xi + 1 i=1 n+2 · Página inicial Contenido Ejemplo 4.2. Sea X una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y consideremos como distribución a priori una distribución normal de parámetros η y τ 2 . Entonces, dada una muestra aleatoria simple de tamaño n, la distribución a posteriori es una normal de parámetros nxτ 2 + σ 2 η nτ 2 + σ 2 2σ 2 τ 2 y · nτ 2 + σ 2 JJ II J I Página 8 de 11 Regresar Pantalla completa Cerrar Abandonar El sentido de los estimadores bayesianos es que toda la información sobre θ, una vez observada la muestra, se encuentra contenida en la distribución final. En ese sentido, esa distribución es realmente el estimador bayesiano. no obstante, si se desea proporcionar un valor de θ (una estimación) se puede emplear una caracterı́stica de dicha distribución que minimice el riesgo seleccionado. Por ello, para pérdidas cuadráticas L(θ, t) = (θ − t)2 , se elige la media de la distribución a posteriori, mientras que para pérdidas del tipo L(θ, t) =| θ − t | se elige la mediana. Ejemplo 4.1. Sea X una variable aleatoria de Bernoulli de parámetro θ y consideremos π(θ) = I(0,1) (θ). Deseamos obtener el estimador bayesiano a partir de una muestra aleatoria simple de tamaño n, considerando la función de pérdida L(θ, t) = (θ − t)2 . Pn Puesto que la distribución a posteriori es una distribución beta de parámetros i=1 xi + 1 y n − Pn i=1 xi + 1, se deduce que, para la función pérdida considerada, el estimador bayes es n X T (x) = Página www xi + 1 i=1 n+2 · Página inicial Contenido Ejemplo 4.2. Sea X una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y consideremos como distribución a priori una distribución normal de parámetros η y τ 2 . Entonces, dada una muestra aleatoria simple de tamaño n, la distribución a posteriori es una normal de parámetros nxτ 2 + σ 2 η nτ 2 + σ 2 2σ 2 τ 2 y · nτ 2 + σ 2 Ası́ pues, tanto si se considera como función de pérdida L(θ, t) = (θ − t)2 como L(θ, t) =| θ − t |, el estimador bayes de µ es JJ II J I Página 8 de 11 Regresar Pantalla completa Cerrar Abandonar El sentido de los estimadores bayesianos es que toda la información sobre θ, una vez observada la muestra, se encuentra contenida en la distribución final. En ese sentido, esa distribución es realmente el estimador bayesiano. no obstante, si se desea proporcionar un valor de θ (una estimación) se puede emplear una caracterı́stica de dicha distribución que minimice el riesgo seleccionado. Por ello, para pérdidas cuadráticas L(θ, t) = (θ − t)2 , se elige la media de la distribución a posteriori, mientras que para pérdidas del tipo L(θ, t) =| θ − t | se elige la mediana. Ejemplo 4.1. Sea X una variable aleatoria de Bernoulli de parámetro θ y consideremos π(θ) = I(0,1) (θ). Deseamos obtener el estimador bayesiano a partir de una muestra aleatoria simple de tamaño n, considerando la función de pérdida L(θ, t) = (θ − t)2 . Pn Puesto que la distribución a posteriori es una distribución beta de parámetros i=1 xi + 1 y n − Pn i=1 xi + 1, se deduce que, para la función pérdida considerada, el estimador bayes es n X T (x) = Página www xi + 1 i=1 n+2 · Página inicial Contenido Ejemplo 4.2. Sea X una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y consideremos como distribución a priori una distribución normal de parámetros η y τ 2 . Entonces, dada una muestra aleatoria simple de tamaño n, la distribución a posteriori es una normal de parámetros nxτ 2 + σ 2 η nτ 2 + σ 2 2σ 2 τ 2 y · nτ 2 + σ 2 Ası́ pues, tanto si se considera como función de pérdida L(θ, t) = (θ − t)2 como L(θ, t) =| θ − t |, el estimador bayes de µ es nxτ 2 + σ 2 η T (x) = · nτ 2 + σ 2 JJ II J I Página 8 de 11 Regresar Pantalla completa Cerrar Abandonar 5. Regiones de confianza bayesianas Página www Página inicial Contenido JJ II J I Página 9 de 11 Regresar Pantalla completa Cerrar Abandonar 5. Regiones de confianza bayesianas Mediante la aproximación bayesiana, el cálculo de regiones de confianza se realizará, al igual que los estimadores puntuales, a partir de la distribución final. Página www Página inicial Contenido JJ II J I Página 9 de 11 Regresar Pantalla completa Cerrar Abandonar 5. Regiones de confianza bayesianas Mediante la aproximación bayesiana, el cálculo de regiones de confianza se realizará, al igual que los estimadores puntuales, a partir de la distribución final. Sin embargo, ahora la interpretación es diferente ya que el parámetro es aleatorio. Ası́ se suele hablar de región creı́ble. Ası́ se dice que C(x) es una región creı́ble de probabilidad 1 − α si P (θ ∈ C(x) | X = x) ≥ 1 − α donde la probabilidad se calcula mediante la distribución a posteriori. Página www Página inicial Contenido JJ II J I Página 9 de 11 Regresar Pantalla completa Cerrar Abandonar 5. Regiones de confianza bayesianas Mediante la aproximación bayesiana, el cálculo de regiones de confianza se realizará, al igual que los estimadores puntuales, a partir de la distribución final. Sin embargo, ahora la interpretación es diferente ya que el parámetro es aleatorio. Ası́ se suele hablar de región creı́ble. Ası́ se dice que C(x) es una región creı́ble de probabilidad 1 − α si P (θ ∈ C(x) | X = x) ≥ 1 − α donde la probabilidad se calcula mediante la distribución a posteriori. Ejemplo 5.1. Siguiendo con el ejemplo en el que X es una variable aleatoria de Bernoulli de parámetro θ y se considera π(θ) = I(0,1) (θ), sabemos que a partir de una muestra Pn aleatoria simple Pn de tamaño n, la distribución a posteriori es una distribución beta de parámetros i=1 xi + 1 y n − i=1 xi + 1. Página www Página inicial Contenido JJ II J I Página 9 de 11 Regresar Pantalla completa Cerrar Abandonar 5. Regiones de confianza bayesianas Mediante la aproximación bayesiana, el cálculo de regiones de confianza se realizará, al igual que los estimadores puntuales, a partir de la distribución final. Sin embargo, ahora la interpretación es diferente ya que el parámetro es aleatorio. Ası́ se suele hablar de región creı́ble. Ası́ se dice que C(x) es una región creı́ble de probabilidad 1 − α si P (θ ∈ C(x) | X = x) ≥ 1 − α donde la probabilidad se calcula mediante la distribución a posteriori. Ejemplo 5.1. Siguiendo con el ejemplo en el que X es una variable aleatoria de Bernoulli de parámetro θ y se considera π(θ) = I(0,1) (θ), sabemos que a partir de una muestra Pn aleatoria simple Pn de tamaño n, la distribución a posteriori es una distribución beta de parámetros i=1 xi + 1 y n − i=1 xi + 1. P De esta forma, tomando por ejemplo n = 10, ni=1 xi = 3 y α = 0.1, la distribución final es una beta de parámetros 4 y 8. Considerando colas de igual tamaño, α/2, la región creı́ble que se obtiene es C(x) = (0.135, 0.564). Página www Página inicial Contenido JJ II J I Página 9 de 11 Regresar Pantalla completa Cerrar Abandonar 5. Regiones de confianza bayesianas Mediante la aproximación bayesiana, el cálculo de regiones de confianza se realizará, al igual que los estimadores puntuales, a partir de la distribución final. Sin embargo, ahora la interpretación es diferente ya que el parámetro es aleatorio. Ası́ se suele hablar de región creı́ble. Ası́ se dice que C(x) es una región creı́ble de probabilidad 1 − α si P (θ ∈ C(x) | X = x) ≥ 1 − α donde la probabilidad se calcula mediante la distribución a posteriori. Ejemplo 5.1. Siguiendo con el ejemplo en el que X es una variable aleatoria de Bernoulli de parámetro θ y se considera π(θ) = I(0,1) (θ), sabemos que a partir de una muestra Pn aleatoria simple Pn de tamaño n, la distribución a posteriori es una distribución beta de parámetros i=1 xi + 1 y n − i=1 xi + 1. P De esta forma, tomando por ejemplo n = 10, ni=1 xi = 3 y α = 0.1, la distribución final es una beta de parámetros 4 y 8. Considerando colas de igual tamaño, α/2, la región creı́ble que se obtiene es C(x) = (0.135, 0.564). Observemos que en este tipo de cálculo existe el problema, como ocurrı́a en el caso clásico, de determinar los lı́mites del intervalo dependiendo de cómo se reparte la probabilidad. Para un valor α fijado, la solución a dicho problema no es única y puede conducir a distintas regiones. Página www Página inicial Contenido JJ II J I Página 9 de 11 Regresar Pantalla completa Cerrar Abandonar 5. Regiones de confianza bayesianas Mediante la aproximación bayesiana, el cálculo de regiones de confianza se realizará, al igual que los estimadores puntuales, a partir de la distribución final. Sin embargo, ahora la interpretación es diferente ya que el parámetro es aleatorio. Ası́ se suele hablar de región creı́ble. Ası́ se dice que C(x) es una región creı́ble de probabilidad 1 − α si P (θ ∈ C(x) | X = x) ≥ 1 − α donde la probabilidad se calcula mediante la distribución a posteriori. Ejemplo 5.1. Siguiendo con el ejemplo en el que X es una variable aleatoria de Bernoulli de parámetro θ y se considera π(θ) = I(0,1) (θ), sabemos que a partir de una muestra Pn aleatoria simple Pn de tamaño n, la distribución a posteriori es una distribución beta de parámetros i=1 xi + 1 y n − i=1 xi + 1. P De esta forma, tomando por ejemplo n = 10, ni=1 xi = 3 y α = 0.1, la distribución final es una beta de parámetros 4 y 8. Considerando colas de igual tamaño, α/2, la región creı́ble que se obtiene es C(x) = (0.135, 0.564). Observemos que en este tipo de cálculo existe el problema, como ocurrı́a en el caso clásico, de determinar los lı́mites del intervalo dependiendo de cómo se reparte la probabilidad. Para un valor α fijado, la solución a dicho problema no es única y puede conducir a distintas regiones. Página www Página inicial Contenido JJ II J I Página 9 de 11 La solución más correcta es escoger la región de forma que los puntos en ella tengan la máxima probabilidad final posible. En el caso de que la región sea un intervalo, ello consigue además que el intervalo tenga amplitud mı́nima. Esta solución suele denominarse región creı́ble con mayor distribución final (HPD en la nomenclatura anglosajona). Regresar Pantalla completa Cerrar Abandonar 5. Regiones de confianza bayesianas Mediante la aproximación bayesiana, el cálculo de regiones de confianza se realizará, al igual que los estimadores puntuales, a partir de la distribución final. Sin embargo, ahora la interpretación es diferente ya que el parámetro es aleatorio. Ası́ se suele hablar de región creı́ble. Ası́ se dice que C(x) es una región creı́ble de probabilidad 1 − α si P (θ ∈ C(x) | X = x) ≥ 1 − α donde la probabilidad se calcula mediante la distribución a posteriori. Ejemplo 5.1. Siguiendo con el ejemplo en el que X es una variable aleatoria de Bernoulli de parámetro θ y se considera π(θ) = I(0,1) (θ), sabemos que a partir de una muestra Pn aleatoria simple Pn de tamaño n, la distribución a posteriori es una distribución beta de parámetros i=1 xi + 1 y n − i=1 xi + 1. P De esta forma, tomando por ejemplo n = 10, ni=1 xi = 3 y α = 0.1, la distribución final es una beta de parámetros 4 y 8. Considerando colas de igual tamaño, α/2, la región creı́ble que se obtiene es C(x) = (0.135, 0.564). Observemos que en este tipo de cálculo existe el problema, como ocurrı́a en el caso clásico, de determinar los lı́mites del intervalo dependiendo de cómo se reparte la probabilidad. Para un valor α fijado, la solución a dicho problema no es única y puede conducir a distintas regiones. Página www Página inicial Contenido JJ II J I Página 9 de 11 La solución más correcta es escoger la región de forma que los puntos en ella tengan la máxima probabilidad final posible. En el caso de que la región sea un intervalo, ello consigue además que el intervalo tenga amplitud mı́nima. Esta solución suele denominarse región creı́ble con mayor distribución final (HPD en la nomenclatura anglosajona). De esta forma, la región creı́ble HPD es de la forma C(x) = {θ ∈ Θ; π(θ | x) ≥ c} ≥ 1 − α. Regresar Pantalla completa Cerrar Abandonar 5. Regiones de confianza bayesianas Mediante la aproximación bayesiana, el cálculo de regiones de confianza se realizará, al igual que los estimadores puntuales, a partir de la distribución final. Sin embargo, ahora la interpretación es diferente ya que el parámetro es aleatorio. Ası́ se suele hablar de región creı́ble. Ası́ se dice que C(x) es una región creı́ble de probabilidad 1 − α si P (θ ∈ C(x) | X = x) ≥ 1 − α donde la probabilidad se calcula mediante la distribución a posteriori. Ejemplo 5.1. Siguiendo con el ejemplo en el que X es una variable aleatoria de Bernoulli de parámetro θ y se considera π(θ) = I(0,1) (θ), sabemos que a partir de una muestra Pn aleatoria simple Pn de tamaño n, la distribución a posteriori es una distribución beta de parámetros i=1 xi + 1 y n − i=1 xi + 1. P De esta forma, tomando por ejemplo n = 10, ni=1 xi = 3 y α = 0.1, la distribución final es una beta de parámetros 4 y 8. Considerando colas de igual tamaño, α/2, la región creı́ble que se obtiene es C(x) = (0.135, 0.564). Observemos que en este tipo de cálculo existe el problema, como ocurrı́a en el caso clásico, de determinar los lı́mites del intervalo dependiendo de cómo se reparte la probabilidad. Para un valor α fijado, la solución a dicho problema no es única y puede conducir a distintas regiones. Página www Página inicial Contenido JJ II J I Página 9 de 11 La solución más correcta es escoger la región de forma que los puntos en ella tengan la máxima probabilidad final posible. En el caso de que la región sea un intervalo, ello consigue además que el intervalo tenga amplitud mı́nima. Esta solución suele denominarse región creı́ble con mayor distribución final (HPD en la nomenclatura anglosajona). De esta forma, la región creı́ble HPD es de la forma C(x) = {θ ∈ Θ; π(θ | x) ≥ c} ≥ 1 − α. La solución a este problema, como ocurre en múltiples aplicaciones en el campo clásico, conduce a una cuestión numérica. En el ejemplo anterior, la solución lleva al intervalo (0.117, 0.542), que tiene una probabilidad 0.9 y es de menor longitud que el anterior. Regresar Pantalla completa Cerrar Abandonar Ejemplo 5.2. Siguiendo con el ejemplo en el que X es una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y se considera como distribución a priori una distribución normal de parámetros η y τ 2 , observada una muestra aleatoria simple de tamaño n, la distribución a posteriori es una normal de parámetros nxτ 2 + σ 2 η 2σ 2 τ 2 [µ | x] = y Var[µ | x] = · E nτ 2 + σ 2 nτ 2 + σ 2 Página www Página inicial Contenido JJ II J I Página 10 de 11 Regresar Pantalla completa Cerrar Abandonar Ejemplo 5.2. Siguiendo con el ejemplo en el que X es una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y se considera como distribución a priori una distribución normal de parámetros η y τ 2 , observada una muestra aleatoria simple de tamaño n, la distribución a posteriori es una normal de parámetros nxτ 2 + σ 2 η 2σ 2 τ 2 [µ | x] = y Var[µ | x] = · E nτ 2 + σ 2 nτ 2 + σ 2 Por lo tanto, µ − E[µ | x] p ; N1 [0, 1]· Var[µ | x] Página www Página inicial Contenido JJ II J I Página 10 de 11 Regresar Pantalla completa Cerrar Abandonar Ejemplo 5.2. Siguiendo con el ejemplo en el que X es una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y se considera como distribución a priori una distribución normal de parámetros η y τ 2 , observada una muestra aleatoria simple de tamaño n, la distribución a posteriori es una normal de parámetros nxτ 2 + σ 2 η 2σ 2 τ 2 [µ | x] = y Var[µ | x] = · E nτ 2 + σ 2 nτ 2 + σ 2 Por lo tanto, µ − E[µ | x] p ; N1 [0, 1]· Var[µ | x] Ası́, gracias a las caracterı́sticas de la distribución normal, la región HPD con probabilidad 1−α viene dada por p C(x) = {θ :| µ − E[µ | x] |< zα/2 Var[µ | x]}. Página www Página inicial Contenido JJ II J I Página 10 de 11 Regresar Pantalla completa Cerrar Abandonar Ejemplo 5.2. Siguiendo con el ejemplo en el que X es una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y se considera como distribución a priori una distribución normal de parámetros η y τ 2 , observada una muestra aleatoria simple de tamaño n, la distribución a posteriori es una normal de parámetros nxτ 2 + σ 2 η 2σ 2 τ 2 [µ | x] = y Var[µ | x] = · E nτ 2 + σ 2 nτ 2 + σ 2 Por lo tanto, µ − E[µ | x] p ; N1 [0, 1]· Var[µ | x] Ası́, gracias a las caracterı́sticas de la distribución normal, la región HPD con probabilidad 1−α viene dada por p C(x) = {θ :| µ − E[µ | x] |< zα/2 Var[µ | x]}. Página www 6. Contrastes bayesianos Página inicial Contenido JJ II J I Página 10 de 11 Regresar Pantalla completa Cerrar Abandonar Ejemplo 5.2. Siguiendo con el ejemplo en el que X es una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y se considera como distribución a priori una distribución normal de parámetros η y τ 2 , observada una muestra aleatoria simple de tamaño n, la distribución a posteriori es una normal de parámetros nxτ 2 + σ 2 η 2σ 2 τ 2 [µ | x] = y Var[µ | x] = · E nτ 2 + σ 2 nτ 2 + σ 2 Por lo tanto, µ − E[µ | x] p ; N1 [0, 1]· Var[µ | x] Ası́, gracias a las caracterı́sticas de la distribución normal, la región HPD con probabilidad 1−α viene dada por p C(x) = {θ :| µ − E[µ | x] |< zα/2 Var[µ | x]}. Página www 6. Contrastes bayesianos Página inicial Contenido Consideremos el problema de contraste H0 : θ ∈ Θ0 frente a H1 : θ ∈ Θ1 . JJ II J I Página 10 de 11 Regresar Pantalla completa Cerrar Abandonar Ejemplo 5.2. Siguiendo con el ejemplo en el que X es una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y se considera como distribución a priori una distribución normal de parámetros η y τ 2 , observada una muestra aleatoria simple de tamaño n, la distribución a posteriori es una normal de parámetros nxτ 2 + σ 2 η 2σ 2 τ 2 [µ | x] = y Var[µ | x] = · E nτ 2 + σ 2 nτ 2 + σ 2 Por lo tanto, µ − E[µ | x] p ; N1 [0, 1]· Var[µ | x] Ası́, gracias a las caracterı́sticas de la distribución normal, la región HPD con probabilidad 1−α viene dada por p C(x) = {θ :| µ − E[µ | x] |< zα/2 Var[µ | x]}. Página www 6. Contrastes bayesianos Página inicial Contenido Consideremos el problema de contraste H0 : θ ∈ Θ0 frente a H1 : θ ∈ Θ1 . Al igual que ocurre con la estimación, el enfoque bayesiano para el problema de contraste de hipótesis se centra en la distribución a posteriori, por lo que se puede hablar con toda propiedad de la probabilidad final de la hipótesis nula y la alternativa y compararlas para tomar una decisión definitiva. JJ II J I Página 10 de 11 Regresar Pantalla completa Cerrar Abandonar Ejemplo 5.2. Siguiendo con el ejemplo en el que X es una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y se considera como distribución a priori una distribución normal de parámetros η y τ 2 , observada una muestra aleatoria simple de tamaño n, la distribución a posteriori es una normal de parámetros nxτ 2 + σ 2 η 2σ 2 τ 2 [µ | x] = y Var[µ | x] = · E nτ 2 + σ 2 nτ 2 + σ 2 Por lo tanto, µ − E[µ | x] p ; N1 [0, 1]· Var[µ | x] Ası́, gracias a las caracterı́sticas de la distribución normal, la región HPD con probabilidad 1−α viene dada por p C(x) = {θ :| µ − E[µ | x] |< zα/2 Var[µ | x]}. Página www 6. Contrastes bayesianos Página inicial Contenido Consideremos el problema de contraste H0 : θ ∈ Θ0 frente a H1 : θ ∈ Θ1 . Al igual que ocurre con la estimación, el enfoque bayesiano para el problema de contraste de hipótesis se centra en la distribución a posteriori, por lo que se puede hablar con toda propiedad de la probabilidad final de la hipótesis nula y la alternativa y compararlas para tomar una decisión definitiva. Llamemos P (Θi | x), i = 1, 2, a la probabilidad de que θ ∈ Θi , i = 1, 2, cuando dicha probabilidad se mide con la distribución a posteriori. En consecuencia, como ambas probabilidades pueden ser calculadas, la región crı́tica es JJ II J I Página 10 de 11 Regresar Pantalla completa Cerrar Abandonar Ejemplo 5.2. Siguiendo con el ejemplo en el que X es una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y se considera como distribución a priori una distribución normal de parámetros η y τ 2 , observada una muestra aleatoria simple de tamaño n, la distribución a posteriori es una normal de parámetros nxτ 2 + σ 2 η 2σ 2 τ 2 [µ | x] = y Var[µ | x] = · E nτ 2 + σ 2 nτ 2 + σ 2 Por lo tanto, µ − E[µ | x] p ; N1 [0, 1]· Var[µ | x] Ası́, gracias a las caracterı́sticas de la distribución normal, la región HPD con probabilidad 1−α viene dada por p C(x) = {θ :| µ − E[µ | x] |< zα/2 Var[µ | x]}. Página www 6. Contrastes bayesianos Página inicial Contenido Consideremos el problema de contraste H0 : θ ∈ Θ0 frente a H1 : θ ∈ Θ1 . Al igual que ocurre con la estimación, el enfoque bayesiano para el problema de contraste de hipótesis se centra en la distribución a posteriori, por lo que se puede hablar con toda propiedad de la probabilidad final de la hipótesis nula y la alternativa y compararlas para tomar una decisión definitiva. Llamemos P (Θi | x), i = 1, 2, a la probabilidad de que θ ∈ Θi , i = 1, 2, cuando dicha probabilidad se mide con la distribución a posteriori. En consecuencia, como ambas probabilidades pueden ser calculadas, la región crı́tica es C = {x ∈ Rn : P (Θ1 | x) > P (Θ0 | x)} . JJ II J I Página 10 de 11 Regresar Pantalla completa Cerrar Abandonar Comentario 6.1. En este planteamiento el énfasis se hace sobre el espacio paramétrico y no sobre el espacio muestral como hace el planteamiento clásico. Página www Página inicial Contenido JJ II J I Página 11 de 11 Regresar Pantalla completa Cerrar Abandonar Comentario 6.1. En este planteamiento el énfasis se hace sobre el espacio paramétrico y no sobre el espacio muestral como hace el planteamiento clásico. En efecto, ahora no se va a estar interesado en todos los puntos de la región crı́tica, sino en si para un punto muestral fijo, el que se observa, se acepta o se rechaza la hipótesis nula en función de las probabilidades a posteriori. Página www Página inicial Contenido JJ II J I Página 11 de 11 Regresar Pantalla completa Cerrar Abandonar Comentario 6.1. En este planteamiento el énfasis se hace sobre el espacio paramétrico y no sobre el espacio muestral como hace el planteamiento clásico. En efecto, ahora no se va a estar interesado en todos los puntos de la región crı́tica, sino en si para un punto muestral fijo, el que se observa, se acepta o se rechaza la hipótesis nula en función de las probabilidades a posteriori. Además, observemos que ahora el comportamiento de ambas hipótesis es simétrico y simplemente se calculan las probabilidades finales de ambas hipótesis, verificándose P (Θ0 | x) + P (Θ1 | x) = 1, aceptándose aquella cuya probabilidad final sea mayor. La unión de todos los puntos muestrales para los cuales la probabilidad final de la hipótesis alternativa sea mayor que la de la nula conforman la región crı́tica. Página www Página inicial Contenido JJ II J I Página 11 de 11 Regresar Pantalla completa Cerrar Abandonar Comentario 6.1. En este planteamiento el énfasis se hace sobre el espacio paramétrico y no sobre el espacio muestral como hace el planteamiento clásico. En efecto, ahora no se va a estar interesado en todos los puntos de la región crı́tica, sino en si para un punto muestral fijo, el que se observa, se acepta o se rechaza la hipótesis nula en función de las probabilidades a posteriori. Además, observemos que ahora el comportamiento de ambas hipótesis es simétrico y simplemente se calculan las probabilidades finales de ambas hipótesis, verificándose P (Θ0 | x) + P (Θ1 | x) = 1, aceptándose aquella cuya probabilidad final sea mayor. La unión de todos los puntos muestrales para los cuales la probabilidad final de la hipótesis alternativa sea mayor que la de la nula conforman la región crı́tica. Ejemplo 6.1. Sea X una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y sea una distribución normal de parámetros η y τ 2 la distribución a priori para µ. Consideremos el problema de contraste H0 : µ ≤ µ0 frente a H1 : µ > µ0 . Página www Página inicial Contenido JJ II J I Página 11 de 11 Regresar Pantalla completa Cerrar Abandonar Comentario 6.1. En este planteamiento el énfasis se hace sobre el espacio paramétrico y no sobre el espacio muestral como hace el planteamiento clásico. En efecto, ahora no se va a estar interesado en todos los puntos de la región crı́tica, sino en si para un punto muestral fijo, el que se observa, se acepta o se rechaza la hipótesis nula en función de las probabilidades a posteriori. Además, observemos que ahora el comportamiento de ambas hipótesis es simétrico y simplemente se calculan las probabilidades finales de ambas hipótesis, verificándose P (Θ0 | x) + P (Θ1 | x) = 1, aceptándose aquella cuya probabilidad final sea mayor. La unión de todos los puntos muestrales para los cuales la probabilidad final de la hipótesis alternativa sea mayor que la de la nula conforman la región crı́tica. Ejemplo 6.1. Sea X una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y sea una distribución normal de parámetros η y τ 2 la distribución a priori para µ. Consideremos el problema de contraste H0 : µ ≤ µ0 frente a H1 : µ > µ0 . Observada una muestra aleatoria simple de tamaño n sabemos que la distribución a posteriori es una normal de parámetros nxτ 2 + σ 2 η 2σ 2 τ 2 y · nτ 2 + σ 2 nτ 2 + σ 2 Página www Página inicial Contenido JJ II J I Página 11 de 11 Regresar Pantalla completa Cerrar Abandonar Comentario 6.1. En este planteamiento el énfasis se hace sobre el espacio paramétrico y no sobre el espacio muestral como hace el planteamiento clásico. En efecto, ahora no se va a estar interesado en todos los puntos de la región crı́tica, sino en si para un punto muestral fijo, el que se observa, se acepta o se rechaza la hipótesis nula en función de las probabilidades a posteriori. Además, observemos que ahora el comportamiento de ambas hipótesis es simétrico y simplemente se calculan las probabilidades finales de ambas hipótesis, verificándose P (Θ0 | x) + P (Θ1 | x) = 1, aceptándose aquella cuya probabilidad final sea mayor. La unión de todos los puntos muestrales para los cuales la probabilidad final de la hipótesis alternativa sea mayor que la de la nula conforman la región crı́tica. Ejemplo 6.1. Sea X una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y sea una distribución normal de parámetros η y τ 2 la distribución a priori para µ. Consideremos el problema de contraste H0 : µ ≤ µ0 frente a H1 : µ > µ0 . Observada una muestra aleatoria simple de tamaño n sabemos que la distribución a posteriori es una normal de parámetros nxτ 2 + σ 2 η 2σ 2 τ 2 y · nτ 2 + σ 2 nτ 2 + σ 2 Se decidirá aceptar H0 si y sólo si P (µ ≤ µ0 | x) > P (µ > µ0 | x), lo cual ocurrirá si y sólo si P (µ ≤ µ0 | x) ≥ 1/2. Página www Página inicial Contenido JJ II J I Página 11 de 11 Regresar Pantalla completa Cerrar Abandonar Comentario 6.1. En este planteamiento el énfasis se hace sobre el espacio paramétrico y no sobre el espacio muestral como hace el planteamiento clásico. En efecto, ahora no se va a estar interesado en todos los puntos de la región crı́tica, sino en si para un punto muestral fijo, el que se observa, se acepta o se rechaza la hipótesis nula en función de las probabilidades a posteriori. Además, observemos que ahora el comportamiento de ambas hipótesis es simétrico y simplemente se calculan las probabilidades finales de ambas hipótesis, verificándose P (Θ0 | x) + P (Θ1 | x) = 1, aceptándose aquella cuya probabilidad final sea mayor. La unión de todos los puntos muestrales para los cuales la probabilidad final de la hipótesis alternativa sea mayor que la de la nula conforman la región crı́tica. Ejemplo 6.1. Sea X una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y sea una distribución normal de parámetros η y τ 2 la distribución a priori para µ. Consideremos el problema de contraste H0 : µ ≤ µ0 frente a H1 : µ > µ0 . Observada una muestra aleatoria simple de tamaño n sabemos que la distribución a posteriori es una normal de parámetros nxτ 2 + σ 2 η 2σ 2 τ 2 y · nτ 2 + σ 2 nτ 2 + σ 2 Se decidirá aceptar H0 si y sólo si P (µ ≤ µ0 | x) > P (µ > µ0 | x), lo cual ocurrirá si y sólo si P (µ ≤ µ0 | x) ≥ 1/2. Como π(µ | x) es simétrica entorno a la media, P (µ ≤ µ0 | x) ≥ 1/2 si y sólo si la media de π(µ | x) es menor o igual que µ0 , lo cual es cierto si y sólo si σ 2 (µ0 − η) x ≤ µ0 + · nτ 2 Página www Página inicial Contenido JJ II J I Página 11 de 11 Regresar Pantalla completa Cerrar Abandonar Comentario 6.1. En este planteamiento el énfasis se hace sobre el espacio paramétrico y no sobre el espacio muestral como hace el planteamiento clásico. En efecto, ahora no se va a estar interesado en todos los puntos de la región crı́tica, sino en si para un punto muestral fijo, el que se observa, se acepta o se rechaza la hipótesis nula en función de las probabilidades a posteriori. Además, observemos que ahora el comportamiento de ambas hipótesis es simétrico y simplemente se calculan las probabilidades finales de ambas hipótesis, verificándose P (Θ0 | x) + P (Θ1 | x) = 1, aceptándose aquella cuya probabilidad final sea mayor. La unión de todos los puntos muestrales para los cuales la probabilidad final de la hipótesis alternativa sea mayor que la de la nula conforman la región crı́tica. Ejemplo 6.1. Sea X una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y sea una distribución normal de parámetros η y τ 2 la distribución a priori para µ. Consideremos el problema de contraste H0 : µ ≤ µ0 frente a H1 : µ > µ0 . Observada una muestra aleatoria simple de tamaño n sabemos que la distribución a posteriori es una normal de parámetros nxτ 2 + σ 2 η 2σ 2 τ 2 y · nτ 2 + σ 2 nτ 2 + σ 2 Se decidirá aceptar H0 si y sólo si P (µ ≤ µ0 | x) > P (µ > µ0 | x), lo cual ocurrirá si y sólo si P (µ ≤ µ0 | x) ≥ 1/2. Como π(µ | x) es simétrica entorno a la media, P (µ ≤ µ0 | x) ≥ 1/2 si y sólo si la media de π(µ | x) es menor o igual que µ0 , lo cual es cierto si y sólo si σ 2 (µ0 − η) x ≤ µ0 + · nτ 2 En particular, observemos que si η = µ0 , lo cual significa que se le da igual probabilidad inicial (1/2) a ambas hipótesis, entonces H0 se acepta si y sólo si x ≤ µ0 , lo cual ocurre, independientemente de π(µ), si el tamaño muestral n tiende a infinito. Página www Página inicial Contenido JJ II J I Página 11 de 11 Regresar Pantalla completa Cerrar Abandonar

Tema 4: Introducción a la inferencia bayesiana

Productos

Apoyo

Tema 4: Introducción a la inferencia bayesiana

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib