Tema 4: Introducción a la inferencia bayesiana

Anuncio
Inferencia y Decisión. Licenciado en Ciencias y Técnicas Estadı́sticas
Curso 2010/2011. Prof. Dr. Francisco de Ası́s Torres Ruiz
Tema 4: Introducción a la inferencia bayesiana
Página www
Página inicial
Contenido
JJ
II
J
I
Página 1 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
Inferencia y Decisión. Licenciado en Ciencias y Técnicas Estadı́sticas
Curso 2010/2011. Prof. Dr. Francisco de Ası́s Torres Ruiz
Tema 4: Introducción a la inferencia bayesiana
Índice
1. Introducción
2
2. Distribución a priori y a posteriori
2
3. Familias conjugadas
4
4. Estimadores bayesianos
7
5. Regiones de confianza bayesianas
6. Contrastes bayesianos
9
10
Página www
Página inicial
Contenido
JJ
II
J
I
Página 1 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
1.
Introducción
Página www
Página inicial
Contenido
JJ
II
J
I
Página 2 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
1.
Introducción
Como ya se ha comentado en repetidas ocasiones, un problema de inferencia estadı́stica es un problema en el que se han de analizar datos que han sido generados de acuerdo con alguna distribución de
probabilidad desconocida, planteando determinadas cuestiones sobre tal distribución que permitan, tras
analizar los datos, conocer la distribución que los ha generado.
Página www
Página inicial
Contenido
JJ
II
J
I
Página 2 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
1.
Introducción
Como ya se ha comentado en repetidas ocasiones, un problema de inferencia estadı́stica es un problema en el que se han de analizar datos que han sido generados de acuerdo con alguna distribución de
probabilidad desconocida, planteando determinadas cuestiones sobre tal distribución que permitan, tras
analizar los datos, conocer la distribución que los ha generado.
En muchas ocasiones la distribución de probabilidad es conocida salvo para los valores de uno o más
parámetros. En la perspectiva clásica, que hemos seguido hasta ahora, esos parámetros son desconocidos
pero son cantidades fijas pertenecientes a un determinado espacio, el espacio paramétrico. De esta forma
se han diseñado procedimientos para obtener estimaciones puntuales de los parámetros, estimaciones
por regiones de confianza, ası́ como tests de hipótesis que ayuden a decidir sobre cuestiones planteadas
acerca de dichos parámetros.
Página www
Página inicial
Contenido
JJ
II
J
I
Página 2 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
1.
Introducción
Como ya se ha comentado en repetidas ocasiones, un problema de inferencia estadı́stica es un problema en el que se han de analizar datos que han sido generados de acuerdo con alguna distribución de
probabilidad desconocida, planteando determinadas cuestiones sobre tal distribución que permitan, tras
analizar los datos, conocer la distribución que los ha generado.
En muchas ocasiones la distribución de probabilidad es conocida salvo para los valores de uno o más
parámetros. En la perspectiva clásica, que hemos seguido hasta ahora, esos parámetros son desconocidos
pero son cantidades fijas pertenecientes a un determinado espacio, el espacio paramétrico. De esta forma
se han diseñado procedimientos para obtener estimaciones puntuales de los parámetros, estimaciones
por regiones de confianza, ası́ como tests de hipótesis que ayuden a decidir sobre cuestiones planteadas
acerca de dichos parámetros.
Sin embargo existe otra aproximación a un problema de inferencia, la perspectiva bayesiana, que parte
de otra premisa como es la de que el parámetro de interés es una variable aleatoria, con las implicaciones
que ello conlleva en todo el planteamiento de la inferencia.
Página www
Página inicial
Contenido
JJ
II
J
I
Página 2 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
1.
Introducción
Como ya se ha comentado en repetidas ocasiones, un problema de inferencia estadı́stica es un problema en el que se han de analizar datos que han sido generados de acuerdo con alguna distribución de
probabilidad desconocida, planteando determinadas cuestiones sobre tal distribución que permitan, tras
analizar los datos, conocer la distribución que los ha generado.
En muchas ocasiones la distribución de probabilidad es conocida salvo para los valores de uno o más
parámetros. En la perspectiva clásica, que hemos seguido hasta ahora, esos parámetros son desconocidos
pero son cantidades fijas pertenecientes a un determinado espacio, el espacio paramétrico. De esta forma
se han diseñado procedimientos para obtener estimaciones puntuales de los parámetros, estimaciones
por regiones de confianza, ası́ como tests de hipótesis que ayuden a decidir sobre cuestiones planteadas
acerca de dichos parámetros.
Sin embargo existe otra aproximación a un problema de inferencia, la perspectiva bayesiana, que parte
de otra premisa como es la de que el parámetro de interés es una variable aleatoria, con las implicaciones
que ello conlleva en todo el planteamiento de la inferencia.
Este enfoque alternativo se fundamenta en que en ocasiones, antes de disponer de las observaciones
muestrales de la variable objeto de estudio, el experimentador dispone de información adicional acerca
de dónde es probable que se encuentre el valor del parámetro y esa información la puede expresar en
términos de una distribución de probabilidad en el espacio paramétrico. Por lo tanto, lo que estamos
diciendo es que la información previa de la que se dispone permite al investigador tener la creencia de
que es más probable que el parámetro se encuentre en una determinada región del espacio paramétrico
que en otra. Ello conduce al concepto de distribución inicial o distribución a priori.
Página www
Página inicial
Contenido
JJ
II
J
I
Página 2 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
1.
Introducción
Como ya se ha comentado en repetidas ocasiones, un problema de inferencia estadı́stica es un problema en el que se han de analizar datos que han sido generados de acuerdo con alguna distribución de
probabilidad desconocida, planteando determinadas cuestiones sobre tal distribución que permitan, tras
analizar los datos, conocer la distribución que los ha generado.
En muchas ocasiones la distribución de probabilidad es conocida salvo para los valores de uno o más
parámetros. En la perspectiva clásica, que hemos seguido hasta ahora, esos parámetros son desconocidos
pero son cantidades fijas pertenecientes a un determinado espacio, el espacio paramétrico. De esta forma
se han diseñado procedimientos para obtener estimaciones puntuales de los parámetros, estimaciones
por regiones de confianza, ası́ como tests de hipótesis que ayuden a decidir sobre cuestiones planteadas
acerca de dichos parámetros.
Sin embargo existe otra aproximación a un problema de inferencia, la perspectiva bayesiana, que parte
de otra premisa como es la de que el parámetro de interés es una variable aleatoria, con las implicaciones
que ello conlleva en todo el planteamiento de la inferencia.
Este enfoque alternativo se fundamenta en que en ocasiones, antes de disponer de las observaciones
muestrales de la variable objeto de estudio, el experimentador dispone de información adicional acerca
de dónde es probable que se encuentre el valor del parámetro y esa información la puede expresar en
términos de una distribución de probabilidad en el espacio paramétrico. Por lo tanto, lo que estamos
diciendo es que la información previa de la que se dispone permite al investigador tener la creencia de
que es más probable que el parámetro se encuentre en una determinada región del espacio paramétrico
que en otra. Ello conduce al concepto de distribución inicial o distribución a priori.
Además, una vez que se obtienen las observaciones muestrales, parece lógico pensar que esa información adicional debe servir para actualizar la distribución inicial. Ello da origen a la distribución final o
distribución a posteriori, distribución que recoge la creencia sobre el parámetro una vez que los datos
han sido observados (por lo tanto es condicional a ellos) y que, por lo tanto, debe ser la base sobre la
que se cimente la inferencia sobre el parámetro.
Página www
Página inicial
Contenido
JJ
II
J
I
Página 2 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
2.
Distribución a priori y a posteriori
Página www
Página inicial
Contenido
JJ
II
J
I
Página 2 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
2.
Distribución a priori y a posteriori
Como se ha dicho, la interpretación que ha de hacerse sobre la distribución inicial o a priori es el grado
de creencia acerca de la ocurrencia de los distintos valores del parámetro que se tiene antes de disponer
de las observaciones muestrales. Esta distribución puede determinar, con mayor o menor precisión, ese
nivel de creencia.
Página www
Página inicial
Contenido
JJ
II
J
I
Página 2 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
2.
Distribución a priori y a posteriori
Como se ha dicho, la interpretación que ha de hacerse sobre la distribución inicial o a priori es el grado
de creencia acerca de la ocurrencia de los distintos valores del parámetro que se tiene antes de disponer
de las observaciones muestrales. Esta distribución puede determinar, con mayor o menor precisión, ese
nivel de creencia.
Ejemplo 2.1. Sea θ la probabilidad de obtener una cara cuando se lanza una moneda y supongamos
que se sabe que la moneda es equilibrada o que tiene dos caras. Por lo tanto, los valores posibles de θ
forman el espacio paramétrico Θ = {1/2, 1}. Si llamamos p a la probabilidad inicial de que la moneda
sea equilibrada, entonces la distribución a priori es π(1/2) = p, π(1) = 1 − p.
Página www
Página inicial
Contenido
JJ
II
J
I
Página 2 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
2.
Distribución a priori y a posteriori
Como se ha dicho, la interpretación que ha de hacerse sobre la distribución inicial o a priori es el grado
de creencia acerca de la ocurrencia de los distintos valores del parámetro que se tiene antes de disponer
de las observaciones muestrales. Esta distribución puede determinar, con mayor o menor precisión, ese
nivel de creencia.
Ejemplo 2.1. Sea θ la probabilidad de obtener una cara cuando se lanza una moneda y supongamos
que se sabe que la moneda es equilibrada o que tiene dos caras. Por lo tanto, los valores posibles de θ
forman el espacio paramétrico Θ = {1/2, 1}. Si llamamos p a la probabilidad inicial de que la moneda
sea equilibrada, entonces la distribución a priori es π(1/2) = p, π(1) = 1 − p.
Ejemplo 2.2. Sea θ la proporción de artı́culos defectuosos en un gran lote de productos manufacturados
elaborados en una cadena de producción. Evidentemente, en este caso Θ = [0, 1], por lo que, a expensas
de disponer de información más precisa, podrı́a considerarse π(θ) = I[0≤θ≤1] .
Página www
Página inicial
Contenido
JJ
II
J
I
Página 2 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
2.
Distribución a priori y a posteriori
Como se ha dicho, la interpretación que ha de hacerse sobre la distribución inicial o a priori es el grado
de creencia acerca de la ocurrencia de los distintos valores del parámetro que se tiene antes de disponer
de las observaciones muestrales. Esta distribución puede determinar, con mayor o menor precisión, ese
nivel de creencia.
Ejemplo 2.1. Sea θ la probabilidad de obtener una cara cuando se lanza una moneda y supongamos
que se sabe que la moneda es equilibrada o que tiene dos caras. Por lo tanto, los valores posibles de θ
forman el espacio paramétrico Θ = {1/2, 1}. Si llamamos p a la probabilidad inicial de que la moneda
sea equilibrada, entonces la distribución a priori es π(1/2) = p, π(1) = 1 − p.
Ejemplo 2.2. Sea θ la proporción de artı́culos defectuosos en un gran lote de productos manufacturados
elaborados en una cadena de producción. Evidentemente, en este caso Θ = [0, 1], por lo que, a expensas
de disponer de información más precisa, podrı́a considerarse π(θ) = I[0≤θ≤1] .
Página www
Página inicial
Observemos que en los dos ejemplos se aporta una información inicial que refleja una determinada
creencia sobre el parámetro. No obstante hay una gran diferencia entre ellos. En efecto, en el primer
caso se trata de una distribución a priori en la que cada posible valor del parámetro tiene asignada
una determinada probabilidad mientras que en el segundo se reparte por igual la masa de probabilidad
inicial en el espacio paramétrico, lo cual es indicativo de que no hay ninguna preferencia a priori sobre
alguno o algunos valores del parámetro. Este caso es frecuente ya que no siempre se tiene información
del tipo plasmada en el primer ejemplo, y las distribuciones de ese tipo suelen recibir el nombre de no
informativas.
Contenido
JJ
II
J
I
Página 2 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
2.
Distribución a priori y a posteriori
Como se ha dicho, la interpretación que ha de hacerse sobre la distribución inicial o a priori es el grado
de creencia acerca de la ocurrencia de los distintos valores del parámetro que se tiene antes de disponer
de las observaciones muestrales. Esta distribución puede determinar, con mayor o menor precisión, ese
nivel de creencia.
Ejemplo 2.1. Sea θ la probabilidad de obtener una cara cuando se lanza una moneda y supongamos
que se sabe que la moneda es equilibrada o que tiene dos caras. Por lo tanto, los valores posibles de θ
forman el espacio paramétrico Θ = {1/2, 1}. Si llamamos p a la probabilidad inicial de que la moneda
sea equilibrada, entonces la distribución a priori es π(1/2) = p, π(1) = 1 − p.
Ejemplo 2.2. Sea θ la proporción de artı́culos defectuosos en un gran lote de productos manufacturados
elaborados en una cadena de producción. Evidentemente, en este caso Θ = [0, 1], por lo que, a expensas
de disponer de información más precisa, podrı́a considerarse π(θ) = I[0≤θ≤1] .
Página www
Página inicial
Observemos que en los dos ejemplos se aporta una información inicial que refleja una determinada
creencia sobre el parámetro. No obstante hay una gran diferencia entre ellos. En efecto, en el primer
caso se trata de una distribución a priori en la que cada posible valor del parámetro tiene asignada
una determinada probabilidad mientras que en el segundo se reparte por igual la masa de probabilidad
inicial en el espacio paramétrico, lo cual es indicativo de que no hay ninguna preferencia a priori sobre
alguno o algunos valores del parámetro. Este caso es frecuente ya que no siempre se tiene información
del tipo plasmada en el primer ejemplo, y las distribuciones de ese tipo suelen recibir el nombre de no
informativas.
El conocimiento a priori sobre el parámetro, expresado por la distribución inicial o a priori, puede ser
actualizado mediante los datos muestrales observados. Para ello, el Teorema de Bayes proporciona un forma de combinar ambos tipos de información, tanto la inicial acerca del parámetro como la proporcionada
por los datos. Ello da lugar a una nueva distribución, la distribución a posteriori o final.
Contenido
JJ
II
J
I
Página 2 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
Sea X una variable aleatoria con distribución en una familia paramétrica {Pθ : θ ∈ Θ}. La función
de densidad, o masa de probabilidad, de X será notada ahora como f (x | θ) para hacer notar que θ es
una variable y que, por lo tanto, la distribución de X depende del valor concreto que tome el parámetro
en tanto en cuanto es una variable aleatoria.
Página www
Página inicial
Contenido
JJ
II
J
I
Página 3 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
Sea X una variable aleatoria con distribución en una familia paramétrica {Pθ : θ ∈ Θ}. La función
de densidad, o masa de probabilidad, de X será notada ahora como f (x | θ) para hacer notar que θ es
una variable y que, por lo tanto, la distribución de X depende del valor concreto que tome el parámetro
en tanto en cuanto es una variable aleatoria.
Si X = (X1 , . . . , Xn )0 es una muestra aleatoria de X y notamos f (x | θ) a la función de densidad, o
masa de probabilidad, de X condicionada a θ, y π(θ) a la distribución inicial de θ, entonces es inmediato
comprobar que la distribución conjunta de X y θ será
f (x; θ) = f (x | θ)π(θ)
Página www
Página inicial
Contenido
JJ
II
J
I
Página 3 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
Sea X una variable aleatoria con distribución en una familia paramétrica {Pθ : θ ∈ Θ}. La función
de densidad, o masa de probabilidad, de X será notada ahora como f (x | θ) para hacer notar que θ es
una variable y que, por lo tanto, la distribución de X depende del valor concreto que tome el parámetro
en tanto en cuanto es una variable aleatoria.
Si X = (X1 , . . . , Xn )0 es una muestra aleatoria de X y notamos f (x | θ) a la función de densidad, o
masa de probabilidad, de X condicionada a θ, y π(θ) a la distribución inicial de θ, entonces es inmediato
comprobar que la distribución conjunta de X y θ será
f (x; θ) = f (x | θ)π(θ)
de donde la marginal de la muestra será
X

f (x | θ)π(θ)



 θ∈Θ
m(x) =
Z




f (x | θ)π(θ) dθ

en el caso discreto
Página www
en el caso continuo.
Página inicial
Θ
Contenido
JJ
II
J
I
Página 3 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
Sea X una variable aleatoria con distribución en una familia paramétrica {Pθ : θ ∈ Θ}. La función
de densidad, o masa de probabilidad, de X será notada ahora como f (x | θ) para hacer notar que θ es
una variable y que, por lo tanto, la distribución de X depende del valor concreto que tome el parámetro
en tanto en cuanto es una variable aleatoria.
Si X = (X1 , . . . , Xn )0 es una muestra aleatoria de X y notamos f (x | θ) a la función de densidad, o
masa de probabilidad, de X condicionada a θ, y π(θ) a la distribución inicial de θ, entonces es inmediato
comprobar que la distribución conjunta de X y θ será
f (x; θ) = f (x | θ)π(θ)
de donde la marginal de la muestra será
X

f (x | θ)π(θ)



 θ∈Θ
m(x) =
Z




f (x | θ)π(θ) dθ

en el caso discreto
Página www
en el caso continuo.
Página inicial
Θ
Contenido
Aplicando el Teorema de Bayes se obtiene la distribución final o a posteriori
JJ
II
J
I
Página 3 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
Sea X una variable aleatoria con distribución en una familia paramétrica {Pθ : θ ∈ Θ}. La función
de densidad, o masa de probabilidad, de X será notada ahora como f (x | θ) para hacer notar que θ es
una variable y que, por lo tanto, la distribución de X depende del valor concreto que tome el parámetro
en tanto en cuanto es una variable aleatoria.
Si X = (X1 , . . . , Xn )0 es una muestra aleatoria de X y notamos f (x | θ) a la función de densidad, o
masa de probabilidad, de X condicionada a θ, y π(θ) a la distribución inicial de θ, entonces es inmediato
comprobar que la distribución conjunta de X y θ será
f (x; θ) = f (x | θ)π(θ)
de donde la marginal de la muestra será
X

f (x | θ)π(θ)



 θ∈Θ
m(x) =
Z




f (x | θ)π(θ) dθ

en el caso discreto
Página www
en el caso continuo.
Página inicial
Θ
Contenido
Aplicando el Teorema de Bayes se obtiene la distribución final o a posteriori
JJ
II










J
I
π(θ | x) =









Página 3 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
Sea X una variable aleatoria con distribución en una familia paramétrica {Pθ : θ ∈ Θ}. La función
de densidad, o masa de probabilidad, de X será notada ahora como f (x | θ) para hacer notar que θ es
una variable y que, por lo tanto, la distribución de X depende del valor concreto que tome el parámetro
en tanto en cuanto es una variable aleatoria.
Si X = (X1 , . . . , Xn )0 es una muestra aleatoria de X y notamos f (x | θ) a la función de densidad, o
masa de probabilidad, de X condicionada a θ, y π(θ) a la distribución inicial de θ, entonces es inmediato
comprobar que la distribución conjunta de X y θ será
f (x; θ) = f (x | θ)π(θ)
de donde la marginal de la muestra será
X

f (x | θ)π(θ)



 θ∈Θ
m(x) =
Z




f (x | θ)π(θ) dθ

en el caso discreto
Página www
en el caso continuo.
Página inicial
Θ
Contenido
Aplicando el Teorema de Bayes se obtiene la distribución final o a posteriori
JJ
II










J
I
π(θ | x) =
f (x; θ)
=

m(x)








Página 3 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
Sea X una variable aleatoria con distribución en una familia paramétrica {Pθ : θ ∈ Θ}. La función
de densidad, o masa de probabilidad, de X será notada ahora como f (x | θ) para hacer notar que θ es
una variable y que, por lo tanto, la distribución de X depende del valor concreto que tome el parámetro
en tanto en cuanto es una variable aleatoria.
Si X = (X1 , . . . , Xn )0 es una muestra aleatoria de X y notamos f (x | θ) a la función de densidad, o
masa de probabilidad, de X condicionada a θ, y π(θ) a la distribución inicial de θ, entonces es inmediato
comprobar que la distribución conjunta de X y θ será
f (x; θ) = f (x | θ)π(θ)
de donde la marginal de la muestra será
X

f (x | θ)π(θ)



 θ∈Θ
m(x) =
Z




f (x | θ)π(θ) dθ

en el caso discreto
Página www
en el caso continuo.
Página inicial
Θ
Contenido
Aplicando el Teorema de Bayes se obtiene la distribución final o a posteriori
π(θ | x) =

f (x | θ)π(θ)


X



f (x | θ)π(θ)



 θ∈Θ
f (x; θ)
=

m(x)








JJ
II
J
I
Página 3 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
Sea X una variable aleatoria con distribución en una familia paramétrica {Pθ : θ ∈ Θ}. La función
de densidad, o masa de probabilidad, de X será notada ahora como f (x | θ) para hacer notar que θ es
una variable y que, por lo tanto, la distribución de X depende del valor concreto que tome el parámetro
en tanto en cuanto es una variable aleatoria.
Si X = (X1 , . . . , Xn )0 es una muestra aleatoria de X y notamos f (x | θ) a la función de densidad, o
masa de probabilidad, de X condicionada a θ, y π(θ) a la distribución inicial de θ, entonces es inmediato
comprobar que la distribución conjunta de X y θ será
f (x; θ) = f (x | θ)π(θ)
de donde la marginal de la muestra será
X

f (x | θ)π(θ)



 θ∈Θ
m(x) =
Z




f (x | θ)π(θ) dθ

en el caso discreto
Página www
en el caso continuo.
Página inicial
Θ
Contenido
Aplicando el Teorema de Bayes se obtiene la distribución final o a posteriori
π(θ | x) =

f (x | θ)π(θ)


X



f (x | θ)π(θ)



 θ∈Θ
f (x; θ)
=

m(x)








en el caso discreto
JJ
II
J
I
Página 3 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
Sea X una variable aleatoria con distribución en una familia paramétrica {Pθ : θ ∈ Θ}. La función
de densidad, o masa de probabilidad, de X será notada ahora como f (x | θ) para hacer notar que θ es
una variable y que, por lo tanto, la distribución de X depende del valor concreto que tome el parámetro
en tanto en cuanto es una variable aleatoria.
Si X = (X1 , . . . , Xn )0 es una muestra aleatoria de X y notamos f (x | θ) a la función de densidad, o
masa de probabilidad, de X condicionada a θ, y π(θ) a la distribución inicial de θ, entonces es inmediato
comprobar que la distribución conjunta de X y θ será
f (x; θ) = f (x | θ)π(θ)
de donde la marginal de la muestra será
X

f (x | θ)π(θ)



 θ∈Θ
m(x) =
Z




f (x | θ)π(θ) dθ

en el caso discreto
Página www
en el caso continuo.
Página inicial
Θ
Contenido
Aplicando el Teorema de Bayes se obtiene la distribución final o a posteriori
π(θ | x) =

f (x | θ)π(θ)


X



f (x | θ)π(θ)



 θ∈Θ
f (x; θ)
=

m(x)

f (x | θ)π(θ)


Z





f (x | θ)π(θ) dθ
Θ
en el caso discreto
JJ
II
J
I
Página 3 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
Sea X una variable aleatoria con distribución en una familia paramétrica {Pθ : θ ∈ Θ}. La función
de densidad, o masa de probabilidad, de X será notada ahora como f (x | θ) para hacer notar que θ es
una variable y que, por lo tanto, la distribución de X depende del valor concreto que tome el parámetro
en tanto en cuanto es una variable aleatoria.
Si X = (X1 , . . . , Xn )0 es una muestra aleatoria de X y notamos f (x | θ) a la función de densidad, o
masa de probabilidad, de X condicionada a θ, y π(θ) a la distribución inicial de θ, entonces es inmediato
comprobar que la distribución conjunta de X y θ será
f (x; θ) = f (x | θ)π(θ)
de donde la marginal de la muestra será
X

f (x | θ)π(θ)



 θ∈Θ
m(x) =
Z




f (x | θ)π(θ) dθ

en el caso discreto
Página www
en el caso continuo.
Página inicial
Θ
Contenido
Aplicando el Teorema de Bayes se obtiene la distribución final o a posteriori
π(θ | x) =

f (x | θ)π(θ)


X



f (x | θ)π(θ)



 θ∈Θ
f (x; θ)
=

m(x)

f (x | θ)π(θ)


Z





f (x | θ)π(θ) dθ
Θ
en el caso discreto
JJ
II
J
I
Página 3 de 11
Regresar
Pantalla completa
en el caso continuo
Cerrar
Abandonar
Ejemplo 2.3. Sea X una variable aleatoria de Bernoulli de parámetro θ y consideremos π(θ) = I(0,1) (θ).
Tras observar una muestra aleatoria simple de tamaño n de X se tiene
π(θ | x) =
Página www
Página inicial
Contenido
JJ
II
J
I
Página 4 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
Ejemplo 2.3. Sea X una variable aleatoria de Bernoulli de parámetro θ y consideremos π(θ) = I(0,1) (θ).
Tras observar una muestra aleatoria simple de tamaño n de X se tiene
f (x | θ)π(θ)
π(θ | x) = Z 1
f (x | θ) dθ
0
Página www
Página inicial
Contenido
JJ
II
J
I
Página 4 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
Ejemplo 2.3. Sea X una variable aleatoria de Bernoulli de parámetro θ y consideremos π(θ) = I(0,1) (θ).
Tras observar una muestra aleatoria simple de tamaño n de X se tiene
Pn
Pn
θ i=1 xi (1 − θ)n− i=1 xi I(0,1) (θ)
f (x | θ)π(θ)
π(θ | x) = Z 1
= Z 1 P
Pn
n
f (x | θ) dθ
θ i=1 xi (1 − θ)n− i=1 xi dθ
0
0
Página www
Página inicial
Contenido
JJ
II
J
I
Página 4 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
Ejemplo 2.3. Sea X una variable aleatoria de Bernoulli de parámetro θ y consideremos π(θ) = I(0,1) (θ).
Tras observar una muestra aleatoria simple de tamaño n de X se tiene
Pn
Pn
Pn
Pn
θ i=1 xi (1 − θ)n− i=1 xi I(0,1) (θ)
θ i=1 xi (1 − θ)n− i=1 xi I(0,1) (θ)
f (x | θ)π(θ)
Pn
Pn
π(θ | x) = Z 1
= Z 1 P
·
=
Pn
n
Beta(
x
+
1,
n
−
x
+
1)
i
i
i=1
i=1
f (x | θ) dθ
θ i=1 xi (1 − θ)n− i=1 xi dθ
0
0
Página www
Página inicial
Contenido
JJ
II
J
I
Página 4 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
Ejemplo 2.3. Sea X una variable aleatoria de Bernoulli de parámetro θ y consideremos π(θ) = I(0,1) (θ).
Tras observar una muestra aleatoria simple de tamaño n de X se tiene
Pn
Pn
Pn
Pn
θ i=1 xi (1 − θ)n− i=1 xi I(0,1) (θ)
θ i=1 xi (1 − θ)n− i=1 xi I(0,1) (θ)
f (x | θ)π(θ)
Pn
Pn
π(θ | x) = Z 1
= Z 1 P
·
=
Pn
n
Beta(
x
+
1,
n
−
x
+
1)
i
i
i=1
i=1
f (x | θ) dθ
θ i=1 xi (1 − θ)n− i=1 xi dθ
0
0
En consecuencia, la distribución a posteriori es una beta de parámetros
Pn
i=1 xi + 1 y n −
Pn
i=1 xi + 1.
Página www
Página inicial
Contenido
JJ
II
J
I
Página 4 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
Ejemplo 2.3. Sea X una variable aleatoria de Bernoulli de parámetro θ y consideremos π(θ) = I(0,1) (θ).
Tras observar una muestra aleatoria simple de tamaño n de X se tiene
Pn
Pn
Pn
Pn
θ i=1 xi (1 − θ)n− i=1 xi I(0,1) (θ)
θ i=1 xi (1 − θ)n− i=1 xi I(0,1) (θ)
f (x | θ)π(θ)
Pn
Pn
π(θ | x) = Z 1
= Z 1 P
·
=
Pn
n
Beta(
x
+
1,
n
−
x
+
1)
i
i
i=1
i=1
f (x | θ) dθ
θ i=1 xi (1 − θ)n− i=1 xi dθ
0
0
En consecuencia, la distribución a posteriori es una beta de parámetros
3.
Pn
i=1 xi + 1 y n −
Pn
i=1 xi + 1.
Familias conjugadas
Página www
Página inicial
Contenido
JJ
II
J
I
Página 4 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
Ejemplo 2.3. Sea X una variable aleatoria de Bernoulli de parámetro θ y consideremos π(θ) = I(0,1) (θ).
Tras observar una muestra aleatoria simple de tamaño n de X se tiene
Pn
Pn
Pn
Pn
θ i=1 xi (1 − θ)n− i=1 xi I(0,1) (θ)
θ i=1 xi (1 − θ)n− i=1 xi I(0,1) (θ)
f (x | θ)π(θ)
Pn
Pn
π(θ | x) = Z 1
= Z 1 P
·
=
Pn
n
Beta(
x
+
1,
n
−
x
+
1)
i
i
i=1
i=1
f (x | θ) dθ
θ i=1 xi (1 − θ)n− i=1 xi dθ
0
0
En consecuencia, la distribución a posteriori es una beta de parámetros
3.
Pn
i=1 xi + 1 y n −
Pn
i=1 xi + 1.
Familias conjugadas
La principal dificultad que surge en los problemas de inferencia bajo la perspectiva bayesiana es tanto
la licitación de la distribución a priori como el cálculo de la distribución a posteriori. La primera cuestión
es importante ya que la inferencia que se realice posteriormente puede depender de la elección hecha de
la distribución inicial, razón por la cual en muchos casos se recurre a distribuciones no informativas, que
no imponen unas condiciones muy fuertes sobre el parámetro, o bien se puede aprovechar parte de la
información muestral para mejorar la distribución inicial, dando origen a las denominadas distribuciones
intrı́nsecas a priori, de gran auge en la actualidad. En cuanto a la segunda opción, el cálculo de la
distribución a posteriori no tiene por qué conducir a una distribución tratable y, en ocasiones, hay que
recurrir a métodos numéricos para poder trabajar con ellas.
Página www
Página inicial
Contenido
JJ
II
J
I
Página 4 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
Ejemplo 2.3. Sea X una variable aleatoria de Bernoulli de parámetro θ y consideremos π(θ) = I(0,1) (θ).
Tras observar una muestra aleatoria simple de tamaño n de X se tiene
Pn
Pn
Pn
Pn
θ i=1 xi (1 − θ)n− i=1 xi I(0,1) (θ)
θ i=1 xi (1 − θ)n− i=1 xi I(0,1) (θ)
f (x | θ)π(θ)
Pn
Pn
π(θ | x) = Z 1
= Z 1 P
·
=
Pn
n
Beta(
x
+
1,
n
−
x
+
1)
i
i
i=1
i=1
f (x | θ) dθ
θ i=1 xi (1 − θ)n− i=1 xi dθ
0
0
En consecuencia, la distribución a posteriori es una beta de parámetros
3.
Pn
i=1 xi + 1 y n −
Pn
i=1 xi + 1.
Familias conjugadas
La principal dificultad que surge en los problemas de inferencia bajo la perspectiva bayesiana es tanto
la licitación de la distribución a priori como el cálculo de la distribución a posteriori. La primera cuestión
es importante ya que la inferencia que se realice posteriormente puede depender de la elección hecha de
la distribución inicial, razón por la cual en muchos casos se recurre a distribuciones no informativas, que
no imponen unas condiciones muy fuertes sobre el parámetro, o bien se puede aprovechar parte de la
información muestral para mejorar la distribución inicial, dando origen a las denominadas distribuciones
intrı́nsecas a priori, de gran auge en la actualidad. En cuanto a la segunda opción, el cálculo de la
distribución a posteriori no tiene por qué conducir a una distribución tratable y, en ocasiones, hay que
recurrir a métodos numéricos para poder trabajar con ellas.
Centrándonos en la segunda cuestión, interesa considerar familias de distribuciones a priori cuyas
distribuciones a posteriori asociadas sean de fácil cálculo. En este sentido surge el concepto de familias
a priori conjugadas.
Página www
Página inicial
Contenido
JJ
II
J
I
Página 4 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
Ejemplo 2.3. Sea X una variable aleatoria de Bernoulli de parámetro θ y consideremos π(θ) = I(0,1) (θ).
Tras observar una muestra aleatoria simple de tamaño n de X se tiene
Pn
Pn
Pn
Pn
θ i=1 xi (1 − θ)n− i=1 xi I(0,1) (θ)
θ i=1 xi (1 − θ)n− i=1 xi I(0,1) (θ)
f (x | θ)π(θ)
Pn
Pn
π(θ | x) = Z 1
= Z 1 P
·
=
Pn
n
Beta(
x
+
1,
n
−
x
+
1)
i
i
i=1
i=1
f (x | θ) dθ
θ i=1 xi (1 − θ)n− i=1 xi dθ
0
0
En consecuencia, la distribución a posteriori es una beta de parámetros
3.
Pn
i=1 xi + 1 y n −
Pn
i=1 xi + 1.
Familias conjugadas
La principal dificultad que surge en los problemas de inferencia bajo la perspectiva bayesiana es tanto
la licitación de la distribución a priori como el cálculo de la distribución a posteriori. La primera cuestión
es importante ya que la inferencia que se realice posteriormente puede depender de la elección hecha de
la distribución inicial, razón por la cual en muchos casos se recurre a distribuciones no informativas, que
no imponen unas condiciones muy fuertes sobre el parámetro, o bien se puede aprovechar parte de la
información muestral para mejorar la distribución inicial, dando origen a las denominadas distribuciones
intrı́nsecas a priori, de gran auge en la actualidad. En cuanto a la segunda opción, el cálculo de la
distribución a posteriori no tiene por qué conducir a una distribución tratable y, en ocasiones, hay que
recurrir a métodos numéricos para poder trabajar con ellas.
Centrándonos en la segunda cuestión, interesa considerar familias de distribuciones a priori cuyas
distribuciones a posteriori asociadas sean de fácil cálculo. En este sentido surge el concepto de familias
a priori conjugadas.
Página www
Página inicial
Contenido
JJ
II
J
I
Página 4 de 11
Regresar
Pantalla completa
Cerrar
Definición 3.1. Una familia de distribuciones a priori P = {πα (θ), α ∈ A} se dice conjugada de la
familia de funciones de densidad, o masa de probabilidad, P = {f (x | θ), θ ∈ Θ} cuando para cualquier
distribución inicial perteneciente a P , la distribución final también pertenece a P .
Abandonar
Comentario 3.1. Algunas familias de distribuciones conjugadas son las siguientes:
La familia de distribuciones beta es una familia de distribuciones a priori conjugada para muestras
de distribuciones de Bernoulli, binomiales y binomiales negativas.
Página www
Página inicial
Contenido
JJ
II
J
I
Página 5 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
Comentario 3.1. Algunas familias de distribuciones conjugadas son las siguientes:
La familia de distribuciones beta es una familia de distribuciones a priori conjugada para muestras
de distribuciones de Bernoulli, binomiales y binomiales negativas.
La familia de distribuciones gamma es una familia de distribuciones a priori conjugada para muestras de distribuciones de Poisson y exponenciales.
Página www
Página inicial
Contenido
JJ
II
J
I
Página 5 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
Comentario 3.1. Algunas familias de distribuciones conjugadas son las siguientes:
La familia de distribuciones beta es una familia de distribuciones a priori conjugada para muestras
de distribuciones de Bernoulli, binomiales y binomiales negativas.
La familia de distribuciones gamma es una familia de distribuciones a priori conjugada para muestras de distribuciones de Poisson y exponenciales.
La familia de distribuciones normales es una familia de distribuciones a priori conjugada para
muestras de una distribución normal con varianza conocida.
Página www
Página inicial
Contenido
JJ
II
J
I
Página 5 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
Comentario 3.1. Algunas familias de distribuciones conjugadas son las siguientes:
La familia de distribuciones beta es una familia de distribuciones a priori conjugada para muestras
de distribuciones de Bernoulli, binomiales y binomiales negativas.
La familia de distribuciones gamma es una familia de distribuciones a priori conjugada para muestras de distribuciones de Poisson y exponenciales.
La familia de distribuciones normales es una familia de distribuciones a priori conjugada para
muestras de una distribución normal con varianza conocida.
Ejemplo 3.1. Sea X una variable aleatoria de Poisson de parámetro λ > 0 y consideremos como
distribución a priori una distribución gamma de parámetros a y b. Entonces, dada una muestra aleatoria
simple de tamaño n se tiene
Z +∞
f (x | λ)π(λ) dλ =
0
Página www
Página inicial
Contenido
JJ
II
J
I
Página 5 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
Comentario 3.1. Algunas familias de distribuciones conjugadas son las siguientes:
La familia de distribuciones beta es una familia de distribuciones a priori conjugada para muestras
de distribuciones de Bernoulli, binomiales y binomiales negativas.
La familia de distribuciones gamma es una familia de distribuciones a priori conjugada para muestras de distribuciones de Poisson y exponenciales.
La familia de distribuciones normales es una familia de distribuciones a priori conjugada para
muestras de una distribución normal con varianza conocida.
Ejemplo 3.1. Sea X una variable aleatoria de Poisson de parámetro λ > 0 y consideremos como
distribución a priori una distribución gamma de parámetros a y b. Entonces, dada una muestra aleatoria
simple de tamaño n se tiene
Z +∞
Z +∞ −nλ Pn xi a−1 −λ/b
e
λ i=1 λ e
Qn
f (x | λ)π(λ) dλ =
dλ
a
x
!
Γ(a)
b
i
0
0
i=1
Página www
Página inicial
Contenido
JJ
II
J
I
Página 5 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
Comentario 3.1. Algunas familias de distribuciones conjugadas son las siguientes:
La familia de distribuciones beta es una familia de distribuciones a priori conjugada para muestras
de distribuciones de Bernoulli, binomiales y binomiales negativas.
La familia de distribuciones gamma es una familia de distribuciones a priori conjugada para muestras de distribuciones de Poisson y exponenciales.
La familia de distribuciones normales es una familia de distribuciones a priori conjugada para
muestras de una distribución normal con varianza conocida.
Ejemplo 3.1. Sea X una variable aleatoria de Poisson de parámetro λ > 0 y consideremos como
distribución a priori una distribución gamma de parámetros a y b. Entonces, dada una muestra aleatoria
simple de tamaño n se tiene
Z +∞
Z +∞ −nλ Pn xi a−1 −λ/b
Z +∞ a+Pn xi −1 −λ/(n+1/b)−1
i=1
e
λ i=1 λ e
λ
e
Qn
Q
f (x | λ)π(λ) dλ =
dλ
=
dλ
n
a
a
x
!
Γ(a)
b
x
!
Γ(a)
b
i
i
0
0
0
i=1
i=1
Página www
Página inicial
Contenido
JJ
II
J
I
Página 5 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
Comentario 3.1. Algunas familias de distribuciones conjugadas son las siguientes:
La familia de distribuciones beta es una familia de distribuciones a priori conjugada para muestras
de distribuciones de Bernoulli, binomiales y binomiales negativas.
La familia de distribuciones gamma es una familia de distribuciones a priori conjugada para muestras de distribuciones de Poisson y exponenciales.
La familia de distribuciones normales es una familia de distribuciones a priori conjugada para
muestras de una distribución normal con varianza conocida.
Ejemplo 3.1. Sea X una variable aleatoria de Poisson de parámetro λ > 0 y consideremos como
distribución a priori una distribución gamma de parámetros a y b. Entonces, dada una muestra aleatoria
simple de tamaño n se tiene
Z +∞
Z +∞ −nλ Pn xi a−1 −λ/b
Z +∞ a+Pn xi −1 −λ/(n+1/b)−1
i=1
e
λ i=1 λ e
λ
e
Qn
Q
f (x | λ)π(λ) dλ =
dλ
=
dλ
n
a
a
x
!
Γ(a)
b
x
!
Γ(a)
b
i
i
0
0
0
i=1
i=1
Página www
Página inicial
Contenido
=Q
n
Γ (a +
i=1 xi ! Γ(a) b
Pn
a
i=1 xi ) P
n
1 a+ i=1 xi
n+ b
Z
0
+∞
λ
Γ (a +
Pn
−1
i=1 xi −1 e−λ/(n+1/b)
Pn
Pn
1 −a− i=1 xi
i=1 xi ) n + b
a+
dλ
JJ
II
J
I
Página 5 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
Comentario 3.1. Algunas familias de distribuciones conjugadas son las siguientes:
La familia de distribuciones beta es una familia de distribuciones a priori conjugada para muestras
de distribuciones de Bernoulli, binomiales y binomiales negativas.
La familia de distribuciones gamma es una familia de distribuciones a priori conjugada para muestras de distribuciones de Poisson y exponenciales.
La familia de distribuciones normales es una familia de distribuciones a priori conjugada para
muestras de una distribución normal con varianza conocida.
Ejemplo 3.1. Sea X una variable aleatoria de Poisson de parámetro λ > 0 y consideremos como
distribución a priori una distribución gamma de parámetros a y b. Entonces, dada una muestra aleatoria
simple de tamaño n se tiene
Z +∞
Z +∞ −nλ Pn xi a−1 −λ/b
Z +∞ a+Pn xi −1 −λ/(n+1/b)−1
i=1
e
λ i=1 λ e
λ
e
Qn
Q
f (x | λ)π(λ) dλ =
dλ
=
dλ
n
a
a
x
!
Γ(a)
b
x
!
Γ(a)
b
i
i
0
0
0
i=1
i=1
Página www
Página inicial
Contenido
=Q
n
Γ (a +
i=1 xi ! Γ(a) b
=Q
n
Pn
a
Γ (a +
i=1 xi ) P
n
1 a+ i=1 xi
n+ b
Pn
a
i=1 xi ! Γ(a) b
Z
i=1 xi ) P
a+ ni=1 xi ·
n + 1b
0
+∞
λ
Γ (a +
Pn
−1
i=1 xi −1 e−λ/(n+1/b)
Pn
Pn
1 −a− i=1 xi
i=1 xi ) n + b
a+
dλ
JJ
II
J
I
Página 5 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
Comentario 3.1. Algunas familias de distribuciones conjugadas son las siguientes:
La familia de distribuciones beta es una familia de distribuciones a priori conjugada para muestras
de distribuciones de Bernoulli, binomiales y binomiales negativas.
La familia de distribuciones gamma es una familia de distribuciones a priori conjugada para muestras de distribuciones de Poisson y exponenciales.
La familia de distribuciones normales es una familia de distribuciones a priori conjugada para
muestras de una distribución normal con varianza conocida.
Ejemplo 3.1. Sea X una variable aleatoria de Poisson de parámetro λ > 0 y consideremos como
distribución a priori una distribución gamma de parámetros a y b. Entonces, dada una muestra aleatoria
simple de tamaño n se tiene
Z +∞
Z +∞ −nλ Pn xi a−1 −λ/b
Z +∞ a+Pn xi −1 −λ/(n+1/b)−1
i=1
e
λ i=1 λ e
λ
e
Qn
Q
f (x | λ)π(λ) dλ =
dλ
=
dλ
n
a
a
x
!
Γ(a)
b
x
!
Γ(a)
b
i
i
0
0
0
i=1
i=1
Página www
Página inicial
Contenido
=Q
n
Γ (a +
i=1 xi ! Γ(a) b
=Q
n
Pn
a
Γ (a +
Pn
a
i=1 xi ! Γ(a) b
Ası́ pues,
i=1 xi ) P
n
1 a+ i=1 xi
n+ b
Z
i=1 xi ) P
a+ ni=1 xi ·
n + 1b
0
+∞
λ
Γ (a +
Pn
−1
i=1 xi −1 e−λ/(n+1/b)
Pn
Pn
1 −a− i=1 xi
i=1 xi ) n + b
a+
dλ
JJ
II
J
I
Página 5 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
π(λ | x) =
Comentario 3.1. Algunas familias de distribuciones conjugadas son las siguientes:
La familia de distribuciones beta es una familia de distribuciones a priori conjugada para muestras
de distribuciones de Bernoulli, binomiales y binomiales negativas.
La familia de distribuciones gamma es una familia de distribuciones a priori conjugada para muestras de distribuciones de Poisson y exponenciales.
La familia de distribuciones normales es una familia de distribuciones a priori conjugada para
muestras de una distribución normal con varianza conocida.
Ejemplo 3.1. Sea X una variable aleatoria de Poisson de parámetro λ > 0 y consideremos como
distribución a priori una distribución gamma de parámetros a y b. Entonces, dada una muestra aleatoria
simple de tamaño n se tiene
Z +∞
Z +∞ −nλ Pn xi a−1 −λ/b
Z +∞ a+Pn xi −1 −λ/(n+1/b)−1
i=1
e
λ i=1 λ e
λ
e
Qn
Q
f (x | λ)π(λ) dλ =
dλ
=
dλ
n
a
a
x
!
Γ(a)
b
x
!
Γ(a)
b
i
i
0
0
0
i=1
i=1
Página www
Página inicial
Contenido
=Q
n
Γ (a +
i=1 xi ! Γ(a) b
=Q
n
Pn
a
Γ (a +
Pn
a
i=1 xi ! Γ(a) b
Ası́ pues,
i=1 xi ) P
n
1 a+ i=1 xi
n+ b
Z
i=1 xi ) P
a+ ni=1 xi ·
n + 1b
0
+∞
λ
Γ (a +
Pn
−1
i=1 xi −1 e−λ/(n+1/b)
Pn
Pn
1 −a− i=1 xi
i=1 xi ) n + b
a+
dλ
JJ
II
J
I
Página 5 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
f (x | λ)π(λ)
π(λ | x) = Z
+∞
f (x | λ)π(λ)
0
dλ
Comentario 3.1. Algunas familias de distribuciones conjugadas son las siguientes:
La familia de distribuciones beta es una familia de distribuciones a priori conjugada para muestras
de distribuciones de Bernoulli, binomiales y binomiales negativas.
La familia de distribuciones gamma es una familia de distribuciones a priori conjugada para muestras de distribuciones de Poisson y exponenciales.
La familia de distribuciones normales es una familia de distribuciones a priori conjugada para
muestras de una distribución normal con varianza conocida.
Ejemplo 3.1. Sea X una variable aleatoria de Poisson de parámetro λ > 0 y consideremos como
distribución a priori una distribución gamma de parámetros a y b. Entonces, dada una muestra aleatoria
simple de tamaño n se tiene
Z +∞
Z +∞ −nλ Pn xi a−1 −λ/b
Z +∞ a+Pn xi −1 −λ/(n+1/b)−1
i=1
e
λ i=1 λ e
λ
e
Qn
Q
f (x | λ)π(λ) dλ =
dλ
=
dλ
n
a
a
x
!
Γ(a)
b
x
!
Γ(a)
b
i
i
0
0
0
i=1
i=1
Página www
Página inicial
Contenido
=Q
n
Γ (a +
i=1 xi ! Γ(a) b
=Q
n
Pn
a
Γ (a +
i=1 xi ) P
n
1 a+ i=1 xi
n+ b
Z
0
+∞
λ
Γ (a +
dλ
JJ
II
J
I
Página 5 de 11
Pn
a
i=1 xi ! Γ(a) b
Pn
−1
i=1 xi −1 e−λ/(n+1/b)
Pn
Pn
1 −a− i=1 xi
i=1 xi ) n + b
a+
i=1 xi ) P
a+ ni=1 xi ·
n + 1b
Ası́ pues,
Regresar
Pantalla completa
Cerrar
Pn
e−nλ λ
Qn
λa−1 e−λ/b
a
f (x | λ)π(λ)
i=1 xi ! Γ(a) b
π(λ | x) = Z +∞
dλ =
Pn
a+Pni=1 xi
Γ (a + i=1 xi )
1
f (x | λ)π(λ)
Qn
n
+
a
0
b
i=1 xi ! Γ(a) b
i=1
xi
Abandonar
Comentario 3.1. Algunas familias de distribuciones conjugadas son las siguientes:
La familia de distribuciones beta es una familia de distribuciones a priori conjugada para muestras
de distribuciones de Bernoulli, binomiales y binomiales negativas.
La familia de distribuciones gamma es una familia de distribuciones a priori conjugada para muestras de distribuciones de Poisson y exponenciales.
La familia de distribuciones normales es una familia de distribuciones a priori conjugada para
muestras de una distribución normal con varianza conocida.
Ejemplo 3.1. Sea X una variable aleatoria de Poisson de parámetro λ > 0 y consideremos como
distribución a priori una distribución gamma de parámetros a y b. Entonces, dada una muestra aleatoria
simple de tamaño n se tiene
Z +∞
Z +∞ −nλ Pn xi a−1 −λ/b
Z +∞ a+Pn xi −1 −λ/(n+1/b)−1
i=1
e
λ i=1 λ e
λ
e
Qn
Q
f (x | λ)π(λ) dλ =
dλ
=
dλ
n
a
a
x
!
Γ(a)
b
x
!
Γ(a)
b
i
i
0
0
0
i=1
i=1
Página www
Página inicial
Contenido
=Q
n
Γ (a +
i=1 xi ! Γ(a) b
=Q
n
Pn
a
Γ (a +
i=1 xi ) P
n
1 a+ i=1 xi
n+ b
Z
0
+∞
λ
Γ (a +
Pn
−1
i=1 xi −1 e−λ/(n+1/b)
Pn
Pn
1 −a− i=1 xi
i=1 xi ) n + b
a+
dλ
II
J
I
Página 5 de 11
Pn
a
i=1 xi ! Γ(a) b
JJ
i=1 xi ) P
a+ ni=1 xi ·
n + 1b
Ası́ pues,
Regresar
Pantalla completa
Cerrar
Pn
e−nλ λ
Qn
λa−1 e−λ/b
Pn
a+ i=1 xi −1 −λ/(n+1/b)−1
a
f (x | λ)π(λ)
λ
e
x
!
Γ(a)
b
i=1 i
π(λ | x) = Z +∞
dλ =
Pn
a+Pni=1 xi =
−a−Pni=1 xi ·
Pn
1
Γ (a + i=1 xi )
1
Γ (a + i=1 xi ) n + b
f (x | λ)π(λ)
Qn
n
+
a
0
b
i=1 xi ! Γ(a) b
i=1
xi
Abandonar
Por lo tanto, la distribución a posteriori es una gamma de parámetros a +
Pn
i=1 xi
y (n + 1/b)−1 .
Página www
Página inicial
Contenido
JJ
II
J
I
Página 6 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
Por lo tanto, la distribución a posteriori es una gamma de parámetros a +
Pn
i=1 xi
y (n + 1/b)−1 .
Ejemplo 3.2. Sea X una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y consideremos como
distribución a priori una distribución normal de parámetros η y τ 2 . Entonces, dada una muestra aleatoria
simple de tamaño n se tiene
f (x | µ)π(µ) =
Página www
Página inicial
Contenido
JJ
II
J
I
Página 6 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
Por lo tanto, la distribución a posteriori es una gamma de parámetros a +
Pn
i=1 xi
y (n + 1/b)−1 .
Ejemplo 3.2. Sea X una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y consideremos como
distribución a priori una distribución normal de parámetros η y τ 2 . Entonces, dada una muestra aleatoria
simple de tamaño n se tiene
(µ − η)2
n 2
2 −n/2
2 −1/2
2
f (x | µ)π(µ) = 2πσ
2πτ
exp − 2 s + (x − µ) −
2σ
2τ 2
Página www
Página inicial
Contenido
JJ
II
J
I
Página 6 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
Por lo tanto, la distribución a posteriori es una gamma de parámetros a +
Pn
i=1 xi
y (n + 1/b)−1 .
Ejemplo 3.2. Sea X una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y consideremos como
distribución a priori una distribución normal de parámetros η y τ 2 . Entonces, dada una muestra aleatoria
simple de tamaño n se tiene
(µ − η)2
n 2
2 −n/2
2 −1/2
2
f (x | µ)π(µ) = 2πσ
2πτ
exp − 2 s + (x − µ) −
2σ
2τ 2
2
ns
1
−n/2
−1/2
= 2πσ 2
2πτ 2
exp − 2 exp − 2 2 nτ 2 (x − µ)2 + σ 2 (µ − η)2
2σ
2σ τ
Página www
Página inicial
Contenido
JJ
II
J
I
Página 6 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
Por lo tanto, la distribución a posteriori es una gamma de parámetros a +
Pn
i=1 xi
y (n + 1/b)−1 .
Ejemplo 3.2. Sea X una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y consideremos como
distribución a priori una distribución normal de parámetros η y τ 2 . Entonces, dada una muestra aleatoria
simple de tamaño n se tiene
(µ − η)2
n 2
2 −n/2
2 −1/2
2
f (x | µ)π(µ) = 2πσ
2πτ
exp − 2 s + (x − µ) −
2σ
2τ 2
2
ns
1
−n/2
−1/2
= 2πσ 2
2πτ 2
exp − 2 exp − 2 2 nτ 2 (x − µ)2 + σ 2 (µ − η)2
2σ
2σ τ
2 2
2 2
2
nx
τ
+
σ
η
ns
−n/2
−1/2
= 2πσ 2
2πτ 2
exp − 2 exp −
2σ
2σ 2 τ 2
Página www
Página inicial
Contenido
JJ
II
J
I
Página 6 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
Por lo tanto, la distribución a posteriori es una gamma de parámetros a +
Pn
i=1 xi
y (n + 1/b)−1 .
Ejemplo 3.2. Sea X una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y consideremos como
distribución a priori una distribución normal de parámetros η y τ 2 . Entonces, dada una muestra aleatoria
simple de tamaño n se tiene
(µ − η)2
n 2
2 −n/2
2 −1/2
2
f (x | µ)π(µ) = 2πσ
2πτ
exp − 2 s + (x − µ) −
2σ
2τ 2
2
ns
1
−n/2
−1/2
= 2πσ 2
2πτ 2
exp − 2 exp − 2 2 nτ 2 (x − µ)2 + σ 2 (µ − η)2
2σ
2σ τ
2 2
2 2
2
nx
τ
+
σ
η
ns
−n/2
−1/2
= 2πσ 2
2πτ 2
exp − 2 exp −
2σ
2σ 2 τ 2
1 2
2
2
2
2
× exp − 2 2 µ (nτ + σ ) − 2µ(nxτ + σ η)
2σ τ
Página www
Página inicial
Contenido
JJ
II
J
I
Página 6 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
Por lo tanto, la distribución a posteriori es una gamma de parámetros a +
Pn
i=1 xi
y (n + 1/b)−1 .
Ejemplo 3.2. Sea X una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y consideremos como
distribución a priori una distribución normal de parámetros η y τ 2 . Entonces, dada una muestra aleatoria
simple de tamaño n se tiene
(µ − η)2
n 2
2 −n/2
2 −1/2
2
f (x | µ)π(µ) = 2πσ
2πτ
exp − 2 s + (x − µ) −
2σ
2τ 2
2
ns
1
−n/2
−1/2
= 2πσ 2
2πτ 2
exp − 2 exp − 2 2 nτ 2 (x − µ)2 + σ 2 (µ − η)2
2σ
2σ τ
2 2
2 2
2
nx
τ
+
σ
η
ns
−n/2
−1/2
= 2πσ 2
2πτ 2
exp − 2 exp −
2σ
2σ 2 τ 2
1 2
2
2
2
2
× exp − 2 2 µ (nτ + σ ) − 2µ(nxτ + σ η)
2σ τ
ns2
nx2 τ 2 + σ 2 η 2
(nxτ 2 + σ 2 η)2
2 −n/2
2 −1/2
= 2πσ
2πτ
exp − 2 exp −
exp
2σ
2σ 2 τ 2
2σ 2 τ 2 (nτ 2 + σ 2 )
Página www
Página inicial
Contenido
JJ
II
J
I
Página 6 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
Por lo tanto, la distribución a posteriori es una gamma de parámetros a +
Pn
i=1 xi
y (n + 1/b)−1 .
Ejemplo 3.2. Sea X una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y consideremos como
distribución a priori una distribución normal de parámetros η y τ 2 . Entonces, dada una muestra aleatoria
simple de tamaño n se tiene
(µ − η)2
n 2
2 −n/2
2 −1/2
2
f (x | µ)π(µ) = 2πσ
2πτ
exp − 2 s + (x − µ) −
2σ
2τ 2
2
ns
1
−n/2
−1/2
= 2πσ 2
2πτ 2
exp − 2 exp − 2 2 nτ 2 (x − µ)2 + σ 2 (µ − η)2
2σ
2σ τ
2 2
2 2
2
nx
τ
+
σ
η
ns
−n/2
−1/2
= 2πσ 2
2πτ 2
exp − 2 exp −
2σ
2σ 2 τ 2
1 2
2
2
2
2
× exp − 2 2 µ (nτ + σ ) − 2µ(nxτ + σ η)
2σ τ
ns2
nx2 τ 2 + σ 2 η 2
(nxτ 2 + σ 2 η)2
2 −n/2
2 −1/2
= 2πσ
2πτ
exp − 2 exp −
exp
2σ
2σ 2 τ 2
2σ 2 τ 2 (nτ 2 + σ 2 )
"
#!
2
nτ 2 + σ 2 2
nxτ 2 + σ 2 η
nxτ 2 + σ 2 η
× exp −
µ − 2µ
+
2σ 2 τ 2
nτ 2 + σ 2
nτ 2 + σ 2
Página www
Página inicial
Contenido
JJ
II
J
I
Página 6 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
Por lo tanto, la distribución a posteriori es una gamma de parámetros a +
Pn
i=1 xi
y (n + 1/b)−1 .
Ejemplo 3.2. Sea X una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y consideremos como
distribución a priori una distribución normal de parámetros η y τ 2 . Entonces, dada una muestra aleatoria
simple de tamaño n se tiene
(µ − η)2
n 2
2 −n/2
2 −1/2
2
f (x | µ)π(µ) = 2πσ
2πτ
exp − 2 s + (x − µ) −
2σ
2τ 2
2
ns
1
−n/2
−1/2
= 2πσ 2
2πτ 2
exp − 2 exp − 2 2 nτ 2 (x − µ)2 + σ 2 (µ − η)2
2σ
2σ τ
2 2
2 2
2
nx
τ
+
σ
η
ns
−n/2
−1/2
= 2πσ 2
2πτ 2
exp − 2 exp −
2σ
2σ 2 τ 2
1 2
2
2
2
2
× exp − 2 2 µ (nτ + σ ) − 2µ(nxτ + σ η)
2σ τ
ns2
nx2 τ 2 + σ 2 η 2
(nxτ 2 + σ 2 η)2
2 −n/2
2 −1/2
= 2πσ
2πτ
exp − 2 exp −
exp
2σ
2σ 2 τ 2
2σ 2 τ 2 (nτ 2 + σ 2 )
"
#!
2
nτ 2 + σ 2 2
nxτ 2 + σ 2 η
nxτ 2 + σ 2 η
× exp −
µ − 2µ
+
2σ 2 τ 2
nτ 2 + σ 2
nτ 2 + σ 2
1/2
2 2
2 2
2
2 2
2 2
2
ns
nx
τ
+
σ
η
(nxτ
+
σ
η)
2σ
τ
−n/2
exp
= 2πσ 2
τ −1 exp − 2 exp −
2σ
2σ 2 τ 2
2σ 2 τ 2 (nτ 2 + σ 2 )
nτ 2 + σ 2
Página www
Página inicial
Contenido
JJ
II
J
I
Página 6 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
Por lo tanto, la distribución a posteriori es una gamma de parámetros a +
Pn
i=1 xi
y (n + 1/b)−1 .
Ejemplo 3.2. Sea X una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y consideremos como
distribución a priori una distribución normal de parámetros η y τ 2 . Entonces, dada una muestra aleatoria
simple de tamaño n se tiene
(µ − η)2
n 2
2 −n/2
2 −1/2
2
f (x | µ)π(µ) = 2πσ
2πτ
exp − 2 s + (x − µ) −
2σ
2τ 2
2
ns
1
−n/2
−1/2
= 2πσ 2
2πτ 2
exp − 2 exp − 2 2 nτ 2 (x − µ)2 + σ 2 (µ − η)2
2σ
2σ τ
2 2
2 2
2
nx
τ
+
σ
η
ns
−n/2
−1/2
= 2πσ 2
2πτ 2
exp − 2 exp −
2σ
2σ 2 τ 2
1 2
2
2
2
2
× exp − 2 2 µ (nτ + σ ) − 2µ(nxτ + σ η)
2σ τ
ns2
nx2 τ 2 + σ 2 η 2
(nxτ 2 + σ 2 η)2
2 −n/2
2 −1/2
= 2πσ
2πτ
exp − 2 exp −
exp
2σ
2σ 2 τ 2
2σ 2 τ 2 (nτ 2 + σ 2 )
"
#!
2
nτ 2 + σ 2 2
nxτ 2 + σ 2 η
nxτ 2 + σ 2 η
× exp −
µ − 2µ
+
2σ 2 τ 2
nτ 2 + σ 2
nτ 2 + σ 2
1/2
2 2
2 2
2
2 2
2 2
2
ns
nx
τ
+
σ
η
(nxτ
+
σ
η)
2σ
τ
−n/2
exp
= 2πσ 2
τ −1 exp − 2 exp −
2σ
2σ 2 τ 2
2σ 2 τ 2 (nτ 2 + σ 2 )
nτ 2 + σ 2
!
−1/2
2
nτ 2 + σ 2
nxτ 2 + σ 2 η
2σ 2 τ 2
−1/2
exp −
µ−
× (2π)
nτ 2 + σ 2
2σ 2 τ 2
nτ 2 + σ 2
Página www
Página inicial
Contenido
JJ
II
J
I
Página 6 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
Por lo tanto, la distribución a posteriori es una gamma de parámetros a +
Pn
i=1 xi
y (n + 1/b)−1 .
Ejemplo 3.2. Sea X una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y consideremos como
distribución a priori una distribución normal de parámetros η y τ 2 . Entonces, dada una muestra aleatoria
simple de tamaño n se tiene
(µ − η)2
n 2
2 −n/2
2 −1/2
2
f (x | µ)π(µ) = 2πσ
2πτ
exp − 2 s + (x − µ) −
2σ
2τ 2
2
ns
1
−n/2
−1/2
= 2πσ 2
2πτ 2
exp − 2 exp − 2 2 nτ 2 (x − µ)2 + σ 2 (µ − η)2
2σ
2σ τ
2 2
2 2
2
nx
τ
+
σ
η
ns
−n/2
−1/2
= 2πσ 2
2πτ 2
exp − 2 exp −
2σ
2σ 2 τ 2
1 2
2
2
2
2
× exp − 2 2 µ (nτ + σ ) − 2µ(nxτ + σ η)
2σ τ
ns2
nx2 τ 2 + σ 2 η 2
(nxτ 2 + σ 2 η)2
2 −n/2
2 −1/2
= 2πσ
2πτ
exp − 2 exp −
exp
2σ
2σ 2 τ 2
2σ 2 τ 2 (nτ 2 + σ 2 )
"
#!
2
nτ 2 + σ 2 2
nxτ 2 + σ 2 η
nxτ 2 + σ 2 η
× exp −
µ − 2µ
+
2σ 2 τ 2
nτ 2 + σ 2
nτ 2 + σ 2
1/2
2 2
2 2
2
2 2
2 2
2
ns
nx
τ
+
σ
η
(nxτ
+
σ
η)
2σ
τ
−n/2
exp
= 2πσ 2
τ −1 exp − 2 exp −
2σ
2σ 2 τ 2
2σ 2 τ 2 (nτ 2 + σ 2 )
nτ 2 + σ 2
!
−1/2
2
nτ 2 + σ 2
nxτ 2 + σ 2 η
2σ 2 τ 2
−1/2
exp −
µ−
× (2π)
nτ 2 + σ 2
2σ 2 τ 2
nτ 2 + σ 2
Página www
Página inicial
Contenido
JJ
II
J
I
Página 6 de 11
Regresar
Pantalla completa
Cerrar
Ası́,
Z
+∞
f (x | µ)π(µ) dµ = 2πσ
−∞
Abandonar
2 −n/2
1/2
2 2
2
2
2
2 2
2 2
ns
nx
τ
+
σ
η
(nxτ
+
σ
η)
2σ
τ
τ −1 exp − 2 exp −
exp
,
2σ
2σ 2 τ 2
2σ 2 τ 2 (nτ 2 + σ 2 )
nτ 2 + σ 2
y por lo tanto,
π(µ | x) =
Página www
Página inicial
Contenido
JJ
II
J
I
Página 7 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
y por lo tanto,
π(µ | x) = Z
f (x | µ)π(µ)
+∞
f (x | µ)π(µ) dµ
−∞
Página www
Página inicial
Contenido
JJ
II
J
I
Página 7 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
y por lo tanto,
π(µ | x) = Z
f (x | µ)π(µ)
+∞
f (x | µ)π(µ) dµ
= (2π)−1/2
2
2
2σ τ
nτ 2 + σ 2
−1/2
2
exp −
nτ + σ
2σ 2 τ 2
2
2
µ−
2
nxτ + σ η
nτ 2 + σ 2
2 !
.
−∞
Página www
Página inicial
Contenido
JJ
II
J
I
Página 7 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
y por lo tanto,
π(µ | x) = Z
f (x | µ)π(µ)
+∞
f (x | µ)π(µ) dµ
= (2π)−1/2
2
2
2σ τ
nτ 2 + σ 2
−1/2
2
exp −
nτ + σ
2σ 2 τ 2
2
2
µ−
2
nxτ + σ η
nτ 2 + σ 2
2 !
.
−∞
Ası́, la distribución a posteriori es una normal de parámetros
nxτ 2 + σ 2 η
nτ 2 + σ 2
y
2σ 2 τ 2
nτ 2 + σ 2
y ası́ la familia de distribuciones normal es conjugada
Página www
Página inicial
Contenido
JJ
II
J
I
Página 7 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
y por lo tanto,
π(µ | x) = Z
f (x | µ)π(µ)
+∞
= (2π)−1/2
f (x | µ)π(µ) dµ
2
2
2σ τ
nτ 2 + σ 2
−1/2
2
exp −
nτ + σ
2σ 2 τ 2
2
2
µ−
2
nxτ + σ η
nτ 2 + σ 2
2 !
.
−∞
Ası́, la distribución a posteriori es una normal de parámetros
nxτ 2 + σ 2 η
nτ 2 + σ 2
y
2σ 2 τ 2
nτ 2 + σ 2
y ası́ la familia de distribuciones normal es conjugada
4.
Estimadores bayesianos
Página www
Página inicial
Contenido
JJ
II
J
I
Página 7 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
y por lo tanto,
π(µ | x) = Z
f (x | µ)π(µ)
+∞
= (2π)−1/2
f (x | µ)π(µ) dµ
2
2
2σ τ
nτ 2 + σ 2
−1/2
2
exp −
nτ + σ
2σ 2 τ 2
2
2
µ−
2
nxτ + σ η
nτ 2 + σ 2
2 !
.
−∞
Ası́, la distribución a posteriori es una normal de parámetros
nxτ 2 + σ 2 η
nτ 2 + σ 2
y
2σ 2 τ 2
nτ 2 + σ 2
y ası́ la familia de distribuciones normal es conjugada
4.
Estimadores bayesianos
Como, desde el punto de vista bayesiano, el parámetro sobre el que se realiza la inferencia es una
variable aleatoria, parece lógico que dicha inferencia se base en caracterı́sticas calculadas a partir de
distribuciones que representen la evolución del parámetro como variable aleatoria.
Página www
Página inicial
Contenido
JJ
II
J
I
Página 7 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
y por lo tanto,
π(µ | x) = Z
f (x | µ)π(µ)
+∞
= (2π)−1/2
f (x | µ)π(µ) dµ
2
2
2σ τ
nτ 2 + σ 2
−1/2
2
exp −
nτ + σ
2σ 2 τ 2
2
2
µ−
2
nxτ + σ η
nτ 2 + σ 2
2 !
.
−∞
Ası́, la distribución a posteriori es una normal de parámetros
nxτ 2 + σ 2 η
nτ 2 + σ 2
y
2σ 2 τ 2
nτ 2 + σ 2
y ası́ la familia de distribuciones normal es conjugada
4.
Estimadores bayesianos
Como, desde el punto de vista bayesiano, el parámetro sobre el que se realiza la inferencia es una
variable aleatoria, parece lógico que dicha inferencia se base en caracterı́sticas calculadas a partir de
distribuciones que representen la evolución del parámetro como variable aleatoria.
En este sentido, la distribución a posteriori parece la más indicada para estos fines. No obstante, hay
que tener en cuenta, como se vio en el tema 1, las funciones de pérdida (ası́ como las funciones de riesgo
asociadas) que determinan los criterios de obtención de estimadores (recordemos, por ejemplo, como la
pérdida cuadrática y la varianza como riesgo asociado a ella, fue el criterio más desarrollado desde el
punto de vista clásico).
Página www
Página inicial
Contenido
JJ
II
J
I
Página 7 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
y por lo tanto,
π(µ | x) = Z
f (x | µ)π(µ)
+∞
= (2π)−1/2
f (x | µ)π(µ) dµ
2
2
2σ τ
nτ 2 + σ 2
−1/2
2
exp −
nτ + σ
2σ 2 τ 2
2
2
µ−
2
nxτ + σ η
nτ 2 + σ 2
2 !
.
−∞
Ası́, la distribución a posteriori es una normal de parámetros
nxτ 2 + σ 2 η
nτ 2 + σ 2
y
2σ 2 τ 2
nτ 2 + σ 2
y ası́ la familia de distribuciones normal es conjugada
4.
Estimadores bayesianos
Como, desde el punto de vista bayesiano, el parámetro sobre el que se realiza la inferencia es una
variable aleatoria, parece lógico que dicha inferencia se base en caracterı́sticas calculadas a partir de
distribuciones que representen la evolución del parámetro como variable aleatoria.
En este sentido, la distribución a posteriori parece la más indicada para estos fines. No obstante, hay
que tener en cuenta, como se vio en el tema 1, las funciones de pérdida (ası́ como las funciones de riesgo
asociadas) que determinan los criterios de obtención de estimadores (recordemos, por ejemplo, como la
pérdida cuadrática y la varianza como riesgo asociado a ella, fue el criterio más desarrollado desde el
punto de vista clásico).
Sea L(θ, T ) una función de pérdida para estimar una función paramétrica ψ(θ). Puesto que en la
perspectiva bayesiana se parte de una distribución inicial que se actualiza con los datos para obtener
la distribución final, el riesgo asociado a la pérdida L(θ, T ) también se actualiza en ese sentido, dando
origen al riesgo a posteriori :
Página www
Página inicial
Contenido
JJ
II
J
I
Página 7 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
y por lo tanto,
π(µ | x) = Z
f (x | µ)π(µ)
+∞
= (2π)−1/2
f (x | µ)π(µ) dµ
2
2
2σ τ
nτ 2 + σ 2
−1/2
2
exp −
nτ + σ
2σ 2 τ 2
2
2
µ−
2
nxτ + σ η
nτ 2 + σ 2
2 !
.
−∞
Ası́, la distribución a posteriori es una normal de parámetros
nxτ 2 + σ 2 η
nτ 2 + σ 2
y
2σ 2 τ 2
nτ 2 + σ 2
y ası́ la familia de distribuciones normal es conjugada
4.
Estimadores bayesianos
Página www
Como, desde el punto de vista bayesiano, el parámetro sobre el que se realiza la inferencia es una
variable aleatoria, parece lógico que dicha inferencia se base en caracterı́sticas calculadas a partir de
distribuciones que representen la evolución del parámetro como variable aleatoria.
En este sentido, la distribución a posteriori parece la más indicada para estos fines. No obstante, hay
que tener en cuenta, como se vio en el tema 1, las funciones de pérdida (ası́ como las funciones de riesgo
asociadas) que determinan los criterios de obtención de estimadores (recordemos, por ejemplo, como la
pérdida cuadrática y la varianza como riesgo asociado a ella, fue el criterio más desarrollado desde el
punto de vista clásico).
Sea L(θ, T ) una función de pérdida para estimar una función paramétrica ψ(θ). Puesto que en la
perspectiva bayesiana se parte de una distribución inicial que se actualiza con los datos para obtener
la distribución final, el riesgo asociado a la pérdida L(θ, T ) también se actualiza en ese sentido, dando
origen al riesgo a posteriori :
Z
π
RF (θ, T ) =
L(θ, T )π(θ | x) dθ.
θ∈Θ
Página inicial
Contenido
JJ
II
J
I
Página 7 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
El sentido de los estimadores bayesianos es que toda la información sobre θ, una vez observada la
muestra, se encuentra contenida en la distribución final. En ese sentido, esa distribución es realmente
el estimador bayesiano. no obstante, si se desea proporcionar un valor de θ (una estimación) se puede
emplear una caracterı́stica de dicha distribución que minimice el riesgo seleccionado.
Página www
Página inicial
Contenido
JJ
II
J
I
Página 8 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
El sentido de los estimadores bayesianos es que toda la información sobre θ, una vez observada la
muestra, se encuentra contenida en la distribución final. En ese sentido, esa distribución es realmente
el estimador bayesiano. no obstante, si se desea proporcionar un valor de θ (una estimación) se puede
emplear una caracterı́stica de dicha distribución que minimice el riesgo seleccionado.
Por ello, para pérdidas cuadráticas L(θ, t) = (θ − t)2 , se elige la media de la distribución a posteriori,
mientras que para pérdidas del tipo L(θ, t) =| θ − t | se elige la mediana.
Página www
Página inicial
Contenido
JJ
II
J
I
Página 8 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
El sentido de los estimadores bayesianos es que toda la información sobre θ, una vez observada la
muestra, se encuentra contenida en la distribución final. En ese sentido, esa distribución es realmente
el estimador bayesiano. no obstante, si se desea proporcionar un valor de θ (una estimación) se puede
emplear una caracterı́stica de dicha distribución que minimice el riesgo seleccionado.
Por ello, para pérdidas cuadráticas L(θ, t) = (θ − t)2 , se elige la media de la distribución a posteriori,
mientras que para pérdidas del tipo L(θ, t) =| θ − t | se elige la mediana.
Ejemplo 4.1. Sea X una variable aleatoria de Bernoulli de parámetro θ y consideremos π(θ) = I(0,1) (θ).
Deseamos obtener el estimador bayesiano a partir de una muestra aleatoria simple de tamaño n, considerando la función de pérdida L(θ, t) = (θ − t)2 .
Página www
Página inicial
Contenido
JJ
II
J
I
Página 8 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
El sentido de los estimadores bayesianos es que toda la información sobre θ, una vez observada la
muestra, se encuentra contenida en la distribución final. En ese sentido, esa distribución es realmente
el estimador bayesiano. no obstante, si se desea proporcionar un valor de θ (una estimación) se puede
emplear una caracterı́stica de dicha distribución que minimice el riesgo seleccionado.
Por ello, para pérdidas cuadráticas L(θ, t) = (θ − t)2 , se elige la media de la distribución a posteriori,
mientras que para pérdidas del tipo L(θ, t) =| θ − t | se elige la mediana.
Ejemplo 4.1. Sea X una variable aleatoria de Bernoulli de parámetro θ y consideremos π(θ) = I(0,1) (θ).
Deseamos obtener el estimador bayesiano a partir de una muestra aleatoria simple de tamaño n, considerando la función de pérdida L(θ, t) = (θ − t)2 .
Pn
Puesto
que
la
distribución
a
posteriori
es
una
distribución
beta
de
parámetros
i=1 xi + 1 y n −
Pn
i=1 xi + 1, se deduce que, para la función pérdida considerada, el estimador bayes es
Página www
Página inicial
Contenido
JJ
II
J
I
Página 8 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
El sentido de los estimadores bayesianos es que toda la información sobre θ, una vez observada la
muestra, se encuentra contenida en la distribución final. En ese sentido, esa distribución es realmente
el estimador bayesiano. no obstante, si se desea proporcionar un valor de θ (una estimación) se puede
emplear una caracterı́stica de dicha distribución que minimice el riesgo seleccionado.
Por ello, para pérdidas cuadráticas L(θ, t) = (θ − t)2 , se elige la media de la distribución a posteriori,
mientras que para pérdidas del tipo L(θ, t) =| θ − t | se elige la mediana.
Ejemplo 4.1. Sea X una variable aleatoria de Bernoulli de parámetro θ y consideremos π(θ) = I(0,1) (θ).
Deseamos obtener el estimador bayesiano a partir de una muestra aleatoria simple de tamaño n, considerando la función de pérdida L(θ, t) = (θ − t)2 .
Pn
Puesto
que
la
distribución
a
posteriori
es
una
distribución
beta
de
parámetros
i=1 xi + 1 y n −
Pn
i=1 xi + 1, se deduce que, para la función pérdida considerada, el estimador bayes es
n
X
T (x) =
Página www
xi + 1
i=1
n+2
·
Página inicial
Contenido
JJ
II
J
I
Página 8 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
El sentido de los estimadores bayesianos es que toda la información sobre θ, una vez observada la
muestra, se encuentra contenida en la distribución final. En ese sentido, esa distribución es realmente
el estimador bayesiano. no obstante, si se desea proporcionar un valor de θ (una estimación) se puede
emplear una caracterı́stica de dicha distribución que minimice el riesgo seleccionado.
Por ello, para pérdidas cuadráticas L(θ, t) = (θ − t)2 , se elige la media de la distribución a posteriori,
mientras que para pérdidas del tipo L(θ, t) =| θ − t | se elige la mediana.
Ejemplo 4.1. Sea X una variable aleatoria de Bernoulli de parámetro θ y consideremos π(θ) = I(0,1) (θ).
Deseamos obtener el estimador bayesiano a partir de una muestra aleatoria simple de tamaño n, considerando la función de pérdida L(θ, t) = (θ − t)2 .
Pn
Puesto
que
la
distribución
a
posteriori
es
una
distribución
beta
de
parámetros
i=1 xi + 1 y n −
Pn
i=1 xi + 1, se deduce que, para la función pérdida considerada, el estimador bayes es
n
X
T (x) =
Página www
xi + 1
i=1
n+2
·
Página inicial
Contenido
Ejemplo 4.2. Sea X una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y consideremos como
distribución a priori una distribución normal de parámetros η y τ 2 . Entonces, dada una muestra aleatoria
simple de tamaño n, la distribución a posteriori es una normal de parámetros
nxτ 2 + σ 2 η
nτ 2 + σ 2
2σ 2 τ 2
y
·
nτ 2 + σ 2
JJ
II
J
I
Página 8 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
El sentido de los estimadores bayesianos es que toda la información sobre θ, una vez observada la
muestra, se encuentra contenida en la distribución final. En ese sentido, esa distribución es realmente
el estimador bayesiano. no obstante, si se desea proporcionar un valor de θ (una estimación) se puede
emplear una caracterı́stica de dicha distribución que minimice el riesgo seleccionado.
Por ello, para pérdidas cuadráticas L(θ, t) = (θ − t)2 , se elige la media de la distribución a posteriori,
mientras que para pérdidas del tipo L(θ, t) =| θ − t | se elige la mediana.
Ejemplo 4.1. Sea X una variable aleatoria de Bernoulli de parámetro θ y consideremos π(θ) = I(0,1) (θ).
Deseamos obtener el estimador bayesiano a partir de una muestra aleatoria simple de tamaño n, considerando la función de pérdida L(θ, t) = (θ − t)2 .
Pn
Puesto
que
la
distribución
a
posteriori
es
una
distribución
beta
de
parámetros
i=1 xi + 1 y n −
Pn
i=1 xi + 1, se deduce que, para la función pérdida considerada, el estimador bayes es
n
X
T (x) =
Página www
xi + 1
i=1
n+2
·
Página inicial
Contenido
Ejemplo 4.2. Sea X una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y consideremos como
distribución a priori una distribución normal de parámetros η y τ 2 . Entonces, dada una muestra aleatoria
simple de tamaño n, la distribución a posteriori es una normal de parámetros
nxτ 2 + σ 2 η
nτ 2 + σ 2
2σ 2 τ 2
y
·
nτ 2 + σ 2
Ası́ pues, tanto si se considera como función de pérdida L(θ, t) = (θ − t)2 como L(θ, t) =| θ − t |, el
estimador bayes de µ es
JJ
II
J
I
Página 8 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
El sentido de los estimadores bayesianos es que toda la información sobre θ, una vez observada la
muestra, se encuentra contenida en la distribución final. En ese sentido, esa distribución es realmente
el estimador bayesiano. no obstante, si se desea proporcionar un valor de θ (una estimación) se puede
emplear una caracterı́stica de dicha distribución que minimice el riesgo seleccionado.
Por ello, para pérdidas cuadráticas L(θ, t) = (θ − t)2 , se elige la media de la distribución a posteriori,
mientras que para pérdidas del tipo L(θ, t) =| θ − t | se elige la mediana.
Ejemplo 4.1. Sea X una variable aleatoria de Bernoulli de parámetro θ y consideremos π(θ) = I(0,1) (θ).
Deseamos obtener el estimador bayesiano a partir de una muestra aleatoria simple de tamaño n, considerando la función de pérdida L(θ, t) = (θ − t)2 .
Pn
Puesto
que
la
distribución
a
posteriori
es
una
distribución
beta
de
parámetros
i=1 xi + 1 y n −
Pn
i=1 xi + 1, se deduce que, para la función pérdida considerada, el estimador bayes es
n
X
T (x) =
Página www
xi + 1
i=1
n+2
·
Página inicial
Contenido
Ejemplo 4.2. Sea X una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y consideremos como
distribución a priori una distribución normal de parámetros η y τ 2 . Entonces, dada una muestra aleatoria
simple de tamaño n, la distribución a posteriori es una normal de parámetros
nxτ 2 + σ 2 η
nτ 2 + σ 2
2σ 2 τ 2
y
·
nτ 2 + σ 2
Ası́ pues, tanto si se considera como función de pérdida L(θ, t) = (θ − t)2 como L(θ, t) =| θ − t |, el
estimador bayes de µ es
nxτ 2 + σ 2 η
T (x) =
·
nτ 2 + σ 2
JJ
II
J
I
Página 8 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
5.
Regiones de confianza bayesianas
Página www
Página inicial
Contenido
JJ
II
J
I
Página 9 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
5.
Regiones de confianza bayesianas
Mediante la aproximación bayesiana, el cálculo de regiones de confianza se realizará, al igual que los
estimadores puntuales, a partir de la distribución final.
Página www
Página inicial
Contenido
JJ
II
J
I
Página 9 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
5.
Regiones de confianza bayesianas
Mediante la aproximación bayesiana, el cálculo de regiones de confianza se realizará, al igual que los
estimadores puntuales, a partir de la distribución final.
Sin embargo, ahora la interpretación es diferente ya que el parámetro es aleatorio. Ası́ se suele hablar
de región creı́ble. Ası́ se dice que C(x) es una región creı́ble de probabilidad 1 − α si
P (θ ∈ C(x) | X = x) ≥ 1 − α
donde la probabilidad se calcula mediante la distribución a posteriori.
Página www
Página inicial
Contenido
JJ
II
J
I
Página 9 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
5.
Regiones de confianza bayesianas
Mediante la aproximación bayesiana, el cálculo de regiones de confianza se realizará, al igual que los
estimadores puntuales, a partir de la distribución final.
Sin embargo, ahora la interpretación es diferente ya que el parámetro es aleatorio. Ası́ se suele hablar
de región creı́ble. Ası́ se dice que C(x) es una región creı́ble de probabilidad 1 − α si
P (θ ∈ C(x) | X = x) ≥ 1 − α
donde la probabilidad se calcula mediante la distribución a posteriori.
Ejemplo 5.1. Siguiendo con el ejemplo en el que X es una variable aleatoria de Bernoulli de parámetro
θ y se considera π(θ) = I(0,1) (θ), sabemos que a partir de una muestra
Pn aleatoria simple
Pn de tamaño n, la
distribución a posteriori es una distribución beta de parámetros i=1 xi + 1 y n − i=1 xi + 1.
Página www
Página inicial
Contenido
JJ
II
J
I
Página 9 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
5.
Regiones de confianza bayesianas
Mediante la aproximación bayesiana, el cálculo de regiones de confianza se realizará, al igual que los
estimadores puntuales, a partir de la distribución final.
Sin embargo, ahora la interpretación es diferente ya que el parámetro es aleatorio. Ası́ se suele hablar
de región creı́ble. Ası́ se dice que C(x) es una región creı́ble de probabilidad 1 − α si
P (θ ∈ C(x) | X = x) ≥ 1 − α
donde la probabilidad se calcula mediante la distribución a posteriori.
Ejemplo 5.1. Siguiendo con el ejemplo en el que X es una variable aleatoria de Bernoulli de parámetro
θ y se considera π(θ) = I(0,1) (θ), sabemos que a partir de una muestra
Pn aleatoria simple
Pn de tamaño n, la
distribución a posteriori es una distribución beta de parámetros i=1 xi + 1 y n − i=1 xi + 1.
P
De esta forma, tomando por ejemplo n = 10, ni=1 xi = 3 y α = 0.1, la distribución final es una
beta de parámetros 4 y 8. Considerando colas de igual tamaño, α/2, la región creı́ble que se obtiene es
C(x) = (0.135, 0.564).
Página www
Página inicial
Contenido
JJ
II
J
I
Página 9 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
5.
Regiones de confianza bayesianas
Mediante la aproximación bayesiana, el cálculo de regiones de confianza se realizará, al igual que los
estimadores puntuales, a partir de la distribución final.
Sin embargo, ahora la interpretación es diferente ya que el parámetro es aleatorio. Ası́ se suele hablar
de región creı́ble. Ası́ se dice que C(x) es una región creı́ble de probabilidad 1 − α si
P (θ ∈ C(x) | X = x) ≥ 1 − α
donde la probabilidad se calcula mediante la distribución a posteriori.
Ejemplo 5.1. Siguiendo con el ejemplo en el que X es una variable aleatoria de Bernoulli de parámetro
θ y se considera π(θ) = I(0,1) (θ), sabemos que a partir de una muestra
Pn aleatoria simple
Pn de tamaño n, la
distribución a posteriori es una distribución beta de parámetros i=1 xi + 1 y n − i=1 xi + 1.
P
De esta forma, tomando por ejemplo n = 10, ni=1 xi = 3 y α = 0.1, la distribución final es una
beta de parámetros 4 y 8. Considerando colas de igual tamaño, α/2, la región creı́ble que se obtiene es
C(x) = (0.135, 0.564).
Observemos que en este tipo de cálculo existe el problema, como ocurrı́a en el caso clásico, de determinar los lı́mites del intervalo dependiendo de cómo se reparte la probabilidad. Para un valor α fijado,
la solución a dicho problema no es única y puede conducir a distintas regiones.
Página www
Página inicial
Contenido
JJ
II
J
I
Página 9 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
5.
Regiones de confianza bayesianas
Mediante la aproximación bayesiana, el cálculo de regiones de confianza se realizará, al igual que los
estimadores puntuales, a partir de la distribución final.
Sin embargo, ahora la interpretación es diferente ya que el parámetro es aleatorio. Ası́ se suele hablar
de región creı́ble. Ası́ se dice que C(x) es una región creı́ble de probabilidad 1 − α si
P (θ ∈ C(x) | X = x) ≥ 1 − α
donde la probabilidad se calcula mediante la distribución a posteriori.
Ejemplo 5.1. Siguiendo con el ejemplo en el que X es una variable aleatoria de Bernoulli de parámetro
θ y se considera π(θ) = I(0,1) (θ), sabemos que a partir de una muestra
Pn aleatoria simple
Pn de tamaño n, la
distribución a posteriori es una distribución beta de parámetros i=1 xi + 1 y n − i=1 xi + 1.
P
De esta forma, tomando por ejemplo n = 10, ni=1 xi = 3 y α = 0.1, la distribución final es una
beta de parámetros 4 y 8. Considerando colas de igual tamaño, α/2, la región creı́ble que se obtiene es
C(x) = (0.135, 0.564).
Observemos que en este tipo de cálculo existe el problema, como ocurrı́a en el caso clásico, de determinar los lı́mites del intervalo dependiendo de cómo se reparte la probabilidad. Para un valor α fijado,
la solución a dicho problema no es única y puede conducir a distintas regiones.
Página www
Página inicial
Contenido
JJ
II
J
I
Página 9 de 11
La solución más correcta es escoger la región de forma que los puntos en ella tengan la máxima
probabilidad final posible. En el caso de que la región sea un intervalo, ello consigue además que el
intervalo tenga amplitud mı́nima. Esta solución suele denominarse región creı́ble con mayor distribución
final (HPD en la nomenclatura anglosajona).
Regresar
Pantalla completa
Cerrar
Abandonar
5.
Regiones de confianza bayesianas
Mediante la aproximación bayesiana, el cálculo de regiones de confianza se realizará, al igual que los
estimadores puntuales, a partir de la distribución final.
Sin embargo, ahora la interpretación es diferente ya que el parámetro es aleatorio. Ası́ se suele hablar
de región creı́ble. Ası́ se dice que C(x) es una región creı́ble de probabilidad 1 − α si
P (θ ∈ C(x) | X = x) ≥ 1 − α
donde la probabilidad se calcula mediante la distribución a posteriori.
Ejemplo 5.1. Siguiendo con el ejemplo en el que X es una variable aleatoria de Bernoulli de parámetro
θ y se considera π(θ) = I(0,1) (θ), sabemos que a partir de una muestra
Pn aleatoria simple
Pn de tamaño n, la
distribución a posteriori es una distribución beta de parámetros i=1 xi + 1 y n − i=1 xi + 1.
P
De esta forma, tomando por ejemplo n = 10, ni=1 xi = 3 y α = 0.1, la distribución final es una
beta de parámetros 4 y 8. Considerando colas de igual tamaño, α/2, la región creı́ble que se obtiene es
C(x) = (0.135, 0.564).
Observemos que en este tipo de cálculo existe el problema, como ocurrı́a en el caso clásico, de determinar los lı́mites del intervalo dependiendo de cómo se reparte la probabilidad. Para un valor α fijado,
la solución a dicho problema no es única y puede conducir a distintas regiones.
Página www
Página inicial
Contenido
JJ
II
J
I
Página 9 de 11
La solución más correcta es escoger la región de forma que los puntos en ella tengan la máxima
probabilidad final posible. En el caso de que la región sea un intervalo, ello consigue además que el
intervalo tenga amplitud mı́nima. Esta solución suele denominarse región creı́ble con mayor distribución
final (HPD en la nomenclatura anglosajona).
De esta forma, la región creı́ble HPD es de la forma C(x) = {θ ∈ Θ; π(θ | x) ≥ c} ≥ 1 − α.
Regresar
Pantalla completa
Cerrar
Abandonar
5.
Regiones de confianza bayesianas
Mediante la aproximación bayesiana, el cálculo de regiones de confianza se realizará, al igual que los
estimadores puntuales, a partir de la distribución final.
Sin embargo, ahora la interpretación es diferente ya que el parámetro es aleatorio. Ası́ se suele hablar
de región creı́ble. Ası́ se dice que C(x) es una región creı́ble de probabilidad 1 − α si
P (θ ∈ C(x) | X = x) ≥ 1 − α
donde la probabilidad se calcula mediante la distribución a posteriori.
Ejemplo 5.1. Siguiendo con el ejemplo en el que X es una variable aleatoria de Bernoulli de parámetro
θ y se considera π(θ) = I(0,1) (θ), sabemos que a partir de una muestra
Pn aleatoria simple
Pn de tamaño n, la
distribución a posteriori es una distribución beta de parámetros i=1 xi + 1 y n − i=1 xi + 1.
P
De esta forma, tomando por ejemplo n = 10, ni=1 xi = 3 y α = 0.1, la distribución final es una
beta de parámetros 4 y 8. Considerando colas de igual tamaño, α/2, la región creı́ble que se obtiene es
C(x) = (0.135, 0.564).
Observemos que en este tipo de cálculo existe el problema, como ocurrı́a en el caso clásico, de determinar los lı́mites del intervalo dependiendo de cómo se reparte la probabilidad. Para un valor α fijado,
la solución a dicho problema no es única y puede conducir a distintas regiones.
Página www
Página inicial
Contenido
JJ
II
J
I
Página 9 de 11
La solución más correcta es escoger la región de forma que los puntos en ella tengan la máxima
probabilidad final posible. En el caso de que la región sea un intervalo, ello consigue además que el
intervalo tenga amplitud mı́nima. Esta solución suele denominarse región creı́ble con mayor distribución
final (HPD en la nomenclatura anglosajona).
De esta forma, la región creı́ble HPD es de la forma C(x) = {θ ∈ Θ; π(θ | x) ≥ c} ≥ 1 − α.
La solución a este problema, como ocurre en múltiples aplicaciones en el campo clásico, conduce a
una cuestión numérica. En el ejemplo anterior, la solución lleva al intervalo (0.117, 0.542), que tiene una
probabilidad 0.9 y es de menor longitud que el anterior.
Regresar
Pantalla completa
Cerrar
Abandonar
Ejemplo 5.2. Siguiendo con el ejemplo en el que X es una variable aleatoria normal N1 [µ; σ 2 ] con
σ 2 conocida y se considera como distribución a priori una distribución normal de parámetros η y τ 2 ,
observada una muestra aleatoria simple de tamaño n, la distribución a posteriori es una normal de
parámetros
nxτ 2 + σ 2 η
2σ 2 τ 2
[µ
|
x]
=
y
Var[µ
|
x]
=
·
E
nτ 2 + σ 2
nτ 2 + σ 2
Página www
Página inicial
Contenido
JJ
II
J
I
Página 10 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
Ejemplo 5.2. Siguiendo con el ejemplo en el que X es una variable aleatoria normal N1 [µ; σ 2 ] con
σ 2 conocida y se considera como distribución a priori una distribución normal de parámetros η y τ 2 ,
observada una muestra aleatoria simple de tamaño n, la distribución a posteriori es una normal de
parámetros
nxτ 2 + σ 2 η
2σ 2 τ 2
[µ
|
x]
=
y
Var[µ
|
x]
=
·
E
nτ 2 + σ 2
nτ 2 + σ 2
Por lo tanto,
µ − E[µ | x]
p
; N1 [0, 1]·
Var[µ | x]
Página www
Página inicial
Contenido
JJ
II
J
I
Página 10 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
Ejemplo 5.2. Siguiendo con el ejemplo en el que X es una variable aleatoria normal N1 [µ; σ 2 ] con
σ 2 conocida y se considera como distribución a priori una distribución normal de parámetros η y τ 2 ,
observada una muestra aleatoria simple de tamaño n, la distribución a posteriori es una normal de
parámetros
nxτ 2 + σ 2 η
2σ 2 τ 2
[µ
|
x]
=
y
Var[µ
|
x]
=
·
E
nτ 2 + σ 2
nτ 2 + σ 2
Por lo tanto,
µ − E[µ | x]
p
; N1 [0, 1]·
Var[µ | x]
Ası́, gracias a las caracterı́sticas de la distribución normal, la región HPD con probabilidad 1−α viene
dada por
p
C(x) = {θ :| µ − E[µ | x] |< zα/2 Var[µ | x]}.
Página www
Página inicial
Contenido
JJ
II
J
I
Página 10 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
Ejemplo 5.2. Siguiendo con el ejemplo en el que X es una variable aleatoria normal N1 [µ; σ 2 ] con
σ 2 conocida y se considera como distribución a priori una distribución normal de parámetros η y τ 2 ,
observada una muestra aleatoria simple de tamaño n, la distribución a posteriori es una normal de
parámetros
nxτ 2 + σ 2 η
2σ 2 τ 2
[µ
|
x]
=
y
Var[µ
|
x]
=
·
E
nτ 2 + σ 2
nτ 2 + σ 2
Por lo tanto,
µ − E[µ | x]
p
; N1 [0, 1]·
Var[µ | x]
Ası́, gracias a las caracterı́sticas de la distribución normal, la región HPD con probabilidad 1−α viene
dada por
p
C(x) = {θ :| µ − E[µ | x] |< zα/2 Var[µ | x]}.
Página www
6.
Contrastes bayesianos
Página inicial
Contenido
JJ
II
J
I
Página 10 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
Ejemplo 5.2. Siguiendo con el ejemplo en el que X es una variable aleatoria normal N1 [µ; σ 2 ] con
σ 2 conocida y se considera como distribución a priori una distribución normal de parámetros η y τ 2 ,
observada una muestra aleatoria simple de tamaño n, la distribución a posteriori es una normal de
parámetros
nxτ 2 + σ 2 η
2σ 2 τ 2
[µ
|
x]
=
y
Var[µ
|
x]
=
·
E
nτ 2 + σ 2
nτ 2 + σ 2
Por lo tanto,
µ − E[µ | x]
p
; N1 [0, 1]·
Var[µ | x]
Ası́, gracias a las caracterı́sticas de la distribución normal, la región HPD con probabilidad 1−α viene
dada por
p
C(x) = {θ :| µ − E[µ | x] |< zα/2 Var[µ | x]}.
Página www
6.
Contrastes bayesianos
Página inicial
Contenido
Consideremos el problema de contraste H0 : θ ∈ Θ0 frente a H1 : θ ∈ Θ1 .
JJ
II
J
I
Página 10 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
Ejemplo 5.2. Siguiendo con el ejemplo en el que X es una variable aleatoria normal N1 [µ; σ 2 ] con
σ 2 conocida y se considera como distribución a priori una distribución normal de parámetros η y τ 2 ,
observada una muestra aleatoria simple de tamaño n, la distribución a posteriori es una normal de
parámetros
nxτ 2 + σ 2 η
2σ 2 τ 2
[µ
|
x]
=
y
Var[µ
|
x]
=
·
E
nτ 2 + σ 2
nτ 2 + σ 2
Por lo tanto,
µ − E[µ | x]
p
; N1 [0, 1]·
Var[µ | x]
Ası́, gracias a las caracterı́sticas de la distribución normal, la región HPD con probabilidad 1−α viene
dada por
p
C(x) = {θ :| µ − E[µ | x] |< zα/2 Var[µ | x]}.
Página www
6.
Contrastes bayesianos
Página inicial
Contenido
Consideremos el problema de contraste H0 : θ ∈ Θ0 frente a H1 : θ ∈ Θ1 .
Al igual que ocurre con la estimación, el enfoque bayesiano para el problema de contraste de hipótesis
se centra en la distribución a posteriori, por lo que se puede hablar con toda propiedad de la probabilidad
final de la hipótesis nula y la alternativa y compararlas para tomar una decisión definitiva.
JJ
II
J
I
Página 10 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
Ejemplo 5.2. Siguiendo con el ejemplo en el que X es una variable aleatoria normal N1 [µ; σ 2 ] con
σ 2 conocida y se considera como distribución a priori una distribución normal de parámetros η y τ 2 ,
observada una muestra aleatoria simple de tamaño n, la distribución a posteriori es una normal de
parámetros
nxτ 2 + σ 2 η
2σ 2 τ 2
[µ
|
x]
=
y
Var[µ
|
x]
=
·
E
nτ 2 + σ 2
nτ 2 + σ 2
Por lo tanto,
µ − E[µ | x]
p
; N1 [0, 1]·
Var[µ | x]
Ası́, gracias a las caracterı́sticas de la distribución normal, la región HPD con probabilidad 1−α viene
dada por
p
C(x) = {θ :| µ − E[µ | x] |< zα/2 Var[µ | x]}.
Página www
6.
Contrastes bayesianos
Página inicial
Contenido
Consideremos el problema de contraste H0 : θ ∈ Θ0 frente a H1 : θ ∈ Θ1 .
Al igual que ocurre con la estimación, el enfoque bayesiano para el problema de contraste de hipótesis
se centra en la distribución a posteriori, por lo que se puede hablar con toda propiedad de la probabilidad
final de la hipótesis nula y la alternativa y compararlas para tomar una decisión definitiva.
Llamemos P (Θi | x), i = 1, 2, a la probabilidad de que θ ∈ Θi , i = 1, 2, cuando dicha probabilidad se
mide con la distribución a posteriori. En consecuencia, como ambas probabilidades pueden ser calculadas,
la región crı́tica es
JJ
II
J
I
Página 10 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
Ejemplo 5.2. Siguiendo con el ejemplo en el que X es una variable aleatoria normal N1 [µ; σ 2 ] con
σ 2 conocida y se considera como distribución a priori una distribución normal de parámetros η y τ 2 ,
observada una muestra aleatoria simple de tamaño n, la distribución a posteriori es una normal de
parámetros
nxτ 2 + σ 2 η
2σ 2 τ 2
[µ
|
x]
=
y
Var[µ
|
x]
=
·
E
nτ 2 + σ 2
nτ 2 + σ 2
Por lo tanto,
µ − E[µ | x]
p
; N1 [0, 1]·
Var[µ | x]
Ası́, gracias a las caracterı́sticas de la distribución normal, la región HPD con probabilidad 1−α viene
dada por
p
C(x) = {θ :| µ − E[µ | x] |< zα/2 Var[µ | x]}.
Página www
6.
Contrastes bayesianos
Página inicial
Contenido
Consideremos el problema de contraste H0 : θ ∈ Θ0 frente a H1 : θ ∈ Θ1 .
Al igual que ocurre con la estimación, el enfoque bayesiano para el problema de contraste de hipótesis
se centra en la distribución a posteriori, por lo que se puede hablar con toda propiedad de la probabilidad
final de la hipótesis nula y la alternativa y compararlas para tomar una decisión definitiva.
Llamemos P (Θi | x), i = 1, 2, a la probabilidad de que θ ∈ Θi , i = 1, 2, cuando dicha probabilidad se
mide con la distribución a posteriori. En consecuencia, como ambas probabilidades pueden ser calculadas,
la región crı́tica es
C = {x ∈ Rn : P (Θ1 | x) > P (Θ0 | x)} .
JJ
II
J
I
Página 10 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
Comentario 6.1. En este planteamiento el énfasis se hace sobre el espacio paramétrico y no sobre el
espacio muestral como hace el planteamiento clásico.
Página www
Página inicial
Contenido
JJ
II
J
I
Página 11 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
Comentario 6.1. En este planteamiento el énfasis se hace sobre el espacio paramétrico y no sobre el
espacio muestral como hace el planteamiento clásico.
En efecto, ahora no se va a estar interesado en todos los puntos de la región crı́tica, sino en si para
un punto muestral fijo, el que se observa, se acepta o se rechaza la hipótesis nula en función de las
probabilidades a posteriori.
Página www
Página inicial
Contenido
JJ
II
J
I
Página 11 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
Comentario 6.1. En este planteamiento el énfasis se hace sobre el espacio paramétrico y no sobre el
espacio muestral como hace el planteamiento clásico.
En efecto, ahora no se va a estar interesado en todos los puntos de la región crı́tica, sino en si para
un punto muestral fijo, el que se observa, se acepta o se rechaza la hipótesis nula en función de las
probabilidades a posteriori.
Además, observemos que ahora el comportamiento de ambas hipótesis es simétrico y simplemente
se calculan las probabilidades finales de ambas hipótesis, verificándose P (Θ0 | x) + P (Θ1 | x) = 1,
aceptándose aquella cuya probabilidad final sea mayor. La unión de todos los puntos muestrales para los
cuales la probabilidad final de la hipótesis alternativa sea mayor que la de la nula conforman la región
crı́tica.
Página www
Página inicial
Contenido
JJ
II
J
I
Página 11 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
Comentario 6.1. En este planteamiento el énfasis se hace sobre el espacio paramétrico y no sobre el
espacio muestral como hace el planteamiento clásico.
En efecto, ahora no se va a estar interesado en todos los puntos de la región crı́tica, sino en si para
un punto muestral fijo, el que se observa, se acepta o se rechaza la hipótesis nula en función de las
probabilidades a posteriori.
Además, observemos que ahora el comportamiento de ambas hipótesis es simétrico y simplemente
se calculan las probabilidades finales de ambas hipótesis, verificándose P (Θ0 | x) + P (Θ1 | x) = 1,
aceptándose aquella cuya probabilidad final sea mayor. La unión de todos los puntos muestrales para los
cuales la probabilidad final de la hipótesis alternativa sea mayor que la de la nula conforman la región
crı́tica.
Ejemplo 6.1. Sea X una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y sea una distribución
normal de parámetros η y τ 2 la distribución a priori para µ. Consideremos el problema de contraste
H0 : µ ≤ µ0 frente a H1 : µ > µ0 .
Página www
Página inicial
Contenido
JJ
II
J
I
Página 11 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
Comentario 6.1. En este planteamiento el énfasis se hace sobre el espacio paramétrico y no sobre el
espacio muestral como hace el planteamiento clásico.
En efecto, ahora no se va a estar interesado en todos los puntos de la región crı́tica, sino en si para
un punto muestral fijo, el que se observa, se acepta o se rechaza la hipótesis nula en función de las
probabilidades a posteriori.
Además, observemos que ahora el comportamiento de ambas hipótesis es simétrico y simplemente
se calculan las probabilidades finales de ambas hipótesis, verificándose P (Θ0 | x) + P (Θ1 | x) = 1,
aceptándose aquella cuya probabilidad final sea mayor. La unión de todos los puntos muestrales para los
cuales la probabilidad final de la hipótesis alternativa sea mayor que la de la nula conforman la región
crı́tica.
Ejemplo 6.1. Sea X una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y sea una distribución
normal de parámetros η y τ 2 la distribución a priori para µ. Consideremos el problema de contraste
H0 : µ ≤ µ0 frente a H1 : µ > µ0 .
Observada una muestra aleatoria simple de tamaño n sabemos que la distribución a posteriori es una
normal de parámetros
nxτ 2 + σ 2 η
2σ 2 τ 2
y
·
nτ 2 + σ 2
nτ 2 + σ 2
Página www
Página inicial
Contenido
JJ
II
J
I
Página 11 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
Comentario 6.1. En este planteamiento el énfasis se hace sobre el espacio paramétrico y no sobre el
espacio muestral como hace el planteamiento clásico.
En efecto, ahora no se va a estar interesado en todos los puntos de la región crı́tica, sino en si para
un punto muestral fijo, el que se observa, se acepta o se rechaza la hipótesis nula en función de las
probabilidades a posteriori.
Además, observemos que ahora el comportamiento de ambas hipótesis es simétrico y simplemente
se calculan las probabilidades finales de ambas hipótesis, verificándose P (Θ0 | x) + P (Θ1 | x) = 1,
aceptándose aquella cuya probabilidad final sea mayor. La unión de todos los puntos muestrales para los
cuales la probabilidad final de la hipótesis alternativa sea mayor que la de la nula conforman la región
crı́tica.
Ejemplo 6.1. Sea X una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y sea una distribución
normal de parámetros η y τ 2 la distribución a priori para µ. Consideremos el problema de contraste
H0 : µ ≤ µ0 frente a H1 : µ > µ0 .
Observada una muestra aleatoria simple de tamaño n sabemos que la distribución a posteriori es una
normal de parámetros
nxτ 2 + σ 2 η
2σ 2 τ 2
y
·
nτ 2 + σ 2
nτ 2 + σ 2
Se decidirá aceptar H0 si y sólo si P (µ ≤ µ0 | x) > P (µ > µ0 | x), lo cual ocurrirá si y sólo si
P (µ ≤ µ0 | x) ≥ 1/2.
Página www
Página inicial
Contenido
JJ
II
J
I
Página 11 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
Comentario 6.1. En este planteamiento el énfasis se hace sobre el espacio paramétrico y no sobre el
espacio muestral como hace el planteamiento clásico.
En efecto, ahora no se va a estar interesado en todos los puntos de la región crı́tica, sino en si para
un punto muestral fijo, el que se observa, se acepta o se rechaza la hipótesis nula en función de las
probabilidades a posteriori.
Además, observemos que ahora el comportamiento de ambas hipótesis es simétrico y simplemente
se calculan las probabilidades finales de ambas hipótesis, verificándose P (Θ0 | x) + P (Θ1 | x) = 1,
aceptándose aquella cuya probabilidad final sea mayor. La unión de todos los puntos muestrales para los
cuales la probabilidad final de la hipótesis alternativa sea mayor que la de la nula conforman la región
crı́tica.
Ejemplo 6.1. Sea X una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y sea una distribución
normal de parámetros η y τ 2 la distribución a priori para µ. Consideremos el problema de contraste
H0 : µ ≤ µ0 frente a H1 : µ > µ0 .
Observada una muestra aleatoria simple de tamaño n sabemos que la distribución a posteriori es una
normal de parámetros
nxτ 2 + σ 2 η
2σ 2 τ 2
y
·
nτ 2 + σ 2
nτ 2 + σ 2
Se decidirá aceptar H0 si y sólo si P (µ ≤ µ0 | x) > P (µ > µ0 | x), lo cual ocurrirá si y sólo si
P (µ ≤ µ0 | x) ≥ 1/2.
Como π(µ | x) es simétrica entorno a la media, P (µ ≤ µ0 | x) ≥ 1/2 si y sólo si la media de π(µ | x)
es menor o igual que µ0 , lo cual es cierto si y sólo si
σ 2 (µ0 − η)
x ≤ µ0 +
·
nτ 2
Página www
Página inicial
Contenido
JJ
II
J
I
Página 11 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
Comentario 6.1. En este planteamiento el énfasis se hace sobre el espacio paramétrico y no sobre el
espacio muestral como hace el planteamiento clásico.
En efecto, ahora no se va a estar interesado en todos los puntos de la región crı́tica, sino en si para
un punto muestral fijo, el que se observa, se acepta o se rechaza la hipótesis nula en función de las
probabilidades a posteriori.
Además, observemos que ahora el comportamiento de ambas hipótesis es simétrico y simplemente
se calculan las probabilidades finales de ambas hipótesis, verificándose P (Θ0 | x) + P (Θ1 | x) = 1,
aceptándose aquella cuya probabilidad final sea mayor. La unión de todos los puntos muestrales para los
cuales la probabilidad final de la hipótesis alternativa sea mayor que la de la nula conforman la región
crı́tica.
Ejemplo 6.1. Sea X una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y sea una distribución
normal de parámetros η y τ 2 la distribución a priori para µ. Consideremos el problema de contraste
H0 : µ ≤ µ0 frente a H1 : µ > µ0 .
Observada una muestra aleatoria simple de tamaño n sabemos que la distribución a posteriori es una
normal de parámetros
nxτ 2 + σ 2 η
2σ 2 τ 2
y
·
nτ 2 + σ 2
nτ 2 + σ 2
Se decidirá aceptar H0 si y sólo si P (µ ≤ µ0 | x) > P (µ > µ0 | x), lo cual ocurrirá si y sólo si
P (µ ≤ µ0 | x) ≥ 1/2.
Como π(µ | x) es simétrica entorno a la media, P (µ ≤ µ0 | x) ≥ 1/2 si y sólo si la media de π(µ | x)
es menor o igual que µ0 , lo cual es cierto si y sólo si
σ 2 (µ0 − η)
x ≤ µ0 +
·
nτ 2
En particular, observemos que si η = µ0 , lo cual significa que se le da igual probabilidad inicial (1/2)
a ambas hipótesis, entonces H0 se acepta si y sólo si x ≤ µ0 , lo cual ocurre, independientemente de π(µ),
si el tamaño muestral n tiende a infinito.
Página www
Página inicial
Contenido
JJ
II
J
I
Página 11 de 11
Regresar
Pantalla completa
Cerrar
Abandonar
Descargar