CapIII.pdf

Anuncio
Capı́tulo 3
Distribuciones de Familias comunes
Distribuciones estadı́sticas son usadas para modelar poblaciones. Nosotros usualmente
trataremos con familias de distribuciones, en vez de con una simple distribución. Esas familias son indexadas por uno o más parámetros, lo cual nos permite variar ciertas caracterı́sticas
de la distribución. Por ejemplo, podemos especificar que la distribución Normal es una elección de un modelo razonable para una población particular, pero no podemos especificar
precisamente la media; entonces trataremos con una familia paramétrica, la normal con
media µ, donde este es un parámetro no especificado −∞ < µ < ∞.
En este capı́tulo serán catalogadas algunas de las muchas distribuciones estadı́sticas,
algunas de las cuales ya hemos tratado previamente. Para cada una de las distribuciones
que describamos, daremos su media y su varianza, y algunas otras descripciones adicionales
ó medidas que pudieran agregar comprensión. También se indicará alguna aplicación tı́pica
de esas distribuciones, e interrelaciones adicionales.
3.1.
Distribuciones discretas
Una va. X se dice tiene una distribución discreta, si su rango; e.d. el espacio muestral es
numerable. En la mayorı́a de las situaciones, la va. es entero-positiva valuada.
75
Probabilidad y Estadı́stica
3.1.1.
Distribución uniforme discreta
Una va. X tiene distribución uniforme discreta (1, N ), si
P (X = x | N ) =
1
,
N
x = 1, 2, . . . , N
(3.1)
donde N es un entero especificado. Esta distribución pone igual masa sobre cada uno de los
resultados 1, 2, . . . , N .
Una cuestión de Notación Cuando estamos tratando con distribuciones paramétricas, como será en la mayorı́a de los casos, la distribución depende de los parámetros. Con
la idea de enfatizar este hecho, y de mantener visibles los parámetros, los escribiremos
en la fmp precedido por un ”|”(dado). Esta misma convención también será usada con la
fdp, la fda, la esperanza, y otros casos donde pudiera ser necesario. Cuando no haya posibilidad de confusión, los parámetros pueden ser omitidos para no desordenar tanto la notación.
Calculemos ahora la media y la varianza de X. Entonces
EX =
N
X
xP (X = x | N ) =
x=1
N
X
x=1
x
1
1 N (N + 1)
N +1
=
=
N
N
2
2
y
2
EX =
N
X
2
x P (X = x | N ) =
x=1
N
X
x=1
x2
1
1 N (N + 1)(2N + 1)
(N + 1)(2N + 1)
=
=
N
N
2
2
y ası́,
V ar X = E X 2 − (E X)2
=
=
(N + 1)(2N + 1) ³ N + 1 ´2
−
2
2
(N + 1)(N − 1)
.
2
Esta distribución puede ser generalizada, a un espacio muestral en cualquier rango de enteros, N0 , N0 + 1, . . . , N1 , con fmp P (X = x | N0 , N1 ) = 1/(N1 − N0 + 1).
3.1.2.
Distribución Hipergeométrica
La distribución hipergeométrica tiene muchas aplicaciones en muestreo de poblaciones
finitas. Es mejor para su comprensión pensarla en el ejemplo clásico de un modelo de urna.
Probabilidad y Estadı́stica
Segundo Semestre 2005
76
Prof. Magister Osmar Vera
Probabilidad y Estadı́stica
Supongamos tenemos una urna con N bolillas iguales, salvo por el color, es decir, hay M
rojas y N − M verdes. K de tales bolillas son seleccionadas aleatoriamente (se toman una
a una de la urna, sin regresarla a la misma; se trata de un caso de muestreo sin reemplazo).
¿Cuál es la probabilidad que exactamente x de las bolillas sean rojas?.
El número total de muestras de medida K que pueden ser seleccionadas de un total de
¡N ¢
. Se requiere que x de tales bolillas sean rojas, lo cual puede ser realizado de
N es K
¡M ¢
¡M −N ¢
formas,
dejando
x
K−x caminos para elegir las K − x restantes que no son rojas. Ası́,
denotaremos por X la va. que mide el número rojas en la muestra de tamaño K, entonces
X tiene distribución hipergeométrica dada por
¡M ¢¡N −M ¢
x
P (X = x | N, N, K) =
,
¡NK−x
¢
x = 0, 1, . . . , K.
(3.2)
K
Note que hay implı́cita en (3.2), un supuesto adicional sobre el rango de X. Los coeficientes
¡ ¢
binomiales de la forma nr , han sido definidos solamente si n ≥ r, y ası́ el rango de x
está adicionalemente restringido por el siguiente par de inecuaciones
M ≥x
y
N − M ≥ K − x,
las cuales pueden ser combinadas como
M − (N − K) ≤ x ≤ M.
En muchos casos K es pequeño comparado con N y M , ası́ el rango 0 ≤ x ≤ K estará contenido en el rango último anterior dado para x, y por lo tanto será apropiado. La fórmula
para la función de probabilidad hipergeométrica es difı́cil de tratar. En efecto no es trivial
verificar que
K
X
P (X = x) =
x=0
K
X
¡M ¢¡N −M ¢
x=0
K
x
¡NK−x
¢
= 1.
El caso de la distribución hipergeométrica, ilustra la dificultad estadı́stica de tratar con
poblaciones finitas (finito N ).
La media de la distribución hipergeométrica está dada por
EX =
K
X
x=0
Probabilidad y Estadı́stica
Segundo Semestre 2005
¡M ¢¡N −M ¢
x
x
¡NK−x
¢
K
77
=
K
X
¡M ¢¡N −M ¢
x=1
K
x
.
¡NK−x
¢
Prof. Magister Osmar Vera
Probabilidad y Estadı́stica
(el sumando es 0 en x = 0). Para evaluar estas expresiones, usamos las siguientes identidades,
µ ¶
µ
¶
M
M −1
x
= M
,
x
x−1
µ ¶
µ
¶
N
N N −1
=
,
K
K K −1
y obtener
EX =
K
X
M
x=1
¡M −1¢¡N −M ¢
x−1
¡ K−x
¢
N N −1
K K−1
K
KM X
=
N
x=1
¡M −1¢¡N −M ¢
x−1
¡N −1K−x
¢
K−1
.
Es posible reconocer la segunda suma anterior como la suma de las probabilidades de otra
distribución hipergeométrica basada en valores de parámetros N −1, M −1, y K −1. Luego
esa suma vale 1. Finalmente se tiene que
EX =
KM
.
N
En forma similar, pero con más labor, es posible establecer que
V ar X =
KM ³ (N − M )(N − K) ´
.
N
N (N − 1)
Ejemplo 3.1.1. La biblioteca de una escuela de estudiantes no graduados tiene 20 ejemplares de cierto tipo de texto de introducción a la economı́a, de los cuales 8 son primeras
impresiones y 12 son segundas impresiones (que contienen correcciones de algunos pequeños
errores que aparecieron en la primera edición). El instructor del curso ha solicitado que 5
ejemplares sean puestos en reserva de 2 horas. Si los ejemplares se seleccionan en una
forma por completa al azar, de modo que cada subconjunto de tamaño 5 tenga la misma
probabilidad de ser seleccionado, ¿cuál es la probabilidad de que x (x = 0, 1, 2, 3, 4ó 5) de los
seleccionados sean segundas impresiones?
Ejemplo 3.1.2. Cinco ejemplares de una población animal considerados en vı́a de extinción
en cierta región han sido atrapados, marcados y puestos en libertad para que se mezclen en la
población. Después de tener la oportunidad de mezclarse, se seleccionó una muestra aleatoria
de 10 de estos animales. Sea X = número de animales marcados de la segunda muestra .
Si hay en realidad 25 animales de este tipo en la región. ¿Cuál es la probabilidad de que
(a) halla dos marcados en la muestra?
Probabilidad y Estadı́stica
Segundo Semestre 2005
78
Prof. Magister Osmar Vera
Probabilidad y Estadı́stica
(b) halla a lo sumo dos marcados en la muestra?
(c) Determine la media y la varianza de X.
3.1.3.
Distribución Binomial
La distribución binomial, una de las distribuciones discretas más usadas, está basada
sobre la idea de una ensayo de Bernoulli. Un ensayo de Bernoulli es un experimento con
dos, y solamente dos, resultados posibles. Una va. tiene una distribución Bernoulli(p) si

 1
con probabilidad p
X=
0 ≤ p ≤ 1.
(3.3)
 0 con probabilidad 1 − p
El valor X = 1 es a menudo tomado como un ӎxito p se refiere a la probabilidad de que
2
ocurra el éxito. El valor X = 0 es tomado como una ”falla”.
También es posible realizar la siguiente interpretación de un ensayo de Bernoulli, si consideremos un evento A ⊆ Ω con probabilidad p, X = IA es una variable discreta con
P (X = 1) = p, P (X = 0) = 1 − p. Calculemos con estas dos interpretaciones la media y la
varianza de esta va.
E X = E(IA ) = 1p + 0(1 − p) = p,
V ar X = (1 − p)2 p + (0 − p)2 (1 − p) = p(1 − p).
Muchos experimentos pueden ser modelados por una secuencia de ensayos de Bernoulli,
tales como el lanzamiento de monedas, elección de candidatos polı́ticos, incidencia de una
enfermedad, etc.
Si con n indicamos la cantidad de ensayos de Bernoulli que son realizados, definimos los
eventos
Ai = {X = 1 en el i-ésimo ensayo},
i = 1, 2, . . . , n.
Si asumimos que los eventos A1 , A2 , . . . , An representan una colección de eventos independientes (como es el caso del lanzamiento de una moneda), es fácil encontrar la distribución
del número total de éxitos en n ensayos. Definamos la va. Y por
Y = número total de éxitos en n ensayos.
Probabilidad y Estadı́stica
Segundo Semestre 2005
79
Prof. Magister Osmar Vera
Probabilidad y Estadı́stica
El evento {Y = y} ocurrirá solamente si, exactamente y de los eventos A1 , A2 , . . . , An
ocurren, y n − y de ellos no ocurren. Un resultado particular de n ensayos (un particular
ordenamiento de ocurrencias y no-ocurrencias) de los n ensayos de Bernoulli podrı́a ser
A1 ∩ A2 ∩ Ac3 ∩ . . . ∩ Acn−1 ∩ An . Este tiene probabilidad de ocurrrencia
P (A1 ∩ A2 ∩ Ac3 ∩ . . . ∩ Acn−1 ∩ An ) = pp(1 − p) . . . . . . p(1 − P )
= py (1 − p)n−y ,
donde nosotros hemos usado la independencia de los Ai s en este cálculo. Note que el cálculo
no depende sobre cuales de los Ai s ocurre, solamente que algún conjunto de y de ellos
ocurra. Poniendo todo esto junto, vemos que una secuencia particular de n ensayos con
¡ ¢
exactamente y éxitos tiene probabilidad py (1 − p)n−y de ocurrencia; ya que hay ny de tales
secuencias (el número de ordenamientos de y unos y de (n − y) ceros), se tiene
P (Y = y | n, p) =
µ ¶
n
y
e Y es llamada una variable aleatoria Bin(n,p). Y puede ser definida en forma equivalente del
siguiente modo: como una secuencia de n idénticas, e independientes ensayos de Bernoulli,
cada una con éxito p y fracaso 1 − p, definiendo las variables X1 , X2 , . . . , Xn por

 1
con probabilidad p
Xi =
 0 con probabilidad 1 − p
0 ≤ p ≤ 1.
Entonces la va.
Y =
n
X
Xi
i=1
tiene distribución Bin(n, p). Análogamente, usando funciones indicadoras, Y podrı́a escribirse como
Y =
n
X
IAi ,
i=1
y por lo tanto toda va. binomial se puede escribir como una suma de indicadoras.
Hemos ya obtenido tanto la esperanza, la varianza y la fgm para una va. binomial. Para
completar, afirmemos entonces que si X ∼ Bin(n, p) se tiene
Probabilidad y Estadı́stica
Segundo Semestre 2005
80
Prof. Magister Osmar Vera
Probabilidad y Estadı́stica
E X = np ,
V ar X = np(1 − p) ,
y su fgm es
MX (t) = [pey + (1 − p)]n .
Ejemplo 3.1.3. A cada una de seis personas que toman refresco cola, seleccionadas al azar,
se les da un vaso que contiene refresco de cola S y uno que contiene refresco de cola F. Los
vasos son idénticos en apariencia excepto por un código que se encuentra en el fondo para
identificar la marca. Supongamos que en realidad no hay preferencia entre las personas que
beben refresco de cola para preferir entre una marca u otra.
(a) Determine la probabilidad de que exactamente tres prefieran la marca de cola S
(b) Determine la probabilidad de que por lo menos tres personas prefieran la marca de cola
S.
(c) Calcule la probabilidad de que a lo suma 1 prefiera la marca de cola S
(d) Calcule la E X, V ar X, σX .
Ejemplo 3.1.4. Suponga que el 20 % de todos los ejemplares de un texto en particular fallan
en una prueba de resistencia a la encuadernación. Si X es el número entre 15 ejemplares
seleccionados al azar que fallan a la prueba.
(a) ¿Qué distribución sigue X?
(b) Determine la probabilidad de que a lo sumo 8 fallen a la prueba
(c) ¿Cuál es la probabilidad de que exactamente 8 fallen a la prueba?, y ¿la probabilidad
de que por lo menos 8 fallen a la prueba?
(d) Halle la probabilidad de que entre 4 y 7 fallen a la prueba.
(e) Determine la media y la varianza de X.
Ejemplo 3.1.5. Un fabricante de equipos electrónicos argumenta que a los sumo el 10 % de
sus unidades de fuentes de alimentación necesitan reparación durante el perı́odo de garantı́a.
Probabilidad y Estadı́stica
Segundo Semestre 2005
81
Prof. Magister Osmar Vera
Probabilidad y Estadı́stica
Para investigar esto, técnicos de un laboratorio de pruebas compran 20 unidades y las someten a pruebas aceleradas para simular su uso durante el perı́odo de garantı́a. Denotemos por
p la probabilidad de que una fuente de alimentación necesita reparación durante el perı́odo
(la proporción de todas las unidades que necesitan reparación). Los técnicos de laboratorio deben determinar si los datos resultantes del experimento apoyan el argumento de que
p ≤ 0,10.
3.1.4.
Distribución de Poisson
La distribución de Poisson es una distribución discreta ampliamente aplicada, y puede
servir como un modelo de un número diferente de experimentos. Por ejemplo, si estamos
modelando un fenómeno en el cual estamos esperando alguna ocurrencia (tales como esperando un ómnibus, esperando que lleguen clientes a la ventanilla de un banco), el no
de ocurrencias en un intervalo de tiempo dado puede ser muchas veces modelado por la
distribución de Poisson. Uno de los supuestos básicos sobre los cuales esta distribución
se construye, es que, para pequeños intervalos de tiempo, la probabilidad de un arribo es
proporcional a la medida del tiempo esperado. Esto lo hace un modelo razonable para situaciones como las que indicamos más arriba. Por ejemplo, esto hace razonable asumir que en
un largo tiempo de espera, es más probable que un cliente entre al banco.
Otro área de aplicación es en distribuciones espaciales, donde, por ejemplo, la Poisson
puede ser empleada para modelar la distribución del estallido de una bomba en un area, o
la distribución de peces en un lago.
La distribución de Poisson tiene sólo un parámetro, λ, algunas veces llamado parámetro de
intensidad. Una va. X que toma valores enteros no negativos, tiene una distribución Po(λ)
si
P (X = x | λ) =
Para ver que
P∞
x=0
e− λλx
,
x!
x = 0, 1, . . . . . .
(3.4)
P (X = x | λ) = 1, debemos ocupar la expansión en serie de Taylor de
ey ,
ey =
∞
X
yi
.
y!
i=0
Probabilidad y Estadı́stica
Segundo Semestre 2005
82
Prof. Magister Osmar Vera
Probabilidad y Estadı́stica
Ası́
∞
X
P (X = x | λ) = e
−λ
x=0
∞
X
λx
= e−λ eλ = 1
x!
x=0
La media de X se puede ver fácilmente, haciendo
EX =
∞
X
x
e−λ λx
x!
x
e−λ λx
x!
x=0
=
∞
X
x=1
= λe−λ
= λe−λ
∞
X
x=1
∞
X
y=0
λx−1
(x − 1)!
λy
y!
sustituyendo y = x − 1
= λ.
Cálculos similares mostrarán que
V ar X = λ,
Ası́ el parámetro λ es el mismo tanto para la media como para la varianza de la distribución
Poisson.
También puede ser obtenida la fgm usando argumentos de cálculos análogos, siendo
MX (t) = eλ(e
t −1)
.
Ejemplo 3.1.6. Si X es el número de la fallas en la superficie de un calentador de cierto
tipo seleccionado al azar. Suponga que X tiene una distribución de Poisson con λ = 5.
Determine:
(a) La probabilidad de que tenga exactamente dos fallas
(b) La probabilidad de que un calentador contenga un máximo de dos fallas
Ejemplo 3.1.7. Supongamos que llegan pulsos al contador con una tasa promedio de seis
por minuto, supongamos α = 6. Para hallar la probabilidad de que en un intervalo de 0.5
min se reciba por lo menos un pulso, observe que el nro. de pulsos en tal intervalo tiene
una distribución de Poisson con parámetro λ = αt = 6(0,5). Si X representa el número de
pulsos recibidos en el intervalo de 30 segundos. Determine la probabilidad de que reciba más
de una llamada.
Probabilidad y Estadı́stica
Segundo Semestre 2005
83
Prof. Magister Osmar Vera
Probabilidad y Estadı́stica
3.1.5.
Distribución Binomial Negativa
La distribución Binomial cuenta el número de éxitos en un número prefijado de ensayos
de Bernoulli. Supongamos que, en cambio, contamos el número de ensayos de Bernoulli
requeridos para conseguir un número prefijado de éxitos. Esta última formulación nos anticipa la distribución binomial negativa.
En una secuencia de ensayos independientes de Bernoulli(p), sea la va. X, que denota el
ensayo para el cual el r-ésimo éxito ocurre, donde r es un entero prefijado. Entonces
µ
¶
x−1 r
P (X = r | r, p) =
p (1 − p)x−r ,
r−1
x = r, r + 1, . . .
(3.5)
y diremos que X tiene una distribución binomial negativa (r,p).
La obtención de (3.5) se sigue rápidamente de la distribución binomial. El evento {X = x}
puede ocurrir solamente si hay exactamente r − 1 éxitos en los primeros x − 1 ensayos, y
un éxito en el ensayo x. La probabilidad de r − 1 éxitos en x − 1 ensayos es la probabilidad
¡ ¢ r−1
binomial x−1
(1 − p)x−r y con probabilidad p hay un éxito en el ensayo x. Multiplir−1 p
cando esas probabilidades se llega a la igualdad (3.5).
La distribución binomial negativa es muchas veces definida en términos de la va. Y =
número de fracasos antes del r-ésimo éxito. Esta formulación es estadı́sticamente equivalente a la dada antes en términos de X = ensayos en los cuales el r-ésimo éxito ocurre,
en consecuencia Y = X − r. Usando la relación entre y y X, la forma alternativa para la
distribución binomial negativa es
µ
¶
r+y+1 r
P (Y = y) =
p (1 − p)y ,
y
y = 0, 1, . . . . . .
(3.6)
A menos que sea notado, cuando nos hagamos referencia a la distribución binomial negativa(r, p)
usaremos la fmp (3.6).
La distribución binomial negativa, tiene ese nombre de la relación
µ
¶
µ ¶
r+y+1
(−r)(−r − 1)(−r − 2) . . . (−r − y + 1)
y −r
= (−1)
= (−1)y
,
y
y
y(y − 1)(y − 2) . . . 2,1
Probabilidad y Estadı́stica
Segundo Semestre 2005
84
Prof. Magister Osmar Vera
Probabilidad y Estadı́stica
la cual es, en efecto, la definición para un coeficiente binomial con enteros negativos (ver
Feller (1968) para un tratamiento con mayor profundidad). Sustituyendo en (3.6), se obiene
µ ¶
y −r
P (Y = y) = (−1)
pr (1 − p)y ,
y = 0, 1, . . . . . .
y
la cual muestra un parecido muy llamativo con la distribución binomial.
P
El hecho que ∞
y=0 P (Y = y) = 1 no es fácil de verificar, pero proviene de una extensión
del Teorema del Binomio, extensión que incluye exponentes negativos. No expondré esto
aquı́. Una excelente exposición de este hecho lo puede encontrar en Feller (1968).
La media y la varianza de Y puede ser calculada usando técnicas similares a las usadas para
la distribución binomial:
EY
µ
¶
∞
X
r+y+1 r
=
y
p (1 − p)y
y
y=0
∞
X
(r + y − 1)!
pr (1 − p)y
(y − 1)!(r − 1)!
y=1
µ
¶
∞
X
r+y+1 r
=
r
p (1 − p)y .
y−1
=
y=1
Ahora escribimos z = y − 1, y la suma se transforma en
µ
¶
∞
X
r+z r
EY =
r
p (1 − p)z+1
z
z=0
¶
∞ µ
(1 − p) X (r + 1) + z − 1 r+1
p (1 − p)z ,
= r
p
z
z=0
este último sumando se corresponde con la fmp de una binomial negativa, de donde
EY =r
(1 − p)
p
Un cálculo similar mostrará que
V ar Y = r
(1 − p)
.
p2
La familia de la distribución binomial negativa incluye a la Poisson como un caso lı́mite. Si
r −→ ∞ y p −→ 1 tal que r(1 − p) −→ λ, 0 < λ < ∞, entonces
EY
V ar Y
(1 − p)
−→ λ,
p
(1 − p)
= r
−→ λ,
p2
= r
lo cual se corresponde con la media y la varianza de la Poisson.
Probabilidad y Estadı́stica
Segundo Semestre 2005
85
Prof. Magister Osmar Vera
Probabilidad y Estadı́stica
Ejemplo 3.1.8. Un pediatra desea conseguir 5 parejas, cada una de las cuales espera
a su primer hijo, para que participen en un régimen de nacimiento natural. Sea p =
P (una pareja seleccionada al azar acceda a participar). Si p = 0,2, ¿cuál es la probabilidad de que se le pida a 15 parejas que participen antes de encontrar 5 que accedan?. Esto
es, si S={accede a participar}, ¿cuál es la probabilidad de que ocurran 10 fallas antes del
quinto éxito?.
3.1.6.
Distribución Geométrica
La distribución geométrica es la más simple de las distribuciones, y es un caso especial
de la distribución binomial negativa. Si se hace r = 1 en (3.5) tenemos
P (X = x | p) = p(1 − p)x−1 ,
x = 1, 2, . . .
la cual define la fmp de una variable aleatoria X geométrica con probabilidad de éxito p.
X puede ser interpretada como el ensayo para el cual el primer éxito ocurre. Ası́, diremos
P
”esperando el primer éxito”. El hecho que ∞
x=1 P (X = x) = 1 se sigue de la propiedad de
series geométricas. Para cualquier a tal que | a |< 1,
∞
X
ax−1 =
x=1
1
,
1−a
la cual ya ha sido probada anteriormente.
La media y la varianza de X puede ser calculada usando las formulas de la binomial negativa
y escribiendo X = Y + 1 para obtener
E X = EY + 1 =
1
p
y
V ar X =
1−p
.
p2
La distribución geométrica tiene una propiedad interesante conocida como ”pérdida de
memoria”. Para enteros s > t, esto significa que
P (X > s | X > t) = P (X > s − t);
(3.7)
Esto significa que la distribución geométrica olvida lo que ha ocurrido.
Probabilidad y Estadı́stica
Segundo Semestre 2005
86
Prof. Magister Osmar Vera
Probabilidad y Estadı́stica
3.2.
Distribuciones Continuas
En esta sección discutiremos algunas de las familias de distribuciones continuas más comunes, aquellas que tienen nombres bien conocidos. Las distribuciones mencionadas aquı́ no
constituyen todas las distribuciones usadas en estadı́stica; pues además como vimos en secciones anteriores, cualquier función nonegativa, e integragrable puede ser transformada en
una fdp.
3.2.1.
Distribución Uniforme
La distribución uniforme continua está definida de manera tal que se extiende masa
uniformemente sobre un intervalo [a, b]. Su fdp está dada por


f (x | a, b) =
Es fácil demostrar que
Rb
a
 0
si x ∈ [a, b]
(3.8)
en otro caso
f (x) dx = 1. También se tiene
Z
b
x
a+b
dx =
b−a
2
a+b 2
(x − 2 )
(b − a)2
dx =
.
b−a
12
EX =
a
Z
b
V ar X =
a
3.2.2.
1
b−a
Distribución Gamma
La familia de distribuciones gamma es una familia flexible de distribuciones sobre [0, ∞].
Esta familia puede ser derivada por la siguiente construcción.
Sea α una constante positiva, la integral
Z
∞
tα−1 e−t dt
0
es finita. Si α es un entero positivo la integral puede ser expresada en forma cerrada, en
otro caso no es posible. En cualquier caso, su valor define la función gamma,
Z
Γ(α) =
∞
tα−1 e−t dt.
(3.9)
0
Probabilidad y Estadı́stica
Segundo Semestre 2005
87
Prof. Magister Osmar Vera
Probabilidad y Estadı́stica
La función gamma satisface muchas relaciones muy usadas, en particular
Γ(α + 1) = αΓ(α) ,
α > 0,
(3.10)
la cual puede ser verificada utilizando integración por partes. Combinando (3.9) y (3.10)
verificando el hecho que Γ(1) = 1, se tiene para cualquier entero n > 0,
Γ(n) = (n − 1)!.
(Otro caso especial muy usado, que veremos en breve es: Γ( 12 ) =
(3.11)
√
π.)
Las expresiones (3.10) y (3.11) dan relaciones recursivas para la función gamma, que
hacen más fácil su cálculo.
Ya que la integral en (3.9) es positiva, inmediatamente se sigue que
f (t) =
tα−1 e−t
,
Γ(α)
0<t<∞
(3.12)
es una fdp. La familia gamma completa, sin embargo, tiene dos parámetros, y puede ser
derivada por cambio de variables para conseguir la fdp de la va. X = βT en (3.12), donde
β es una constante positiva. Al hacer esto, conseguimos la familia gamma(α, β),
f (x) =
1
xα−1 e−x/β , 0 < x < ∞ , α > 0 , β > 0.
Γ(α)β α
(3.13)
El parámetro α es conocido como el parámetro de forma, ya que es el que más influencia
tiene en el pico de la distribución, mientras que β es llamado el parámetro de escala, ya que
su influencia está sobre la cuan abierta o cerrada es la distribución.
Hemos ya probado que la media de la distribución es
1
EX =
Γ(α)β α
Z
∞
x, xα−1 e−x/β dx.
(3.14)
0
Para evaluar (3.14), note que el integrando es el núcleo de una fdp gamma(α + 1, β). De la
(3.13) sabemos que para α, β > 0,
Z
∞
xα−1 e−x/β dx = Γ(α)β α ,
(3.15)
0
Probabilidad y Estadı́stica
Segundo Semestre 2005
88
Prof. Magister Osmar Vera
Probabilidad y Estadı́stica
ası́ tenemos
EX =
=
1
Γ(α)β α
αΓ(α)β
Γ(α)
Z
∞
x, xα−1 e−x/β dx =
0
1
Γ(α + 1)β α+1
Γ(α)β α
= αβ.
Note que para evaluar la E X hemos usado la técnica de reconocimiento de la integral como
el núcleo de una fdp. Este hecho ya fue utilizado en múltiples oportunidades.
La varianza de la distribución gamma(α, β ) se calcula de manera análoga. En particular,
en el cálculo de E X 2 nos manejamos con el núcleo de una distribución gamma(α + 2, β).
El resultado es
V ar X = αβ 2
. En un ejemplo anterior hemos calculado la fgm de una distribución gamma(α, β). Ésta
está dada por
³
MX (t) =
1 ´α
.
1 − βt
Ejemplo 3.2.1. Existe una interesante relación entre las distribuciones gamma y la Poisson. Si va. X es una gamma(α, β), donde α es un entero, entonces para cualquier x,
P (X ≤ x) = P (Y ≤ α),
(3.16)
donde Y ∼ Poisson(x/β). La ecuación (3.16) puede ser establecida por sucesivas integraciones por partes. Ya que α es un entero, podemos escribir Γ(α) = (α − 1)! para conseguir
Z x
1
P (X ≤ x) =
tα−1 e−t/β dt
(α + 1)β α 0
hh
ix Z x
i
1
(α−1)
β/t
α−2
−t/β
=
−
t
β
−
t
+
(α
−
1)t
βe
dt
,
(α + 1)β α
0
0
hemos usado la integración por partes, sustituyendo u = tα−1 , dv = e−t/β dt. Continuando
con la evaluación de la probabilidad, tenemos
P (X ≤ x) =
=
Z x
−1
1
α−1 −x/β
x
e
+
tα−2 βe−t/β dt
(α − 1)!β α−1
(α − 2)!β α−1 0
Z x
1
tα−2 βe−t/β dt − P (Y = α − 1),
(α − 2)!β α−1 0
donde Y ∼ Poisson(x/β). Continuando de esta manera, es posible establecer (3.16).
Probabilidad y Estadı́stica
Segundo Semestre 2005
89
Prof. Magister Osmar Vera
Probabilidad y Estadı́stica
Hay dos importantes casos especiales de distribución gamma. Si hacemos α = p/2, donde
p es un entero, y β = 2, entonces la fdp de la gamma resulta
f (x) =
1
x(p/2)−1 e−x/2 , 0 < x < ∞,
Γ(p/2)2p/2
(3.17)
la cual es la fdp de la chi cuadrado con p grados de libertad. La media, la varianza, y la
fgm de la distribución chi cuadrado pueden todas se calculadas usando las fórmulas gamma
derivadas previamente.
La distribución chi cuadrado juega una papel importante en inferencia estadı́stica, especialmente cuando se muestrea de una distribución normal. Esto será estudiado con detalle más
adelante.
Otro caso especial importante proveniente de la distribución gamma se obtiene cuando
se reemplaza α = 1. Ahora resulta,
f (x | β) =
1 −x/β
e
,
β
0 < x < ∞,
(3.18)
la fdp exponencial con parámetro de escala β. Su media y su varianza fueron calculadas en
ejemplos anteriores.
La distribución exponencial puede ser usada para modelar tiempos de vida, análogo al uso
de la distribución geométrica en el caso discreto.
Otra distribución relacionada con la exponencial y con la familia gamma es la distribución
Weibull. Si X ∼ Exp(β), entonces Y = X 1/γ tiene una distribución Weibull(γ, β).
fY (y | γ, β) =
γ γ−1 yγ /β
y
e
,
β
0 < y < ∞, γ > 0 , β > 0.
(3.19)
La distribución Weibull juega un rol extremadamente importante en el análisis de tiempo de
fracaso (ver Kalbfleidch and Prentice (1980)para un tratamiento de este tópico). La Weibull
en particular es muy usada para modelar funciones de riesgo.
3.2.3.
Distribución Normal
La distribución Normal (muchas veces llamada Distribución gaussiana juega un rol central a lo largo de toda la estadı́stica. Existen tres grandes razones para ello. Primero, la
Probabilidad y Estadı́stica
Segundo Semestre 2005
90
Prof. Magister Osmar Vera
Probabilidad y Estadı́stica
distribución Normal y las distribuciones asociadas con ella, son muy tratables analı́ticamente (aunque no lo parezca con una primera mirada). Segundo, la distribución normal
tiene una forma de campana familiar, cuya simetrı́a la hace elegible para modelar un sin
fin de poblaciones. Aunque hay muchas otras distribuciones que tienen forma de campana,
pero no poseen la tratabiliad analı́tica de la normal. Tercero, existe el Teorema Central del
Lı́mite (más adelante se verá con detalle) el cual muestra que bajo algunas condiciones, la
distribución normal puede ser usada para aproximar una gran variedad de distribuciones
en grandes muestras.
La distribución normal tiene dos parámetros, usualmente anotados por µ y σ 2 , las cuales
son su media y su varianza. La fdp de la distribución Normal con media µ y varianza σ 2
(usualmente anotada N (µ; σ 2 )) está dada por,
1
2
2
e−(x−µ) /(2σ ) , −∞ < x < ∞.
f (x | µ, σ 2 ) = √
2πσ
(3.20)
Si X ∼ N (µ; σ 2 ), entonces la va. Z = (X −µ)/σ tiene distribución N (0, 1), también conocida
como Normal estándar. Esto se establece fácilmente escribiendo
³
´
P (Z ≤ z) = P X − µ)/σ ≤ z
= P (X ≤ zσ + µ)
Z zσ+µ
1
2
2
= √
e−(x−µ) /(2σ ) dx
2πσ −∞
Z z
x−µ
1
2
e−t /2 dt,
(sustituyendo t =
= √
)
σ
2π −∞
mostrando que P (Z ≤ z) es la fda de la normal estándar.
Lo último anterior muestra que todas las probabilidades normales puedes ser calculadas
en términos de la normal estándar. Además, el cálculo de la media puede ser simplificado,
calculándolo para la N (0, 1), y luego transformando para el caso de N (µ, σ 2 ). Por ejemplo,
si Z ∼ N (0, 1),
1
EZ = √
2π
Z
∞
−∞
ze−z
2 /2
1
2
dz = − √ e−z /2 |∞
−∞ = 0
2π
y ası́, si X ∼ N (µ, σ 2 ), se sigue que
E X = E(µ + zσ) = µ + σE Z = µ.
Probabilidad y Estadı́stica
Segundo Semestre 2005
91
Prof. Magister Osmar Vera
Probabilidad y Estadı́stica
En forma análoga, se tiene que V ar Z = 1, y se prueba que V ar X = σ 2 .
Ya hemos probado que (3.20) integra 1 sobre la recta real, o sea vimos, via integral doble
que
1
√
2π
Z
∞
e−z
2 /2
dz = 1.
−∞
Note que esta integral es simétrica alrededor del 0, lo cual implica que la integral sobre
(−∞, 0) es igual a la integral sobre (0, ∞). Ası́ el problema se reducı́a a probar
Z
∞
e
−∞
Dijimos que la función e−z
2 /2
−z 2 /2
√
r
2π
π
dz =
=
.
2
2
(3.21)
no tiene una antiderivada que puede ser escrita explı́citamente
en términos de funciones elementales (esto es, en forma cerrada), por ello, no podemos
resolver la integral en forma directa. Se resuelve vı́a una integral doble
La integral (3.21) está relacionada con la función gamma; en efecto haciendo la sustitución
w = 21 z 2 en (3.21) nosotros vemos que esta integral es Γ( 12 ). Si se es cuidadoso al conseguir
las constantes correctas ,nosotros vemos que la sustitución propuesta implica
³1´ Z ∞
√
Γ
=
w−1/2 e−w dw = π.
2
0
(3.22)
La distribución normal es un poco especial en el sentido, que sus dos parámetros, µ (la
media) y σ 2 (la varianza), nos proveen una completa información exacta acerca de la forma
y la ubicación de la distribución. Esta propiedad que tiene la distribución normal, no es sólo
para esta fdp, pero está formada por una familia de fdp´s llamadas familias de localización
y escala.
Basta con resolver un elemental problema de cálculo para mostrar que la fdp normal (3.20)
tiene un máximo en x = µ y puntos de inflexión (donde la curva cambia de cóncava a
convexa) en x = µ±σ. Además la probabilidad contenida entre 1,2 ó 3 desviaciones estándar
de la media es
P (| X − µ |≤ σ) = P (| Z |≤ 1) = 0,6826
P (| X − µ |≤ 2σ) = P (| Z |≤ 2) = 0,9544
P (| X − µ |≤ 3σ) = P (| Z |≤ 3) = 0,9947
Probabilidad y Estadı́stica
Segundo Semestre 2005
92
Prof. Magister Osmar Vera
Probabilidad y Estadı́stica
Donde X ∼ N (µ, σ 2 ), Z ∼ N (0, 1) , y los valores numéricos provienen de una tabla de distribución normal. A menudo valores de dos dı́gitos son reportados, aunque no representan
valores redondeados, se ocupan frecuentemente.
Entre los muchos usos de la distribución Normal, uno de gran importancia es su uso como
aproximación de otras distribuciones (los cuales son justificados por el Teorema central del
Lı́mite). Por ejemplo, si X ∼ Bin(n, p), entonces E X = np y V ar X = np(1 − p), y bajo
condiciones convenientes, la distribución de X puede ser aproximada con una va. normal
con media µ = np y varianza σ 2 = np(1 − p). Las çondiciones convenientes”son que n debe
ser grande y p no debe ser un valor extremo (ni estar cerca del 0, ni cerca del 1). Como es el
caso de todas las aproximaciones no hay reglas absolutas, y para cada aplicación debe ser
chequeada para decidir si la aproximación es buena para ese caso. Una regla conservativa
que se sigue es que la aproximación será buena si min(np, n(1 − p)) ≥ 5.
Ejemplo 3.2.2. Sea X ∼ Bin(25, 0,6). Aproximar X con una va. Y normal, y calcule la
probabilidad de que X tome valores menores ó iguales que 13, y compare con el valor exacto.
La aproximación puede ser grandemente mejorada, por una çorrección por continuidad”.
Se describirá un método estándar para mejorar la calidad de la aproximación que se obtiene
cuando se aproxima una probabilidad basada en una distribución discreta por una basada
en una distribución continua.
Supóngase, que la va. X tiene una distribución discreta con fmp f (x) y se desea aproximar
esta distribución por una distribución continua con fdp g(x). Consideremos por simplicidad
solamente una distribución discreta para la que todos los valores posibles de X sean enteros.
Si la fdp g(x) proporciona una buena aproximación a la distribución de X, entonces para
cualquier par de enteros a, b se puede aproximar simplemente la probabilidad
P (a ≤ X ≤ b) =
b
X
f (x)
(3.23)
x=a
por la integral
Z
b
g(x) dx.
(3.24)
a
Probabilidad y Estadı́stica
Segundo Semestre 2005
93
Prof. Magister Osmar Vera
Probabilidad y Estadı́stica
Esta sencilla aproximación tiene el siguiente inconveniente: aunque P (X ≥ a) y P (X > a)
en general tendrán valores distintos para la distribución discreta, éstas probabilidades serán
siempre iguales para la distribución continua. Otra forma de expresar este inconveniente es
la siguiente: aunque P (X = x) > 0 para cualquier x entero que es un valor posible de X,
esta probabilidad es necesariamente 0 con la fdp aproximada.
La fmp de X se puede representar por un histograma, ó diagrama de barras. Para cada
entero x, la probabilidad de que x se representa por el área de un rectángulo cuya base se
extiende desde x −
1
2
hasta x +
1
2
y cuya altura es f (x). Entonces, el área del rectángulo
cuya base está centrada en el entero x es simplemente f (x).
Desde este punto de vista se puede observar que P (a ≤ X ≤ b), como se especifica en
la ecuación (3.23), es la suma de la áreas de los rectángulos formados por las barras que
representan la distribución discreta que están centrados en a, a + 1, . . . , b. La suma de estas
áreas se aproxima con la integral
Z
b+ 21
a− 12
g(x) dx.
(3.25)
el ajuste la integral (3.24) a la integral (3.25) se llama corrección por continuidad.
Si se utiliza la corrección por continuidad se determina que la probabilidad f (a) del entero
a se puede aproximar como sigue,
³
1´
1
P (X = a) = P a − ≤ X ≤ a +
2
2
Z a+ 1
2
≈
g(x) dx.
(3.26)
(3.27)
a− 12
Análogamente,
³
1´
P (X > a) = P (X ≥ a + 1) = P X ≥ a +
2
Z ∞
≈
g(x) dx.
a+ 12
Ejemplo 3.2.3. Continuación ejemplo último anterior Determinar usando la corrección por continuidad P (X ≤ 13) y comparar todas las aproximaciones hechas sobre esta
probabilidad.
Probabilidad y Estadı́stica
Segundo Semestre 2005
94
Prof. Magister Osmar Vera
Probabilidad y Estadı́stica
3.2.4.
Distribución Beta
La familia de distribuciones beta es una familia continua sobre (0, 1) indexada por dos
parámetros. La fdp de la beta(α, β) es
f (x | α, β) =
1
xα−1 (1 − x)β−1 , 0 < x < 1 α > 0 β > 0,
B(α, β)
(3.28)
donde B(α, β) denota la función beta,
Z
B(α, β) =
1
xα−1 (1 − x)β−1 dx.
0
La función beta está relacionada con la función gamma a través de la siguientes identidad:
B(α, β) =
Γ(α)Γ(β)
.
Γ(α + β)
(3.29)
La (3.29) es muy usada al ocupar la función Beta, permitiendonos ciertas ventajas tomadas
de la funció Gamma. En efecto, nunca trataremos directamente con la Beta, sino con (3.29)
para todas las evaluaciones que hagamos.
La distribucuı́n Beta, es una de las pocas distribuciones, entre las más conocidas que dan
probabilidad 1 sobre un intervalo finito, aquı́ el intervalo es el (0, 1). De esta manera, la
Beta es muy usada para modelas proporciones, las cuales, naturalmente caen entre 0 y 1.
Serán ilustradas algunas de estas situaciones en el capı́tulo 4.
Calculemos los momentos para esta distribución. Resolverlo es fácil por la forma de la fdp.
Para n > −α se tiene
EX
n
=
=
Z 1
1
xn xα−1 (1 − x)β−1 dx
B(α, β) 0
Z 1
1
x(α+n)−1 (1 − x)β−1 dx.
B(α, β) 0
Reconocemos la integral como el núcleo de una densidad beta(α + n, β), de donde
E Xn =
B(α + n, β)
Γ(α + n)Γ(α + β)
=
.
B(α, β)
Γ(α + β + n)Γ(α)
(3.30)
Usando (3.10) y (3.30) con n = 1 y n = 2, podemos calcular la media y la varianza de la
distribución beta(α, β) como sigue
EX =
Probabilidad y Estadı́stica
Segundo Semestre 2005
α
α+β
y
V ar X =
95
αβ
(α +
β)2 (α
+ β + 1)
.
Prof. Magister Osmar Vera
Probabilidad y Estadı́stica
Como los valores de α y β varı́an, la distribución beta toma diversas formas, estrictamente
decrece (α = 1, β > 1), forma de U (α < 1, β < 1) ó es unimodal (α > 1, β > 1). El
caso α = β la fdp es simétrica alrededor de 1/2 y varianza (4(2α + 1)−1 ). La fdp se vuelve
más concentrada cuando α crece, pero sigue siendo simétrica. Finalmente, si α = β = 1,
la distribución se reduce a una uniforme en (0,1), mostrando que la uniforme puede ser
considerada un miembro de la familia beta. La beta está tambiés relacionada, a través de una
transformación, con la distribución F , una distribución que juega un papel extremadamente
importante en análisis estadı́stico.
3.2.5.
Distribución Cauchy
La distribución Cauchy, es una distribución simétrica y con forma de campana sobre
(−∞, ∞) con fdp
f (x | θ) =
1
1
, −∞ < x < ∞ , −∞ < θ < ∞.
π (x − θ)2
(3.31)
A los ojos, en principio, no parece tener grandes diferencias con la normal. Sin embargo
existe una gran diferencia entre ambas. Ya hemos vista que la media de esta distribución
no existe, o sea hemos probado que E | X |= ∞. Es fácil probar que la (3.31) es una fdp
para todo θ.
Ya que la E | X |= ∞, se sigue que esta no existen momentos para la distribución
Cauchy, o sea que el valor absoluto de todos los momentos es ∞. En particular la fgm
no existe.E | X |= ∞.
El parámetro θ en no mide (3.31) el centro de la distribución; sino que representa la mediana. De donde, se sique que si una va. X tiene distribución Cauchy con parámetro θ,
entonces P (X ≥ θ) = 21 , mostrando que θ es la mediana de la distribución.
La distribución Cauchy juega un rol especial en estadı́stica teórica. Ella representa, más
bien un caso extremo contra conjeturas que pueden ser probadas; es decir en otras palabras
propiedades que todas las distribuciones cumplen en general no de dan para la Cauchy!!.
Diriamos que es un caso patológico. Por ejemplo es común en la práctica calcular cocientes
de observaciones, esto es cocientes de va.. Una sorpresa es el hecho que el cociente de dos
Probabilidad y Estadı́stica
Segundo Semestre 2005
96
Prof. Magister Osmar Vera
Probabilidad y Estadı́stica
normales estándar tiene distribución Cauchy; de donde el hecho de tomar cocientes nos
puede llevar a distribucines enfermas!!.
3.2.6.
Distribución Lognormal
Si X es una va. cuyo logaritmo está normalmente distribuı́do (esto es, logX ∼ N (µ, σ 2 ),
entonces se dice que X tiene una distribución lognormal. La fdp de X puede ser obtenida por
una transformación de la fdp Normal usando el teorema de las transformacines, obteniendose
1 1 −(logx−µ)2 /(2σ2 )
f (x | µ, σ 2 ) = √
e
, 0 < x < ∞, ∞ < µ < ∞, σ > 0
2π x
(3.32)
para la fdp de la lognormal. Los momentos de X pueden ser calculados directamete, usando
(3.32), ó explotando su relación con la normal.
E X = E elog X
Y = log X ∼ N (µ; σ 2 ))
= EY
= eµ+(σ
2 /2)
.
La última igualdad se obtiene reorganizando la fgm de la distribución normal (tomar t = 1).
Es posible usar una técnica similar para calcular E X 2 , y conseguir asi
2
2
V ar X = e2(µ+σ ) − e2µ+σ .
La distribución lognormal, es en apariencia similar a la distribución gamma. Esta distribución es muy común cuando se aplican modelos, donde interesa la asimetrı́a a la derecha.
3.2.7.
Distribución Doble Exponencial
La distribución doble exponencial se forma reflejando la distribución exponencial alrededor de su media. La fdp está dada por
f (x | µ, σ) =
Probabilidad y Estadı́stica
Segundo Semestre 2005
1 −|x−µ|/σ
e
, −∞ < x < ∞ , −∞ < µ < ∞ , σ > 0.
2σ
97
(3.33)
Prof. Magister Osmar Vera
Probabilidad y Estadı́stica
La doble exponencial provee una distribución simétrica con colas pesadas (mucho más pesadas que la Normal), pero tiene todos sus momentos. La esperanza y la varianza son muy
fáciles de calcular, ellas son
EX =µ
V ar X = 2σ 2 .
y
La doble exponencial no tiene forma de campana. En efecto, tiene un pico (dicho de
manera más formal, un punto de no diferenciabilidad) en x = µ. Es muy importante recordarlo al tratar con esta distribución en forma analı́tica.
Existen muchas otras distribuciones continuas que tienen uso en diferentes aplicaciones
estadı́sticas, muchas de las cuales quizas apareceran a lo largo de estas notas. El material
bibliográfico referente para las distribuciones usadas en estadı́stica, puede ser el trabajo de
Johnson y Kotz (1969,1970a,1970b).
3.3.
Familias Exponenciales
Una familia de fdp ó de fmp se denomina familia exponencial, si puede ser expresada
como
f (x | θ) = h(x)c(θ) exp
k
³X
´
wi (θ)ti (x) .
(3.34)
i=1
Aquı́ h(x) ≥ 0 y t1 (x), t2 (x), . . . , tk (x) son funciones real valoradas de las observaciones x
(ó sea, ellas no pueden depender de θ), c(ϑ) > 0 y w1 (θ), w2 (θ), . . . , wk (θ) son todas funciones
real valoradas positivas del parámetro vector valuado θ (ellas no pueden depender de x).
Muchas de las familias introducidas en las secciones previas son familias exponenciales.
Ellas incluyen las familias continuas (normal, gamma, beta, etc.) y las familias discretas
(binomial, Poisson, binomial negativa, etc.)
La forma especı́fica (3.34) implica que las familias exponenciales tienen muchas propiedades
interesantes desde el punto de vista matemático. Pero aún más importante para un modelo
estadı́stico, esta forma (3.34) implica muchas propiedades estadı́sticas interesantes y de fácil
deducción a partir de la misma.
Para verificar que una familia de fpd´s ó fmp´s es una familia exponencial, nosotros debemos
Probabilidad y Estadı́stica
Segundo Semestre 2005
98
Prof. Magister Osmar Vera
Probabilidad y Estadı́stica
identificar las funciones h(x), c(θ), wi (θ), ti (x) y mostrar que la familia tiene la forma (3.34).
Esto se ilustra en los siguientes dos ejemplos
Ejemplo 3.3.1. Mostrar que la familia bin(n,p), con n entero positivo, 0 < p < 1, es una
familia exponencial.
Ejemplo 3.3.2. Sea f (x | µ, σ 2 ) la familia de densidades N (µ, σ 2 ), donde θ = (µ, σ)
−∞ < x < ∞
σ > 0. Mostrar que esta es una familia exponencial.
Probabilidad y Estadı́stica
Segundo Semestre 2005
99
Prof. Magister Osmar Vera
Descargar