Funciones de Distribución

Anuncio
Capı́tulo 4
Funciones de Distribución
4.1.
Variables Aleatorias
Supongamos que tiramos tres volados (con una moneda honesta) y queremos calcular la probabilidad de que el
número de soles sea k. Entonces, el experimento consiste en aventar tres volados, en donde en cada volado hay
sólo dos posibles resultados, águila(a) o sol(s), ası́ nuestro espacio muestral serı́a:
S = {(a, a, a), (a, a, s), (a, s, a), (s, a, a),
(s, s, a), (s, a, s), (a, s, s), (s, s, s)}
Para hacer las cosas más fáciles, definimos una variable X que contará el número de soles en los tres volados.
De esta manera X ∈ {0, 1, 2, 3}. Y las probabilidades deseadas las calcuları́amos de la siguiente forma:
P (X = 0)
= P ({(a, a, a)}) = 1/8
P (X = 1)
P (X = 2)
= P ({(a, a, s)}) + P ({(a, s, a)}) + P ({(s, a, a)}) = 3/8
= P ({(s, s, a)}) + P ({(s, a, s)}) + P ({(a, s, s)}) = 3/8
P (X = 3)
= P ({(s, s, s)}) = 1/8
Si vemos a X como función, su regla de asignación serı́a la siguiente:
0 = X({(a, a, a)})
1 = X({(a, a, s)}) = X({(a, s, a)}) = X({(s, a, a)})
2 = X({(s, s, a)}) = X({(s, a, s)}) = X({(a, s, s)})
3 = X({(s, s, s)})
Como los valores que X toma dependen de un experimento aleatorio, y las probabilidades P (X = k) para k =
0, 1, 2, 3 se inducen a partir del experimento original. A X se le llama función a variable aleatoria. Concretamente
una variable aleatoria se define como:
Definición
Una variable aleatoria (v.a.) X es una función que toma valores en S (el
espacio muestral de algún experimento de interés) y los manda a R (o un
subconjunto de R).
¿Pero por qué son importantes las variables aleatorias? Primero, porque es más fácil trabajar en R que en
cualquier espacio muestral S y segundo, generalmente cuando se realiza un experimento, no nos interesan todos
los detalles del mismo sino sólo los valores de algunas cantidades numéricas determinadas por estos resultados.
Ası́, las variables aleatorias medirán o modelarán estas cantidades de interés.
1
4.2. FUNCIÓN DE DISTRIBUCIÓN DE UNA VARIABLE ALEATORIA
Carlos Erwin Rodrı́guez
4.2.
Función de Distribución de una Variable Aleatoria
4.3.
Tipos de Variables Aleatorias
4.3.1.
Variables Aleatorias Discretas
Una v.a. que toma un número finito o infinito numerable de valores, es conocida como v.a. discreta.
Definición
La función de masa de probabilidad (fmp) de una v.a. discreta X es:
PX (X = x) para un número a lo más numerable de x’s
Entonces para v.a. discretas la función de distribución se puede expresar de la siguiente forma:
Definición
Sea X una v.a. discreta, la función de distribución (o distribución acumulada)
de X, se define como FX (x)
X
FX (x) = PX (X ≤ x) =
PX (X = z) ∀ x ∈ R
z≤x
Es importante notar que esta función esta definida para toda x ∈ R, además, caracteriza por completo las
probabilidades de una v.a., por lo cual existen tablas y paquetes estadı́sticos para calcularla.
Un comentario muy importante es que en general para v.a. discretas PX (X < x) 6= PX (X ≤ x), entonces para
calcular PX (X < x) lo haremos mediante PX (X < x) = PX (X ≤ x) − PX (X = x), otro cálculo importante es
PX (a < X ≤ b) = FX (b) − FX (a) y para hacer PX (a ≤ X ≤ b) = FX (b) − FX (a) + PX (X = a) etc.
4.3.2.
Variables Aleatorias Continuas
Las v.a. continuas son aquellas que pueden tomar un número infinito no numerable da valores.
Definición
La función de densidad de probabilidad (fdp) de una v.a. continua X, es una
función que satisface:
Z x
fX (t)dt ∀ x ∈ R
FX (x) =
∞
Entonces por el Teorema Fundamental del Cálculo
∂ FX (x)
= fX (x)
∂x
De forma general se tiene que:
PX (X ∈ B) =
2
Z
B
fX (t)dt
(4.1)
4.4. VARIABLES ALEATORIAS DISCRETAS Y CONTINUAS
Entonces de 4.1 se sigue que PX (X = x) =
Z
Carlos Erwin Rodrı́guez
x
fX (t)dt = 0. Como consecuencia inmediata si X es una v.a.
x
continua y a ≤ b tenemos que:
Z
b
fX (t)dt
= PX (a < X < b)
a
4.4.
= PX (a < X ≤ b) = PX (a ≤ X < b)
= PX (a ≤ X ≤ b) = FX (b) − FX (a)
Variables Aleatorias Discretas y Continuas
Para caracterizar de manera formal a las v.a discretas y continuas, tenemos la siguiente
Definición
Una v.a. X es continua si FX (x) es continua como función de x y es discreta
si FX (x) es una función escalonada de x.
Existen dos requerimientos para que una función pueda considerarse fdp o fmp, los cuales son consecuencia
inmediata de los axiomas de Kolmogorov:
Teorema 1 Una función fX (x) es fdp (o fmp) de una v.a. X, si y sólo si:
fX (x) ≥ 0 ∀ x ∈ R.
X
x
fX (x) = 1 (fmp) ó
Z
∞
fX (x)dx = 1 (fdp)
−∞
En lo subsecuente para indicar que la v.a. X sigue cierta distribución FX (x), lo haremos de las siguientes formas
X ∼ fX (x), X ∼ FX (x) ó X ∼ nombre de la v.a. y parámetros.
Al inicio de este capı́tulo mediante un ejemplo muy sencillo describimos cómo a partir de un experimento
sencillo, lanzar tres monedas, se genera una v.a. y cómo las probabilidades de que la v.a. tome ciertos valores
son inducidas por aquellas del experimento original. Este ejemplo sirvió de motivación, sin embargo se hizo
informalmente. A continuación, con el mismo ejemplo mostraremos cómo se hace de manera formal. Nuestro
espacio muestral era
S = {(a, a, a), (a, a, s), (a, s, a), (s, a, a),
(s, s, a), (s, a, s), (a, s, s), (s, s, s)}
Y definimos X como la v.a. que cuenta el número de soles, supongamos que queremos calcular PX (X = 1)
PX (X = 1)
= P ({ω ∈ S : X(ω) = 1})
= P ({a, a, s}) + P ({a, s, a}) + P ({s, a, a})
Los ω’s son los elementos de S y X es la v.a. que cuenta el número de soles en cada elemento de S. Aquı́ se
puede apreciar claramente que la v.a. X es una función que va de S a R y además que PX es una probabilidad
inducida por P . Ahora calculemos PX (X ≤ 2)
PX (X ≤ 2) = P ({ω ∈ S : X(ω) ≤ 2})
= P ({ω ∈ S : X(ω) = 0}) + P ({ω ∈ S : X(ω) = 1}) + P ({ω ∈ S : X(ω) = 2})
3
4.5. VARIABLES ALEATORIAS DISTRIBUIDAS CONJUNTAMENTE
Carlos Erwin Rodrı́guez
Muchas veces es importante saber qué significa cada cosa, lo que el ejemplo anterior nos enseña es que el cuando
calculamos PX (X = x), el conjunto {X = x} en realidad es {ω ∈ S : X(ω) = x} ∈ S, sin embargo por economı́a
sólo se escribe {X = x}. Lo mismo sucede con PX (X ≤ x), pero ya debe tenerse la idea de cómo leer al conjunto
{X ≤ x}.
4.5.
Variables Aleatorias Distribuidas Conjuntamente
En esta sección sólo se pretende fijar la idea de que para manejar más de una v.a. siempre se tiene que trabajar
con una distribución o densidad conjunta y como ese es el objetivo, daremos sólo un breve vistazo a este tipo
de probabilidades. Para hacerlo más sencillo nos enfocaremos sólo en el caso continuo.
Para especificar la relación entre dos v.a. con continuas necesitamos una función fX,Y (x, y) definida para todo
(x, y) ∈ R2 con la propiedad de que para cualquer conjunto C ∈ R2
Z Z
fX,Y (x, y)dxdy
PX,Y ((X, Y ) ∈ C) =
{(x,y)∈C}
A fX,Y (x, y) se le llama fdp conjunta de X y Y . Entonces para calcular
Z Z
PX,Y (X ∈ A, Y ∈ B) =
fX,Y (x, y)dxdy
B
A
Por lo tanto la función de distribución conjunta de X y Y es
Z
FX,Y (x, y) = PX,Y (X ≤ x, Y ≤ y) =
x
−∞
Z
y
fX,Y (t1 , t2 )dt1 dt2
−∞
Un conocimiento de la función de distribución conjunta permite, por lo menos en teorı́a, calcular la probabilidad
de cualquier afirmación relacionada con los valores de X y Y . Y de hecho a partir de la densidad conjunta de
X y Y podemos obtener las densidades marginales.
Z x Z ∞
fX,Y (t1 , y)dt1 dy
FX (x) = PX (X ≤ x) = PX,Y (X ≤ x, Y ∈ (−∞, ∞)) =
−∞
−∞
La segunda igualdad se debe a que
{X ≤ x} = {ω ∈ S : X(ω ≤ x)}
= {ω ∈ S : X(ω ≤ x)} ∩ S
= {ω ∈ S : X(ω ≤ x)} ∩ {ω ∈ S : Y (ω) ∈ (−∞, ∞)}
= {X ≤ x} ∩ {Y ∈ (−∞, ∞)}
Anteriormente vimos que fX (x) =
∂FX (x)
, de donde se sigue que
∂x
Z ∞
fX,Y (x, y)dy
fX (x) =
−∞
Entonces si conocemos la fdp conjunta de X y Y , también conocemos sus densidades marginales fX (x) y fY (y),
sin embargo si conocemos las marginales no necesariamente conocemos la conjunta, excepto cuando las v.a. son
independientes, este será un supuesto muy importante en inferencia estadı́stica y lo definiremos a continuación,
pero antes tenemos que decir que cualquier fdp conjunta debe cumplir dos cosas
1. fX,Y (x, y) ≥ 0 ∀(x, y) ∈ R2
Z ∞Z ∞
fX,Y (x, y)dxdy = 1
2.
−∞
−∞
4
4.6. VARIABLES ALEATORIAS INDEPENDIENTES
4.6.
Carlos Erwin Rodrı́guez
Variables Aleatorias Independientes
Se dice que las v.a. X y Y son independientes si para cualesquiera dos conjuntos A y B de números reales
PX,Y (X ∈ A, Y ∈ B) = PX (X ∈ A)PY (Y ∈ B)
Esto lleva a que X y Y son independientes si FX,Y (x, y) = PX,Y (X ≤ x, Y ≤ y) = PX (X ≤ x)PY (Y ≤ y) =
FX (x)FY (y) y esto a su vez conduce a que fX,Y (x, y) = fX (x)fY (y). En este curso vamos a trabajar casi todo
el tiempo con una n v.a. independientes, entonces de forma general tendremos que
fX1 ,X2 ,...,Xn (x1 , x2 , . . . , xn ) = fX1 (x1 )fX2 (x2 ) . . . fXn (xn ) =
n
Y
fXi (xi )
i=1
4.7.
Esperanza y Varianza
La esperanza o valor esperado de una v.a. X es simplemente su valor promedio, sin embargo hay que tomar en
cuenta que es un promedio ponderado de acuerdo a la distribución de las probabilidades. A continuación vamos
a definir el valor esperado de una v.a. X y lo haremos de forma general, para esto tenemos que tomar en cuenta
que si X es una v.a. entonces g(X) también es una v.a.
Definición
El valor esperado o esperanza de una v.a. g(X), denotado por E[g(X)], es
P
P
x g(x)fX (x) =
x g(x)PX (X = x) si X es discreta
R
E(g(X)) =
∞
g(x)f
(x)
si
X
es continua
X
−∞
Por ejemplo si quisiéramos calcular E(X), sólo tenemos que tomar g(X) = X. Directamente de la definición de
esperanza se desprende el siguiente
Corolario 1 Si a y b son constantes, entonces
E(aX + b) = aE(X) + b
El corolario 1 facilita el cálculo de la esperanza de muchas variables aleatorias. Sin embargo, además de la
esperanza de una v.a. X, también necesitamos una medida de su dispersión.
Definición
Si X es una v.a. discreta con µ = E(X), la varianza de X se define como
V ar(X) = E((X − µ)2 )
La varianza nos da una medida del grado de dispersión de una distribución alrededor de su media. En la mayorı́a
de los casos calcular la esperanza vı́a la definición suele ser complicado, sin embargo se puede probar que
Corolario 2
V ar(X) = E(X 2 ) − E(X)2
5
4.7. ESPERANZA Y VARIANZA
Carlos Erwin Rodrı́guez
Corolario 3 Si a y b son constantes, entonces
V ar(aX + b) = a2 V ar(X)
En esta parte vamos a dar algunos resultados acerca de las esperanzas y varianzas de sumas de v.a.
Si tenemos dos v.a. X y Y y queremos calcular E[g(X, Y )], en donde g(X, Y ) es cualquier función de X y Y ,
necesitaremos la siguiente
Definición
 XX

g(x, y)PX,Y (X = x, Y = y) si X y Y son discretas


x
yZ
Z
E[g(X, Y )] =
∞
∞


g(x, y)fX,Y (x, y)dxdy si X y Y son continuas

−∞
−∞
Una consecuencia inmediata de la definición es que E[X + Y ] = E[X] + E[Y ]. Esto se puede generalizar para
n v.a. de la siguiente forma
#
" n
n
X
X
E[Xi ]
E
Xi =
i=1
i=1
El siguiente paso es ver cómo se comporta la varianza de sumas de v.a. Para introducir este punto vamos a
calcular V ar[2X].
V ar[2X] = 4V ar[X] 6= 2V ar[X] = V ar[X] + V ar[X]
Entonces la varianza no se comporta de igual forma que la esperanza. Sin embargo, se puede probar que
V ar[X + Y ] = V ar[X] + V ar[Y ] + 2Cov[X, Y ]. En donde
Cov[X, Y ] = E[XY ] − E[X]E[Y ]
La covarianza es una medida de asociación entre v.a. de hecho es posible demostrar que si Cov[X, Y ] > 0 si X
crece, entonces Y crece y si Cov[X, Y ] < 0 si X crece, entonces Y decrece.
Como hemos mencionado, un supuesto fundamental en el curso de inferencia estadı́stica es la independencia
entre v.a. entonces, ¿qué pasa con la varianza de la suma X + Y si X y Y son independientes? pues primero
hay que ver ¿qué pasa con la covarianza? Un hecho fácil de probar es que si X y Y son independientes entonces
E[XY ] = E[X]E[Y ], de donde tenemos que Cov[X, Y ] = 0 y por lo tanto V ar[X + Y ] = V ar[X] + V ar[Y ].
El resultado de que si X y Y son independientes se tiene que E[XY ] = E[X]E[Y ] es tan importante que lo
enunciaremos de forma general en el siguiente
Teorema 2 Sean X1 , X2 , . . . , Xn v.a. independientes y sean g1 , g2 , . . . , gn funciones en R tales que g(xi ) es
función sólo de xi para i = 1, 2, . . . , n. Entonces
E[g1 (X1 )g2 (X2 ) · · · gn (Xn )] = E[g1 (X1 )]E[g2 (X2 )] · · · E[gn (Xn )]
Una consecuencia inmediata de 4.2 es que para n v.a. independientes
#
" n
n
X
X
V ar[Xi ]
V ar
Xi =
i=1
i=1
6
(4.2)
4.8. MOMENTOS Y FUNCIÓN GENERADORA DE MOMENTOS
4.8.
Carlos Erwin Rodrı́guez
Momentos y Función Generadora de Momentos
Los momentos de una v.a. son una importante clase de esperanzas.
Definición
Para cada entero n, el n-ésimo momento de X será E[X n ].
De la definición podemos ver que el primer momento de X es E[X] y que con el segundo momento E[X 2 ]
y el primer momento de X podemos calcular V ar[X]. Los momentos de una v.a. son tan importantes que
estableceremos la siguiente
Definición
Sea X una v.a. con función de distribución FX (x). La función generadora de
momentos (fgm) de X, denotada por mX (t), es
mX (t) = E[etX ]
siempre y cuando la esperanza exista para −h < t < h con h > 0.
Para saber por qué a esta función se le llama fgm, enunciamos el siguiente
Teorema 3 Si X tiene fgm mX (t), entonces
E[X n ] =
∂n
m
(t)
X
∂tn
t=0
Esto quiere decir que el n-ésimo momento de la v.a. X es igual a la n-ésima derivada de mX (t) evaluada en
cero.
La importancia de la fgm no se encuentra en el resultado anterior, pues puede ser más fácil calcular el n-ésimo
momento directamente que vı́a la fgm. La importancia de mX (t) se encuentra en el siguiente
Teorema 4 Sean X y Y dos v.a. con funciones de distribución de probabilidad FX (x) y FY (y) cuyos momentos
existen. Si mX (t) = mY (t) para −h < t < h con h > 0, entonces FX (u) = FY (u) para toda u.
Entonces si necesitamos demostrar que dos v.a. X y Y tienen la misma distribución, una forma de proceder serı́a
la de encontrar directamente FX (u), FY (u) y compararlas. Otra forma de proceder, serı́a utilizar el Teorema
4, encontrando mX (t), mY (t) y compararlas. En este punto hay que hacer una observación importante; el
procedimiento descrito anteriormente sirve para saber si dos variables aleatorias tienen la misma distribución
de probabilidades, más no nos dice nada acerca de si las variables aleatorias son iguales o no. Para evitar
confusiones, pensemos en el ejemplo de la v.a. X que cuenta el número de soles en el lanzamiento de tres
monedas justas y en la v.a. Y que cuenta el número de águilas en el lanzamiento de tres monedas justas. Debe
ser claro que X 6= Y , sin embargo FX (u) = FY (u) para toda u.
4.9.
Distribuciones más Comunes
En estadı́stica usaremos distribuciones de probabilidad para modelar poblaciones. Cualquier distribución depende de uno o más parámetros, y al variar estos parámetros, obtenemos distintos comportamientos de la misma
distribución. Un supuesto fundamental en inferencia estadı́stica es que de antemano se conoce o se supone conocida la distribución de cierta población, sin embargo, lo que nunca supondremos conocidos son sus parámetros.
Por lo tanto, es una buena idea lograr una familiarización con las distribuciones más usadas en estadı́stica
ası́ como con su comportamiento al variar sus parámetros.
7
4.9. DISTRIBUCIONES MÁS COMUNES
4.9.1.
Carlos Erwin Rodrı́guez
Distribuciones Discretas
Distribución Bernoulli
Esta v.a. modela un experimento en donde sólo hay dos posibles resultados, éxito(1) ó fracaso(0). Al realizar el
experimento, la probabilidad de que el resultado sea éxito es p y la probabilidad de que el resultado sea fracaso
es 1 − p. A este tipo de experimento se les llama Bernoulli con parámetro p, y es la base para construir muchas
v.a.
Distribución Bernoulli(Bernoulli(p))
PX (X = x) = px (1 − p)1−x con x = 0, 1
E[x] = p
V ar[x]
mX (t)
= p(1 − p)
= pet + 1 − p
Distribución Binomial
Esta variable aleatoria cuenta el número de éxitos al realizar n experimentos Bernoulli independientes.
Distribución Binomial(Bin(n, p))
n x
PX (X = x) =
p (1 − p)n−x con x = 0, 1, . . . , n
x
E[x] = p
V ar[x] = np(1 − p)
mX (t)
=
(pet + 1 − p)n
Es importante notar que una v.a Bernoulli(p) ≡ Bin(1, p). La distribución binomial se usa frecuentemente
para estimar o determinar la proporción de individuos de una población que tienen cierta caracterı́stica de
interés. Una observación importante es que para resolver este problema si la muestra se extrae sin reemplazo y
de una población muy pequeña, la distribución binomial no será apropiada; en este caso la distribución hipergeométrica es la que deberá usarse. Más adelante en el curso se dará la razón del porqué de esta observación.
La respuesta tiene que ver con la noción de muestra aleatoria y a que se puede definir a la binomial como la
suma de una muestra aleatoria de tamaño n en donde la distribución de cada v.a. de la muestra es Bernoulli(p).
Existen tablas para calcular las probabilidades de la Bin(n, p), sin embargo utilizando R, lo podemos hacer de
forma más precisa y rápida. Por ejemplo, supongamos que X ∼ Bin(100, 0.6) y queremos
PX (X = 20)
=
FX (60)
=
100
(0.6)20 (0.4)80 = dbinom(20, 100, 0.6) = 2.864017e − 16
20
X
PX (X = x) = pbinom(60, 100, 0.6) = 0.5379247
x≤60
8
4.9. DISTRIBUCIONES MÁS COMUNES
Carlos Erwin Rodrı́guez
0.6
0.4
0.5
FX(x)
0.100
0.0
0.000
0.1
0.025
0.2
0.050
0.3
0.075
P(X=x)
0.125
0.7
0.150
0.8
0.175
0.9
1.0
0.200
En las figuras 4.1 y 4.2 se presenta la gráfica de masa de probabilidad y distribución para algunos valores
particulares de p y n. Debe notarse que para cualquier gráfica de masa de probabilidad, las probabilidades se
le asignan a cada punto que toma la v.a., el hecho de que se dibujaran lı́neas anchas en lugar de rectas es
puramente para efectos de presentación. Para la Bin(0.5, 20) se observa que la fmp es simétrica, mientras que
para la Bin(20, 0.3) las probabilidades son más grandes antes de x = 6 que de hecho es el valor esperado para
esta v.a (E[X] = np = (20)(0.3) = 6).
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
0
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16 17 18 19 20 21 22
x
x
0.6
0.4
0.5
FX(x)
0.100
0.3
0.075
0.2
0.050
0.1
0.025
0.0
0.000
P(X=x)
0.125
0.7
0.150
0.8
0.175
0.9
1.0
0.200
Figura 4.1: Funciones de masa de probabilidad y distribución de una Bin(20,.5)
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
0
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16 17 18 19 20 21 22
x
x
Figura 4.2: Funciones de masa de probabilidad y distribución de una Bin(20,.3)
9
4.9. DISTRIBUCIONES MÁS COMUNES
Carlos Erwin Rodrı́guez
Distribución Hipergeométrica
Si se tienen claros algunos conceptos de la teorı́a de conteo, deducir la fmp de la v.a. hipergeométrica es muy
sencillo. Pensemos en el siguiente ejemplo; tenemos un lote en donde en total hay N elementos, de estos N
elementos M están defectuosos y por supuesto N − M no lo están. Si se extraen aleatoriamente n elementos sin
reemplazo y definimos la v.a. X como el número de objetos defectuosos en la muestra, entonces se tiene que
Distribución Hipergeométrica Hip(n, M, N )
PX (X = x) =
E[x] =
V ar[x] =
M
x
N −M
n−x
N
n
con x = 0, 1, . . . , n
nM
N nM (N − M )(N − n)
N
N (N − 1)
Adicionalmente tenemos que tener M − (N − n) ≤ x ≤ M . Es muy difı́cil trabajar analı́ticamente con la hipergeométrica, es por eso que se no se escribió su f gm.
Cuando describimos algunas caracterı́sticas de la binomial se dijo que esta v.a. se usa para estimar p, sin
embargo, si el experimento se realiza sin reemplazo y la población es muy chica entonces se utiliza la v.a. hipergeométrica. En general la hipergeométrica se utiliza para trabajar con poblaciones finitas y podremos utilizar
una aproximación mediante la Binomial cuando la población sea finita pero muy grande. Ahora, ¿cómo estimar
una proporción con la v.a. Hipergeométrica? Primero tendrı́amos que estimar M con alguna cantidad, digamos
M̂ y luego simplemente la proporción deseada serı́a M̂
N . Más adelante desarrollaremos métodos para encontrar M̂ .
La Figura 4.3 se hizo para comparar la Bin(20, 0.5) con la v.a Hip(20,50,100) con la idea de entender que
realmente la Bin(n, p) puede aproximar a una Hip(n,M,N). Los parámetros de la hipergeométrica son: N el
tamaño de la población, M el número total de objetos con cierta caracterı́stica y n el tamaño de muestra.
Los parámetros para la binomial son: n el tamaño de muestra o el número de experimentos realizados y p
la probabilidad de obtener un éxito. Para hacer el vı́nculo entre binomial e hipergeométrica hay que fijar los
parámetros de ambas fmp de forma que p = M
N y tengan la misma n. En la Figura 4.3 se hace la gráfica para una
50
población muy chica con N = 100 y M = 50 (P = 100
= 0.5), esta gráfica debe parecerse un poco a la Figura
4.1 y si lo que dijimos antes es cierto, al aumentar el tamaño de la población (o N para la hipergeométrica), pero
manteniendo p = M
N la gráfica resultante debe ajustarse más a la de la binomial. En la Figura 4.4 el tamaño de
N se aumentó considerablemente, y como se observa el ajuste con la Figura 4.1 es casi perfecto.
10
Carlos Erwin Rodrı́guez
0.6
0.5
FX(x)
0.4
0.100
0.0
0.000
0.1
0.025
0.2
0.050
0.3
0.075
P(X=x)
0.125
0.7
0.150
0.8
0.175
0.9
1.0
0.200
4.9. DISTRIBUCIONES MÁS COMUNES
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
0
1
2
3
4
5
6
7
8
9
x
10 11 12 13 14 15 16 17 18 19 20 21 22
x
0.6
0.5
FX(x)
0.4
0.100
0.0
0.000
0.1
0.025
0.2
0.050
0.3
0.075
P(X=x)
0.125
0.7
0.150
0.8
0.175
0.9
1.0
0.200
Figura 4.3: Funciones de densidad y distribución de una Hip(20,50,100)
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
0
x
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16 17 18 19 20 21 22
x
Figura 4.4: Funciones de densidad y distribución de una Hip(20,2500,5000)
En R para calcular la fmp ó la función de distribución de una Hip(n, M, N ), se utilizan las funciones “dhyper”
y “phyper”.
11
4.9. DISTRIBUCIONES MÁS COMUNES
Carlos Erwin Rodrı́guez
Distribución Poisson
Si X es la v.a. poisson entonces X cuenta el número de éxitos en un tiempo fijo si estos eventos ocurren con una
tasa media conocida, y son independientes del tiempo desde el último evento. La v.a. poisson se utiliza mucho
para aproximar las probabilidades de la binomial cuando el número de experimentos es grande y la probabilidad
de éxito es pequeña.
Distribución Poisson P oisson(λ)
PX (X = x) = eλ
λx
con x = 0, 1, . . .
x!
E[x] = λ
V ar[x]
= λ
mX (t) = eλ(e
t
−1)
Ejemplos de eventos que pueden ser modelados por la distribución Poisson incluyen:
El número de autos que pasan a través de un cierto punto en una ruta (suficientemente distantes de los
semáforos) durante un periodo definido de tiempo.
El número de errores de ortografı́a que uno comete al escribir una única página.
El número de llamadas telefónicas en una central telefónica por minuto.
El número de servidores web accedidos por minuto.
El número de animales muertos encontrados por unidad de longitud de ruta.
El número de mutaciones de determinada cadena de ADN después de cierta cantidad de radiación.
El número de núcleos atómicos inestables que decayeron en un determinado periodo de tiempo en una
porción de sustancia radiactiva. La radiactividad de la sustancia se debilitará con el tiempo, por lo tanto
el tiempo total del intervalo usado en el modelo debe ser significativamente menor que la vida media de
la sustancia.
Vamos a mostrar cómo se realiza el cálculo de las funciones de masa de probabilidad y distribución de la
P oisson(λ) en R. Supongamos que X ∼ P oisson(5), entonces
52
= dpois(2, 5) = 0.08422434
PX (X = 2) = e5
2!
X 5x
FX (10) =
e5
= ppois(10, 5) = 0.9863047
x!
x≤10
12
4.9. DISTRIBUCIONES MÁS COMUNES
Carlos Erwin Rodrı́guez
0.6
0.0
0.00
0.1
0.08
0.2
0.16
0.3
0.24
0.4
0.5
FX(x)
0.40
0.32
P(X=x)
0.48
0.7
0.56
0.8
0.64
0.9
0.72
1.0
1.1
0.80
Gráficas de la fmp y la función de distribución para algunos valores particulares de λ.
0
1
2
3
4
5
6
7
8
9
10
0
1
2
3
4
5
6
7
8
9
10
x
x
0.6
0.4
0.5
FX(x)
0.10
0.08
0.3
0.06
0.2
0.04
0.1
0.02
0.0
0.00
P(X=x)
0.12
0.7
0.14
0.8
0.16
0.9
0.18
1.0
1.1
0.20
Figura 4.5: Funciones de densidad y distribución de una Poisson(.3)
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
0
x
1
2
3
4
5
6
7
8
9
10
11
x
Figura 4.6: Funciones de densidad y distribución de una Poisson(5)
13
12
13
14
15
16
17
18
19
20
4.9. DISTRIBUCIONES MÁS COMUNES
Carlos Erwin Rodrı́guez
0.06
P(X=x)
0.10
0.00
0.00
0.02
0.02
0.04
0.06
0.04
0.08
P(X=x)
0.12
0.08
0.14
0.16
0.10
0.18
0.12
0.20
Para aproximar los valores de una Bin(n, p) por los de una P oisson(λ) hay que hacer np = λ para n “suficientemente” grande y p “suficientemente” chica. En los libros a veces se dan condiciones para que esta aproximación
sea buena, sin embargo, es mejor hacer el experimento uno mismo y verificar. A continuación mostramos una
forma de hacer lo anterior.
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
0
10
20
30
x
40
50
60
70
80
90
100
x
Figura 4.7: Aproximaciones
En lugar de hacer el gráfico de barras de la fmp como antes, en esta ocasión sólo se graficaron los puntos
(x, PX (X = x)) para que se pudiera visualizar mejor la situación. En la primer gráfica de la Figura 4.7 se
muestra cómo se aproximarı́an los valores de una Bin(20, 0.3), en rojo, por los de una P oisson(6), en azul (pues
λ = (20)(0.3) = 6). Al parecer la aproximación no es muy buena pues hay sólo 20 valores y para x ≤ 12 se
observan desviaciones considerables. En la segunda gráfica de la Figura 4.7 se muestra cómo se aproximarı́an los
valores de una Bin(100, 0.2), en rojo, por los de una P oisson(20), en azul. Para estos parámetros, en general,
la aproximación es mucho mejor.
Distribución Geométrica
Consideremos una sucesión de experimentos Bernoulli independientes en donde la probabilidad de éxito es p.
Sea X la v.a. que cuenta el número de fracasos antes del primer éxito. Entonces la fmp de X viene dada por
Distribución Geométrica Geo(p)
PX (X = x) = p(1 − p)x con x = 0, 1, 2, . . .
1−p
E[x] =
p
1−p
V ar[x] =
p2
p
mX (t) =
1 − (1 − p)et
14
4.9. DISTRIBUCIONES MÁS COMUNES
Carlos Erwin Rodrı́guez
Para calcular la fmp y la función de distribución de esta v.a. en R, lo podemos hacer utilizando las funciones
“dgeom” y “pgeom”.
0.6
0.0
0.000
0.1
0.035
0.2
0.070
0.3
0.105
0.4
0.5
FX(x)
0.175
0.140
P(X=x)
0.210
0.7
0.245
0.8
0.280
0.9
0.315
1.0
0.350
Se muestran dos gráficas de la fmp y de la función de distribución para algunos valores particulares de p.
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
0
20
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
9
10
11
12
13
14
15
x
x
0.6
0.4
0.5
FX(x)
0.30
0.24
0.3
0.18
0.2
0.12
0.1
0.06
0.0
0.00
P(X=x)
0.36
0.7
0.42
0.8
0.48
0.9
0.54
1.0
0.60
Figura 4.8: Funciones de densidad y distribución de una Geo(0.3)
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
0
20
x
1
2
3
4
5
6
7
8
x
Figura 4.9: Funciones de densidad y distribución de una Geo(0.6)
15
4.9. DISTRIBUCIONES MÁS COMUNES
4.9.2.
Carlos Erwin Rodrı́guez
Distribuciones Continuas
Antes de describir las v.a. continuas, definiremos una función que usaremos en esta parte, la función indicadora.
La función indicadora es
1A (x) = 10 sisi xx ∈∈/ A
A
Esta función se emplea para hacer más económica la notación. Por ejemplo la fdp uniforme que veremos a
1
si x ∈ (a, b) y 0 en otro caso. Sin embargo, con la función indicadora
continuación la escribirı́amos fX (x) =
b−a
1
sólo escribiremos fX (x) =
1(a,b) (x). Lo mismo se hubiera podido hacer para v.a. discretas, pero debe ser
b−a
claro que en cualquier punto en el que no se haya definido a PX , la probabilidad de que la v.a. tome ese valor
es cero.
Distribución Uniforme
La distribución uniforme asigna la misma probabilidad a intervalos de la misma longitud.
Distribución Uniforme U(a,b)
fX (x)
=
E[x]
=
mX (t)
=
1
1(a,b) (x)
b−a
(b − a)2
a+b
, V ar[x] =
2
12
tb
ta
e −e
(b − a)t
0.5
0.0
0.00
0.1
0.2
0.12
0.3
0.4
0.24
fX(x)
FX(x)
0.6
0.36
0.7
0.8
0.48
0.9
1.0
0.60
La distribución uniforme mayormente se usa para generar muestras aleatorias de otras distribuciones. A continuación se muestra la gráfica de densidad y de distribución de una U (3, 5).
0
1
2
3
4
5
6
7
8
0
x
1
2
3
4
5
x
Figura 4.10: Función de densidad y distribución de una U (3, 5)
16
6
7
8
4.9. DISTRIBUCIONES MÁS COMUNES
Carlos Erwin Rodrı́guez
Distribución Exponencial
La distribución exponencial se utiliza comunmente para modelar tiempos de vida, o la cantidad de tiempo hasta
que ocurre un evento especı́fico. Por ejemplo, la cantidad de tiempo hasta que suceda un temblor, o hasta que
estalle una nueva guerra, o hasta que alguien reciba una llamada telefónica que sea un número equivocado.
Distribución Exponencial Exp(β)
fX (x)
E[x]
1 −x/β
e
1[0,∞) (x) , β > 0
β
= β
=
V ar[x]
= β2
mX (t)
=
1
, t < 1/β
1 − βt
En este caso no presentaremos gráficas pues la Distribución Exponencial es un caso particular de la Distribución
Gamma que veremos a continuación.
Distribución Gamma
Distribución Gamma Gamma(α, β)
fX (x)
E[x]
V ar[x]
mX (t)
1
e−x/β xα−1 1[0,∞) (x) α, β > 0
Γ(α)β α
= αβ
=
= αβ 2
α
1
, t < 1/β
=
1 − βt
Para operar con la fdp Gamma(α, β), conviene tomar en cuenta que Γ(α + 1) = αΓ(α), para α > 0. Si
n ∈ N, Γ(n) = (n − 1)!, además, aunque puede parecer reiterativo, se tiene que Γ(1) = 1.
Dos distribuciones son casos particulares de la Gamma(α, β). En primer lugar, si α = 1 tenemos una Exp(β).
En segundo lugar, si α = n2 y β = 2, se obtiene una distribución Ji-cuadrada con n grados de libertad. La
distribución Ji-cuadrada es una de las más usadas en inferencia estadı́stica.
17
4.9. DISTRIBUCIONES MÁS COMUNES
Carlos Erwin Rodrı́guez
1.0
0.8
0.4
0.9
0.5
A continuación se presentan algunas gráfica de fX (x), para valores particulares de α y β.
0.7
0.6
0.5
FX(x)
0.4
Gamma(1,0.5)
Gamma(2,0.5)
Gamma(3,0.5)
Gamma(5,1)
Gamma(9,2)
0.2
0.0
0.0
0.1
0.1
0.3
0.2
fX(x)
0.3
Gamma(1,0.5)
Gamma(2,0.5)
Gamma(3,0.5)
Gamma(5,1)
Gamma(9,2)
0
2
4
6
8
10
12
14
16
18
20
0
2
4
6
x
8
10
12
14
16
18
20
x
Figura 4.11: Funciones de densidad y distribución de varias Gamma(α, β)
Distribución Normal o Gaussiana
La distribución normal (a veces llamada distribución gaussiana) juega un rol central en inferencia estadı́stica.
Existen principalmente tres razones para esto.
1. La distribución normal y las distribuciones asociadas a ella son fáciles de manejar analı́ticamente.
2. La fdp normal tiene forma de campana simétrica lo que la hace un buen candidato para modelar muchas
poblaciones.
3. El Teorema Central de Lı́mite muestra que bajo ciertas condiciones, utilizando la normal, se pueden
aproximar muchas distribuciones siempre y cuando se tengan muestras grandes.
Distribución Normal N (µ, σ 2 )
fX (x)
E[x]
mX (t)
Si X es una v.a. N (µ, σ 2 ), entonces Z =
(x−µ)2
1
e− 2σ2 1(−∞,∞) (x)
2πσ
= µ , V ar[x] = σ 2
=
√
= eµt+σ
X−µ
σ
2 2
t /2
∼ N (0, 1), a Z suele llamársele normal estándar. También
se tiene que si Z ∼ N (0, 1), entonces X = σZ + µ ∼ N (µ, σ 2 ). Esta relación entre la normal estándar y
cualquier N (µ, σ 2 ) facilita mucho el cálculo de probabilidades, para esta distribución. Si denotamos a la función
de distribución de N (0, 1) como Φ(z), entonces
Z z
2
1
√ e−t /2 dt
Φ(z) = FZ (z) = PZ (Z ≤ z) =
2π
−∞
18
4.9. DISTRIBUCIONES MÁS COMUNES
Carlos Erwin Rodrı́guez
Y si Z ∼ N (0, 1) con X ∼ N (µ, σ 2 ), se tiene que
FX (x) = PX (X ≤ x) = PZ
Z≤
x−µ
σ
=
Z
(x−µ)/σ
−∞
2
1
√ e−t /2 dt = Φ
2π
x−µ
σ
(4.3)
Existen tablas para calcular Φ(z), entonces por 4.3, debemos ser capaces de calcular cualquier probabilidad de
una N (µ, σ 2 ). Además también contamos con la función “pnorm” de R. Por ejemplo si X ∼ N (3, 25)
PX (X ≤ 4.3) =
Z
4.3
−∞
(t−3)2
1
√ e− 50 dt = pnorm(4.3, 3, 5) = 0.6025681
5 2π
0.5
0.0
0.000
0.1
0.2
0.090
0.3
0.4
0.180
fX(x)
FX(x)
0.6
0.270
0.7
0.8
0.360
0.9
1.0
0.450
Se muestra la gráfica de una normal estándar y otra de algunas N (µ, σ 2 ), para varios valores particulares de µ
y σ2 .
−5
−4
−3
−2
−1
0
1
2
3
4
5
−5
−4
−3
−2
−1
x
0
1
2
3
4
5
x
1.0
0.9
0.9
1.0
Figura 4.12: Función de densidad y distribución de la normal estándar (N (0, 1))
0.6
0.7
0.8
N(0,.2)
N(0,1)
N(0,5)
N(−2,.2)
0.0
0.1
0.2
0.3
0.4
0.5
FX(x)
0.5
0.4
0.3
0.2
0.1
0.0
fX(x)
0.6
0.7
0.8
N(0,.2)
N(0,1)
N(0,5)
N(−2,.2)
−5
−4
−3
−2
−1
0
1
2
3
4
5
−5
x
−4
−3
−2
−1
0
1
2
3
x
Figura 4.13: Funciones de densidad y distribución de varias N (µ, σ 2 )
19
4
5
Descargar