Apuntes revisión de estadística

Anuncio
Índice general
1. Estadı́stica y Procesos Estocásticos
1.1. Introducción a la estadı́stica . . . . . . . . . . . . . . . . . . . . .
1.1.1. Axiomas de la probabilidad . . . . . . . . . . . . . . . . .
1.1.2. Probabilidad condicional e independencia . . . . . . . . .
1.1.3. Ley de la probabilidad total y el teorema de Bayes . . . .
1.2. Las variables aleatorias y sus momentos . . . . . . . . . . . . . .
1.2.1. Introducción a las variables aleatorias . . . . . . . . . . .
1.2.2. Variables aleatorias discretas . . . . . . . . . . . . . . . .
1.2.3. Variables aleatorias continuas . . . . . . . . . . . . . . . .
1.3. Funciones de variables aleatorias . . . . . . . . . . . . . . . . . .
1.3.1. Múltiples variables aleatorias . . . . . . . . . . . . . . . .
1.3.2. Covarianza y Correlación . . . . . . . . . . . . . . . . . .
1.3.3. Combinación lineal de variables aleatorias . . . . . . . . .
1.3.4. Mixtura de variables aleatorias . . . . . . . . . . . . . . .
1.4. Lı́mites y desigualdades . . . . . . . . . . . . . . . . . . . . . . .
1.4.1. Desigualdad de Markov . . . . . . . . . . . . . . . . . . .
1.4.2. Desigualdad de Chebyshev . . . . . . . . . . . . . . . . .
1.4.3. Lı́mite de Chernoff . . . . . . . . . . . . . . . . . . . . . .
1.4.4. Ley de los grandes números . . . . . . . . . . . . . . . . .
1.5. Introducción a los procesos estocásticos . . . . . . . . . . . . . .
1.5.1. Cadenas de Markov de tiempo discreto: DTMC . . . . . .
1.5.2. Introducción a las cadenas de Markov en tiempo continuo
1
7
7
7
8
9
9
9
10
15
20
20
22
23
24
24
24
25
25
25
25
27
30
2
ÍNDICE GENERAL
Índice de figuras
1.1. Operaciones básicas: complemento, unión e intersección . . . . . 7
1.2. Variable aleatoria X . . . . . . . . . . . . . . . . . . . . . . . . . 10
3
4
ÍNDICE DE FIGURAS
Índice de cuadros
1.1. Media y varianza de las v.a. . . . . . . . . . . . . . . . . . . . . . 20
5
6
ÍNDICE DE CUADROS
Capı́tulo 1
Estadı́stica y Procesos
Estocásticos
1.1.
Introducción a la estadı́stica
1.1.1.
Axiomas de la probabilidad
La caracterización estocástica de un proceso resulta de interés cuando no
existe un modelo fı́sico que permita describir lo que está ocurriendo.
Definimos: S ≡ espacio de estados (conjunto de resultados posibles en un
experimento).
Sean A y B subconjuntos de S: A ⊂ S , B ⊂ S. Las operaciones Complemento(Ac ),
unión (A ∪ B), e intersección (A ∩ B) se definen gráficamente como:
A
111111
000000
000000
111111
A
000000
111111
000000
111111
c
complementario
S
S
S
111111111
000000000
000000000
111111111
000000000
111111111
000000000
111111111
B
000000000
111111111
A
000000000
111111111
000000000
111111111
111
000
000
111
B
A
union
Figura 1.1: Operaciones básicas: complemento, unión e intersección
Dos conjuntos de eventos A y B son disjuntos si A ∩ B = 0.
Ejemplo 1.1: Transmisión de 1 bit en una lı́nea. S = {0, 1}, donde 0 implica
recepción correcta y 1 lo contrario.
Debemos atribuir probabilidades al conjunto de resultados posibles que es:
∅, {0}, {1}, S. Para ello, existen determinadas reglas básicas conocidas como
axiomas de la probabilidad:
7
interseccion
8
CAPÍTULO 1. ESTADÍSTICA Y PROCESOS ESTOCÁSTICOS
Axioma 1 : P (S) = 1
Axioma 2 : P (Ac ) = 1 − P (A)
S
P
Axioma 3 : Sean Am conjuntos de eventos disjuntos: P ( m Am ) = m P (Am )
Este último axioma se puede generalizar para el caso de conjuntos de eventos
no disjuntos de la siguiente manera:
P(
m
[
Ak ) =
k=1
m
X
k=1
X
X
P (Ak )−
P (Aj ∩Ak )+
P (Ak ∩Aj ∩Al ) . . .+(−1)m−1 P (A1 ∩A2 . . .∩Am )
k6=j
k6=j6=l
(1.1)
De dichos axiomas es posible derivar las siguientes propiedades:
1. ∀A, su probabilidad se encuentra acotada: 0 ≤ P (A) ≤ 1
2. P (Ai ∪ Aj ) = P (Ai ) + P (Aj ) − P (Ai ∩ Aj )
3. Si A ⊆ B ⇒ P (A) ≤ P (B)
1.1.2.
Probabilidad condicional e independencia
Definimos la probabilidad condicional de que ocurra el suceso A condicionado a que ocurriera el evento B como:
P (A|B) =
P (A ∩ B)
P (B)
(1.2)
Siempre que P (B) ≥ 0 se puede demostrar que P (A|B) satisface los axiomas
de las probabilidades. La probabilidad condicionada permite calcular probabilidades sobre el resultado de un experimento A cuando dispongo de información
parcial sobre el mismo. Es útil en experimentos que se pueden descomponer en
varias partes.
Ejemplo:Suponga que lanza una moneda al aire dos veces.¿qué probabilidad
existe de obtener 2 caras?. A priori (sin información previa) serı́a P (cc) = 1/4,
pero si la primera moneda sale cara serı́a P (cc|c) = 1/2.
Dos eventos A y B se dicen independientes1 (A q B) cuando no se encuentran relacionados; esto es, cuando la ocurrencia de B no aporta información
sobre la ocurrencia de A. En tal caso:
A q B ⇔ P (A ∩ B) = P (A) · P (B) ⇔ P (A) = P (A|B)
1
(1.3)
No confundir eventos mútuamente excluyentes (no pueden ocurrir a la vez, P (A ∪ B) =
P (A) + P (B)) con eventos independientes (P (A ∩ B) = P (A) · P (B))
1.2. LAS VARIABLES ALEATORIAS Y SUS MOMENTOS
9
Cuando existen más de dos acontecimientos la independencia se define de
la siguiente manera: (Am ) son independientes si ∀k ≤ m ∧ ∀A1 , A2 , . . . Ak se
cumple que:
P(
k
[
j=1
1.1.3.
Aj ) =
k
Y
P (Aj )
j=1
Ley de la probabilidad total y el teorema de Bayes
S
Sea {Bk } una partición del espacio de estados S ( Bk = S, y Bi ∩ Bj = ∅
para i 6= j). En tal caso la ley de la probabilidad total nos indica que:
P (A) =
X
k
P (A ∩ Bk ) =
X
P (Bk ) · P (A|Bk )
(1.4)
k
, ya que A = S ∩ A = (∪Bk ) ∩ A y como Bk ∩ A son conjuntos disjuntos es
posible aplicar el tercer axioma de las probabilidades para obtener el resultado
anterior.
El teorema de Bayes es una aplicación directa de la ley de la probabilidad
total, puesto que resulta de aplicarlo a la definición de probabilidad condicional.
P (Bi ∩ A)
P (Bi ) · P (A|Bi )
P (Bi |A) = P
=P
k P (Bk ∩ A)
k P (Bk ) · P (A|Bk )
(1.5)
El teorema de Bayes permite obtener la probabilidad del evento de causa, Bi ,
dada la observación del evento de interés, A. Nos permite, por ejemplo, inferir
la probabilidad de que un coductor que haya sufrido un accidente estuviera
embriagado.
1.2.
1.2.1.
Las variables aleatorias y sus momentos
Introducción a las variables aleatorias
En ocasiones, cuando realizamos un experimento sólo estamos interesados
en el valor de algunas cantidades determinadas por el resultado, como el valor
obtenido por dos dados, o si el número de paquetes por segundo supera cierto umbral. Estas cantidades de interés se conocen como variables aleatorias y
vienen determinadas por el resultado de un experimento ⇒ podemos asignar
probabilidades a sus posibles valores.
Las variables aleatorias nos permiten trasladar los eventos que resultan de
un experimento a números. Las variables aleatorias se representan en mayúsula
(ejemplo: X) y los valores que asumen en minúscula (ejemplo: x).
10
CAPÍTULO 1. ESTADÍSTICA Y PROCESOS ESTOCÁSTICOS
S
X
R
Figura 1.2: Variable aleatoria X
Gracias al uso de las variables aleatorias, las probabilidades asociadas a cada
punto de S se asocian ahora a un valor de un número real.
Ejemplo:Defino X como el número de accesos a un servidor Web en un dı́a.
¿cual será P (X = 50000)?
La forma más común de especificar la probabilidad asociada a cada punto
es mediante la función de distribución de X, que se define como:
FX (u) = P {w ∈ S : X(w) ≤ u} = P (X ≤ u), ∀u ∈ R
Las funciones de distribución permiten caracterizar R de forma independientes del espacio de estados S. La función de supervivencia, de gran aplicación
en el área de la fiabilidad, es la complementaria a la función de distribución:
F X (u) = P (X > u), ∀u ∈ R
Partiendo de los axiomas básicos de la probabilidad es posible demostrar
que: F (−∞) = 0, F (∞) = 1 y FX (x1 ) ≤ FX (x2 ) para x1 ≤ x2 . Ası́ mismo se
pueden calcular las probabilidades en un intervalo como: P (x1 ≤ X ≤ x2 ) =
FX (x2 ) − FX (x1 ).
1.2.2.
Variables aleatorias discretas
Son aquellas que tienen la cardinalidad de los números naturales. Diremos
que X es una variable aleatoria discreta si ∃ un conjunto D numerable que
verifique: P (X ∈ D) = 1. En tal caso, se define la función de probabilidad de
X como:
pX (i) ≡ P (X = i), i ∈ D
1.2. LAS VARIABLES ALEATORIAS Y SUS MOMENTOS
11
La relación entre la función de probabilidad de una v.a. discreta y su función
P
de distribución es la siguiente: FX (x) = ∞
i=0 P (X = xi ) · U (x − xi ), donde
U (x) = 1 si x ≥ 0 y 0 en otro caso.
Algunas de las variables discretas más utilizadas son:
Bernouilli: X ∼ Bernouilli(p), 0 ≤ p ≤ 1 . Su función de probabilidad
es:


x = 1;
 p,
pX (x) =
(1.6)
1 − p, x = 0;


0,
x 6= 0, 1.
Se utiliza para modelar el éxito o fracaso de un experimento aleatorio
como lanzar una moneda al aire, la transmisión correcta de un bit, ... si
X = 1 se considera un éxito en el experimento.
Binomial: X ∼ Binomial(n, p), 0 ≤ p ≤ 1, n > 0. Su función de probabilidad es:
Ã
pX (x) =
n
x
!
· px · (1 − p)n−x , x = 0, 1, 2, . . . n
(1.7)
Si realizamos n experimentos de Bernouilli (Xi ) independientes con la misP
ma probabilidad de éxito p, entonces la variable aleatoria X = ni=1 Xi ,
de distribución binomial, nos indicará el número de éxitos obtenidos en
las pruebas. Para valores altos de n resulta complicado el cálculo de (nx )
Poisson: X ∼ P oisson(λ) λ > 0. Su función de probabilidad es:
pX (x) = e−λ ·
λx
, x = 0, 1, . . .
x!
(1.8)
Esta variable aleatoria se asocia a resultados de acontecimientos muy
poco probables pero con una población muy grande. Se puede considerar
el lı́mite de la Binomial cuando n · p → constante e igual a λ, con n → ∞.
Debido a su gran aplicación en telecomunicaciones conviene detenernos
en posibles caso de uso de esta variables. Supongamos que partimos en
n trozos una barra con imperfecciones aleatoriamente distribuidas. Podemos modelar el número de imperfecciones en un trozo mediante una v.a.
binomial. Si cada trozo es lo suficientemente pequeño, la probabilidad de
que tenga un defecto p es muy pequeña. Si incremento el número de trozos
n entonces p se disminuye en la misma proporción, de forma que p · n es
constante. Para n tendiendo a infinito la v.a. serı́a Poisson.
12
CAPÍTULO 1. ESTADÍSTICA Y PROCESOS ESTOCÁSTICOS
Este mismo razonamiento se puede aplicar a cualquier intervalo que se
divida en trozos (incluyendo un intervalo de tiempo). De forma general
podemos afirmar que si un intervalo sobre el cual pueden ocurrir eventos
aleatoriamente distribuidos (en el tiempo o en el espacio) puede ser dividido en intervalos suficientemente pequeños, en tal caso, el experimento
aleatorio se llama proceso (observación de un sistema en el tiempo) de
Poisson.
Supongamos que N (t) es una variable que indica el número de eventos
aleatorios que ocurren en un intervalo de tiempo [0, t]. Dichos eventos
constituyen un proceso de poisson con tasa λ, λ > 0 si
a) N (0) = 0
b) El número de eventos que ocurren en un subintervalo es independiente de los que ocurren en otros subintervalos disjuntos.
c) La probabilidad de que ocurra un evento en un subintervalo es la
misma para todos los subintervalos y proporcional a su longitud, no
a su localización.
P (N (h)=1)
h
P (N (h)≥2)
lı́mh→0
h
d) lı́mh→0
=λ
e)
=0
Para obtener la expresión de P (N (t) = k), dividiremos el intervalo [0, t]
en n subintervalos de longitud nt . Entonces, para n → ∞ tendremos que
P (N (t) = k) = P (k de los n subintervalos tienen 1 evento y n-k tienen
0 eventos), donde para cada subintervalo la probabilidad de éxito (tener
un evento) será p ≈ λ·t
n . Por tanto P (N (t) = k) ∼ Binomial(n, p). Como
n → ∞ y n · p = λt = constante N (t) tendrá una distribución de Poisson
de tasa λt.
Geométrica: X ∼ Geometrica(p), 0 ≤ p ≤ 1. Su función de probabilidad es:
pX (x) = (1 − p)x−1 · p, x = 1, 2, . . .
(1.9)
La variable aleatorı́a Geométrica X representa el número de pruebas de
Bernouilli necesarias para obtener el primer éxito; esto es, siendo Xi :
variables aleatorias de Bernouilli de parámetro p, entonces X = ı́nf{m ≥
1 : Xm = 1}.
Hipergeométrica: X ∼ Hipergeometrica(N, n, k), k ≤ N, n ≤ N . Su
función de probabilidad es:
1.2. LAS VARIABLES ALEATORIAS Y SUS MOMENTOS
Ã
pX (x) =
k
n
! Ã
·
Ã
N
n
N −k
n−x
!
13
!
, x = máx{0, n + k − N }, . . . mı́n{k, n}
(1.10)
Sea un conjunto de N objetos compuestos por k objetos clasificados como éxito y N − k como fracaso. Si tomamos una muestra de n objetos
aleatoriamente (sin reposición), la variable aleatoria X, con distribución
hipergeométrica, medirá el número de éxitos en la muestra elegida. En
este caso los experimentos de Bernouilli no son independientes, pues la
probabilidad de éxito varı́a a medida que se realizan extracciones. Cuann
do la población es muy grande (N À n, tı́picamente N
< 0, 1) se puede
utilizar la binomial.
Binomial Negativa:X ∼ BinN eg(n, p), 0 ≤ p ≤ 1, n ≥ 1. Su función
de probabilidad es:
Ã
pX (x) =
x−1
n−1
!
· pn · (1 − p)x−n , x = n, n + 1, n + 2, . . .
(1.11)
La binomial negativa es una generalización de la geométrica en la cual
la variable aleatoria representa el número de experimentos de Bernouilli
que debo realizar para obtener n éxitos. Siendo Yi variables aleatorias
P
con distribución geométrica, podemos afirmar que X = m
i=1 Yi tiene una
distribución binomial negativa.
Esperanza y momentos de una variable aleatoria discreta
En ocasiones se utilizan ciertos valores (media, momentos, ...) que permiten
ofrecer información sobre la función de distribución de una v.a.
La media o valor esperado de una variable aleatoria X es una media
ponderada de los posibles valores de X y se define:
E[X] = µ =
X
i · pX (i)
(1.12)
i
La media representa el centro de gravedad de la función de probabilidad.
Supongamos que X1 , X2 , X3 , . . . Xn son variables aleatorias independientes e
14
CAPÍTULO 1. ESTADÍSTICA Y PROCESOS ESTOCÁSTICOS
d
idénticamente distribuidas Xi = X (i.i.d.). Entonces la ley de los grandes
números nos indica que:
n
1X
Xk −→ E[X]
(1.13)
n
k=1
Si la tendencia es con probabilidad 1 se denomina ley fuerte de los grandes
números.
Sea Y = f (X), entonces la esperanza de Y será:
E[Y ] = E[f (X)] =
X
f (i) · pX (i)
(1.14)
i
P
P
Es fácil demostrar que: E[aX + b] = aE[x] + b y que E[ i Xi ] = i E[Xi ].
Para caracterizar el comportamiento de una distribución se emplean los
momentos. Se define el momento de orden k de una variable aleatoria como:
X
E[X k ] =
ik · pX (i)
(1.15)
i
En muchas ocasiones es necesario conocer si la distribución está concentrada
en torno a su media o por el contrario se encuentra dispersa, en tales casos
resulta más útil utilizar momentos centrados (en la media) de orden k, que se
definen como:
E[(X − E[X])k ] =
X
(i − E[X])k · pX (i)
(1.16)
i
Junto con la media, uno de los parámetros más utilizados en la caracterización de una v.a. es la varianza, que se define como el momento centrado de
orden dos; esto es:
V ar(X) = σ 2 = E[(X − E[X])2 ] =
X
(i − E[X])2 · pX (i) = E[X 2 ] − (E[X])2 .
i
(1.17)
p
Se puede demostrar que V ar(aX+b) = a2 V ar(X). A la cantidad V ar(X) =
σ se le denomina desviación estándard, y tiene las mismas unidades que la
media. También podemos emplear el coeficiente de variación de una variable
σ
aleatoria X, definido como CX = E[X]
. Por último, definimos los cuantiles de
probabilidad p como:
χp = ı́nf{u : FX (u) ≥ p}
(1.18)
1.2. LAS VARIABLES ALEATORIAS Y SUS MOMENTOS
1.2.3.
15
Variables aleatorias continuas
En ellas es posible definir la función densidad de probabilidad fX (x)
como:
Z
FX (u) = P (X ≤ u) =
u
−∞
fX (y)dy , fX (y) ≥ 0, ∀y
(1.19)
R∞
Lógicamente, −∞ fX (y)dy = 1. En las v.a. continuas, P (X = x) = 0.
Todas las expresiones vistas hasta ahora para la esperanza y los momentos
continúan siendo válidas cambiando los sumatorios por integrales y la función
de probabilidad pX (x) por la función densidad de probabilidad fX (x). Ası́ , por
ejemplo tendremos que:
Z ∞
E[X] =
u · fX (u)du
−∞
Z ∞
V ar(X) =
(u − E[X])2 · fX (u)du
(1.20)
−∞
Las principales variables aleatorias continuas son:
Uniforme: X ∼ U nif orme(a, b). Su función densidad de probabilidad
es:
(
1
b−a , a ≤ x ≤ b;
(1.21)
fX (x) =
0,
e.o.c.
Normal: X ∼ N ormal(µ, σ 2 ). Su función densidad de probabilidad viene
dada por:
(x−µ)2
1
−∞≤x≤∞
(1.22)
fX (x) = √
· e− 2σ2
2π · σ
Esta función tiene forma de campana simétrica respecto al centro, determinado por µ, su media. La anchura vendrá fijada por σ 2 , su varianza.
Esta distribución es ampliamente utilizada debido al teorema del lı́mite
central que nos indica que cuando un experimento aleatorio se repite
muchas veces, la variable aleatoria del valor medio tiende a una distribución normal; esto es:
i.i.d.
{Xk } ∼ X
E[X] = µ
V ar[X] = σ 2 < ∞





n
⇒ Xn =
σ2
1X
n→∞
Xi −→ N ormal(µ, ) (1.23)
n
n
i=1
Dado que las transformaciones lineales de una variable aleatoria normal
continúan siendo normales, y siendo X ∼ N ormal(µ, σ 2 ), si definimos
Z = X−µ
σ , entonces Z ∼ N ormal(0, 1). La función de distribución de
16
CAPÍTULO 1. ESTADÍSTICA Y PROCESOS ESTOCÁSTICOS
N (0, 1) se denomina Φ(z) o normal estándar y se encuentra tabulada.
Los percentiles de la normal señalan que χ0,0027 = µ ± 3σ por lo que
la mayorı́a de los valores estarán recogidos en este rango, denominado
ancho de la campana. En el caso de la normal estándar, los percentiles
son: χ0,05 = 1,645, χ0,025 = 1,96, χ0,01 = 2,33.
Un resultado importante de la normal es que la suma de normales Xi de
P
media µi y varianza σi2 es también una normal de media ni µi y varianza
Pn 2
i σi .
Relacionadas con la normal se encuentran otra serie de distribuciones de
interés, como son:
• Chi Cuadrado: X ∼ χ2n , n ≥ 1, donde n son los grados de libertad.
Esta variable representa la suma de n variables aleatorias normales
estándard al cuadrado.
n
X
i.i.d.
{Zk }k=1,2,...,n ∼ N (0, 1) ⇒
Zi2 ∼ χ2n
(1.24)
i=1
• T-Student: X ∼ Tn , n ≥ 1. Si Z es una variable aleatoria normal
estándard, y χ2n es una variable independiente Chi cuadrado de n
grados de libertad, entonces la variable aleatoria X, definida como:
Z
X∼q
χ2n
n
i.i.d.
∼ Tn
(1.25)
tiene una distribución T-Student con n grados de libertad. Esta distribución es ampliamente utilizada para el cálculo de la media partiendo de resultados empı́ricos, ya que según hemos visto en el teore−µ
n√
ma del lı́mite central X
∼ N (0, 1). Si sustituimos σ por su valor
σ/ n
empı́rico S (el valor empı́rico de la varianza puede ser calculado como
√ Xn −µ
1 Pn
2
S 2 = n−1
n S ∼ Tn−1 . La distribui=1 (Xi − Xn ) ), entonces
ción Tn tiende a N (0, 1) para n → ∞, aunque para valores pequeños
de n tiene una mayor variabilidad.
La variable aleatoria normal se utiliza también para aproximar otras distribuciones como la binomial o la Poisson bajo ciertas condiciones.
• Aproximación de la Binomial: Sea X = Binomial(n, p), entonces
Z = √X−np es aproximadamente una variable aleatoria normal
np(1−p)
estándard. Esta aproximación es buena para np > 5 y n(1 − p) > 5
• Aproximación de la Poisson: Sea X = P oisson(λ), entonces Z =
X−λ
√
es aproximadamente una variable aleatoria normal estándard.
λ
Esta aproximación es válida para λ > 5.
1.2. LAS VARIABLES ALEATORIAS Y SUS MOMENTOS
17
Exponencial:X ∼ Exponencial(λ). Su función densidad de probabilidad
viene dada por:
fX (x) = λ · e−λ·x , 0 ≤ x < ∞
(1.26)
Su función de distribución será, por tanto, FX (x) = 1 − e−λ·x . Es una de
las distribuciones más utilizadas en el campo de las telecomunicaciones
debido a su propiedad sin memoria, que formalmente se expresa P (X <
t1 + t2 |X > t1 ) = P (X < t2 ); esto es, el conocimiento de acontecimientos
pasados no afecta al futuro. Esta propiedad sólo se da en la variable
exponencial para el caso continuo y la geométrica en el caso discreto.2 .
Un ejemplo de aplicación de esta propiedad serı́a el siguiente: supongamos
que X ∼ Exp(λ) indica la duración de una conversación telefónica que
comienza en t = 0. Si en t = τ comprobamos que la conversación continúa
activa, la vida residual (lo que le falta para terminar) de la duración de
dicha conversación podrı́a modelarse con una variable aleatoria R = X−τ ,
dado X > τ . Puede demostrarse que R ∼ Exp(λ) ∼ X: la vida residual
no se ve afectada por el instante de tiempo τ en se examine el fenómeno.
La variable aleatoria X de distribución exponencial con media λ1 indica la
distancia (en espacio o en tiempo) entre sucesivos eventos de un proceso de
Poisson con media λ. Sea N (t) un Proceso de Poisson de tasa λ. Entonces:
P (N (t) = k) = e−λt ·
(λt)k
, k = 0, 1, . . .
k!
(1.27)
Sea Xi una variable aleatoria que indica el tiempo que transcurre hasta
la ocurrencia del (i-1)-ésimo evento hasta el i-ésimo evento (tiempo entre
eventos). Entonces:
P (X1 > t) = P (N (t) = 0) = e−λt
(1.28)
esto es, X1 ∼ Exp(λ). Para X2 tenemos que P (X2 > t|X1 = s) =
P (0 eventos en (s, s + t]|X1 = s) = P (0 eventos en (s, s + t]) = e−λt . De
forma general el tiempo entre llegadas Xi ∼ Exponencial(λ)
Otra propiedad muy utilizada de la variable aleatoria exponencial es que
si X1 , X2 , . . . , Xn son variables aleatorias exponenciales de parámetros
λ1 , λ2 , . . . , λn respectivamente, entonces Y = mı́n(X1 , X2 , . . . Xn ) tiene
P
distribución exponencial de parámetro ni=1 λi . Esto significa que la suma
de procesos de Poisson, continúa siendo un proceso de Poisson.
2
Es lógico pues en un proceso de Poisson asumimos que un intervalo puede ser dividido
en n subintervalos independientes que resultan en pruebas independientes de Bernoilli. Si en
una prueba se tiene éxito o fracaso, esto no condiciona las probabilidades de éxito o fracaso
de cualquier otra prueba
18
CAPÍTULO 1. ESTADÍSTICA Y PROCESOS ESTOCÁSTICOS
Como consecuencia de lo anterior se puede demostrar que si X1 , X2 , . . . , Xn
son variables aleatorias exponenciales i.i.d. de parámetro λ, entonces E[máx(X1 , X2 , . . . , Xn )] =
Pn 1
ln(n)
i=1 iλ ≈ λ . Esto último tiene aplicación en el cálculo del tiempo de
vida de un sistema en paralelo.
Erlang: X ∼ Erlang(λ, r), λ > 0, r = 1, 2, . . .. Su función densidad de
probabilidad es:
fX (x) =
λr · xr−1 · e−λx
, x>0
(r − 1)!
(1.29)
En este caso X representa el intervalo de tiempo en el que ocurren r
eventos en un proceso de Poisson de media λ (o la longitud de un intervalo
con r defectos). Si r = 1 entonces X ∼ Exp(1/λ). Es el equivalente en
tiempo continuo a la binomial negativa.
P
Si X1 , . . . Xn ∼ X ∼ Exponencial(λ), entonces Y = ni=1 Xi tendrá una
distribución: Y ∼ Erlang(λ, n).
Gamma: X ∼ Gamma(λ, r), λ > 0, r > 0. Su función densidad de
probabilidad será:
fX (x) =
λr · xr−1 · e−λx
, x>0
Γ(r)
(1.30)
R∞
Donde la función Γ(r) = 0 xr−1 e−x dx es una generalización de la función factorial para valores no enteros de r, ya que se puede demostrar que
Γ(r) = Γ(r − 1) · (r − 1), con Γ(1) = 0! y Γ(1/2) = π 2 , por lo que cuando
r es un entero Γ(r) = (r − 1)!. Lógicamente Gamma(λ, r) ≡ Erlang(λ, r)
para r = 0, 1, 2, . . ..
Hiperexponencial-n: X ∼ HiperExp(α1 , α2 , . . . , αn , λ1 , λ2 , . . . , λn ), 0 ≤
P
αi ≤ 1, λi ≥ 0, ni=1 αi = 1. Su función de distribución es:
fX (x) =
n
X
αi λi e−λi ·x , x ≥ 0
(1.31)
i=1
Esta variable aleatoria permite modelar mixturas de variables exponenciales con diferentes parámetros (λi ) y distintas probabilidades de ocurrencia para cada una (αi ). En el caso de n = 2 se puede interpretar
como realizar un experimento de Bernouilli con probabilidad de éxito α1
para elegir cual de las dos exponenciales voy a utilizar (si λ1 ó λ2 ). La
P
correspondiente función de distribución es: FX (x) = 1 − ni=1 α1 e−λi ·x .
1.2. LAS VARIABLES ALEATORIAS Y SUS MOMENTOS
19
Weibull: X ∼ W eibull(δ, β), β ≥ 0, δ ≥ 0. Su función de distribución
es:
fX (x) =
β x β−1 −( x )β
( )
·e δ , x>0
δ δ
(1.32)
Esta variable aleatoria es utilizada para modelar el tiempo entre llegadas
en un sistema en que la tasa de llegadas se incrementa (o decrementa)
con el tiempo. Al δ se le denomina parámetro de escala mientras que
a β representa el parámetro de forma. Lógicamente si β = 1 implica
que la tasa de llegadas permanece constante y tendremos la distribución
exponencial. La función de distribución de la Weibull es FX (x) = 1 −
e− (x/δ)β .
Pareto: X ∼ P areto(γ, k), γ > 0, k > 0. Su función densidad de probabilidad es:
fX (x) =
γk γ
γ k
= ( )γ+1 , k ≤ x ≤ ∞.
γ+1
x
k x
(1.33)
y su función de distribución es: FX (x) = 1 − (k/x)γ , k ≤ x. Es una
distribución muy utilizada en telecomunicación, debido a que su función
densidad de probabilidad decae lentamente (distribución de cola pesada),
lo que permite modelar tráfico con una varianza elevada en diferentes
escalas de tiempo. Este tipo de tráfico, denominado autosimilar, se emplea
para modelar muchos aspectos de las redes de datos como el tráfico en las
redes de área local, la duración de las sesiones en Internet, . . . .
En general, una variable aleatoria se denomina de cola pesada si: P (X >
(x)) ∝ x−α , 0 < α ≤ 2 es decir, cuando fX (x) ∝ αx−(α+1) . Se puede
demostrar que en tal caso, su media no converge para α ≤ 1 y la E[X 2 ]
tampoco converge para α ≤ 2, por lo que ambas serán ∞. En el caso de la
distribución Pareto se puede verificar que es de cola pesada si 0 < γ ≤ 2,
γki
donde su valor medio para γ > 1 es: E[X i ] = γ−i
y su varianza E[(X −µ)2 ]
para γ > 2 es: σ 2 =
γk2
.
(γ−1)2 (γ−2)
En el cuadro siguiente se resumen las principales caracterı́sitcas de las v.a.
vistas: Otros parámetros como el coeficiente de variación (CX ) o el momento no
centrado de orden 2 (E[X 2 ]) pueden obtenerse mediante manipulación simple
de los valores anteriores
20
CAPÍTULO 1. ESTADÍSTICA Y PROCESOS ESTOCÁSTICOS
E[X] = µ
E[( X − µ)2 ] = σ 2
Bernouilli(p)
Binomial(n,p)
Poisson(λ)
Geométrica(p)
p
np
λ
np · (1 − p)
λ
1
p
(1−p)
p2
HiperGeo(N,n,k)
BinNeg(n,p)
np
−n
np(1 − p)( N
N −1 )
Distribución
n(1−p)
p2
(b−a)2
2
σ2
n
p
a+b
2
Uniforme(a,b)
Normal(µ, σ 2 )
χ2n
Tn
Exponencial(λ)
Erlang(λ, r)
Gamma(λ, r)
HiperExpn (αi , λi )
µ
n
0, n > 1
Pn
1
λ
r
λ
r
λ
αi
i=1 λi
δΓ(1 + β1 )
γk
γ−1
Weibull(δ, β)
Pareto(γ, k)
2n
n>2
n
n−2 ,
Pn αi 2
αi
i=1 λ2i − ( i=1 λi )
δ 2 Γ(1 + β2 ) − δ 2 [Γ(1 + β1 )]2
γk2
, γ>2
(γ−1)2 (γ−2)
2·
Pn
1
λ2
r
λ2
r
λ2
Cuadro 1.1: Media y varianza de las v.a.
1.3.
1.3.1.
Funciones de variables aleatorias
Múltiples variables aleatorias
En el caso discreto, podremos definir la función de probabilidad conjunta
de p variables aleatorias como:
fX1 ,X2 ,...,Xp (x1 , x2 , . . . , xp ) = P (X1 = x1 , X2 = x2 , . . . , Xp = xp )
(1.34)
, donde la función marginal de probabilidad de una de ellas, Xi , vendrá dada
por la expresión:
fXi (xi ) = P (Xi = xi ) =
X
fX1 ,X2 ,...,Xp (x1 , x2 , . . . , xp )
(1.35)
Rxi
, siendo Rxi el conjunto de puntos del rango de (X1 , X2 , . . . , Xp ) para los
cuales Xi = xi . La esperanza y la varianza de la variable Xi vendrán dadas por:
E[Xi ] =
X
xi · fX1 ,X2 ,...,Xp (x1 , x2 , . . . , xp ) = µXi
R
2
σX
i
=
X
R
(xi − µXi )2 · fX1 ,X2 ,...,Xp (x1 , x2 , . . . , xp )
(1.36)
1.3. FUNCIONES DE VARIABLES ALEATORIAS
21
Donde R es el conjunto de todos los puntos del rango (X1 , X2 , . . . , Xp ). En
ocasiones resulta de utilidad hallar la función de probabilidad de un conjunto
de k, (k < p) variables aleatorias:
fX1 ,X2 ,...,Xk (x1 , x2 , . . . , xk ) = P (X1 = x1 , X2 = x2 , . . . , Xk = xk )
X
=
fX1 ,X2 ,...,Xp (x1 , x2 , . . . , xp )(1.37)
Rx1 ,x2 ,...,xk
,siendo Rx1 ,x2 ,...,xk el conjunto de todos los puntos de X1 , X2 , . . . Xp para
lod cuales X1 = x1 , X2 = x2 , . . . , Xk = xk .
Podremos afirmar que las variables X1 , X2 , . . . , Xp son independientes si y
solo si:
fX1 ,X2 ,...,Xp (x1 , x2 , . . . , xp ) = fX1 (x1 ) · fX2 (x2 ) . . . · fXp (xp ), ∀x1 , x2 , . . . xp
(1.38)
Distribución multinomial: Es una extensión de la binomial. Se supone un
experimento aleatorio consistente en una serie de n intentos o repeticiones,
donde se asume que:
El resultado de cada intento es clasificado en una entre k clases
La probabilidad de que un intento genere resultado de las clases 1, 2, . . . , k
es constante sobre los intentos e igual a p1 , p2 , . . . , pk respectivamente,
P
donde ki=1 pi = 1.
Los intentos son independientes
Las variables aleatorias X1 , X2 , . . . , Xk , que representan el número de intentos que resultan de cada clase, tienen una función de distribución multinomial,
con una función de probabilidad conjunta igual a:
n!
px1 ·px2 . . . pxk k , x1 +x2 +. . .+xk = n
x1 !, x2 !, . . . , xk ! 1 2
(1.39)
, donde la función marginal de probabilidad de Xi será una binomial con
2 = n · p (1 − p ).
E[Xi ] = n · pi y σX
i
i
i
fX1 ,X2 ,...,Xk (x1 , x2 , . . . , xk ) =
En el caso de las variables aleatorias continuas 3 , definimos las función
densidad de probabilidad conjunta de las variables aleatorias X1 , X2 , . . . Xp como fX1 ,X2 ,...,Xp (x1 , x2 , . . . , xp ) ≥ 0 que cumple, para ∀ región B del espacio
p-dimensional:
3
Un caso de fácil aplicación puede ser las dimensiones de una pieza fabricada
22
CAPÍTULO 1. ESTADÍSTICA Y PROCESOS ESTOCÁSTICOS
Z Z
Z
...
fX1 ,X2 ,...,Xp (x1 , x2 , . . . , xp ) = P ([X1 , x2 , . . . , Xp ]²B)
B
, donde
R∞ R∞
R∞
−∞ −∞ . . . −∞ fX1 ,X2 ,...,Xp (x1 , x2 , . . . , xp )
(1.40)
= 1.
La función marginal de probabilidad de una de ellas, Xi , vendrá dada por
la expresión:
Z Z
fXi (xi ) = P (Xi = xi ) =
Z
...
Rxi
fX1 ,X2 ,...,Xp (x1 , x2 , . . . , xp )dx1 dx2 . . . dxp
(1.41)
, siendo Rxi la región del rango de (X1 , X2 , . . . , Xp ) para los cuales Xi = xi .
La esperanza y la varianza de la variable Xi vendrán dadas por:
Z
E[Xi ] =
2
σX
i
Z
∞
∞
...
Z−∞
∞
=
Z−∞
∞
...
−∞
−∞
xi · fX1 ,X2 ,...,Xp (x1 , x2 , . . . , xp )dx1 dx2 . . . dxp = µXi
(xi − µXi )2 · fX1 ,X2 ,...,Xp (x1 , x2 , . . . , xp )dx1 dx2 . . . dxp
, donde R es el conjunto de todos los puntos del rango X1 , X2 , . . . , Xp . La
función de probabilidad de un conjunto de k, (k < p) variables aleatorias de
define de forma similar al caso de variables discretas pasando los sumatorios al
caso continuo. La independencia se define igual que en el caso discreto.
Distribución Normal bivariada: Es la extensión de la distribución normal
para dos variables aleatorias.
−1
1
2 [
p
fXY (x, y; σX , σY , µX , µY , ρ) =
e 2(1−ρ )
2πσX σY 1 − ρ2
1.3.2.
(x−µX )2
2ρ(x−µX )(y−µY )
(y−µY )2
−
+
]
σX σY
σ2
σ2
X
Y
(1.42)
Covarianza y Correlación
Mide la relación entre dos o más variables aleatorias definidas en un espacio
probabilı́stico. Se define la covarianza de dos variables aleatorias de la siguiente
manera:
Cov(X, Y ) = σXY = E[(X −E[X])(Y −E[Y ])] = E[XY ]−E[X]·E[Y ]. (1.43)
La convarianza es una medida de la asociación lineal entre dos variables
aleatorias. Si la relación no es lineal, la covarianza puede no ser sensible a esta
relación entre variables.
1.3. FUNCIONES DE VARIABLES ALEATORIAS
23
Si dos variables aleatorias X e Y son independientes, entonces Cov(X, Y ) =
0 y V ar(X + Y ) = V ar(X) + V ar(Y ). En general, puede observarse que cuando
la Cov(X, Y ) > 0, entonces Y tiende a incrementar su valor cuando X también
lo hace. Un valor Cov(X, Y ) < 0 implica generalmente que Y tiende a decrecer
cuando X crece. Para ver la relación entre dos variables X e Y se suele emplear
la función de correlación, ya que es una cantidad adimensional que oscila entre
+1 y -1 definida como:
Cov(X, Y )
Corr(X, Y ) = ρXY = p
V ar(X) · V ar(Y )
(1.44)
Si ρXY > 0, las variables estarán correladas, y si ρXY = 1, la relación entre
ellas será lineal. En caso de variables independientes, ρXY = σXY = 0.
1.3.3.
Combinación lineal de variables aleatorias
Dadas las variables aleatorias X1 , X2 , . . . , Xn y las constantes c1 , c2 , . . . , cn ,
definimos la siguiente combinación lineal: Y = c1 X1 + c2 X2 + . . . cn Xn .
Entonces tenemos que:
n
n
X
X
E[Y ] = E[
ci Xi ] =
ci E[Xi ]
i=1
(1.45)
i=1
El cálculo de σY2 es más complejo. De la definición de convarianza, es fácil
verificar que ésta cumple con las siguientes propiedades:
Cov(X, X) = V ar(X)
Cov(aX, Y ) = a · Cov(X, Y )
P
P
Pn Pm
Cov( ni=1 Xi , m
j=1 Yi ) =
i=1
j=1 Cov(Yj , Xi )
De lo que se desprende como corolario que:
!
à n
n
n
n
X
X
X
X
σY2 = V ar
ci Xi =
c2i V ar(Xi ) +
c2i c2j Cov(Xj , Xi ) (1.46)
i=1
i=1
i=1 j6=i j =1
En el caso de que X1 X2 , . . . , Xn sean independientes se cumplirá que σY2 =
2
i=1 ci σXi .
El caso de querer encontrar la distribución de la combinación lineal de variables aleatorias tendremos que emplear la convolución. Sean X1 , X2 dos variables aleatorias discretas, y sea Y = X1 + X2 . En tal caso,
Pn
P (Y = y) =
y
X
i=0
P (X1 = i)P (X2 = y − i)
(1.47)
24
CAPÍTULO 1. ESTADÍSTICA Y PROCESOS ESTOCÁSTICOS
Ejemplo:demuestre que la suma de dos variables independientes de Poisson
de media λ1 t y λ2 t respectivamente es una variable de Poisson de media (λ1 +
P
λ2 )t. (sugerencia: utilice la expansión binomial (x+y)n = ni=0 (ni ) xi y n−i ; n ≥
0.)
En el caso de variables continuas, tendrı́amos
Z ∞
fY (y) =
fX1 (z)fX2 (z − y)dz
(1.48)
−∞
1.3.4.
Mixtura de variables aleatorias
La mixtura de variables aleatorias resulta más sencilla que la combinación
lineal de las mismas. Supongamos que tenemos X1 , X2 , . . . , Xn variables aleatorias independientes, y que la probabilidad de elegir una aleatoriamente es c1 , c2 , . . . cn
P
para X1 , X2 , . . . , Xn respectivamente, donde ni=1 ci = 1. Entonces podemos
definir la mixtura de todas ellas como
Y = c1 X1 ⊕ c2 X2 ⊕ c3 X3 . . . ⊕ cn Xn
P
, donde fY (y) = ni=1 ci fXi (y).
(1.49)
Es fácil demostrar que en las mixturas de variables aleatorias, el momento
no centrado de orden i cumple:
E[Y i ] =
n
X
cj E[Xji ]
(1.50)
j=1
Para el caso de dos variables aleatorias independientes X1 y X2 se puede
interpretar como un experimento de Bernouilli con probabilidad c1 de tomar el
valor ofrecido por X1 y 1 − c1 de tomar el valor ofrecido por X2 .
1.4.
1.4.1.
Lı́mites y desigualdades
Desigualdad de Markov
Sea h(x) una función positiva no decreciente 4 , y sea X una variable aleatoria
con función densidad de probabilidad fX (x). Entonces,
Z
Z
∞
E[h(x)] =
−∞
h(x)fX (x)dx ≥
∞
−∞
h(x)fX (x)dx ≥ h(t)P (X ≥ t)
lo que puede reescribirse como la desigualdad de Markov:
4
Por ejemplo: h(x) = x, o h(x) = eαx
(1.51)
1.5. INTRODUCCIÓN A LOS PROCESOS ESTOCÁSTICOS
P (X ≥ t) ≤
E[h(t)]
h(t)
25
(1.52)
Para el caso de h(x) = xU (x), siendo X una variable aleatoria no negativa y
U (x) la función escalón, tendremos la expresión simple P (X ≥ t) ≤ E[X]
t ; t ≥ 0.
1.4.2.
Desigualdad de Chebyshev
Se deduce de la desigualdad de Markov y nos permite inferir valores para las
probabilidades de una variable aleatoria dado sus momentos. Esta desigualdad
estable que:
P (|X − E[X]| ≥ ε) ≤
1.4.3.
2
σX
ε
(1.53)
Lı́mite de Chernoff
Este lı́mite se deriva también de la desigualdad de Markov para h(t) =
α ≥ 0, ofreciendo el siguiente resultado:
e−αt ,
P (X ≥ d) ≤ e−αd E[eαX ] = e−αd X(−α); α ≥ 0
,donde X(−α) es la transformada de Laplace
probabilidad evaluada en −α.
1.4.4.
5
(1.54)
de la función densidad de
Ley de los grandes números
También resulta como aplicación de la desigualdad de Chebychev. Si consideramos n variables aleatorias independientes e idénticamente distribuidas
(iid), X1 , X2 , . . . Xn , con media µ y varianza σ 2 , la variable aleatoria media
P
X = (1/n) ni=1 Xi tendrá media µ y varianza σ 2 /n. Sustituyendo en la desigualdad de Chebychev tendremos que:
σ2
; ε≥0
n→∞ nε2
lı́m P (|X − µ| ≥ ε) ≤ lı́m
n→∞
1.5.
(1.55)
Introducción a los procesos estocásticos
Un proceso estocástico es un modelo probabilı́stico de un sistema que evoluciona de forma aleatoria. Si el sistema se observa en instantes de tiempos discretos n = 0, 1, 2, . . . y Xn es el estado del sistema en el instante n, entonces
{Xn , n ≥ 0} es un proceso estocástico de tiempo discreto. Ejemplos de este
5
E[X] =
R∞
0
fX (x)e−sx dx
26
CAPÍTULO 1. ESTADÍSTICA Y PROCESOS ESTOCÁSTICOS
caso pueden ser el ı́ndice Down-Jones al final de la n-ésima semana, número
de paquetes perdidos en un router al final de n-ésimo dı́a, ... Si el sistema es
observado de manera continua en el tiempo t, entonces {X(t), t ≥ 0} es un
proceso estocástico de tiempo continuo. Por ejemplo el número de ordenadores
averiados en un instante determinado del dı́a t o la posición de un huracán en
un momento dado.
De manera más formal, podemos definir un proceso estocástico como una
colección de variables aleatorias {X(α), α ∈ T } indexadas por el parámetro α
que toma valores en el conjunto T . Las variables aleatorias toman valores en
el espacio de estados S. En una gran cantidad de aplicaciones el parámetro α
representa el tiempo. Es posible distinguir dos casos: cuando T = 0, 1, 2, . . .
escribiremos {Xn , n ≥ 0} en lugar de {X(α), α ∈ T } y cuando T = [0, ∞)
utilizaremos la notación {X(t), t ≥ 0} en lugar de {X(α), α ∈ T }.
Cualquier posible evolución o trayectoria del proceso estocástico se denominan caminos muestrales y, en general, existen infinitos. Como los procesos estocásticos siguen uno de los caminos muestrales de forma aleatoria, en ocasiones
se les denomina función aleatoria. Uno de los objetivos del estudio de los procesos estocásticos es comprender el comportamiento de los caminos muestrales
a fin de predecir y controlar el futuro del sistema.
Para caracterizar completamente a un proceso estocástico cuyo conjunto
de parámetros T sea finito, bastará con la función de distribución conjunta de
todas las variables aleatorias. En el caso de que T = 0, 1, 2, . . . , sea infinito
necesitaremos una familia consistente de funciones de distribución conjunta,
que es aquella que cumple que Fn (x0 , x1 , . . . , xn ) = Fn+1 (x0 , x1 , . . . , xn , ∞).
Para el caso continuo, y supuesto que todas las trayectorias son continuas por
la derecha, el proceso quedará descrito por una familia consistente de funciones
de distribución conjunta de dimensión finita:
Ft1 ,t2 ,...,tn (x1 , x2 , . . . , xn ) = P (X(t1 ) ≤ x1 , X(t2 ) ≤ x2 , . . . X(tn ) ≤ xn ) (1.56)
El proceso estocástico más simple serı́a el formado por {Xn , n ≥ 1} donde
Xn es una secuencia de variables aleatorias independientes y idénticamente
distribuidas (i.i.d.) con una función de distribución común. en tal caso:
Fn (x1 , x2 , . . . , xn ) =
n
Y
F (xi ), −∞ < xi < ∞
(1.57)
i=1
Ejemplo: Supongamos ahora un proceso {Xn , n ≥ 1} como el anterior, y
definimos el proceso estocástico {Sn , n ≥ 0} de la siguiente manera:
S0 = 0, Sn = X1 + X2 + . . . + Xn , n ≥ 1
(1.58)
1.5. INTRODUCCIÓN A LOS PROCESOS ESTOCÁSTICOS
27
Este proceso se conoce como random walk, y también se encuentra completamente caracterizado por la función de distribución conjunta de X.
¿Qué es posible realizar con un proceso estocástico? en primer lugar debemos definirlo; esto es, identificar la estructura básica del proceso, conjunto
de distribuciones y parámetros que permiten caracterizarlo. Es posible también estudiar el comportamiento transitorio, es decir, la función de distribución
marginal de Xn o X(t) para un valor determinado de n o de t, aunque debido
a la complejidad de esta tarea 6 en ocasiones tendremos que conformarnos tan
sólo con los momentos. En tercer lugar también podremos estudiar el comportamiento lı́mite del proceso cuando n o t tiende a infinito. Para ello debemos
en primer lugar analizar la convergencia del proceso: identificar las condiciones
bajo las cuales ocurre y desarrollar métodos para computar las distribuciones
lı́mites (para ello emplearemos herramientas matemáticas como álgebra matricial, sistemas de ecuaciones diferenciales y métodos numéricos). En cuarto
lugar será posible calcular el tiempo de primera estancia; esto es, cuánto tarda
el sistema en alcanzar un conjunto particular de estados. Concretamente esto
supone estudiar la variable aleatoria T = min{n ≥ 0 : Xn ∈ B} para el tiempo
discreto o T = min{t ≥ 0 : X(t) ∈ B} para el tiempo continuo. Por último,
si somos capaces de asociar costes y beneficios de los diversos estados podemos
evaluar comparativas de diferentes polı́ticas que influyen en la evolución del
proceso.
1.5.1.
Cadenas de Markov de tiempo discreto: DTMC
En el caso de tiempo discreto, tendremos una colección de variables aleatorias X0 , X1 , X2 , . . . con valores discretos 7 . Un proceso estocástico Xn , n ≥ 0 se
denomina DTMC con espacio de estados S si:
para todo n ≥ 0, Xn ∈ S con probabilidad 1
para todo n ≥ 0, x ∈ S, A ⊂ S, B ⊂ S n , se cumple que P (Xn+1 ∈ A|Xn =
x, (X0 , X1 , . . . , Xn−1 ) ∈ B) = P (Xn+1 ∈ A|Xn = x)
Esta última propiedad, en virtud de la cual el estado futuro del sistema tan
sólo depende del estado presente, y no del pasado, se denomina propiedad de
Markov8
6
Muy pocos procesos, por ejemplo el proceso de Poisson, tienen expresiones simples para
las distribuciones en el transitorio
7
Finito o con la cardinalidad de los números naturales
8
Si la dependencia con el tiempo se disipa en más de un paso puedo considerar pares o
ternas de valores (Xn , Xn−1 ) y utilizar DTMC. Esta técnica debe aplicarse con precaución
pues multiplica el número de estados SxS por lo tanto no se puede utilizar para más de 2 o 3
28
CAPÍTULO 1. ESTADÍSTICA Y PROCESOS ESTOCÁSTICOS
Para el caso de que S sea contable, utilizaremos la siguiente notación:
pij (n) = P (Xn+1 = j|Xn = i)
(1.59)
A partir de este momento supondremos que S es contable y que la DTMC
es homogenea en el tiempo (pij (n) = pij ∀n). En general, las DTMC se aplican
cuando tenemos series temporales de la forma Xn+1 = f (Xn , Yn+1 ), donde f es
una función, e Yn+1 es un ruido que sólo depende del valor presente y no de la
`
historia del proceso (Yn+1 X0 X1 X2 . . . Xn−1 ).
Ejemplo:suponer un buffer con b posiciones al que llegan paquetes según un
proceso. Yn indica el número de paquetes que llegan en el instante n. El buffer
procesa un paquete por unidad de tiempo. Sea Xn la ocupación del buffer en
el instante n. Entonces la dinámica del proceso quedarı́a descrita por Xn+1 =
min((Xn − 1)+ + Yn+1 , b), y las probabilidades de transición serı́an:
pij = P (Xn+1


P (Yn+1



 P (Y
n+1
= j|Xn = i) =

P
(Y
n+1



 P (Y
n+1
= j),
i = 0, j < b
≥ j),
i = 0, j = b
= j − i + 1),
i > 0, j < b
≥ b − i + 1 =), i > 0, j = b
(1.60)
La matriz P = [pij ] con las probabilidades condicionales para el salto de
estado se denomina matriz de transición de probabilidades a un paso es una
P
matriz estocástica pues satisface que pij ≥ 0∀i, j ∈ S, ası́ como j∈S pij =
1∀i ∈ S.
En general, una DTMC X = {Xn , n ≥ 0} con espacio de estados S queda
completamente caracterizada por la matriz de probabilidades de transición P y
el vector ~a = (ai )i∈S con la distribución inicial (ai = P (X0 = i)). Normalmente
~a sólo influirá en el cálculo de las distribuciones marginales. En tal caso,
definimos:
(n)
aj
= P (Xn = j) =
X
P (Xn = j|X0 = i)ai
(1.61)
i∈S
(n)
Para el cálculo de P (Xn = j|X0 = i) = pij
propiedad Markoviana, por lo que:
tendremos en cuenta la
pasos. En el caso de dependencias temporales mayores es posible emplear series autoregresivas
para determinar previsiones de medias y varianzas en el futuro
1.5. INTRODUCCIÓN A LOS PROCESOS ESTOCÁSTICOS
P (Xn+m = k|X0 = i) =
X
29
P (Xn = j|X0 = i)P (Xn+m = k|Xn = j)
j∈S
=
X
P (Xn = j|X0 = i)P (Xm = k|X0 = j) (1.62)
j∈S
P
(n+m)
(n) (m)
Lo que da lugar a la ecuación de Chapman-Kolmogorov : pik
= j∈S pij pjk ,
que también se expresa de forma matricial como: P (n+m) = P (n) P (m) , donde
P (n) = P n .
(2)
(4)
Ejemplo:determine P (X1 = 1, X3 = 2, X7 = 3). Solución: P (X1 = 1)·p12 ·
p23
Para el cálculo de probabilidades a largo plazo en un DTMC, definimos
frecuencia de ocupación de estados a largo plazo como:
n
1 X
1{Xk =i}
n−>∞ n + 1
pi = lı́m
(1.63)
k=0
frecuencia esperada a largo plazo
n
1 X
P (Xk = i)
lı́m
n−>∞ n + 1
(1.64)
k=0
probabilidad estacionaria de ocupación del estado i: si existe una distribuP
ción de probabilidad (πi )i∈S , que cumple con πi = j∈S πj pji (en forma
vectorı́a serı́a ~π = ~π · P ), donde P es la matriz de transición a un paso, entonces ~π = (πi )i∈S es un vector con las distribuciones en régimen
estacionario (estado de equilibrio). Caso de existir, para el cálculo de las
probabilidades en estado estable πi tendrı́amos que resolver el siguiente
sistema de ecuaciones:
πi =
X
X
πj · pji
(1.65)
j∈S
πj
= 1
(1.66)
j∈S
No siempre existe la probabilidad estacionaria: supongamos que la cadena
oscila entre dos estados alternativamente o que la cadena queda atrapada en
un subconjunto de estados y tenemos que descomponer la solución para cada
región. Por ello debemos, en primer lugar, determinar bajo qué condiciones es
30
CAPÍTULO 1. ESTADÍSTICA Y PROCESOS ESTOCÁSTICOS
posible encontrar la probabilidad estacionaria. Para ello definimos el concepto
de accesibilidad: diremos que el estado j es accesible desde el estado i si: i →
(n)
j ⇐⇒ ∃n : pij > 0. Dos estados son comunicantes si son accesibles en ambos
sentidos. Cuando tenemos un conjunto de estados que son comunicantes entre
si, podemos denominarlo clase comunicante. Definimos una clase comunicante
Ai como cerrada siempre que si i ∈ Ai y j ∈
/ Ai implica que j no es accesible
desde i. Una vez que una cadena visita una clase cerrada comunicante ya no
puede salir de ella. Una DTMC se denomina irreductible si todos sus estados
pertenecen a una sóla clase cerrada comunicante, y en ella todos los estados se
pueden comunicar con el resto de estados.
Podemos pues descomponer el espacio de estados S = T ∪A1 ∪A2 ∪. . ., donde
el subconjunto T contiene todos los estados transitorios (un estado i : P (Xn =
i para algunn ≥ 1|X0 = i) < 1), esto es, un estado que es posible que no vuelva
a ser visitado). Y los subconjuntos Ai contienen clases comunicantes con estados
recurrentes (lo opuesto de transitorio), que a su vez pueden ser recurrentes nulos
(si E[ı́nf n≥1:Xn =i |X0 = i] = ∞, el retorno al estado sucede con probabilidad 1
pero en tiempo ∞) y en recurrente positivo (si E[ı́nf n≥1:Xn =i |X0 = i] < ∞, el
retorno al estado sucede con probabilidad 1 pero en tiempo finito).
Si una DTMC es irreductible y recurrente positiva 9 , con número finito de
estados, podemos afirmar que sólo existe un solución para πi que coincide con
la frecuencia de ocupación de estados.
n
1 X
P (Xk = i)
n−>∞ n + 1
pi = πi = lı́m
(1.67)
k=0
, luego lı́mn−>∞ P (Xn = i) = πi .
1.5.2.
Introducción a las cadenas de Markov en tiempo continuo
En ellas las probabilidades de transición se sustituyen por tasas de transición. Definimos rij como la tasa de transición del estado i para el estado j.
Es posible imaginar conceptualmente las cadenas en tiempo continuo como
una competición entre transiciones, la primera que expira provoca un cambio
de estado tras el cual se comienza de nuevo.
P
Si definimos ri = j∈S,j6=i rij como la tasa de salida del estado i, entonces
r
pij = riji serı́a la probabilidad de transición del estado j cuando partimos del
estado i10 .
En el caso de cadenas de tiempo continuo aparece el concepto de matriz
9
10
para comprobarlo basta con hacer un test a un sólo estado
el tiempo de permanencia en los estados se supone exponencial
1.5. INTRODUCCIÓN A LOS PROCESOS ESTOCÁSTICOS
generadora inifinitesimal ϕ = (qij ), donde:
(
rij , i 6= j
qij =
−ri , i = j
31
(1.68)
La matriz de transición en el tiempo P (t) = (pij (t)) = P (X(t) = j|X(0) =
i) de una cadena de Markov de tiempo contı́nuo que cumple:
d
P (t) = ϕP (t)
dt
(1.69)
por lo que la solución viene dada por
P (t) = eϕ·t =
∞
X
ϕk tk
k=0
k!
(1.70)
Para el cómputo de estas probabilidades tendremos, normalmente, problemas numéricos, por lo que una solución muy utilizada es la uniformización del
proceso que consiste en discretizar las observaciones por una cadena embebida
de Markov de tiempo discreto. Este método permite tratar el caso continuo
como si fuera un caso discreto, donde el proceso de Poisson uniformizador debe
tener una tasa q ≥ máxj∈S rj , lo que nos lleva a matrices de transición del
proceso uniformizado P̂ = I + ϕq .
Los procesos en tiempo continuo que utilizaremos a lo largo del presente
año serán los de nacimiento y muerte, desarrollados en el próximo tema.
Descargar