Índice general 1. Estadı́stica y Procesos Estocásticos 1.1. Introducción a la estadı́stica . . . . . . . . . . . . . . . . . . . . . 1.1.1. Axiomas de la probabilidad . . . . . . . . . . . . . . . . . 1.1.2. Probabilidad condicional e independencia . . . . . . . . . 1.1.3. Ley de la probabilidad total y el teorema de Bayes . . . . 1.2. Las variables aleatorias y sus momentos . . . . . . . . . . . . . . 1.2.1. Introducción a las variables aleatorias . . . . . . . . . . . 1.2.2. Variables aleatorias discretas . . . . . . . . . . . . . . . . 1.2.3. Variables aleatorias continuas . . . . . . . . . . . . . . . . 1.3. Funciones de variables aleatorias . . . . . . . . . . . . . . . . . . 1.3.1. Múltiples variables aleatorias . . . . . . . . . . . . . . . . 1.3.2. Covarianza y Correlación . . . . . . . . . . . . . . . . . . 1.3.3. Combinación lineal de variables aleatorias . . . . . . . . . 1.3.4. Mixtura de variables aleatorias . . . . . . . . . . . . . . . 1.4. Lı́mites y desigualdades . . . . . . . . . . . . . . . . . . . . . . . 1.4.1. Desigualdad de Markov . . . . . . . . . . . . . . . . . . . 1.4.2. Desigualdad de Chebyshev . . . . . . . . . . . . . . . . . 1.4.3. Lı́mite de Chernoff . . . . . . . . . . . . . . . . . . . . . . 1.4.4. Ley de los grandes números . . . . . . . . . . . . . . . . . 1.5. Introducción a los procesos estocásticos . . . . . . . . . . . . . . 1.5.1. Cadenas de Markov de tiempo discreto: DTMC . . . . . . 1.5.2. Introducción a las cadenas de Markov en tiempo continuo 1 7 7 7 8 9 9 9 10 15 20 20 22 23 24 24 24 25 25 25 25 27 30 2 ÍNDICE GENERAL Índice de figuras 1.1. Operaciones básicas: complemento, unión e intersección . . . . . 7 1.2. Variable aleatoria X . . . . . . . . . . . . . . . . . . . . . . . . . 10 3 4 ÍNDICE DE FIGURAS Índice de cuadros 1.1. Media y varianza de las v.a. . . . . . . . . . . . . . . . . . . . . . 20 5 6 ÍNDICE DE CUADROS Capı́tulo 1 Estadı́stica y Procesos Estocásticos 1.1. Introducción a la estadı́stica 1.1.1. Axiomas de la probabilidad La caracterización estocástica de un proceso resulta de interés cuando no existe un modelo fı́sico que permita describir lo que está ocurriendo. Definimos: S ≡ espacio de estados (conjunto de resultados posibles en un experimento). Sean A y B subconjuntos de S: A ⊂ S , B ⊂ S. Las operaciones Complemento(Ac ), unión (A ∪ B), e intersección (A ∩ B) se definen gráficamente como: A 111111 000000 000000 111111 A 000000 111111 000000 111111 c complementario S S S 111111111 000000000 000000000 111111111 000000000 111111111 000000000 111111111 B 000000000 111111111 A 000000000 111111111 000000000 111111111 111 000 000 111 B A union Figura 1.1: Operaciones básicas: complemento, unión e intersección Dos conjuntos de eventos A y B son disjuntos si A ∩ B = 0. Ejemplo 1.1: Transmisión de 1 bit en una lı́nea. S = {0, 1}, donde 0 implica recepción correcta y 1 lo contrario. Debemos atribuir probabilidades al conjunto de resultados posibles que es: ∅, {0}, {1}, S. Para ello, existen determinadas reglas básicas conocidas como axiomas de la probabilidad: 7 interseccion 8 CAPÍTULO 1. ESTADÍSTICA Y PROCESOS ESTOCÁSTICOS Axioma 1 : P (S) = 1 Axioma 2 : P (Ac ) = 1 − P (A) S P Axioma 3 : Sean Am conjuntos de eventos disjuntos: P ( m Am ) = m P (Am ) Este último axioma se puede generalizar para el caso de conjuntos de eventos no disjuntos de la siguiente manera: P( m [ Ak ) = k=1 m X k=1 X X P (Ak )− P (Aj ∩Ak )+ P (Ak ∩Aj ∩Al ) . . .+(−1)m−1 P (A1 ∩A2 . . .∩Am ) k6=j k6=j6=l (1.1) De dichos axiomas es posible derivar las siguientes propiedades: 1. ∀A, su probabilidad se encuentra acotada: 0 ≤ P (A) ≤ 1 2. P (Ai ∪ Aj ) = P (Ai ) + P (Aj ) − P (Ai ∩ Aj ) 3. Si A ⊆ B ⇒ P (A) ≤ P (B) 1.1.2. Probabilidad condicional e independencia Definimos la probabilidad condicional de que ocurra el suceso A condicionado a que ocurriera el evento B como: P (A|B) = P (A ∩ B) P (B) (1.2) Siempre que P (B) ≥ 0 se puede demostrar que P (A|B) satisface los axiomas de las probabilidades. La probabilidad condicionada permite calcular probabilidades sobre el resultado de un experimento A cuando dispongo de información parcial sobre el mismo. Es útil en experimentos que se pueden descomponer en varias partes. Ejemplo:Suponga que lanza una moneda al aire dos veces.¿qué probabilidad existe de obtener 2 caras?. A priori (sin información previa) serı́a P (cc) = 1/4, pero si la primera moneda sale cara serı́a P (cc|c) = 1/2. Dos eventos A y B se dicen independientes1 (A q B) cuando no se encuentran relacionados; esto es, cuando la ocurrencia de B no aporta información sobre la ocurrencia de A. En tal caso: A q B ⇔ P (A ∩ B) = P (A) · P (B) ⇔ P (A) = P (A|B) 1 (1.3) No confundir eventos mútuamente excluyentes (no pueden ocurrir a la vez, P (A ∪ B) = P (A) + P (B)) con eventos independientes (P (A ∩ B) = P (A) · P (B)) 1.2. LAS VARIABLES ALEATORIAS Y SUS MOMENTOS 9 Cuando existen más de dos acontecimientos la independencia se define de la siguiente manera: (Am ) son independientes si ∀k ≤ m ∧ ∀A1 , A2 , . . . Ak se cumple que: P( k [ j=1 1.1.3. Aj ) = k Y P (Aj ) j=1 Ley de la probabilidad total y el teorema de Bayes S Sea {Bk } una partición del espacio de estados S ( Bk = S, y Bi ∩ Bj = ∅ para i 6= j). En tal caso la ley de la probabilidad total nos indica que: P (A) = X k P (A ∩ Bk ) = X P (Bk ) · P (A|Bk ) (1.4) k , ya que A = S ∩ A = (∪Bk ) ∩ A y como Bk ∩ A son conjuntos disjuntos es posible aplicar el tercer axioma de las probabilidades para obtener el resultado anterior. El teorema de Bayes es una aplicación directa de la ley de la probabilidad total, puesto que resulta de aplicarlo a la definición de probabilidad condicional. P (Bi ∩ A) P (Bi ) · P (A|Bi ) P (Bi |A) = P =P k P (Bk ∩ A) k P (Bk ) · P (A|Bk ) (1.5) El teorema de Bayes permite obtener la probabilidad del evento de causa, Bi , dada la observación del evento de interés, A. Nos permite, por ejemplo, inferir la probabilidad de que un coductor que haya sufrido un accidente estuviera embriagado. 1.2. 1.2.1. Las variables aleatorias y sus momentos Introducción a las variables aleatorias En ocasiones, cuando realizamos un experimento sólo estamos interesados en el valor de algunas cantidades determinadas por el resultado, como el valor obtenido por dos dados, o si el número de paquetes por segundo supera cierto umbral. Estas cantidades de interés se conocen como variables aleatorias y vienen determinadas por el resultado de un experimento ⇒ podemos asignar probabilidades a sus posibles valores. Las variables aleatorias nos permiten trasladar los eventos que resultan de un experimento a números. Las variables aleatorias se representan en mayúsula (ejemplo: X) y los valores que asumen en minúscula (ejemplo: x). 10 CAPÍTULO 1. ESTADÍSTICA Y PROCESOS ESTOCÁSTICOS S X R Figura 1.2: Variable aleatoria X Gracias al uso de las variables aleatorias, las probabilidades asociadas a cada punto de S se asocian ahora a un valor de un número real. Ejemplo:Defino X como el número de accesos a un servidor Web en un dı́a. ¿cual será P (X = 50000)? La forma más común de especificar la probabilidad asociada a cada punto es mediante la función de distribución de X, que se define como: FX (u) = P {w ∈ S : X(w) ≤ u} = P (X ≤ u), ∀u ∈ R Las funciones de distribución permiten caracterizar R de forma independientes del espacio de estados S. La función de supervivencia, de gran aplicación en el área de la fiabilidad, es la complementaria a la función de distribución: F X (u) = P (X > u), ∀u ∈ R Partiendo de los axiomas básicos de la probabilidad es posible demostrar que: F (−∞) = 0, F (∞) = 1 y FX (x1 ) ≤ FX (x2 ) para x1 ≤ x2 . Ası́ mismo se pueden calcular las probabilidades en un intervalo como: P (x1 ≤ X ≤ x2 ) = FX (x2 ) − FX (x1 ). 1.2.2. Variables aleatorias discretas Son aquellas que tienen la cardinalidad de los números naturales. Diremos que X es una variable aleatoria discreta si ∃ un conjunto D numerable que verifique: P (X ∈ D) = 1. En tal caso, se define la función de probabilidad de X como: pX (i) ≡ P (X = i), i ∈ D 1.2. LAS VARIABLES ALEATORIAS Y SUS MOMENTOS 11 La relación entre la función de probabilidad de una v.a. discreta y su función P de distribución es la siguiente: FX (x) = ∞ i=0 P (X = xi ) · U (x − xi ), donde U (x) = 1 si x ≥ 0 y 0 en otro caso. Algunas de las variables discretas más utilizadas son: Bernouilli: X ∼ Bernouilli(p), 0 ≤ p ≤ 1 . Su función de probabilidad es: x = 1; p, pX (x) = (1.6) 1 − p, x = 0; 0, x 6= 0, 1. Se utiliza para modelar el éxito o fracaso de un experimento aleatorio como lanzar una moneda al aire, la transmisión correcta de un bit, ... si X = 1 se considera un éxito en el experimento. Binomial: X ∼ Binomial(n, p), 0 ≤ p ≤ 1, n > 0. Su función de probabilidad es: Ã pX (x) = n x ! · px · (1 − p)n−x , x = 0, 1, 2, . . . n (1.7) Si realizamos n experimentos de Bernouilli (Xi ) independientes con la misP ma probabilidad de éxito p, entonces la variable aleatoria X = ni=1 Xi , de distribución binomial, nos indicará el número de éxitos obtenidos en las pruebas. Para valores altos de n resulta complicado el cálculo de (nx ) Poisson: X ∼ P oisson(λ) λ > 0. Su función de probabilidad es: pX (x) = e−λ · λx , x = 0, 1, . . . x! (1.8) Esta variable aleatoria se asocia a resultados de acontecimientos muy poco probables pero con una población muy grande. Se puede considerar el lı́mite de la Binomial cuando n · p → constante e igual a λ, con n → ∞. Debido a su gran aplicación en telecomunicaciones conviene detenernos en posibles caso de uso de esta variables. Supongamos que partimos en n trozos una barra con imperfecciones aleatoriamente distribuidas. Podemos modelar el número de imperfecciones en un trozo mediante una v.a. binomial. Si cada trozo es lo suficientemente pequeño, la probabilidad de que tenga un defecto p es muy pequeña. Si incremento el número de trozos n entonces p se disminuye en la misma proporción, de forma que p · n es constante. Para n tendiendo a infinito la v.a. serı́a Poisson. 12 CAPÍTULO 1. ESTADÍSTICA Y PROCESOS ESTOCÁSTICOS Este mismo razonamiento se puede aplicar a cualquier intervalo que se divida en trozos (incluyendo un intervalo de tiempo). De forma general podemos afirmar que si un intervalo sobre el cual pueden ocurrir eventos aleatoriamente distribuidos (en el tiempo o en el espacio) puede ser dividido en intervalos suficientemente pequeños, en tal caso, el experimento aleatorio se llama proceso (observación de un sistema en el tiempo) de Poisson. Supongamos que N (t) es una variable que indica el número de eventos aleatorios que ocurren en un intervalo de tiempo [0, t]. Dichos eventos constituyen un proceso de poisson con tasa λ, λ > 0 si a) N (0) = 0 b) El número de eventos que ocurren en un subintervalo es independiente de los que ocurren en otros subintervalos disjuntos. c) La probabilidad de que ocurra un evento en un subintervalo es la misma para todos los subintervalos y proporcional a su longitud, no a su localización. P (N (h)=1) h P (N (h)≥2) lı́mh→0 h d) lı́mh→0 =λ e) =0 Para obtener la expresión de P (N (t) = k), dividiremos el intervalo [0, t] en n subintervalos de longitud nt . Entonces, para n → ∞ tendremos que P (N (t) = k) = P (k de los n subintervalos tienen 1 evento y n-k tienen 0 eventos), donde para cada subintervalo la probabilidad de éxito (tener un evento) será p ≈ λ·t n . Por tanto P (N (t) = k) ∼ Binomial(n, p). Como n → ∞ y n · p = λt = constante N (t) tendrá una distribución de Poisson de tasa λt. Geométrica: X ∼ Geometrica(p), 0 ≤ p ≤ 1. Su función de probabilidad es: pX (x) = (1 − p)x−1 · p, x = 1, 2, . . . (1.9) La variable aleatorı́a Geométrica X representa el número de pruebas de Bernouilli necesarias para obtener el primer éxito; esto es, siendo Xi : variables aleatorias de Bernouilli de parámetro p, entonces X = ı́nf{m ≥ 1 : Xm = 1}. Hipergeométrica: X ∼ Hipergeometrica(N, n, k), k ≤ N, n ≤ N . Su función de probabilidad es: 1.2. LAS VARIABLES ALEATORIAS Y SUS MOMENTOS Ã pX (x) = k n ! Ã · Ã N n N −k n−x ! 13 ! , x = máx{0, n + k − N }, . . . mı́n{k, n} (1.10) Sea un conjunto de N objetos compuestos por k objetos clasificados como éxito y N − k como fracaso. Si tomamos una muestra de n objetos aleatoriamente (sin reposición), la variable aleatoria X, con distribución hipergeométrica, medirá el número de éxitos en la muestra elegida. En este caso los experimentos de Bernouilli no son independientes, pues la probabilidad de éxito varı́a a medida que se realizan extracciones. Cuann do la población es muy grande (N À n, tı́picamente N < 0, 1) se puede utilizar la binomial. Binomial Negativa:X ∼ BinN eg(n, p), 0 ≤ p ≤ 1, n ≥ 1. Su función de probabilidad es: Ã pX (x) = x−1 n−1 ! · pn · (1 − p)x−n , x = n, n + 1, n + 2, . . . (1.11) La binomial negativa es una generalización de la geométrica en la cual la variable aleatoria representa el número de experimentos de Bernouilli que debo realizar para obtener n éxitos. Siendo Yi variables aleatorias P con distribución geométrica, podemos afirmar que X = m i=1 Yi tiene una distribución binomial negativa. Esperanza y momentos de una variable aleatoria discreta En ocasiones se utilizan ciertos valores (media, momentos, ...) que permiten ofrecer información sobre la función de distribución de una v.a. La media o valor esperado de una variable aleatoria X es una media ponderada de los posibles valores de X y se define: E[X] = µ = X i · pX (i) (1.12) i La media representa el centro de gravedad de la función de probabilidad. Supongamos que X1 , X2 , X3 , . . . Xn son variables aleatorias independientes e 14 CAPÍTULO 1. ESTADÍSTICA Y PROCESOS ESTOCÁSTICOS d idénticamente distribuidas Xi = X (i.i.d.). Entonces la ley de los grandes números nos indica que: n 1X Xk −→ E[X] (1.13) n k=1 Si la tendencia es con probabilidad 1 se denomina ley fuerte de los grandes números. Sea Y = f (X), entonces la esperanza de Y será: E[Y ] = E[f (X)] = X f (i) · pX (i) (1.14) i P P Es fácil demostrar que: E[aX + b] = aE[x] + b y que E[ i Xi ] = i E[Xi ]. Para caracterizar el comportamiento de una distribución se emplean los momentos. Se define el momento de orden k de una variable aleatoria como: X E[X k ] = ik · pX (i) (1.15) i En muchas ocasiones es necesario conocer si la distribución está concentrada en torno a su media o por el contrario se encuentra dispersa, en tales casos resulta más útil utilizar momentos centrados (en la media) de orden k, que se definen como: E[(X − E[X])k ] = X (i − E[X])k · pX (i) (1.16) i Junto con la media, uno de los parámetros más utilizados en la caracterización de una v.a. es la varianza, que se define como el momento centrado de orden dos; esto es: V ar(X) = σ 2 = E[(X − E[X])2 ] = X (i − E[X])2 · pX (i) = E[X 2 ] − (E[X])2 . i (1.17) p Se puede demostrar que V ar(aX+b) = a2 V ar(X). A la cantidad V ar(X) = σ se le denomina desviación estándard, y tiene las mismas unidades que la media. También podemos emplear el coeficiente de variación de una variable σ aleatoria X, definido como CX = E[X] . Por último, definimos los cuantiles de probabilidad p como: χp = ı́nf{u : FX (u) ≥ p} (1.18) 1.2. LAS VARIABLES ALEATORIAS Y SUS MOMENTOS 1.2.3. 15 Variables aleatorias continuas En ellas es posible definir la función densidad de probabilidad fX (x) como: Z FX (u) = P (X ≤ u) = u −∞ fX (y)dy , fX (y) ≥ 0, ∀y (1.19) R∞ Lógicamente, −∞ fX (y)dy = 1. En las v.a. continuas, P (X = x) = 0. Todas las expresiones vistas hasta ahora para la esperanza y los momentos continúan siendo válidas cambiando los sumatorios por integrales y la función de probabilidad pX (x) por la función densidad de probabilidad fX (x). Ası́ , por ejemplo tendremos que: Z ∞ E[X] = u · fX (u)du −∞ Z ∞ V ar(X) = (u − E[X])2 · fX (u)du (1.20) −∞ Las principales variables aleatorias continuas son: Uniforme: X ∼ U nif orme(a, b). Su función densidad de probabilidad es: ( 1 b−a , a ≤ x ≤ b; (1.21) fX (x) = 0, e.o.c. Normal: X ∼ N ormal(µ, σ 2 ). Su función densidad de probabilidad viene dada por: (x−µ)2 1 −∞≤x≤∞ (1.22) fX (x) = √ · e− 2σ2 2π · σ Esta función tiene forma de campana simétrica respecto al centro, determinado por µ, su media. La anchura vendrá fijada por σ 2 , su varianza. Esta distribución es ampliamente utilizada debido al teorema del lı́mite central que nos indica que cuando un experimento aleatorio se repite muchas veces, la variable aleatoria del valor medio tiende a una distribución normal; esto es: i.i.d. {Xk } ∼ X E[X] = µ V ar[X] = σ 2 < ∞ n ⇒ Xn = σ2 1X n→∞ Xi −→ N ormal(µ, ) (1.23) n n i=1 Dado que las transformaciones lineales de una variable aleatoria normal continúan siendo normales, y siendo X ∼ N ormal(µ, σ 2 ), si definimos Z = X−µ σ , entonces Z ∼ N ormal(0, 1). La función de distribución de 16 CAPÍTULO 1. ESTADÍSTICA Y PROCESOS ESTOCÁSTICOS N (0, 1) se denomina Φ(z) o normal estándar y se encuentra tabulada. Los percentiles de la normal señalan que χ0,0027 = µ ± 3σ por lo que la mayorı́a de los valores estarán recogidos en este rango, denominado ancho de la campana. En el caso de la normal estándar, los percentiles son: χ0,05 = 1,645, χ0,025 = 1,96, χ0,01 = 2,33. Un resultado importante de la normal es que la suma de normales Xi de P media µi y varianza σi2 es también una normal de media ni µi y varianza Pn 2 i σi . Relacionadas con la normal se encuentran otra serie de distribuciones de interés, como son: • Chi Cuadrado: X ∼ χ2n , n ≥ 1, donde n son los grados de libertad. Esta variable representa la suma de n variables aleatorias normales estándard al cuadrado. n X i.i.d. {Zk }k=1,2,...,n ∼ N (0, 1) ⇒ Zi2 ∼ χ2n (1.24) i=1 • T-Student: X ∼ Tn , n ≥ 1. Si Z es una variable aleatoria normal estándard, y χ2n es una variable independiente Chi cuadrado de n grados de libertad, entonces la variable aleatoria X, definida como: Z X∼q χ2n n i.i.d. ∼ Tn (1.25) tiene una distribución T-Student con n grados de libertad. Esta distribución es ampliamente utilizada para el cálculo de la media partiendo de resultados empı́ricos, ya que según hemos visto en el teore−µ n√ ma del lı́mite central X ∼ N (0, 1). Si sustituimos σ por su valor σ/ n empı́rico S (el valor empı́rico de la varianza puede ser calculado como √ Xn −µ 1 Pn 2 S 2 = n−1 n S ∼ Tn−1 . La distribui=1 (Xi − Xn ) ), entonces ción Tn tiende a N (0, 1) para n → ∞, aunque para valores pequeños de n tiene una mayor variabilidad. La variable aleatoria normal se utiliza también para aproximar otras distribuciones como la binomial o la Poisson bajo ciertas condiciones. • Aproximación de la Binomial: Sea X = Binomial(n, p), entonces Z = √X−np es aproximadamente una variable aleatoria normal np(1−p) estándard. Esta aproximación es buena para np > 5 y n(1 − p) > 5 • Aproximación de la Poisson: Sea X = P oisson(λ), entonces Z = X−λ √ es aproximadamente una variable aleatoria normal estándard. λ Esta aproximación es válida para λ > 5. 1.2. LAS VARIABLES ALEATORIAS Y SUS MOMENTOS 17 Exponencial:X ∼ Exponencial(λ). Su función densidad de probabilidad viene dada por: fX (x) = λ · e−λ·x , 0 ≤ x < ∞ (1.26) Su función de distribución será, por tanto, FX (x) = 1 − e−λ·x . Es una de las distribuciones más utilizadas en el campo de las telecomunicaciones debido a su propiedad sin memoria, que formalmente se expresa P (X < t1 + t2 |X > t1 ) = P (X < t2 ); esto es, el conocimiento de acontecimientos pasados no afecta al futuro. Esta propiedad sólo se da en la variable exponencial para el caso continuo y la geométrica en el caso discreto.2 . Un ejemplo de aplicación de esta propiedad serı́a el siguiente: supongamos que X ∼ Exp(λ) indica la duración de una conversación telefónica que comienza en t = 0. Si en t = τ comprobamos que la conversación continúa activa, la vida residual (lo que le falta para terminar) de la duración de dicha conversación podrı́a modelarse con una variable aleatoria R = X−τ , dado X > τ . Puede demostrarse que R ∼ Exp(λ) ∼ X: la vida residual no se ve afectada por el instante de tiempo τ en se examine el fenómeno. La variable aleatoria X de distribución exponencial con media λ1 indica la distancia (en espacio o en tiempo) entre sucesivos eventos de un proceso de Poisson con media λ. Sea N (t) un Proceso de Poisson de tasa λ. Entonces: P (N (t) = k) = e−λt · (λt)k , k = 0, 1, . . . k! (1.27) Sea Xi una variable aleatoria que indica el tiempo que transcurre hasta la ocurrencia del (i-1)-ésimo evento hasta el i-ésimo evento (tiempo entre eventos). Entonces: P (X1 > t) = P (N (t) = 0) = e−λt (1.28) esto es, X1 ∼ Exp(λ). Para X2 tenemos que P (X2 > t|X1 = s) = P (0 eventos en (s, s + t]|X1 = s) = P (0 eventos en (s, s + t]) = e−λt . De forma general el tiempo entre llegadas Xi ∼ Exponencial(λ) Otra propiedad muy utilizada de la variable aleatoria exponencial es que si X1 , X2 , . . . , Xn son variables aleatorias exponenciales de parámetros λ1 , λ2 , . . . , λn respectivamente, entonces Y = mı́n(X1 , X2 , . . . Xn ) tiene P distribución exponencial de parámetro ni=1 λi . Esto significa que la suma de procesos de Poisson, continúa siendo un proceso de Poisson. 2 Es lógico pues en un proceso de Poisson asumimos que un intervalo puede ser dividido en n subintervalos independientes que resultan en pruebas independientes de Bernoilli. Si en una prueba se tiene éxito o fracaso, esto no condiciona las probabilidades de éxito o fracaso de cualquier otra prueba 18 CAPÍTULO 1. ESTADÍSTICA Y PROCESOS ESTOCÁSTICOS Como consecuencia de lo anterior se puede demostrar que si X1 , X2 , . . . , Xn son variables aleatorias exponenciales i.i.d. de parámetro λ, entonces E[máx(X1 , X2 , . . . , Xn )] = Pn 1 ln(n) i=1 iλ ≈ λ . Esto último tiene aplicación en el cálculo del tiempo de vida de un sistema en paralelo. Erlang: X ∼ Erlang(λ, r), λ > 0, r = 1, 2, . . .. Su función densidad de probabilidad es: fX (x) = λr · xr−1 · e−λx , x>0 (r − 1)! (1.29) En este caso X representa el intervalo de tiempo en el que ocurren r eventos en un proceso de Poisson de media λ (o la longitud de un intervalo con r defectos). Si r = 1 entonces X ∼ Exp(1/λ). Es el equivalente en tiempo continuo a la binomial negativa. P Si X1 , . . . Xn ∼ X ∼ Exponencial(λ), entonces Y = ni=1 Xi tendrá una distribución: Y ∼ Erlang(λ, n). Gamma: X ∼ Gamma(λ, r), λ > 0, r > 0. Su función densidad de probabilidad será: fX (x) = λr · xr−1 · e−λx , x>0 Γ(r) (1.30) R∞ Donde la función Γ(r) = 0 xr−1 e−x dx es una generalización de la función factorial para valores no enteros de r, ya que se puede demostrar que Γ(r) = Γ(r − 1) · (r − 1), con Γ(1) = 0! y Γ(1/2) = π 2 , por lo que cuando r es un entero Γ(r) = (r − 1)!. Lógicamente Gamma(λ, r) ≡ Erlang(λ, r) para r = 0, 1, 2, . . .. Hiperexponencial-n: X ∼ HiperExp(α1 , α2 , . . . , αn , λ1 , λ2 , . . . , λn ), 0 ≤ P αi ≤ 1, λi ≥ 0, ni=1 αi = 1. Su función de distribución es: fX (x) = n X αi λi e−λi ·x , x ≥ 0 (1.31) i=1 Esta variable aleatoria permite modelar mixturas de variables exponenciales con diferentes parámetros (λi ) y distintas probabilidades de ocurrencia para cada una (αi ). En el caso de n = 2 se puede interpretar como realizar un experimento de Bernouilli con probabilidad de éxito α1 para elegir cual de las dos exponenciales voy a utilizar (si λ1 ó λ2 ). La P correspondiente función de distribución es: FX (x) = 1 − ni=1 α1 e−λi ·x . 1.2. LAS VARIABLES ALEATORIAS Y SUS MOMENTOS 19 Weibull: X ∼ W eibull(δ, β), β ≥ 0, δ ≥ 0. Su función de distribución es: fX (x) = β x β−1 −( x )β ( ) ·e δ , x>0 δ δ (1.32) Esta variable aleatoria es utilizada para modelar el tiempo entre llegadas en un sistema en que la tasa de llegadas se incrementa (o decrementa) con el tiempo. Al δ se le denomina parámetro de escala mientras que a β representa el parámetro de forma. Lógicamente si β = 1 implica que la tasa de llegadas permanece constante y tendremos la distribución exponencial. La función de distribución de la Weibull es FX (x) = 1 − e− (x/δ)β . Pareto: X ∼ P areto(γ, k), γ > 0, k > 0. Su función densidad de probabilidad es: fX (x) = γk γ γ k = ( )γ+1 , k ≤ x ≤ ∞. γ+1 x k x (1.33) y su función de distribución es: FX (x) = 1 − (k/x)γ , k ≤ x. Es una distribución muy utilizada en telecomunicación, debido a que su función densidad de probabilidad decae lentamente (distribución de cola pesada), lo que permite modelar tráfico con una varianza elevada en diferentes escalas de tiempo. Este tipo de tráfico, denominado autosimilar, se emplea para modelar muchos aspectos de las redes de datos como el tráfico en las redes de área local, la duración de las sesiones en Internet, . . . . En general, una variable aleatoria se denomina de cola pesada si: P (X > (x)) ∝ x−α , 0 < α ≤ 2 es decir, cuando fX (x) ∝ αx−(α+1) . Se puede demostrar que en tal caso, su media no converge para α ≤ 1 y la E[X 2 ] tampoco converge para α ≤ 2, por lo que ambas serán ∞. En el caso de la distribución Pareto se puede verificar que es de cola pesada si 0 < γ ≤ 2, γki donde su valor medio para γ > 1 es: E[X i ] = γ−i y su varianza E[(X −µ)2 ] para γ > 2 es: σ 2 = γk2 . (γ−1)2 (γ−2) En el cuadro siguiente se resumen las principales caracterı́sitcas de las v.a. vistas: Otros parámetros como el coeficiente de variación (CX ) o el momento no centrado de orden 2 (E[X 2 ]) pueden obtenerse mediante manipulación simple de los valores anteriores 20 CAPÍTULO 1. ESTADÍSTICA Y PROCESOS ESTOCÁSTICOS E[X] = µ E[( X − µ)2 ] = σ 2 Bernouilli(p) Binomial(n,p) Poisson(λ) Geométrica(p) p np λ np · (1 − p) λ 1 p (1−p) p2 HiperGeo(N,n,k) BinNeg(n,p) np −n np(1 − p)( N N −1 ) Distribución n(1−p) p2 (b−a)2 2 σ2 n p a+b 2 Uniforme(a,b) Normal(µ, σ 2 ) χ2n Tn Exponencial(λ) Erlang(λ, r) Gamma(λ, r) HiperExpn (αi , λi ) µ n 0, n > 1 Pn 1 λ r λ r λ αi i=1 λi δΓ(1 + β1 ) γk γ−1 Weibull(δ, β) Pareto(γ, k) 2n n>2 n n−2 , Pn αi 2 αi i=1 λ2i − ( i=1 λi ) δ 2 Γ(1 + β2 ) − δ 2 [Γ(1 + β1 )]2 γk2 , γ>2 (γ−1)2 (γ−2) 2· Pn 1 λ2 r λ2 r λ2 Cuadro 1.1: Media y varianza de las v.a. 1.3. 1.3.1. Funciones de variables aleatorias Múltiples variables aleatorias En el caso discreto, podremos definir la función de probabilidad conjunta de p variables aleatorias como: fX1 ,X2 ,...,Xp (x1 , x2 , . . . , xp ) = P (X1 = x1 , X2 = x2 , . . . , Xp = xp ) (1.34) , donde la función marginal de probabilidad de una de ellas, Xi , vendrá dada por la expresión: fXi (xi ) = P (Xi = xi ) = X fX1 ,X2 ,...,Xp (x1 , x2 , . . . , xp ) (1.35) Rxi , siendo Rxi el conjunto de puntos del rango de (X1 , X2 , . . . , Xp ) para los cuales Xi = xi . La esperanza y la varianza de la variable Xi vendrán dadas por: E[Xi ] = X xi · fX1 ,X2 ,...,Xp (x1 , x2 , . . . , xp ) = µXi R 2 σX i = X R (xi − µXi )2 · fX1 ,X2 ,...,Xp (x1 , x2 , . . . , xp ) (1.36) 1.3. FUNCIONES DE VARIABLES ALEATORIAS 21 Donde R es el conjunto de todos los puntos del rango (X1 , X2 , . . . , Xp ). En ocasiones resulta de utilidad hallar la función de probabilidad de un conjunto de k, (k < p) variables aleatorias: fX1 ,X2 ,...,Xk (x1 , x2 , . . . , xk ) = P (X1 = x1 , X2 = x2 , . . . , Xk = xk ) X = fX1 ,X2 ,...,Xp (x1 , x2 , . . . , xp )(1.37) Rx1 ,x2 ,...,xk ,siendo Rx1 ,x2 ,...,xk el conjunto de todos los puntos de X1 , X2 , . . . Xp para lod cuales X1 = x1 , X2 = x2 , . . . , Xk = xk . Podremos afirmar que las variables X1 , X2 , . . . , Xp son independientes si y solo si: fX1 ,X2 ,...,Xp (x1 , x2 , . . . , xp ) = fX1 (x1 ) · fX2 (x2 ) . . . · fXp (xp ), ∀x1 , x2 , . . . xp (1.38) Distribución multinomial: Es una extensión de la binomial. Se supone un experimento aleatorio consistente en una serie de n intentos o repeticiones, donde se asume que: El resultado de cada intento es clasificado en una entre k clases La probabilidad de que un intento genere resultado de las clases 1, 2, . . . , k es constante sobre los intentos e igual a p1 , p2 , . . . , pk respectivamente, P donde ki=1 pi = 1. Los intentos son independientes Las variables aleatorias X1 , X2 , . . . , Xk , que representan el número de intentos que resultan de cada clase, tienen una función de distribución multinomial, con una función de probabilidad conjunta igual a: n! px1 ·px2 . . . pxk k , x1 +x2 +. . .+xk = n x1 !, x2 !, . . . , xk ! 1 2 (1.39) , donde la función marginal de probabilidad de Xi será una binomial con 2 = n · p (1 − p ). E[Xi ] = n · pi y σX i i i fX1 ,X2 ,...,Xk (x1 , x2 , . . . , xk ) = En el caso de las variables aleatorias continuas 3 , definimos las función densidad de probabilidad conjunta de las variables aleatorias X1 , X2 , . . . Xp como fX1 ,X2 ,...,Xp (x1 , x2 , . . . , xp ) ≥ 0 que cumple, para ∀ región B del espacio p-dimensional: 3 Un caso de fácil aplicación puede ser las dimensiones de una pieza fabricada 22 CAPÍTULO 1. ESTADÍSTICA Y PROCESOS ESTOCÁSTICOS Z Z Z ... fX1 ,X2 ,...,Xp (x1 , x2 , . . . , xp ) = P ([X1 , x2 , . . . , Xp ]²B) B , donde R∞ R∞ R∞ −∞ −∞ . . . −∞ fX1 ,X2 ,...,Xp (x1 , x2 , . . . , xp ) (1.40) = 1. La función marginal de probabilidad de una de ellas, Xi , vendrá dada por la expresión: Z Z fXi (xi ) = P (Xi = xi ) = Z ... Rxi fX1 ,X2 ,...,Xp (x1 , x2 , . . . , xp )dx1 dx2 . . . dxp (1.41) , siendo Rxi la región del rango de (X1 , X2 , . . . , Xp ) para los cuales Xi = xi . La esperanza y la varianza de la variable Xi vendrán dadas por: Z E[Xi ] = 2 σX i Z ∞ ∞ ... Z−∞ ∞ = Z−∞ ∞ ... −∞ −∞ xi · fX1 ,X2 ,...,Xp (x1 , x2 , . . . , xp )dx1 dx2 . . . dxp = µXi (xi − µXi )2 · fX1 ,X2 ,...,Xp (x1 , x2 , . . . , xp )dx1 dx2 . . . dxp , donde R es el conjunto de todos los puntos del rango X1 , X2 , . . . , Xp . La función de probabilidad de un conjunto de k, (k < p) variables aleatorias de define de forma similar al caso de variables discretas pasando los sumatorios al caso continuo. La independencia se define igual que en el caso discreto. Distribución Normal bivariada: Es la extensión de la distribución normal para dos variables aleatorias. −1 1 2 [ p fXY (x, y; σX , σY , µX , µY , ρ) = e 2(1−ρ ) 2πσX σY 1 − ρ2 1.3.2. (x−µX )2 2ρ(x−µX )(y−µY ) (y−µY )2 − + ] σX σY σ2 σ2 X Y (1.42) Covarianza y Correlación Mide la relación entre dos o más variables aleatorias definidas en un espacio probabilı́stico. Se define la covarianza de dos variables aleatorias de la siguiente manera: Cov(X, Y ) = σXY = E[(X −E[X])(Y −E[Y ])] = E[XY ]−E[X]·E[Y ]. (1.43) La convarianza es una medida de la asociación lineal entre dos variables aleatorias. Si la relación no es lineal, la covarianza puede no ser sensible a esta relación entre variables. 1.3. FUNCIONES DE VARIABLES ALEATORIAS 23 Si dos variables aleatorias X e Y son independientes, entonces Cov(X, Y ) = 0 y V ar(X + Y ) = V ar(X) + V ar(Y ). En general, puede observarse que cuando la Cov(X, Y ) > 0, entonces Y tiende a incrementar su valor cuando X también lo hace. Un valor Cov(X, Y ) < 0 implica generalmente que Y tiende a decrecer cuando X crece. Para ver la relación entre dos variables X e Y se suele emplear la función de correlación, ya que es una cantidad adimensional que oscila entre +1 y -1 definida como: Cov(X, Y ) Corr(X, Y ) = ρXY = p V ar(X) · V ar(Y ) (1.44) Si ρXY > 0, las variables estarán correladas, y si ρXY = 1, la relación entre ellas será lineal. En caso de variables independientes, ρXY = σXY = 0. 1.3.3. Combinación lineal de variables aleatorias Dadas las variables aleatorias X1 , X2 , . . . , Xn y las constantes c1 , c2 , . . . , cn , definimos la siguiente combinación lineal: Y = c1 X1 + c2 X2 + . . . cn Xn . Entonces tenemos que: n n X X E[Y ] = E[ ci Xi ] = ci E[Xi ] i=1 (1.45) i=1 El cálculo de σY2 es más complejo. De la definición de convarianza, es fácil verificar que ésta cumple con las siguientes propiedades: Cov(X, X) = V ar(X) Cov(aX, Y ) = a · Cov(X, Y ) P P Pn Pm Cov( ni=1 Xi , m j=1 Yi ) = i=1 j=1 Cov(Yj , Xi ) De lo que se desprende como corolario que: ! Ã n n n n X X X X σY2 = V ar ci Xi = c2i V ar(Xi ) + c2i c2j Cov(Xj , Xi ) (1.46) i=1 i=1 i=1 j6=i j =1 En el caso de que X1 X2 , . . . , Xn sean independientes se cumplirá que σY2 = 2 i=1 ci σXi . El caso de querer encontrar la distribución de la combinación lineal de variables aleatorias tendremos que emplear la convolución. Sean X1 , X2 dos variables aleatorias discretas, y sea Y = X1 + X2 . En tal caso, Pn P (Y = y) = y X i=0 P (X1 = i)P (X2 = y − i) (1.47) 24 CAPÍTULO 1. ESTADÍSTICA Y PROCESOS ESTOCÁSTICOS Ejemplo:demuestre que la suma de dos variables independientes de Poisson de media λ1 t y λ2 t respectivamente es una variable de Poisson de media (λ1 + P λ2 )t. (sugerencia: utilice la expansión binomial (x+y)n = ni=0 (ni ) xi y n−i ; n ≥ 0.) En el caso de variables continuas, tendrı́amos Z ∞ fY (y) = fX1 (z)fX2 (z − y)dz (1.48) −∞ 1.3.4. Mixtura de variables aleatorias La mixtura de variables aleatorias resulta más sencilla que la combinación lineal de las mismas. Supongamos que tenemos X1 , X2 , . . . , Xn variables aleatorias independientes, y que la probabilidad de elegir una aleatoriamente es c1 , c2 , . . . cn P para X1 , X2 , . . . , Xn respectivamente, donde ni=1 ci = 1. Entonces podemos definir la mixtura de todas ellas como Y = c1 X1 ⊕ c2 X2 ⊕ c3 X3 . . . ⊕ cn Xn P , donde fY (y) = ni=1 ci fXi (y). (1.49) Es fácil demostrar que en las mixturas de variables aleatorias, el momento no centrado de orden i cumple: E[Y i ] = n X cj E[Xji ] (1.50) j=1 Para el caso de dos variables aleatorias independientes X1 y X2 se puede interpretar como un experimento de Bernouilli con probabilidad c1 de tomar el valor ofrecido por X1 y 1 − c1 de tomar el valor ofrecido por X2 . 1.4. 1.4.1. Lı́mites y desigualdades Desigualdad de Markov Sea h(x) una función positiva no decreciente 4 , y sea X una variable aleatoria con función densidad de probabilidad fX (x). Entonces, Z Z ∞ E[h(x)] = −∞ h(x)fX (x)dx ≥ ∞ −∞ h(x)fX (x)dx ≥ h(t)P (X ≥ t) lo que puede reescribirse como la desigualdad de Markov: 4 Por ejemplo: h(x) = x, o h(x) = eαx (1.51) 1.5. INTRODUCCIÓN A LOS PROCESOS ESTOCÁSTICOS P (X ≥ t) ≤ E[h(t)] h(t) 25 (1.52) Para el caso de h(x) = xU (x), siendo X una variable aleatoria no negativa y U (x) la función escalón, tendremos la expresión simple P (X ≥ t) ≤ E[X] t ; t ≥ 0. 1.4.2. Desigualdad de Chebyshev Se deduce de la desigualdad de Markov y nos permite inferir valores para las probabilidades de una variable aleatoria dado sus momentos. Esta desigualdad estable que: P (|X − E[X]| ≥ ε) ≤ 1.4.3. 2 σX ε (1.53) Lı́mite de Chernoff Este lı́mite se deriva también de la desigualdad de Markov para h(t) = α ≥ 0, ofreciendo el siguiente resultado: e−αt , P (X ≥ d) ≤ e−αd E[eαX ] = e−αd X(−α); α ≥ 0 ,donde X(−α) es la transformada de Laplace probabilidad evaluada en −α. 1.4.4. 5 (1.54) de la función densidad de Ley de los grandes números También resulta como aplicación de la desigualdad de Chebychev. Si consideramos n variables aleatorias independientes e idénticamente distribuidas (iid), X1 , X2 , . . . Xn , con media µ y varianza σ 2 , la variable aleatoria media P X = (1/n) ni=1 Xi tendrá media µ y varianza σ 2 /n. Sustituyendo en la desigualdad de Chebychev tendremos que: σ2 ; ε≥0 n→∞ nε2 lı́m P (|X − µ| ≥ ε) ≤ lı́m n→∞ 1.5. (1.55) Introducción a los procesos estocásticos Un proceso estocástico es un modelo probabilı́stico de un sistema que evoluciona de forma aleatoria. Si el sistema se observa en instantes de tiempos discretos n = 0, 1, 2, . . . y Xn es el estado del sistema en el instante n, entonces {Xn , n ≥ 0} es un proceso estocástico de tiempo discreto. Ejemplos de este 5 E[X] = R∞ 0 fX (x)e−sx dx 26 CAPÍTULO 1. ESTADÍSTICA Y PROCESOS ESTOCÁSTICOS caso pueden ser el ı́ndice Down-Jones al final de la n-ésima semana, número de paquetes perdidos en un router al final de n-ésimo dı́a, ... Si el sistema es observado de manera continua en el tiempo t, entonces {X(t), t ≥ 0} es un proceso estocástico de tiempo continuo. Por ejemplo el número de ordenadores averiados en un instante determinado del dı́a t o la posición de un huracán en un momento dado. De manera más formal, podemos definir un proceso estocástico como una colección de variables aleatorias {X(α), α ∈ T } indexadas por el parámetro α que toma valores en el conjunto T . Las variables aleatorias toman valores en el espacio de estados S. En una gran cantidad de aplicaciones el parámetro α representa el tiempo. Es posible distinguir dos casos: cuando T = 0, 1, 2, . . . escribiremos {Xn , n ≥ 0} en lugar de {X(α), α ∈ T } y cuando T = [0, ∞) utilizaremos la notación {X(t), t ≥ 0} en lugar de {X(α), α ∈ T }. Cualquier posible evolución o trayectoria del proceso estocástico se denominan caminos muestrales y, en general, existen infinitos. Como los procesos estocásticos siguen uno de los caminos muestrales de forma aleatoria, en ocasiones se les denomina función aleatoria. Uno de los objetivos del estudio de los procesos estocásticos es comprender el comportamiento de los caminos muestrales a fin de predecir y controlar el futuro del sistema. Para caracterizar completamente a un proceso estocástico cuyo conjunto de parámetros T sea finito, bastará con la función de distribución conjunta de todas las variables aleatorias. En el caso de que T = 0, 1, 2, . . . , sea infinito necesitaremos una familia consistente de funciones de distribución conjunta, que es aquella que cumple que Fn (x0 , x1 , . . . , xn ) = Fn+1 (x0 , x1 , . . . , xn , ∞). Para el caso continuo, y supuesto que todas las trayectorias son continuas por la derecha, el proceso quedará descrito por una familia consistente de funciones de distribución conjunta de dimensión finita: Ft1 ,t2 ,...,tn (x1 , x2 , . . . , xn ) = P (X(t1 ) ≤ x1 , X(t2 ) ≤ x2 , . . . X(tn ) ≤ xn ) (1.56) El proceso estocástico más simple serı́a el formado por {Xn , n ≥ 1} donde Xn es una secuencia de variables aleatorias independientes y idénticamente distribuidas (i.i.d.) con una función de distribución común. en tal caso: Fn (x1 , x2 , . . . , xn ) = n Y F (xi ), −∞ < xi < ∞ (1.57) i=1 Ejemplo: Supongamos ahora un proceso {Xn , n ≥ 1} como el anterior, y definimos el proceso estocástico {Sn , n ≥ 0} de la siguiente manera: S0 = 0, Sn = X1 + X2 + . . . + Xn , n ≥ 1 (1.58) 1.5. INTRODUCCIÓN A LOS PROCESOS ESTOCÁSTICOS 27 Este proceso se conoce como random walk, y también se encuentra completamente caracterizado por la función de distribución conjunta de X. ¿Qué es posible realizar con un proceso estocástico? en primer lugar debemos definirlo; esto es, identificar la estructura básica del proceso, conjunto de distribuciones y parámetros que permiten caracterizarlo. Es posible también estudiar el comportamiento transitorio, es decir, la función de distribución marginal de Xn o X(t) para un valor determinado de n o de t, aunque debido a la complejidad de esta tarea 6 en ocasiones tendremos que conformarnos tan sólo con los momentos. En tercer lugar también podremos estudiar el comportamiento lı́mite del proceso cuando n o t tiende a infinito. Para ello debemos en primer lugar analizar la convergencia del proceso: identificar las condiciones bajo las cuales ocurre y desarrollar métodos para computar las distribuciones lı́mites (para ello emplearemos herramientas matemáticas como álgebra matricial, sistemas de ecuaciones diferenciales y métodos numéricos). En cuarto lugar será posible calcular el tiempo de primera estancia; esto es, cuánto tarda el sistema en alcanzar un conjunto particular de estados. Concretamente esto supone estudiar la variable aleatoria T = min{n ≥ 0 : Xn ∈ B} para el tiempo discreto o T = min{t ≥ 0 : X(t) ∈ B} para el tiempo continuo. Por último, si somos capaces de asociar costes y beneficios de los diversos estados podemos evaluar comparativas de diferentes polı́ticas que influyen en la evolución del proceso. 1.5.1. Cadenas de Markov de tiempo discreto: DTMC En el caso de tiempo discreto, tendremos una colección de variables aleatorias X0 , X1 , X2 , . . . con valores discretos 7 . Un proceso estocástico Xn , n ≥ 0 se denomina DTMC con espacio de estados S si: para todo n ≥ 0, Xn ∈ S con probabilidad 1 para todo n ≥ 0, x ∈ S, A ⊂ S, B ⊂ S n , se cumple que P (Xn+1 ∈ A|Xn = x, (X0 , X1 , . . . , Xn−1 ) ∈ B) = P (Xn+1 ∈ A|Xn = x) Esta última propiedad, en virtud de la cual el estado futuro del sistema tan sólo depende del estado presente, y no del pasado, se denomina propiedad de Markov8 6 Muy pocos procesos, por ejemplo el proceso de Poisson, tienen expresiones simples para las distribuciones en el transitorio 7 Finito o con la cardinalidad de los números naturales 8 Si la dependencia con el tiempo se disipa en más de un paso puedo considerar pares o ternas de valores (Xn , Xn−1 ) y utilizar DTMC. Esta técnica debe aplicarse con precaución pues multiplica el número de estados SxS por lo tanto no se puede utilizar para más de 2 o 3 28 CAPÍTULO 1. ESTADÍSTICA Y PROCESOS ESTOCÁSTICOS Para el caso de que S sea contable, utilizaremos la siguiente notación: pij (n) = P (Xn+1 = j|Xn = i) (1.59) A partir de este momento supondremos que S es contable y que la DTMC es homogenea en el tiempo (pij (n) = pij ∀n). En general, las DTMC se aplican cuando tenemos series temporales de la forma Xn+1 = f (Xn , Yn+1 ), donde f es una función, e Yn+1 es un ruido que sólo depende del valor presente y no de la ` historia del proceso (Yn+1 X0 X1 X2 . . . Xn−1 ). Ejemplo:suponer un buffer con b posiciones al que llegan paquetes según un proceso. Yn indica el número de paquetes que llegan en el instante n. El buffer procesa un paquete por unidad de tiempo. Sea Xn la ocupación del buffer en el instante n. Entonces la dinámica del proceso quedarı́a descrita por Xn+1 = min((Xn − 1)+ + Yn+1 , b), y las probabilidades de transición serı́an: pij = P (Xn+1 P (Yn+1 P (Y n+1 = j|Xn = i) = P (Y n+1 P (Y n+1 = j), i = 0, j < b ≥ j), i = 0, j = b = j − i + 1), i > 0, j < b ≥ b − i + 1 =), i > 0, j = b (1.60) La matriz P = [pij ] con las probabilidades condicionales para el salto de estado se denomina matriz de transición de probabilidades a un paso es una P matriz estocástica pues satisface que pij ≥ 0∀i, j ∈ S, ası́ como j∈S pij = 1∀i ∈ S. En general, una DTMC X = {Xn , n ≥ 0} con espacio de estados S queda completamente caracterizada por la matriz de probabilidades de transición P y el vector ~a = (ai )i∈S con la distribución inicial (ai = P (X0 = i)). Normalmente ~a sólo influirá en el cálculo de las distribuciones marginales. En tal caso, definimos: (n) aj = P (Xn = j) = X P (Xn = j|X0 = i)ai (1.61) i∈S (n) Para el cálculo de P (Xn = j|X0 = i) = pij propiedad Markoviana, por lo que: tendremos en cuenta la pasos. En el caso de dependencias temporales mayores es posible emplear series autoregresivas para determinar previsiones de medias y varianzas en el futuro 1.5. INTRODUCCIÓN A LOS PROCESOS ESTOCÁSTICOS P (Xn+m = k|X0 = i) = X 29 P (Xn = j|X0 = i)P (Xn+m = k|Xn = j) j∈S = X P (Xn = j|X0 = i)P (Xm = k|X0 = j) (1.62) j∈S P (n+m) (n) (m) Lo que da lugar a la ecuación de Chapman-Kolmogorov : pik = j∈S pij pjk , que también se expresa de forma matricial como: P (n+m) = P (n) P (m) , donde P (n) = P n . (2) (4) Ejemplo:determine P (X1 = 1, X3 = 2, X7 = 3). Solución: P (X1 = 1)·p12 · p23 Para el cálculo de probabilidades a largo plazo en un DTMC, definimos frecuencia de ocupación de estados a largo plazo como: n 1 X 1{Xk =i} n−>∞ n + 1 pi = lı́m (1.63) k=0 frecuencia esperada a largo plazo n 1 X P (Xk = i) lı́m n−>∞ n + 1 (1.64) k=0 probabilidad estacionaria de ocupación del estado i: si existe una distribuP ción de probabilidad (πi )i∈S , que cumple con πi = j∈S πj pji (en forma vectorı́a serı́a ~π = ~π · P ), donde P es la matriz de transición a un paso, entonces ~π = (πi )i∈S es un vector con las distribuciones en régimen estacionario (estado de equilibrio). Caso de existir, para el cálculo de las probabilidades en estado estable πi tendrı́amos que resolver el siguiente sistema de ecuaciones: πi = X X πj · pji (1.65) j∈S πj = 1 (1.66) j∈S No siempre existe la probabilidad estacionaria: supongamos que la cadena oscila entre dos estados alternativamente o que la cadena queda atrapada en un subconjunto de estados y tenemos que descomponer la solución para cada región. Por ello debemos, en primer lugar, determinar bajo qué condiciones es 30 CAPÍTULO 1. ESTADÍSTICA Y PROCESOS ESTOCÁSTICOS posible encontrar la probabilidad estacionaria. Para ello definimos el concepto de accesibilidad: diremos que el estado j es accesible desde el estado i si: i → (n) j ⇐⇒ ∃n : pij > 0. Dos estados son comunicantes si son accesibles en ambos sentidos. Cuando tenemos un conjunto de estados que son comunicantes entre si, podemos denominarlo clase comunicante. Definimos una clase comunicante Ai como cerrada siempre que si i ∈ Ai y j ∈ / Ai implica que j no es accesible desde i. Una vez que una cadena visita una clase cerrada comunicante ya no puede salir de ella. Una DTMC se denomina irreductible si todos sus estados pertenecen a una sóla clase cerrada comunicante, y en ella todos los estados se pueden comunicar con el resto de estados. Podemos pues descomponer el espacio de estados S = T ∪A1 ∪A2 ∪. . ., donde el subconjunto T contiene todos los estados transitorios (un estado i : P (Xn = i para algunn ≥ 1|X0 = i) < 1), esto es, un estado que es posible que no vuelva a ser visitado). Y los subconjuntos Ai contienen clases comunicantes con estados recurrentes (lo opuesto de transitorio), que a su vez pueden ser recurrentes nulos (si E[ı́nf n≥1:Xn =i |X0 = i] = ∞, el retorno al estado sucede con probabilidad 1 pero en tiempo ∞) y en recurrente positivo (si E[ı́nf n≥1:Xn =i |X0 = i] < ∞, el retorno al estado sucede con probabilidad 1 pero en tiempo finito). Si una DTMC es irreductible y recurrente positiva 9 , con número finito de estados, podemos afirmar que sólo existe un solución para πi que coincide con la frecuencia de ocupación de estados. n 1 X P (Xk = i) n−>∞ n + 1 pi = πi = lı́m (1.67) k=0 , luego lı́mn−>∞ P (Xn = i) = πi . 1.5.2. Introducción a las cadenas de Markov en tiempo continuo En ellas las probabilidades de transición se sustituyen por tasas de transición. Definimos rij como la tasa de transición del estado i para el estado j. Es posible imaginar conceptualmente las cadenas en tiempo continuo como una competición entre transiciones, la primera que expira provoca un cambio de estado tras el cual se comienza de nuevo. P Si definimos ri = j∈S,j6=i rij como la tasa de salida del estado i, entonces r pij = riji serı́a la probabilidad de transición del estado j cuando partimos del estado i10 . En el caso de cadenas de tiempo continuo aparece el concepto de matriz 9 10 para comprobarlo basta con hacer un test a un sólo estado el tiempo de permanencia en los estados se supone exponencial 1.5. INTRODUCCIÓN A LOS PROCESOS ESTOCÁSTICOS generadora inifinitesimal ϕ = (qij ), donde: ( rij , i 6= j qij = −ri , i = j 31 (1.68) La matriz de transición en el tiempo P (t) = (pij (t)) = P (X(t) = j|X(0) = i) de una cadena de Markov de tiempo contı́nuo que cumple: d P (t) = ϕP (t) dt (1.69) por lo que la solución viene dada por P (t) = eϕ·t = ∞ X ϕk tk k=0 k! (1.70) Para el cómputo de estas probabilidades tendremos, normalmente, problemas numéricos, por lo que una solución muy utilizada es la uniformización del proceso que consiste en discretizar las observaciones por una cadena embebida de Markov de tiempo discreto. Este método permite tratar el caso continuo como si fuera un caso discreto, donde el proceso de Poisson uniformizador debe tener una tasa q ≥ máxj∈S rj , lo que nos lleva a matrices de transición del proceso uniformizado P̂ = I + ϕq . Los procesos en tiempo continuo que utilizaremos a lo largo del presente año serán los de nacimiento y muerte, desarrollados en el próximo tema.