ESCUELA POLITÉCNICA NACIONAL FACULTAD DE CIENCIAS TOPOLOGÍA DE SKOROHOD Y ALGUNAS APLICACIONES PROYECTO DE TITULACIÓN PREVIO A LA OBTENCIÓN DEL TÍTULO DE MATEMÁTICO LUIS FELIPE HERRERA QUISHPE [email protected] Director: DR. LUIS ALCIDES HORNA HUARACA [email protected] QUITO, OCTUBRE 2015 DECLARACIÓN Yo LUIS FELIPE HERRERA QUISHPE, declaro bajo juramento que el trabajo aquı́ escrito es de mi autorı́a; que no ha sido previamente presentado para ningún grado o calificación profesional; y que he consultado las referencias bibliográficas que se incluyen en este documento. A través de la presente declaración cedo mis derechos de propiedad intelectual, correspondientes a este trabajo, a la Escuela Politécnica Nacional, según lo establecido por la Ley de Propiedad Intelectual, por su reglamento y por la normatividad institucional vigente. Luis Felipe Herrera Quishpe . CERTIFICACIÓN Certifico que el presente trabajo fue desarrollado por LUIS FELIPE HERRERA QUISHPE, bajo mi supervisión Dr. Luis Alcides Horna Huaraca Director del Proyecto AGRADECIMIENTOS A toda mi familia y amigos, por compartir su tiempo y enseñanzas conmigo. En especial: A mis padres, por todo el sacrificio y la confianza que han depositado en mı́. A mi hermana, por estar conmigo desde el principio y apoyarme en cada momento. A mi Naty, por ser mi amiga y consejera en esta nueva aventura. A mi Benja, por hacer que cada dı́a sea “super”. A mis suegros, por toda la ayuda recibida. A mi director, por su paciencia y dedicación a lo largo de este proyecto. DEDICATORIA A mis padres, Gandy y Susy A mi nueva familia, Naty y Benjamı́n. Felipe Índice de contenido Índice de figuras viii Índice de tablas ix Índice de códigos x Resumen xi Abstract xiii 1 Introducción 1.1 Álgebras y σ-álgebras . . . . . 1.2 Espacio medible (R, B(R)) . . 1.3 Espacio medible (Rn , B(Rn )) 1.4 Espacio medible (R∞ , B(R∞ )) 1.5 Espacio medible (RT , B(RT )) 1.6 Espacio medible (C, C ) . . . . 1.7 Funciones medibles . . . . . . 1.8 Medidas . . . . . . . . . . . . . . . . . . . . 1 1 3 9 12 14 15 16 18 2 Topologı́a de Skorohod 2.1 El espacio medible (D, D) . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Métrica d . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3 Métrica d◦ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4 Separabilidad y Completitud de D . . . . . . . . . . . . . . . . . . . . 2.5 Compacidad de D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5.1 Una caracterización de conjuntos relativamente compactos en D 20 20 25 33 38 43 46 D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 49 50 53 . . . . . . . . . . . . . . . . 3 Convergencia débil y densidad del 3.1 Definiciones básicas . . . . . . . . 3.2 Conjuntos de dimensión finita . . 3.3 Funciones aleatorias en D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . espacio . . . . . . . . . . . . . . . vi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4 3.5 3.6 Distribuciones de dimensión finita . . . . . . . . . . . . . . . . . . . . . Densidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Convergencia débil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Simulación de algunos procesos 4.1 Proceso Estocástico . . . . . . 4.2 Proceso de Poisson . . . . . . 4.3 Proceso de Wiener . . . . . . 4.4 Proceso de Lévy . . . . . . . . estocásticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . importantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 56 59 . . . . 62 62 63 71 74 5 Una aplicación a la teorı́a de renovación 5.1 Proceso de renovación . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2 Proceso de renovación con recompensa . . . . . . . . . . . . . . . . . . 5.3 Aplicación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 78 81 82 6 Conclusiones y recomendaciones 6.1 Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2 Recomendaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 86 87 Referencias 88 Anexos 91 . . . . . . . . . . . . . . . . . . . . . . . . Índice de figuras 1.1 1.2 Una función del conjunto It1 ,t2 ,t3 (I1 × I2 × I3 ). . . . . . . . . . . . . . . Relación entre tipos de convergencia. . . . . . . . . . . . . . . . . . . . 14 17 2.1 2.2 2.3 2.4 Aplicaciones λn . Aplicaciones λ′n . Aplicaciones λ′′n . Aplicación λt,s . 30 32 32 33 4.1 Trayectoria de un proceso de Poisson homogéneo con parámetro λ = 4 sobre el intervalo [0, 1]. . . . . . . . . . . . . . . . . . . . . . . . . . . . Trayectoria de un proceso de Poisson no homogéneo con parámetro λ(t) = 4t sobre el intervalo [0, 1]. . . . . . . . . . . . . . . . . . . . . . . Trayectorias de un proceso de Poisson homogéneo con λ(t) = 4 y Poisson no homogéneo con λ(t) = 4t sobre el intervalo [0, 100]. . . . . . . . . . . Trayectoria de un proceso de Poisson compuesto con λ = 5 y Yi ∼ N (0, 1), i = 1, . . . sobre el intervalo [0, 1] . . . . . . . . . . . . . . . . . Trayectoria de un proceso de Wiener estándar sobre el intervalo [0, 1]. . Trayectoria de un proceso de variación cuadrática de Wiener estándar sobre el intervalo [0, 1]. . . . . . . . . . . . . . . . . . . . . . . . . . . . Trayectoria de un proceso de Lévy sobre el intervalo [0, 1]. . . . . . . . Trayectoria de un proceso de variación cuadrática de Lévy sobre el intervalo [0, 1]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 4.3 4.4 4.5 4.6 4.7 4.8 5.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Trayectoria de un proceso de renovación sobre el intervalo [0, 10]. . . . . viii 65 67 69 70 73 73 75 76 82 Índice de tablas 4.1 4.4 Tiempos llegada de un proceso de Poisson homogéneo con parámetro λ = 4 sobre el intervalo [0, 1]. . . . . . . . . . . . . . . . . . . . . . . . Tiempos llegada de un proceso de Poisson no homogéneo con parámetro λ(t) = 4t sobre el intervalo [0, 1]. . . . . . . . . . . . . . . . . . . . . . . Tiempos llegada de un proceso de Poisson compuesto con λ = 5 y Yi ∼ N (0, 1), i = 1, . . . sobre el intervalo [0, 1]. . . . . . . . . . . . . . . . . . Relación entre los procesos estocásticos: Poisson, Wiener y Lévy. . . . . 5.1 5.2 Resultados del proceso de renovación con recompensa. . . . . . . . . . . Resultados de la aplicación sobre los intervalos [0, T ], T = 10, 100, 1000. 4.2 4.3 ix 66 68 71 77 84 85 Índice de códigos 4.1 4.2 4.3 4.4 4.5 5.1 Proceso Proceso Proceso Proceso Proceso Proceso de de de de de de Poisson homogéneo. . . . . Poisson no homogéneo. . . Poisson compuesto. . . . . Wiener. . . . . . . . . . . . Lévy. . . . . . . . . . . . . renovación con recompensa. x . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 67 70 74 76 83 Resumen Las series de tiempo, que son trayectorias asociadas a ciertos procesos estocásticos, representan un papel muy importante a la hora de intentar pronosticar algunos fenómenos meteorológicos, financieros, médicos, como por ejemplo: el precio del petróleo, las ventas de una empresa, la variación de las tasas de interés, el ritmo cardı́aco, entre otros. Por esta y otras razones, es necesario analizar el fondo probabilı́stico que éstas poseen, ası́ como su topologı́a y los diferentes procesos que generan. Este estudio resume definiciones y resultados fundamentales existentes, y sistematiza una secuencia entre la teorı́a del espacio de Skorohod (D, D), los procesos estocásticos y sus aplicaciones. Comprender la parte teórica que enlaza el espacio D con los procesos estocásticos, como son los procesos estocásticos càdlàg, es de nuestro interés. Poder simular algunos procesos estocásticos nos permitirá entender de mejor manera cuál es el comportamiento y la implicación de los teoremas y proposiciones que se presentan. Finalmente se pretende llevar a la práctica gran parte de lo estudiado, mediante una aplicación sencilla, pero que recoge lo fundamental de la teorı́a expuesta. A pesar de no haber recibido formación regular en el ámbito de la simulación estocástica se realizaron algunas simulaciones utilizando el entorno de programación R. Dicho entorno es un proyecto de software libre ampliamente utilizado en la academia y en el sector gubernamental. El presente trabajo se divide en capı́tulos donde se exponen definiciones y resultados importantes ya sea con teoremas o proposiciones y se finaliza con las notas correspondientes. Por lo tanto los resultados expuestos constan dentro de la bibliografı́a que se indica al final en las referencias. Primero en el capı́tulo 1 se realizará una construcción secuencial de los espacios medibles, empezando por (R, B(R)) hasta llegar a (C, C ). Luego, en el capı́tulo 2 se analizará a profundidad la topologı́a del espacio medible (D, D), que se conoce como topologı́a de Skorohod. xi Más adelante, en el capı́tulo 3 se expondrá cómo son las variables o funciones aleatorias en D, mediante la convergencia débil y densidad del espacio D. Para el capı́tulo 4 se simularán algunos procesos: el de Poisson, el de Wiener y el de Lévy. En el capı́tulo 5 se analizarán brevemente los procesos de renovación y se realizará una aplicación que es sencilla pero ilustra claramente los principales resultados anotados en este trabajo. Por último, en el capı́tulo 6 se compendian las conclusiones mas relevantes que se han detectado a lo largo de este estudio. Adicionalmente se realizan sugerencias fruto de la experiencia adquirida durante el desarrollo del presente trabajo. xii Abstract The time series, which are pathways associated with certain stochastic processes, represent a very important role in trying to forecast some weather events, financial events, medical events, such as: oil prices, sales of a company, the variation interest rates, heart rate, among others. In this context, it is necessary to analyze the probabilistic background that time series have, their topology and the different processes that generate. This study summarizes existing definitions and key results, and organizes a sequence between the theory of Skorhod’s space (D, D), stochastic processes and their applications. It is in our interest to understand the theoric link of space D with stochastic processes (càdlàg). To simulate some stochastic processes will allow us to understand the behavior and involvement of the theorems and propositions presented. Finally, we try to put it into practice through an application, which is simple but contains the substance of the exposed theory. xiii Capı́tulo 1 Introducción 1.1 Álgebras y σ-álgebras Los conceptos de álgebra y σ-álgebra de conjuntos son muy importantes en la Teorı́a de la medida, Teorı́a de probabilidades, Procesos estocásticos, por la cual es pertinente introducir en nuestro estudio estas definiciones de carácter teórico, aunque a veces no se palpa su importancia en la práctica cotidiana. Se debe tener siempre presente que vamos a utilizar el lenguaje de la Teorı́a de conjuntos, pues nos interesa la interpretación topológica y no geométrica de nuestros espacios. En este primer capı́tulo la referencia fundamental utilizada corresponde al texto [Shiryaev, 1996], connotado académico ruso perteneciente a la escuela de Kolmogorov. Definición 1.1.1 (Álgebra). Una clase A de subconjuntos de un conjunto dado Ω, tal que verifica: (i) Ω y ∅ pertenecen a A ; (ii) si A ∈ A , entonces Ac ∈ A ; y (iii) si A ∈ A , B ∈ A , entonces A ∪ B ∈ A y A ∩ B ∈ A se dice un álgebra. Notemos que esta definición nos garantiza que bajo las operaciones unión e intersección finitas y el complemento, los resultados se mantienen en la misma clase, familia o sistema de conjuntos. Definición 1.1.2 (σ-álgebra). Una clase A de subconjuntos de un conjunto dado Ω, tal que verifica: (i) Ω y ∅ pertenecen a A ; 1 (ii) si A ∈ A , entonces Ac ∈ A ; y (iii) para toda familia numerable (An )n∈N de elementos de A , se tiene [ n∈N An ∈ A y \ n∈N An ∈ A se dice una σ-álgebra. Se aprecia que la σ-álgebra se diferencia del álgebra en cuanto a que las operaciones unión e intersección se realizan para una familia numerable. En ambas definiciones muchas veces puede considerarse una sola de las operaciones o unión o intersección, pues la otra operación también se cumple por la Ley de Morgan. A partir de aquı́, Ω será nuestro espacio muestral. Notemos que las familias F∗ = {∅, Ω}, F ∗ = {A : A ⊆ Ω} son ambas álgebras y σ-álgebras. A F∗ se lo conoce como la σ-álgebra más “pobre” y a F ∗ como la σ-álgebra más “rica”, puesto que contiene a todos los subconjuntos de Ω, es decir, es el conjunto partes de Ω. El siguiente resultado, cuya demostración es sencilla, nos da una metodologı́a para encontrar álgebras y σ−álgebras pequeñas, tal como lo afirma la proposición 1.1.2. Proposición 1.1.1. Sea (Ai )i∈I una familia de σ-álgebras de Ω con I un conjunto de T ı́ndices no necesariamente contable, entonces i∈I Ai es una σ-álgebra. Definición 1.1.3. Sea E una familia de subconjuntos de Ω. La σ-álgebra de subconjuntos de Ω más pequeña que contiene a E , se conoce como la σ-álgebra generada por E y se denota por σ(E ). De igual manera el álgebra mas pequeña que contiene a E , se denomina álgebra generada por E y se denota por α(E ). Proposición 1.1.2. Sea E una familia de subconjuntos de Ω. Entonces existen α(E ) y σ(E ). Demostración. Como F ∗ es una σ-álgebra, entonces existe por lo menos una σ-álgebra que contiene a E . Si tomamos σ(E ) como la intersección de todas las σ-álgebras de subconjuntos de Ω que contienen a E , es decir, σ(E ) = \ A, A una σ-álgebra. E ⊆A Se tiene entonces que E ⊆ σ(E ). Y por la proposición 1.1.1, σ(E ) es una σ-álgebra. De forma similar se obtiene el resultado para α(E ). 2 Para el caso de álgebras se tiene un caso particular, pero muy importante, cuando E es una partición finita de Ω. Definición 1.1.4 (Espacio medible). Sea E una σ-álgebra de subconjuntos de Ω, decimos que el par (Ω, E ) es un espacio medible. A continuación vamos a ver, rápidamente, una generalización secuencial de los espacios medibles, empezando por el espacio de los reales (R, B(R)), hasta llegar al espacio de las funciones continuas (C, C ), y finalmente al espacio de Skorohod (D, D). 1.2 Espacio medible (R, B(R)) Sean R = (−∞, ∞) la recta real y (a, b] = {x ∈ R : a < x ≤ b}, para todo a y b, −∞ ≤ a < b < ∞, un intervalo de R. Los intervalos de la forma (a, ∞] se escriben, (a, ∞). Definimos A como la familia de subconjuntos de R, tal que los elementos de este conjunto son sumas (uniones) finitas de intervalos disjuntos de la forma (a, b], es decir, si n X A= (ai , bi ], n < ∞, (1.1) i=1 entonces A ∈ A . Si incluimos al conjunto vacı́o (∅) en el conjunto A , se transforma en un álgebra. En efecto: • ∅ ∈ A y R = (−∞, ∞) es un intervalo, por lo que R ∈ A . • Si A ∈ A , entonces A se puede escribir como una suma de intervalos y, sin pérdida de generalidad, podemos ordenar los intervalos de tal manera que ai < bi ≤ ai+1 < bi+1 , para i = 1, ..., n − 1 y suponer que a1 = −∞. De donde al tomar el complemento de A, se obtiene el siguiente resultado c A = n−1 X i=1 (bi , ai+1 ] ∪ (bn , ∞), para algún n < ∞, por lo tanto Ac ∈ A . Para el caso en que a1 6= −∞ simplemente se añadirá el termino (−∞, a1 ] al conjunto Ac . De forma similar, si bn = ∞ se eliminará el término (b, ∞) de Ac . • Adicionalmente si A ∈ A y B ∈ A , entonces existen n < ∞, m < ∞ tal que: A∪B = n X i=1 (ai , bi ] ∪ 3 m X j=1 (cj , dj ], de donde A ∪ B es a lo más la suma (unión) de n + m < ∞ intervalos disjuntos, es decir, A ∪ B ∈ A . Sin embargo A no puede ser una σ-álgebra, ya que si tomamos los intervalos An = S (0, 1 − 1/n], entonces n∈N An = (0, 1) 6∈ A . A σ(A ), la σ-álgebra generada por A , se la conoce como el σ-álgebra de Borel de subconjuntos de la recta real y se denota por B(R). Sus elementos se denominan Borelianos. Proposición 1.2.1. Si I es una clase formada por intervalos de la forma (a, b], entonces σ(I ) es igual al σ-álgebra de Borel. Demostración. Primero verifiquemos que A = α(I ). Sea A ∈ A , es decir, A= n X (ai , bi ] i=1 para algún n < ∞. Pero para todo i = 1, . . . , n, (ai , bi ] ∈ I y por lo tanto A ∈ α(I ). Por otra parte A es un álgebra que contiene a I , y por tanto α(I ) ⊆ A . Ahora demostremos que σ(I ) = σ(α(I )), pero como I ⊆ α(I ), se sigue que σ(I ) ⊆ σ(α(I )). Por otro lado sea B ∈ σ(α(I )), sin pérdida de generalidad podemos tomar B= n X (ai , bi ], i=1 para algún n < ∞, pero como para todo i = 1, . . . , n, (ai , bi ] ∈ I , se sigue que B ∈ σ(I ). Nota 1.2.1. La σ-álgebra de Borel se puede obtener mediante I , sin tener que usar el álgebra A , ya que σ(I ) = σ(α(I )). Utilizar los intervalos abiertos por la izquierda y cerrados por la derecha es de mucha importancia práctica, fundamentalmente, cuando se estudian las funciones de distribución de variables aleatorias. 4 Notemos además que: ∞ [ 1 (a, b) = a, b − , n n=1 ∞ [ 1 [a, b] = a − ,b , n n=1 ∞ \ 1 a − ,a . {a} = n n=1 a < b, a < b, Lo que implica que la σ-álgebra de Borel, incluye los conjuntos unitarios {a} y las siguientes formas de intervalos: (a, b), [a, b], (a, b], [a, b), (−∞, b), (−∞, b], (a, ∞), [a, ∞). (1.2) Es importante mencionar que la construcción de B(R), puede estar basada en cualquiera de los tipos de intervalos presentados en (1.2), en lugar de los de la forma (a, b], que utilizaremos en nuestro estudio. Nota 1.2.2. El espacio medible (R, B(R)) se denota generalmente por (R, B) o (R1 , B1 ). Ya que nuestro propósito es identificar los abiertos en R, presentamos la siguiente proposición. Proposición 1.2.2. Sea ρ1 una función de R2 en R, tal que ρ1 (x, y) = |x − y| , x ∈ R, y ∈ R, 1 + |x − y| entonces: (i) ρ1 es una métrica en R; y (ii) para todo (x, y) ∈ R2 ρ1 (x, y) < 1 . Demostración. (i) • Por definición ρ1 (x, y) ≥ 0 • Supongamos que ρ1 (x, y) = 0, entonces |x − y| =0 1 + |x − y| 5 de donde |x − y| = 0, y por lo tanto x = y. Si suponemos ahora que x = y, se tiene entonces que |x − y| = 0 y finalmente ρ1 (x, y) = 0. • Simetrı́a |x − y| 1 + |x − y| |y − x| = 1 + |y − x| = ρ1 (y, x). ρ1 (x, y) = • Desigualdad triangular. Primero notemos que la función f : R+ −→ R+ , tal que t , f (t) = 1+t es creciente. En efecto, si 0 < s < t se tiene que 1 1 > s t 1 1 +1 > +1 s t 1+s 1+t > s t s t < 1+s 1+t f (s) < f (t). Por otra parte, usando la desigualdad triangular del valor absoluto f (|x − y|) ≤ f (|x − z| + |z − y|). Pero por definición ρ1 (x, y) = f (|x − y|). De donde se sigue que ρ1 (x, y) ≤ f (|x − z| + |z − y|) |x − z| + |z − y| ≤ 1 + |x − z| + |z − y| |z − y| |x − z| + ≤ 1 + |x − z| 1 + |z − y| ≤ ρ1 (x, z) + ρ1 (z, y). 6 (ii) Supongamos que existe un par (x, y) ∈ R2 , tal que ρ1 (x, y) = 1. Sin embargo por definición de ρ1 se tiene la siguiente igualdad 1 + |x − y| = |x − y|, pero esto es una contradicción y por lo tanto se concluye la demostración. Proposición 1.2.3. Sean B0 (R) la σ-álgebra generada por los conjuntos abiertos Sρ (x0 ) = {x ∈ R : ρ1 (x, x0 ) < ρ}, ρ > 0, x0 ∈ R, entonces B0 (R) = B(R). Demostración. (i) Sea A ∈ B0 (R), entonces existen x0 ∈ R y ρ > 0, tal que A = Sρ (x0 ) = {x ∈ R : ρ1 (x, x0 ) < ρ}, es decir, los elementos del conjunto A verifican la siguiente desigualdad |x − x0 | < ρ, 1 + |x − x0 | de esta ecuación se sigue que |x − x0 | < ρ 1−ρ En conclusión, podemos escribir al conjunto A como un intervalo, de la siguiente manera ρ ρ 0 0 , x + A= x − 2(1 − ρ) 2(1 − ρ) y por lo tanto A ∈ B(R). (ii) Ahora supongamos que A ∈ B(R), entonces A puede ser cualquier tipo de intervalo presentado en (1.2). Suponemos que A = (a, b), entonces si tomamos x0 = 7 a+b 2 y b−a , 1+b−a A se puede escribir de la siguiente manera ρ= A= ρ ρ , x0 + x − 2(1 − ρ) 2(1 − ρ) 0 y por lo tanto si x ∈ A, entonces |x − x0 | < ρ 1−ρ |x − x0 | < ρ 1 + |x − x0 | lo que implica que A = Sρ (x0 ). Para el caso que A = (−∞, b), escribimos el intervalo como una unión infinita de intervalos, es decir, A= ∞ [ n=1 (a − n, b), a < b, tomando an = a − n, estamos en un intervalo de la forma An = (an , b), el cual acabamos de demostrar que se puede escribir como un abierto de B0 (R), y como este procedimiento podemos realizar para cada n, se sigue que An ∈ B0 (R), para todo n, y al ser B0 (R) una σ-álgebra, A= ∞ [ n=1 An ∈ B0 (R). Nota 1.2.3. La métrica ρ1 (x, y) es equivalente a la métrica δ(x, y) = |x − y|. Cuando trabajemos sobre la recta real extendida, es decir, R̄ = [−∞, ∞], definimos a B(R̄) como la σ-álgebra más pequeña generada por los intervalos de la forma (a, b] = {x ∈ R̄ : a < x ≤ b}, donde (−∞, b] = {x ∈ R̄ : −∞ < x ≤ b}. 8 −∞ ≤ a < b ≤ ∞, 1.3 Espacio medible (Rn, B(Rn)) Sea Rn = R × · · · × R el producto cartesiano de n rectas reales, es decir, el conjunto de n-tuplas ordenadas de la forma x = (x1 , . . . , xn ), donde −∞ < xk < ∞ para k = 1, . . . , n. Definimos el conjunto I = I1 × · · · × In donde Ik = (ak , bk ], con ak ∈ R, bk ∈ R. Nótese que I = {x ∈ Rn : xk ∈ Ik , k = 1, . . . , n}, adicionalmente a este conjunto se lo conoce como un rectángulo, y a los Ik como un lado del rectángulo. Denotamos por I al conjunto de todos los rectángulos I. La σ-álgebra más pequeña generada por I , es el álgebra de Borel (σ-álgebra) de subconjuntos de Rn y se denota por B(Rn ). Sin embargo, podemos obtener el álgebra de Borel de otra manera, en lugar de tomar los rectángulos I = I1 × · · · × In , tomamos los rectángulos de la forma B = B1 × · · · × Bn , donde los Bk son borelianos de la recta real que aparecen en la k-ésima posición del producto cartesiano R × · · · × R. La σ-álgebra más pequeña generada por los rectángulos borelianos se la conoce como el producto directo de σ-álgebras B(R) y la denotaremos por B(R) ⊗ · · · ⊗ B(R). La siguiente proposición será de mucha ayuda para ver la relación que existe entre B(Rn ) y el producto directo de n σ-álgebras B(R). Proposición 1.3.1. Sean E una clase de subconjuntos de Ω, B ⊆ Ω, y E ∩ B = {A ∩ B : A ∈ E }, entonces σ(E ∩ B) = σ(E ) ∩ B. 9 (1.3) Demostración. [Shiryaev, 1996] Puesto que E ⊆ σ(E ), se tiene el siguiente resultado E ∩ B ⊆ σ(E ) ∩ B. (1.4) Por otra parte como σ(E ) es una σ-álgebra, σ(E ) ∩ B también lo es, por lo tanto E ∩ B ⊆ σ(E ∩ B), y gracias a (1.4) σ(E ∩ B) ⊆ σ(E ) ∩ B, (1.5) esto se debe a que σ(E ∩ B) es la σ-álgebra más pequeña que contiene a E ∩ B. Por otro lado, definimos el siguiente conjunto CB = {A ∈ σ(E ) : A ∩ B ∈ σ(E ∩ B)}, el cual es una σ-álgebra, puesto σ(E ) y σ(E ∩ B) son σ-álgebras. Luego por la forma en que se construyó CB , E ⊆ CB ⊆ σ(E ) y por lo tanto σ(E ) ⊆ σ(CB ) ⊆ σ(E ), es decir, σ(CB ) = σ(E ), pero como CB es una σ-álgebra, entonces σ(CB ) = CB , lo que implica que CB = σ(E ). Finalmente, para todo A ∈ σ(E ), se tiene que A ∩ B ∈ σ(E ∩ B), es decir, σ(E ) ∩ B ⊆ σ(E ∩ B), y por (1.5) se tiene el resultado deseado. Proposición 1.3.2. La σ-álgebra más pequeña generada por los rectángulos I = I1 × · · · × In es igual a la generada por los rectángulos borelianos B = B1 × · · · × Bn , es decir, B(Rn ) = B(R) ⊗ · · · ⊗ B(R). Demostración. [Shiryaev, 1996] Para n = 1, se verifica el resultado inmediatamente. 10 Para n = 2, basta demostrar que B(R) ⊗ B(R) ⊆ B(R2 ), (1.6) puesto que Ii ⊆ Bi para i = 1, 2, y por tanto se tiene que B(R2 ) ⊆ B(R) ⊗ B(R). Para demostrar (1.6) vamos a definir los siguientes conjuntos: R2 = R 1 × R2 , donde R1 y R2 son la “primera” y “segunda” recta real respectivamente, B̃1 = B1 × R2 B̃2 = R1 × B2 , donde B1 × R2 (o R1 × B2 ) es una colección de subconjuntos de la forma B̃1 = B1 × R2 (o B̃2 = R1 × B2 ), con B1 ∈ B1 (o B2 ∈ B2 ). Adicionalmente sean I1 y I2 conjuntos de intervalos en R1 y R2 , respectivamente, y Ĩ1 = I1 × R2 Ĩ2 = R1 × I2 , entonces, sean B̃1 ∈ B̃1 y B̃2 ∈ B̃2 B1 × B2 = (B1 ∩ R1 ) × (B2 ∩ R2 ) = (B1 ∩ R1 ) × (R2 ∩ B2 ) = (B1 × R2 ) ∩ (R1 × B2 ) = B̃1 ∩ B̃2 . Notemos además que si definimos B̃1 ∩ B̃2 = {A ∩ B2 : A ∈ B̃1 }, entonces B1 × B2 ∈ B̃1 ∩ B̃2 luego B̃1 ∩ B̃2 ⊆ σ(B̃1 ) ∩ B̃2 = σ(Ĩ1 ) ∩ B̃2 pero gracias a (1.3) σ(Ĩ1 ) ∩ B̃2 = σ(Ĩ1 ∩ B̃2 ) 11 ⊆ σ(Ĩ1 ∩ Ĩ2 ) = σ(I1 × I2 ), y puesto que esto se cumple para todo B̃1 ∈ B̃1 y B̃2 ∈ B̃2 , se concluye que B(R) ⊗ B(R) ⊆ B(R2 ). Para n > 2, se demuestra mediante inducción, procediendo de la misma manera. Nota 1.3.1. Sea B0 (Rn ) la σ-álgebra más pequeña generada por los conjuntos abiertos de la forma Sρ (x0 ) = {x ∈ Rn : ρn (x, x0 ) < ρ}, x0 ∈ Rn , ρ > 0, con la métrica ρn (x, x0 ) = n X 2−k ρ1 (xk , x0k ) k=1 0 donde x = (x1 , . . . , xn ), x = (x01 , . . . , x0n ). (i) para todo y ∈ Rn , x ∈ Rn , Entonces: ρn (x, y) < 1 − 1 ; 2n (ii) B0 (Rn ) = B(Rn ). Esta nota contiene una conclusión que amplı́a el resultado de la proposición 1.2.3. 1.4 Espacio medible (R∞, B(R∞)) El espacio R∞ es el espacio de las sucesiones ordenadas de números x = (x1 , x2 , . . .), −∞ < xk < ∞, k = 1, 2, . . . Sean Ik y Bk , los intervalos de la forma (ak , bk ] y los subconjuntos borelianos de la k-ésima componente, respectivamente. Consideramos los conjuntos cilindro de la siguiente forma I (I1 × · · · × In ) = {x : x = (x1 , x2 , . . .), x1 ∈ I1 , . . . , xn ∈ In }, (1.7) I (B1 × · · · × Bn ) = {x : x = (x1 , x2 , . . .), x1 ∈ B1 , . . . , xn ∈ Bn }, (1.8) I (B n ) = {x : (x1 , x2 , . . .) ∈ B n }, (1.9) donde B n es un conjunto boreliano en B(Rn ). Por su importancia teórico - práctica se enuncia el siguiente resultado que nos permite trabajar con cilindros y no con borelianos, que evidentemente conllevan una visualización mas compleja. 12 Proposición 1.4.1. Sean B(R∞ ), B1 (R∞ ), B2 (R∞ ) las σ-álgebras mas pequeñas generadas los conjuntos (1.7), (1.8) y (1.9), respectivamente. Entonces B(R∞ ) = B1 (R∞ ) = B2 (R∞ ). Demostración. [Shiryaev, 1996] Puesto que Ii ⊆ Bi , para todo i = 1, 2, . . ., se sigue que B(R∞ ) ⊆ B1 (R∞ ). Además como I (B n ) puede tener su base en R∞ y por la proposición 1.3.2, se tiene que B1 (R∞ ) ⊆ B2 (R∞ ). Por otra parte, si definimos n o Cn = A ∈ B(Rn ) : {x : (x1 , . . . , xn ) ∈ A} ∈ B(R∞ ) , para n = 1, 2, . . . y tomamos B n ∈ B(Rn ), entonces como I (B n ) puede tener su base en R∞ , se sigue que I (B n ) ∈ B(R∞ ). De donde se tiene que B n ∈ Cn Sin embargo puesto que Cn es una σ-álgebra, se tiene que σ(Cn ) = Cn y por tanto B(Rn ) ⊆ Cn ⊆ B(R∞ ), de donde se concluye que B2 (R∞ ) ⊆ B(R∞ ). De esta manera se tiene el siguiente resultado, que es totalmente compatible con los resultados obtenidos en los espacios medibles expuestos anteriormente. Nota 1.4.1. Sea B0 (R∞ ) la σ-álgebra mas pequeña generada por los conjuntos abiertos Sρ (x0 ) = {x ∈ R∞ : ρ∞ (x, x0 ) < ρ}, con la métrica 0 ρ∞ (x, x ) = ∞ X 2−k ρ1 (xk , x0k ), k=1 donde x = (x1 , x2 , . . .), x0 = (x01 , x02 , . . .). Entonces: 13 x0 ∈ R ∞ , ρ > 0, (i) para todo y ∈ R∞ , x ∈ R∞ , ρ∞ (x, y) < 1; (ii) B(R∞ ) = B0 (R∞ ). 1.5 Espacio medible (RT , B(RT )) Sea T es un subconjunto arbitrario, no necesariamente numerable de R. Definimos el espacio RT como el conjunto de todas las funciones reales x = (xt ) que están definidas para t ∈ T . Puesto que el caso en que T es un conjunto no numerable, es de mayor importancia, vamos a suponer que T = [0, ∞). Consideramos los siguientes conjuntos cilindro It1 ,...,tn (I1 × · · · × In ) = {x : xt1 ∈ I1 , . . . , xtn ∈ In }, (1.10) It1 ,...,tn (B1 × · · · × Bn ) = {x : xt1 ∈ B1 , . . . , xtn ∈ Bn }, (1.11) It1 ,...,tn (B n ) = {x : (xt1 , . . . , xtn ) ∈ B n }, (1.12) donde Ik y Bk son los intervalos de la forma (ak , bk ] y los subconjuntos borelianos de la k-ésima componente, respectivamente. B n es un conjunto boreliano en B(Rn ). En la figura 1.1 se observa un ejemplo de una función del conjunto It1 ,t2 ,t3 (I1 × I2 × I3 ) tal que en los tiempos t1 , t2 y t3 atraviesa por unas “ventanas”, que son los intervalos I1 , I2 , I3 , y tiene valores arbitrarios en cualquier otro tiempo. 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 f t1 t2 t3 0 -0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Figura 1.1: Una función del conjunto It1 ,t2 ,t3 (I1 × I2 × I3 ). 14 Teorema 1.5.1. Sean T un conjunto no numerable y B(RT ), B1 (RT ), B2 (RT ) las σálgebras mas pequeñas generadas los conjuntos (1.10), (1.11) y (1.12), respectivamente. Entonces B(RT ) = B1 (RT ) = B2 (RT ) y para todo A ∈ B(RT ) existen un conjunto numerable de puntos {t1 , t2 , . . .} en T y un boreliano B ∈ B(R∞ ) tal que: o n A = x : (xt1 , xt2 , . . .) ∈ B . (1.13) La demostración de este teorema es una generalización del resultado para el espacio medible (R∞ , B(R∞ )) y se la puede encontrar en [Shiryaev, 1996]. Su importancia radica en que nos permite trabajar con funciones tales que en cierta familia contable de puntos, cumplen unas restricciones determinadas. 1.6 Espacio medible (C, C ) Sean T = [0, 1] y C el espacio de las funciones continuas x = (xt ), 0 ≤ t ≤ 1. Si dotamos este espacio con la siguiente métrica ρ(x, y) = sup |xt − yt |, t∈T entonces C es un espacio métrico. Adicionalmente si denotamos por B0 (C) a la σálgebra generada por los abiertos con respecto a la métrica ρ y C a la σ-álgebra generada por los conjuntos (cilindro) de la forma Vtη = {x ∈ C : xt < η} con η ∈ R, entonces B0 (C) = C . En efecto, [Shiryaev, 1996] sean ǫ > 0 y Aǫ = {y ∈ C : y ∈ Bǫ (x◦ )}, donde x◦ ∈ C y n o Bǫ (x◦ ) = x ∈ C : máx |xt − x◦t | < ǫ t∈T ◦ es una bola abierta centrada en x . De esta manera se tiene que Aǫ = {y ∈ C : y ∈ Bǫ (x◦ )} o n = y ∈ C : máx |yt − x◦t | < ǫ t∈T 15 = \n tr o y ∈ C : |ytr − x◦tr | < ǫ , donde los tr son los números racionales del intervalo [0,1]. Por lo tanto Aǫ ∈ C . Por otro lado, sean η ∈ R, t0 ∈ T y y ◦ ∈ Vtη0 , donde Vtη0 = {y ∈ C : yt0 < η} es un conjunto cilindro. Entonces existe un α > 0 tal que α + yt0 < η. De esta manera la bola abierta Bρ (y ◦ ) = {z ∈ C : |zt0 − yt◦0 | < α} ⊆ {z ∈ C : zt0 < α + yt◦0 } ⊆ {z ∈ C : zt0 < η} ⊆ Vtη0 . Por lo tanto Vtη0 es un abierto, es decir, Vtη0 ∈ B0 (C). En el siguiente capı́tulo se tratará un espacio medible más generalizado y además será tema fundamental de nuestro estudio. 1.7 Funciones medibles Inmediatamente se dará una de las definiciones mas importantes en Teorı́a de probabilidades, relacionadas con elementos aleatorios, en particular con variables aleatorios y vectores aleatorios. Definición 1.7.1 (Función medible). Sean (Ω, E ) y (Ω′ , E ′ ) dos espacios medibles. La función g : Ω −→ Ω′ 16 se dice E /E ′ -medible, (o medible si no existe ambigüedad), si para todo A ∈ E ′ , g −1 (A) ∈ E . Teorema 1.7.1. Sea (Ω, E ) un espacio medible. La función f : Ω −→ R es medible, si y solo si, para todo α ∈ R, {ω ∈ Ω : f (ω) > α} ∈ E . Este resultado es una caracterización de lo que es una variable aleatoria. El siguiente teorema nos permite manipular con certeza los lı́mites de sucesiones de variables aleatorias. Teorema 1.7.2. Sea (Ω, E ) un espacio medible y para todo n = 1, . . ., las funciones fn : Ω → R son medibles, entonces: (i) las funciones ı́nf n∈N fn y supn∈N fn son medibles. (ii) las funciones lı́m inf n→∞ fn y lı́m supn→∞ fn son medibles. (iii) la función lı́mn→∞ fn es medible. A su vez este resultado nos garantiza que los lı́mites de sucesiones de variables aleatorias es también una variable aleatoria, misma que permite establecer los diferentes tipos de convergencia en Teorı́a de probabilidades: convergencia casi segura, convergencia en probabilidad, convergencia en Lp y convergencia en distribución que satisfacen el siguiente esquema. Convergencia en Lp E[(Xn − X)p ] → 0 Convergencia casi segura P(Xn → X) = 1 Convergencia en probabilidad P(|Xn − X| ≥ ǫ) → 0, ∀ǫ > 0 Convergencia en distribución FXn (t) → FX (t), FX cont. en t Figura 1.2: Relación entre tipos de convergencia. 17 El siguiente resultado, en la práctica tiene mucha relevancia puesto que muestra la relación que existe entre las funciones continuas y las funciones medibles, para el caso en que nuestro dominio es al recta real. Teorema 1.7.3. Si la función f : R −→ Rk es continua, entonces es medible. Teorema 1.7.4. Sean (Ω, E ) un espacio medible y fi : Ω −→ R, i = 1, . . . , k funciones medibles, entonces la función ω 7−→ ϕ(f1 (ω), . . . , fk (ω)) es medible, si ϕ : Rk −→ R, es medible. En particular si ϕ es continua. 1.8 Medidas Esta sección es muy importante para poder tener una idea que conjuntos pueden ser medibles y de ser ası́, cual serı́a su medida o tamaño. Definición 1.8.1 (Medida). Dado un espacio medible (Ω, E ), decimos que la aplicación µ : E −→ [0, ∞] es una medida si verifica: (i) µ(∅) = 0, (ii) para toda familia numerable (An )n∈N de elementos de E , disjuntos dos a dos, se tiene [ X µ( An ) = µ(An ) (1.14) n∈N n∈N A la propiedad (1.14) se la conoce como la σ-aditividad de µ. Definición 1.8.2 (Espacio medido). Sea (Ω, E ) un espacio medible y µ una medida de (Ω, E ), decimos que la tripleta (Ω, E , µ) es un espacio medido. Definición 1.8.3 (Espacio probabilı́stico). Sea (Ω, E , µ) un espacio medido. Si µ(Ω) = 1, 18 decimos que (Ω, E , µ) es un espacio probabilı́stico. Adicionalmente a µ se la conoce como una medida de probabilidad Esta es una definición muy importante y al mismo tiempo simple dentro de la axiomática de Kolmogorov, uno de los grandes matemáticos del siglo XX y perteneciente a la escuela rusa de Teorı́a de probabilidades. Adicionalmente a µ(A) se la conoce como la µ-medida de A, y en la práctica puede tener muchas connotaciones como longitud, área, importancia, peso, etc. Si la medida de todo el espacio es finita, es decir, µ(Ω) < ∞, diremos que µ es una medida finita. Definición 1.8.4 (Conjunto de medida nula). Sea (Ω, E , µ) un espacio medido (probabilı́sto). Si un conjunto A ∈ E verifica: µ(A) = 0, decimos que A es un conjunto de medida (probabilidad) nula. Esta definición es de mucha importancia en el desarrollo teórico de las probabilidades. Cuando se trabaja con álgebras los conjuntos de medida nula simplemente se eliminan pues carecen de sentido. 19 Capı́tulo 2 Topologı́a de Skorohod Para este capı́tulo se utilizó como referencia fundamental los textos [Billingsley, 1999], [Billingsley, 1995], [Kumaresan, 2005], [Shiryaev, 1996] y [Royden and Fitzpatrick, 2010]. 2.1 El espacio medible (D, D) Durante este trabajo se hará un estudio topológico de este espacio mas no geométrico. Por lo que nuestro principal objetivo será ver cuales son las propiedades de los abiertos y no como son estos. Sea D = D[0, 1] el espacio de la funciones reales x definidas sobre [0, 1] tales que son continuas por la derecha y tienen lı́mite por la izquierda, es decir, • x(t+) = lı́ms↓t x(s) existe y x(t+) = x(t), para 0 ≤ t < 1 • x(t−) = lı́ms↑t x(s) existe, para 0 < t ≤ 1. Este tipo de funciones se conocen como càdlàg por su significado en francés “continu à droite, limites à gauche” y de uso muy generalizado en el ámbito estocástico. Para x ∈ D y T ⊆ [0, 1] definimos ωx (T ) = ω(x, T ) = sup |x(s) − x(t)|. (2.1) t,s∈T Además definimos el módulo de continuidad en D de la siguiente manera ωx (δ) = ω(x, δ) = sup ωx [t, t + δ]. (2.2) 0≤t≤1−δ Para tener una idea de la uniformidad de las funciones càdlàg se presenta la siguiente proposición. 20 Proposición 2.1.1. Para cada x ∈ D y cada ǫ > 0, existen puntos t0 , t1 , . . . , tn tales que 0 = t 0 < t 1 < · · · < tn = 1 (2.3) y ωx [ti−1 , ti ) < ǫ. (2.4) Demostración. [Billingsley, 1999] Sea t◦ el supremo de todos los t ∈ [0, 1], tal que [0, t) puede ser descompuesto en un número finito de intervalos de la forma [ti−1 , ti ) que satisfacen (2.4). Pero como x ∈ D, entonces x(0) = x(0+) y por lo tanto t◦ > 0. Por otra parte x(t◦ −) siempre existe y además [0, t◦ ) puede ser descompuesto en subintervalos. Luego si t◦ < 1, se tiene que x(t◦ ) = x(t◦ +) y por lo tanto existe un t∗ < 1 tal que t∗ > t◦ y además ωx [t◦ , t∗ ) < ǫ, es decir, t◦ no es el supremo. En conclusión t◦ = 1 De este resultado se sigue que existe a lo más un número finito de puntos t tal que |x(t) − x(t−)| > 1 , n para algún n > 0, por lo que x tiene a lo mucho un número contable de discontinuidades. De donde se sigue que x es acotada, es decir, kxk = sup |x(t)| < ∞. (2.5) t∈[0,1] Finalmente se tiene que x puede ser aproximada uniformemente por funciones constantes a trozos, es decir, x es Borel medible. Nota 2.1.1. Una función continua sobre [0, 1], es uniformemente continua. Definición 2.1.1 (δ-disperso). Sea {ti } un conjunto que satisface (2.3), entonces decimos que {ti } es un conjunto δ-disperso si mı́n (ti − ti−1 ) > δ. 1≤i≤n 21 Para 0 < δ < 1, definimos otro módulo de continuidad en el espacio D ωx′ (δ) = ω ′ (x, δ) = ı́nf máx ωx [ti−1 , ti ), {ti } 1≤i≤n (2.6) donde el ı́nfimo se entiende sobre todos las colecciones {ti } δ-dispersos. Como veremos más adelante ésta es una expresión que nos permite caracterizar a los elementos del espacio D, cuando δ tiende a 0. Proposición 2.1.2. La proposición 2.1.1 es equivalente a lı́mδ→0 ωx′ (δ) = 0, para todo x ∈ D. Demostración. (i) Sean x ∈ D, ǫ > 0 cualquiera y t0 , . . . tn tal que verifican (2.3) y (2.4), y tomamos δ < mı́n (ti − ti−1 ). 1≤i≤1 Pero gracias a la forma en que se escogieron los ti , i = 1, . . . , n máx ωx [ti−1 , ti ) < ǫ. 1≤i≤1 Luego por (2.6) se tiene que ωx′ (δ) ≤ máx ωx [ti−1 , ti ) < ǫ, 1≤i≤1 y por lo tanto lı́m ωx′ (δ) = 0. δ→0 (ii) Sean x ∈ D, ǫ > 0 y lı́m ωx′ (δ) = 0, δ→0 entonces existe un δ ′ > 0 tal que si δ < δ ′ , se verifica |ωx′ (δ)| < ǫ, es decir, si tomamos δ < δ ′ existe una colección de los {ti } δ-disperso tal que verifica (2.3) y (2.4). Nota 2.1.2. ωx′ (δ) es independiente del valor de x(1), por el tipo de intervalos que se consideran. Nota 2.1.3. lı́mδ→0 ωx′ (δ) = 0 es una condición necesaria y suficiente para que x ∈ D. 22 Esta nota es de suma relevancia en nuestro estudio por cuanto caracterizan a los elementos de D. A continuación veamos la relación que existe entre ωx′ (δ) y ωx (δ). Dado que el intervalo [0, 1) puede ser descompuesto en subintervalos [ti−1 , ti ) tal que δ < ti − ti−1 ≤ 2δ, con δ < 1/2, entonces se tiene que ωx′ (δ) ≤ ωx (2δ), si δ < 1/2. (2.7) En efecto, ωx′ (δ) = ı́nf máx ωx [ti−1 , ti ) {ti } 1≤i≤n ≤ máx ωx [ti−1 , ti ) 1≤i≤n ≤ máx ωx [ti−1 , ti−1 + 2δ) 1≤i≤n ≤ máx ωx [t, t + 2δ) 0≤t≤1−2δ = ωx (2δ) ya que ti − ti−1 ≤ 2δ. En la dirección opuesta no se tiene una desigualdad general ya que si x tiene discontinuidades, entonces lı́m ωx (δ) 6= 0. δ→0 Sin embargo si consideramos el máximo salto (absoluto) para x como: j(x) = sup |x(t) − x(t−)| (2.8) 0<t≤1 vemos que este supremo es alcanzado puesto que dado algún número positivo solo un número finito de saltos superan este número, es decir, dado ρ > 0, existe una única colección {ti } con n > 0 tal que se verifica: |x(ti ) − x(ti −)| > ρ, i = 1, . . . , n. Ahora si tomamos la colección {ti } δ-disperso tal que para cada i = 1, . . . , n ωx [ti−1 , ti ) < ωx′ (δ) + ǫ, ǫ > 0. Si |s − t| ≤ δ, entonces se tienen dos casos: s y t pertenecen al mismo intervalo [ti−1 , ti ), o se encuentran en intervalos adyacentes. 23 Caso 1. Supongamos que s ∈ [ti−1 , ti ) y t ∈ [ti−1 , ti ), entonces |x(s) − x(t)| ≤ ωx [ti−1 , ti ) ≤ ωx′ (δ) + ǫ, tomando el lı́mite cuando ǫ → 0, se tiene que |x(s) − x(t)| ≤ ωx′ (δ) Caso 2. Supongamos que s ∈ [ti−1 , ti ) y t ∈ [ti , ti+1 ), entonces aplicando la desigualdad triangular a |x(s) − x(t)|, se obtiene el siguiente resultado: |x(s) − x(t)| ≤ |x(s) − x(ti −)| + |x(ti −) − x(ti )| + |x(ti ) − x(t)| ≤ ωx [ti−1 , ti ) + j(x) + ωx [ti , ti+1 ) ≤ 2ωx′ (δ) + j(x) + 2ǫ, tomando el lı́mite cuando ǫ → 0, se tiene que |x(s) − x(t)| ≤ 2ωx′ (δ) + j(x). Por lo tanto se concluye que ωx (δ) ≤ 2ωx′ (δ) + j(x). (2.9) Si la función x es continua entonces j(x) = 0, y por tanto (2.9) quedarı́a de la siguiente manera: ωx (δ) ≤ 2ωx′ (δ). (2.10) Además gracias a (2.7) y (2.10), se tienen que los módulos ωx (δ) y ωx′ (δ) son esencialmente los mismos cuando x es una función continua. Adicionalmente introducimos un nuevo módulo, que será de mucha ayuda mas adelante en la parte de caracterización de los conjuntos relativamente compactos en D. ωx′′ (δ) = ω ′′ (x, δ) = sup {|x(t) − x(t1 )| ∧ |x(t2 ) − x(t)|}. (2.11) t1 ≤t≤t2 t2 −t1 ≤δ Es importante señalar que el supremo es sobre todo los t ∈ [0, 1], t1 ∈ [0, 1] y t2 ∈ [0, 1] que verifican las respectivas desigualdades. Notemos que, ωx′′ (δ) es no decreciente para todo x ∈ D. En efecto, sean 0 < δ1 < δ2 , 24 entonces como t1 ≤ t ≤ t2 y t2 − t1 ≤ δ1 es equivalente a: t1 ≤ t ≤ t2 ≤ t 1 + δ 1 y por lo tanto t1 ≤ t ≤ t2 ≤ t1 + δ 2 . De donde se sigue que ωx′′ (δ1 ) ≤ ωx′′ (δ2 ). Ahora veamos qué relación existe entre ωx′ (δ) y ωx′′ (δ). Sea δ > 0 y supongamos que ωx′ (δ) < ǫ. Tomemos además {si } un conjunto δ-disperso tal que para todo i ωx [si−1 , si ) < ǫ. Además puesto que t2 − t1 < δ se tiene que t1 y t2 pertenecen al mismo intervalo o se encuentran en intervalos consecutivos. Caso 1. Si t1 ∈ [si−1 , si ) y t2 ∈ [si−1 , si ) y t1 < t < t2 , entonces |x(t) − x(t1 )| < ǫ y |x(t)2 − x(t)| < ǫ. Caso 2. Si t1 ∈ [si−1 , si ) y t2 ∈ [si , si+1 ) y t1 < t < t2 , entonces t ∈ [si−1 , si ) o t ∈ [si , si+1 ), es decir, se verifica |x(t) − x(t1 )| < ǫ o |x(t2 ) − x(t)| < ǫ. De donde se concluye que ωx′′ (δ) < ǫ. Finalmente si hacemos que ǫ ↓ ωx′ (δ), se tiene que ωx′′ (δ) ≤ ωx′ (δ). 2.2 (2.12) Métrica d Esta métrica fue propuesta por el matemático soviético (ucraniano) Skorohod en 1956. Sea Λ la clase de todas las aplicaciones continuas y estrictamente crecientes de [0, 1] 25 en [0, 1]. Además si λ ∈ Λ, entonces λ0 = 0 y λ1 = 1. Sean x ∈ D y y ∈ D, definimos d(x, y) = ı́nf ( ) ǫ > 0 : ∃λ ∈ Λ : sup |λt − t| + sup |x(t) − y(λt)| ≤ ǫ . t∈[0,1] t∈[0,1] (2.13) Es importante señalar que λ satisface: sup |λt − t| = sup |t − λ−1 t| (2.14) sup |x(t) − y(λt)| = sup |x(λ−1 t) − y(t)|. (2.15) t∈[0,1] t∈[0,1] y t∈[0,1] t∈[0,1] Antes de continuar notemos que la métrica d puede ser escrita de la siguiente manera n o d(x, y) = ı́nf ǫ > 0 : ∃λ ∈ Λ : kλ − Ik + kx − yλk ≤ ǫ . Veamos ahora que d(x, y), es en efecto una métrica. • Por la forma en que se encuentra definida, d(x, y) ≥ 0 • Tomando λt ≡ t, se tiene que d(x, y) = 0 ⇐⇒ ⇐⇒ sup |x(t) − y(t)| = 0 t∈[0,1] x(t) = y(t), para todo t ∈ [0, 1] ⇐⇒ x = y • Si λ ∈ Λ, entonces λ−1 ∈ Λ por definición de Λ. Por otra parte gracias a (2.14) y (2.15), se tiene que d(x, y) = d(y, x). • Si λ1 ∈ Λ y λ2 ∈ Λ, entonces λ1 λ2 ∈ Λ. En efecto λ 1 λ2 0 = λ1 0 = 0 y λ1 λ2 1 = λ1 1 = 1. Adicionalmente si s < t, se tiene que λ2 s < λ2 t, y finalmente λ1 λ2 s < λ1 λ2 t. Para la continuidad sean s ∈ [0, 1], t ∈ [0, 1] y ǫ > 0, entonces por la continuidad de λ1 existe δ1 > 0, tal que |λ2 s − λ2 t| < δ1 =⇒ |λ1 λ2 s − λ1 λ2 t| < ǫ 26 y gracias a la continuidad de λ2 se sigue que existe δ2 > 0, tal que |s − t| < δ2 =⇒ |λ2 s − λ2 t| < δ1 y por lo tanto basta tomar δ < δ2 , para obtener que |s − t| < δ =⇒ |λ1 λ2 s − λ1 λ2 t| < ǫ. Por otra parte, utilizando la notación simplificada se tiene kλ1 λ2 − Ik = sup |λ1 λ2 t − t| t∈[0,1] sup |λ2 t − λ−1 1 t| = t∈[0,1] h i sup |λ2 t − t| + |t − λ−1 1 t| ≤ t∈[0,1] sup |λ2 t − t| + sup |t − λ−1 1 t| ≤ t∈[0,1] t∈[0,1] = kλ2 − Ik + kI − λ−1 1 k (2.16) y además kx − yλ1 λ2 k = = sup |x(t) − y(λ1 λ2 t)| t∈[0,1] sup |x(λ−1 1 t) − y(λ2 t)| t∈[0,1] ≤ ≤ = sup t∈[0,1] |x(λ−1 1 t) − z(t)| + |z(t) − y(λ2 t)| sup |x(λ−1 1 t)) − z(t)| + sup |z(t) − y(λ2 t)|. t∈[0,1] kxλ−1 1 t∈[0,1] − zk + kz − yλ2 k (2.17) De donde por (2.16) y (2.17) se sigue que d(x, y) ≤ d(x, z) + d(z, y). Esta métrica define la topologı́a de Skorohod. Cabe recalcar que λ en d(x, y) representa una pequeña deformación uniforme de la escala de tiempo. Definición 2.2.1. Decimos que una sucesión xn en D converge a x en la topologı́a de Skorohod si y solo si existe una sucesión de aplicaciones λn en Λ tal que si n → ∞, entonces (2.18) kxn λn − xk → 0 27 y kλn − Ik → 0. Proposición 2.2.1. rohod, entonces (2.19) (i) Si la sucesión xn en D converge x en la topologı́a de Skoxn (t) → x(t), para todos los t ∈ [0, 1] donde x es continua. (ii) Si x es continua sobre todo [0, 1] y la sucesión xn en D converge a x en D en la topologı́a de Skorohod, entonces kxn − xk → 0, cuando n → ∞. Demostración. (i) Por hipótesis existe una sucesión λn en Λ, tal que verifica (2.18) y (2.19), por lo tanto como |xn (t) − x(t)| ≤ |xn (t) − x(λn t)| + |x(λn t) − x(t)| se sigue que si n → ∞, (2.20) |xn (t) − x(t)| → 0. (ii) Sea x continua, si llamamos δ = kλn − Ik, entonces |x(λn t) − x(t)| ≤ ≤ sup |x(u) − x(v)| |u−v|≤δ sup ωx [s, s + δ] 0≤s≤1−δ = ωx (δ) Luego por (2.20) se tiene que |xn (t) − x(t)| ≤ |xn (t) − x(λn t)| + ωx (δ) y por lo tanto kxn − xk ≤ kxn − xλn k + ωx (kλn − Ik) Finalmente como los λn verifican (2.18) y (2.19), lo que implica que si n → ∞, entonces kxn − xk → 0. 28 Nota 2.2.1. La topologı́a de Skorohod en C coincide con la topologı́a uniforme de C. Ejemplo 1. [Billingsley, 1999] Consideremos j(x) como el máximo salto de x. Demostremos primero que j(·) es continua en la topologı́a uniforme. Sean ǫ > 0 y kx − yk < ǫ/2, entonces |j(x) − j(y)| = ≤ ≤ ≤ ≤ sup |x(t) − x(t−)| − sup |y(t) − y(t−)| t∈[0,1] t∈[0,1] sup |x(t) − x(t−) − y(t) + y(t−)| t∈[0,1] sup (|x(t) − y(t)| + |x(t−) − y(t−)|) t∈[0,1] sup |x(t) − y(t)| + sup |x(t−) − y(t−)| t∈[0,1] t∈[0,1] sup |x(t) − y(t)| + sup |x(t−) − y(t−)| t∈[0,1] t∈[0,1] ≤ 2kx − yk < ǫ. Ahora veamos que j(·) es continua en la topologı́a de Skorohod. Sean ǫ > 0 y d(x, y) < ǫ/2, adicionalmente tenemos que j(y) = j(yλ), para todo λ ∈ Λ, en efecto j(y) = sup |y(t) − y(t−)| t∈[0,1] = sup |y(λλ−1 t) − y(t−)| t∈[0,1] = sup |y(λt) − y(λt−)| t∈[0,1] = j(yλ). Si tomamos λ ∈ Λ tal que verifique d(x, y) < ǫ/2, entonces se tiene que |j(x) − j(y)| = |j(x) − j(yλ)| = sup |x(t) − x(t−)| − sup |y(λt) − y(λt−)| t∈[0,1] t∈[0,1] ≤ sup |x(t) − x(t−) − y(λt) + y(λt−)| t∈[0,1] ≤ sup (|x(t) − y(λt)| + |x(t−) − y(λt−)|) t∈[0,1] 29 ≤ sup |x(t) − y(λt)| + sup |x(t−) − y(λt−)| t∈[0,1] t∈[0,1] ≤ sup |x(t) − y(λt)| + sup |x(t−) − y(λt−)| t∈[0,1] t∈[0,1] ≤ 2d(x, y) < ǫ. Nota 2.2.2. El espacio D no es completo con la métrica d. Para ilustrar esta nota presentamos el siguiente ejemplo. Ejemplo 2. Sea xn = 1(1/2n ,1] , donde 1(1/2n ,1] representa la función indicatriz del conjunto (1/2n , 1], y supongamos que para n ≥ 2 λn 1 2n = 1 2n−1 . Además si λn es de forma lineal sobre [0, 1/2n ] y [1/2n , 1], tal como se indica en la figura 2.1, para todo n ∈ N, entonces kxn+1 − xn λn+1 k = 0. 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 λ2 λ3 λ4 λ5 λ6 λ∞ 0.1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 Figura 2.1: Aplicaciones λn . 30 0.8 0.9 1 En efecto, kxn+1 − xn λn+1 k = sup |xn+1 (t) − xn (λn+1 t)|, t∈[0,1] pero notemos que si t ≤ 1/2n+1 , entonces λn+1 t ≤ 1/2n , lo cual implica que xn (λn+1 t) = 0 y xn+1 (t) = 0, y por lo tanto |xn+1 (t) − xn (λn+1 t)| = 0, si t ≤ 1 . 2n+1 Por otra parte si t > 1/2n+1 , se tiene que λn+1 t > 1/2n , y además que xn (λn+1 t) = 1 y xn+1 (t) = 1, y por lo tanto |xn+1 (t) − xn (λn+1 t)| = 0, si t > 1 , 2n+1 de donde se obtiene el resultado expuesto. Adicionalmente kλn+1 − Ik = = = = = sup |λn+1 t − t| 1 1 λn+1 − n+1 n+1 2 2 1 − 1 2n 2n+1 1 1 2n 1 − 2 1 , n+1 2 t∈[0,1] y por lo tanto d(xn+1 , xn ) = 1 2n+1 , es decir, xn es una sucesión de Cauchy. Luego para t > 0, xn (t) → 1, cuando n → ∞. Pero como kxn − 1k = 1, concluimos que d(xn , 1) 6→ 0. Es decir, xn no puede ser sucesión de Cauchy. Otros tipos de funciones λn que también se podrı́an usar para ilustrar este ejemplo cuando tomamos xn = 1[0,1/2n ) son: • λ′n (1/2n ) = 1/2n+1 que tendrı́an la siguiente forma 31 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 λ1 λ2 λ3 λ4 λ5 λ∞ 0.2 0.1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Figura 2.2: Aplicaciones λ′n . • λ′′n (1 − 1/2n ) = 1 − 1/2n+1 que tendrı́an la siguiente forma 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 λ1 λ2 λ3 λ4 λ5 λ∞ 0.2 0.1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 Figura 2.3: Aplicaciones λ′′n . 32 0.8 0.9 1 2.3 Métrica d◦ Al ver las limitaciones de la métrica d, es imprescindible introducir una nueva métrica d◦ , mediante la cual D sea completo. Sean x ∈ D, y ∈ D, definimos d◦ (x, y) = ı́nf ( ) λt − λs + sup |x(t) − y(λt)| ≤ ǫ ǫ > 0 : ∃λ ∈ Λ : sup ln t−s s<t (2.21) t∈[0,1] Adicionalmente, λ satisface la siguiente ecuación kλk◦ = kλ−1 k◦ , donde (2.22) λt − λs . kλk = sup ln t−s s<t ◦ Notemos que si llamamos (2.23) λt − λs , t−s entonces λt,s se puede entender como la pendiente de la recta secante que pasa por s y t, en R2 . Mediante la siguiente figura se puede apreciar de mejor manera el significado de λt,s . λt,s = 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 λ λ t,s 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 Figura 2.4: Aplicación λt,s 33 0.8 0.9 1 De igual manera que para d(x, y), d◦ (x, y) puede ser escrito de la siguiente manera: n o d◦ (x, y) = ı́nf ǫ > 0 : ∃λ ∈ Λ : kλk◦ + kx − yλk ≤ ǫ . Ahora verifiquemos que d◦ (x, y), es en efecto una métrica. • Por la forma en que se encuentra construida, d◦ (x, y) ≥ 0 • Tomando λt ≡ t, se tiene que d◦ (x, y) = 0 ⇐⇒ sup |x(t) − y(t)| = 0 t∈[0,1] ⇐⇒ ∀t ∈ [0, 1], x(t) = y(t) ⇐⇒ x = y • Puesto que λ−1 ∈ Λ, y gracias a (2.22) se sigue que d◦ (x, y) = d◦ (y, x). • Si λ1 ∈ Λ y λ2 ∈ Λ, entonces sabemos que λ1 λ2 ∈ Λ. Por otra parte kλ1 λ2 k ◦ = = = ≤ ≤ = = λ1 λ 2 t − λ 1 λ 2 s sup ln t−s s<t sup ln (λ1 λ2 t − λ1 λ2 s) − ln (t − s) s<t sup ln (λ1 λ2 t − λ1 λ2 s) − ln (λ2 t − λ2 s) s<t + ln (λ2 t − λ2 s) − ln (t − s) λ1 λ 2 t − λ 1 λ 2 s λ2 t − λ2 s sup ln + ln λ2 t − λ 2 s t−s s<t λ1 λ 2 t − λ 1 λ2 s λ 2 t − λ2 s + sup ln sup ln λ2 t − λ2 s s<t t−s s<t −1 λ−1 λ2 t − λ2 s λ t − λ λ s 2 2 1 1 + sup ln sup ln s<t λ 2 t − λ2 s t−s s<t −1 λ−1 λ2 t − λ2 s λ t − λ λ s 2 2 1 1 + sup ln sup ln s<t λ2 t − λ2 s t−s λ2 s<λ2 t ◦ ◦ = kλ−1 1 k + kλ2 k . Y gracias a (2.17) se sigue que d◦ (x, y) ≤ d◦ (x, z) + d◦ (z, y). 34 Con esto queda demostrado que d◦ es en efecto una métrica. Proposición 2.3.1. Si d(x, y) < δ 2 y δ ≤ 1/2, entonces d◦ (x, y) ≤ 4δ + ωx′ (δ). Demostración. [Billingsley, 1999] Sean ǫ < δ y {ti } un conjunto δ-disperso tal que ωx [ti−1 , ti ) < ωx′ (δ) + ǫ, para cada i = 1, . . . , n. Escogemos µ ∈ Λ tal que verifique: sup |x(t) − y(µt)| = sup |x(µ−1 t) − y(t)| < t∈[0,1] t∈[0,1] y sup |µt − t| < t∈[0,1] δ2 2 δ2 . 2 (2.24) (2.25) Luego tomamos λ ∈ Λ tal que para i = 1, . . . , n, λ(ti ) = µ(ti ) y además sea de forma lineal en cada [ti , ti+1 ). Pero puesto que µ−1 λ(ti ) = ti , t y µ−1 λ(t) siempre pertenecen al mismo intervalo [ti−1 , ti ), para algún i = 1, . . . , n. Luego por (2.24) y la forma del conjunto {ti } |x(t) − y(λt)| ≤ |x(t) − x(µ−1 λt)| + |x(µ−1 λt) − y(λt)| < ωx′ (δ) + ǫ + δ 2 /2 < ωx′ (δ) + δ + δ 2 /2 < 2δ + ωx′ (δ). Ahora veamos que kλk◦ ≤ 2δ. Debido a (2.25) y al hecho de que ti − ti−1 > δ, se tiene que |(λti − λti−1 ) − (ti − ti−1 )| < δ 2 < δ(ti − ti−1 ) y por lo tanto, |(λt − λs) − (t − s)| < δ|t − s|, 35 (2.26) para todo t ∈ [ti − ti−1 ) y s ∈ [ti − ti−1 ). Adicionalmente de (2.26) se tiene que λt − λs <δ − 1 t−s y por lo tanto podemos concluir que ln(1 − δ) ≤ ln λt − λs ≤ ln(1 + δ). t−s Sin embargo sabemos que | ln(1 ± u)| ≤ 2|u|, para |u| ≤ 1/2, mediante lo cual concluimos que kλk◦ ≤ 2δ. Teorema 2.3.2. Las métricas d y d◦ son equivalentes. Demostración. Por las proposiciones 2.1.1 y 2.3.1, se tiene que d(xn , x) → 0, implica que d◦ (xn , x) → 0. Para demostrar el recı́proco, vamos a utilizar la siguiente desigualdad |u − 1| ≤ exp (| ln u|) − 1, para todo u > 0. Si tomamos u ≥ 1, se verifica la desigualdad, pues u − 1 = exp (ln u) − 1. Si u < 1, entonces |u − 1| = 1 − u 1−u ≤ u 1 ≤ −1 u 1 −1 ≤ exp ln u ≤ exp (− ln u) − 1 ≤ exp (| ln u|) − 1. 36 (2.27) Por otra parte kλk = sup |λt − t| λt − λ0 = sup t − 1 t−0 0<t≤1 λt − λ0 ≤ sup − 1 . t−0 0<t≤1 Pero por (2.27) y por lo tanto (2.28) 0≤t≤1 (2.29) λt − λ0 λt − λ0 t − 0 − 1 ≤ exp ln t − 0 − 1 λt − λ0 λt − λ0 −1 − 1 ≤ exp sup ln sup t−0 t−0 0<t≤1 0<t≤1 ≤ exp (kλk◦ ) − 1. Luego por (2.29), se sigue que kλk ≤ exp (kλk◦ ) − 1. (2.30) Adicionalmente como conocemos que u ≤ exp (u) − 1, para todo u. (2.31) se tiene que |x − y(λt)| ≤ exp (|x − y(λt)|) − 1. (2.32) Es decir, kx − yλk ≤ exp (kx − yλk) − 1 y gracias a (2.30) se tiene que kx − yλk + kλk ≤ exp (kx − yλk) + exp (kλk◦ ) − 2 ≤ 2 exp (kx − yλk + kλk◦ ) − 2. Finalmente se sigue que d(x, y) ≤ 2(exp (d◦ (x, y)) − 1). En conclusión d◦ (x, y) → 0 implica d(x, y) → 0. 37 (2.33) 2.4 Separabilidad y Completitud de D Al hablar de completitud es muy conveniente tener clara la idea de una sucesión de Cauchy, ya que estas ayudan a definir la completitud. Pero en términos simples, una sucesión es de Cauchy cuando sus elementos están tan cerca unos a otros como nosotros queramos, a partir de un ı́ndice suficientemente grande. De esta manera podemos decir que los espacios métricos son completos cuando las sucesiones convergentes y las sucesiones de Cauchy son las mismas, es decir, cuando el lı́mite de toda sucesión de Cauchy pertenece al espacio métrico. Para demostrar la separabilidad de D nos será de mucha ayuda la siguiente proposición. Recordemos que un espacio es separable si existe un subconjunto denso numerable, en otras palabras, existe una sucesión en D tal que cada subconjunto abierto de D diferente del vacı́o contiene al menos un elemento de esta sucesión. Proposición 2.4.1. Dados 0 = s0 < s1 < · · · < sk = 1, definimos la aplicación φ : [0, 1] → [0, 1], tal que φt = ( si−1 1 para t ∈ [si−1 , si ), i = 1, . . . , k para t = 1. (2.34) Si máx (si − si−1 ) ≤ δ, entonces para todo x ∈ D d(xφ, x) ≤ δ + ωx′ (δ). Demostración. [Billingsley, 1999] Sea ǫ > 0, tomamos un conjunto {tj } σ-disperso tal que verifique ωx [tj−1 , tj ) < ωx′ (δ) + ǫ, para cada j. Notemos además que tj − tj−1 > δ ≥ si − si−1 . Luego tomamos λ ∈ Λ, tal que λ0 = 0 y λtj = si−1 , si tj ∈ [si−1 , si ), i = 1, . . . , k. Adicionalmente λ debe ser de forma lineal entre cada ti . Pero por la forma de λ, se sigue que si tj ∈ [si−1 , si ), entonces λtj ∈ [si−1 , si ). Esto 38 implica que λt y t siempre pertenecen al mismo intervalo y por lo tanto kλk = sup |λt − t| ≤ δ. t∈[0,1] Ahora demostremos que |x(φt) − x(t)| ≤ ωx′ (δ) + ǫ. Sin embargo para t = 0 y t = 1, se verifica inmediatamente. Sea 0 < t < 1, entonces basta demostrar que φt y λ−1 t pertenecen al mismo intervalo [tj−1 , tj ). Pero para esto vamos a probar que φt < tj ⇐⇒ λ−1 t < tj , ya que si esto se verifica entonces también se tiene que φt ≥ tj ⇐⇒ λ−1 t ≥ tj . Sea tj ∈ (si−1 , si ] y supongamos que φt < tj , entonces por hipótesis φt < si pero notemos que t ≥ si implica φt ≥ si lo que es una contradicción, por lo que t < si . Ahora suponemos que t < si , pero por definición φt ≤ t y por tanto φt < si . Además por la forma de la función φ se tiene que φt = sr para algún r = 1, . . . , i − 1. De donde se concluye que φt ≤ si−1 Luego por hipótesis se tiene que φt < tj . Es decir, hemos demostrado que φt < tj ⇐⇒ t < si . (2.35) Pero como λtj = si , (2.35) es equivalente a t < λtj ⇐⇒ λ−1 t < tj , y de esta manera se concluye con la demostración. Teorema 2.4.2. El espacio D es separable con la métricas d y d◦ , y es completo con 39 la métrica d◦ . Demostración. [Billingsley, 1999] (i) Separabilidad. Debido a que la separabilidad es una propiedad topológica y por el teorema 2.3.2 vamos a trabajar con d. Sea k ∈ N, definimos si = 1 , k i = 1, . . . , k y Bk como el conjunto de todas las funciones que tienen valor (racional) constante sobre cada [si−1 , si ) y para t = 1. Entonces B= [ Bk k∈N es un conjunto numerable. Ahora es suficiente probar que dados ǫ > 0 y x ∈ D, existe al menos un y ∈ B, tal que d(x, y) < 2ǫ. Para esto tomamos k tal que k −1 < ǫ/2 y ωx′ (k −1 ) < ǫ/2, y gracias a la proposición 2.4.1 d(xφ, x) ≤ ǫ. Sin embargo, siempre podemos encontrar un y ∈ Bk tal que verifique d(xφ, y) < ǫ, luego si aplicamos la desigualdad triangular a d(x, y), se tiene que d(x, y) < 2ǫ. (ii) Completitud. Sea {xn } una sucesión de Cauchy, entonces existe una subsucesión {xnk }, la cual llamaremos {yk } tal que d◦ (yk , yk+1 ) < 1 . 2k Entonces existe una sucesión {µk } en Λ tal que kµk k◦ < 1 y sup |yk (t) − yk+1 (µk t)| = sup |yk (µ−1 k t) − yk+1 (t)| < t∈[0,1] t∈[0,1] 40 (2.36) 2k+1 1 2k+1 . (2.37) Por otra parte, si designamos a la composición de aplicaciones µk,m = µk µk+1 · · · µk+m , y por la siguiente desigualdad exp (u) − 1 ≤ 2u, 0 ≤ u ≤ 1/2, se tiene que kµk,m+1 − µk,m k = = sup |µk,m+1 t − µk,m t| t∈[0,1] sup |µk+m+1 t − t| t∈[0,1] ≤ exp(kµk+m+1 k◦ ) − 1 ≤ 2kµk+m+1 k◦ 1 ≤ k+m . 2 Esto implica que para cada k fijo, la sucesión {uk,m } es de Cauchy. Luego definimos λk = lı́m µk,m , m→∞ y veamos que λk ∈ Λ. Para esto necesitamos que λk sea creciente, sin embargo basta probar que kλk k◦ < ∞, ya que si kλk k◦ = ∞, entonces existen s < t, tal que λt − λs ln = ∞, t−s es decir, λt = λs. Sea s < t, entonces µk,m t − µk,m s ≤ kµk,m k◦ ln t−s = kµk µk+1 · · · µk+m k◦ ≤ kµk k◦ kµk+1 k◦ · · · kµk+m k◦ 1 1 1 ≤ k + k+1 + · · · + k+m 2 2 2 1 ≤ k−1 2 y si hacemos que m → ∞, se sigue que kλk k◦ ≤ 41 1 . 2k−1 Y por lo tanto si k → ∞, entonces kλk k◦ → 0 (2.38) Notemos además que por la forma que tienen las λk λk = λk+1 µk . Luego por (2.37) se tiene que sup |yk (λk t) − yk+1 (λk+1 t)| = t∈[0,1] = sup |yk (λk+1 µk t) − yk+1 (λk+1 t)| t∈[0,1] sup |yk (µk t) − yk+1 (t)| t∈[0,1] ≤ 1 2k+1 , es decir, la sucesión {yk (λk )} es de Cauchy y pertenece a D. Y por lo tanto existe una función y tal que si k → ∞, entonces kyk λk − yk → 0. Ahora veamos que lı́mδ→0 ωy′ (δ) = 0. Sea ǫ > 0, entonces existe una colección {ti } δ-disperso tal que para todo k ∈ N, ωyk (λk ) [ti−1 , ti ) < ǫ. Por otra parte para todo i = 0, . . . , n, ωy [ti−1 , ti ) = sup t,s∈[ti−1 ,ti ) ≤ t,s∈[ti−1 ,ti ) ≤ t,s∈[ti−1 ,ti ) sup sup + |y(t) − y(s)| (|y(t) − yk (λk t)| + |yk (λk t) − yk (λk s)| + |yk (λk s) − y(s)|) |y(t) − yk (λk t)| + sup t,s∈[ti−1 ,ti ) ≤ sup t,s∈[ti−1 ,ti ) sup t,s∈[ti−1 ,ti ) |yk (λk t) − yk (λk s)| |yk (λk s) − y(s)| |y(t) − yk (λk t)| + sup t,s∈[ti−1 ,ti ) |yk (λk s) − y(s)| + ǫ. y si tomamos el lı́mite cuando k → ∞, se tiene que ωy [ti−1 , ti ) ≤ ǫ, 42 i = 0, . . . , n. Es decir, máx ωy [ti−1 , ti ) ≤ ǫ, i=0,...,n. y por lo tanto ı́nf máx ωy [ti−1 , ti ) ≤ ǫ, δ i=0,...,n. Finalmente se tiene que y ∈ D y por (2.38) se sigue que si k → ∞, entonces d◦ (yn , y) → 0. 2.5 Compacidad de D Cuando hablamos de conjuntos compactos es difı́cil tener una idea acerca de cómo son, no obstante un subconjunto compacto de un espacio métrico se puede entender como una generalización de un conjunto finito. Para caracterizar los conjuntos compactos en D, vamos a formular un teorema de forma análoga al teorema de Arzelà-Ascoli. Sin embargo antes veamos algunas definiciones y resultados importantes. Definición 2.5.1 (ǫ-red). Sea A ⊆ D, decimos que un conjunto {xk } ⊆ D es una ǫ-red de A, si para todo x ∈ A, existe un k tal que verifica d◦ (x, xk ) < ǫ. Definición 2.5.2 (Conjunto totalmente acotado). Decimos que un conjunto A ⊆ D es totalmente acotado si para todo ǫ > 0, existe una ǫ-red finita de A. Definición 2.5.3. Decimos que un conjunto A ⊆ D es relativamente compacto si Ā es compacto. Nota 2.5.1. Ā representa la clausura de A. Teorema 2.5.1. Las siguientes condiciones son equivalentes: (i) A es relativamente compacto. (ii) A es totalmente acotado y Ā es completo. (iii) Toda sucesión en A tiene una subsucesión convergente (el lı́mite necesariamente pertenece a Ā). 43 Para ver la demostración de este teorema, revisar [Billingsley, 1999]. Definición 2.5.4 (Semi-continuidad superior). Una función f se dice semi-continua superiormente en x ∈ D, si para todo ǫ > 0, existe un δ > 0 tal que si d(x, y) < δ, entonces f (y) < f (x) + ǫ. Por la definición que acabamos de presentar se puede concluir directamente que f es semi-continua superiormente sobre todo D si y solo si, para todo ǫ > 0 los conjuntos {x ∈ D : f (x) < ǫ} son abiertos. Proposición 2.5.2. Sea δ > 0, entonces ωx′ (δ) es semi-continua superiormente en x. Demostración. [Billingsley, 1999] Sean x ∈ D, δ > 0, ǫ > 0 y {ti } un conjunto δ-disperso tal que ωx [ti−1 , ti ) < ωx′ (δ) + ǫ/3 para cada i. Luego podemos escoger α > 0 suficientemente pequeño tal que, α < ǫ/3 y mı́n(ti − ti−1 ) > δ + 2α. (2.39) Si suponemos que d(x, y) < δ, entonces existe λ ∈ Λ tal que ky − xλk < δ y kλ−1 − Ik < δ. Si tomamos si = λ−1 ti , entonces (si − ti ) − (si−1 − ti−1 ) > −2α y por (2.39) si − si−1 > ti − ti−1 − 2α > δ. Por lo tanto si u ∈ [si−1 , si ) y v ∈ [si−1 , si ), entonces λu ∈ [ti−1 , ti ) y λv ∈ [ti−1 , ti ), 44 esto se tiene ya que λsi = ti . Luego como λu y λv pertenecen al mismo intervalo, |y(u) − y(v)| = |y(u) + x(λu) − x(λv) + y(v) − x(λu) + x(λv)| < |x(λu) − x(λv)| + 2α < ωx′ (δ) + ǫ/3 + 2α < ωx′ (δ) + ǫ. Pero esto implica que para todo i sup u,v∈[ti−1 ,ti ) |y(u) − y(v)| < ωx′ (δ) + ǫ, de donde se tiene que máx ωy [ti−1 , ti ) < ωx′ (δ) + ǫ. i De esta manera si d(x, y) < α, entonces tenemos que ωy′ (δ) < ωx′ (δ) + ǫ . El siguiente teorema es fundamental para la caracterización de los conjuntos compactos en D. Teorema 2.5.3 (Dini). Sea {fn } una sucesión monótona decreciente de funciones positivas. Si fn (x) → 0 para cada x ∈ D, y si para todo n ∈ N, fn es semi-continua superiormente, entonces fn converge uniformemente a 0 sobre todo conjunto compacto. Demostración. [Billingsley, 1999] Para cada ǫ > 0, definimos los siguientes conjuntos Gn = {x ∈ D : fn (x) < ǫ}. Pero como las fn son semi-continuas superiormente, entonces los Gn son abiertos y además forman un recubrimiento de D. Esto se tiene gracias a que fn (x) → 0 para todo x ∈ D, ya que existe un n ∈ N tal que x ∈ Gn . Notemos además que Gn ⊂ Gn+1 , para todo n ∈ N. Por otra parte sea A ⊆ D un conjunto compacto, entonces existe un n0 ∈ N tal que Ā ⊆ Gn0 . 45 Por lo tanto para cada x ∈ A y n > n0 fn (x) < ǫ, es decir, se tiene la convergencia uniforme. 2.5.1 Una caracterización de conjuntos relativamente compactos en D Teorema 2.5.4. Un conjunto A ⊆ D es relativamente compacto en la topologı́a de Skorohod si y solo si verifica sup kxk < ∞ (2.40) x∈A y lı́m sup ωx′ (δ) = 0. δ→0 x∈A (2.41) Demostración. [Billingsley, 1999] (i) Supongamos que A es relativamente compacto, entonces por definición Ā es compacto. De donde se sigue que Ā es acotado con la métrica d, es decir, para todo x∈Ayy∈A d(x, y) < ∞. En particular si tomamos y = 0, entonces d(x, 0) < ∞, es decir, kxk = sup |x(t)| t∈[0,1] < ∞. pero esto se tiene para todo x ∈ A, por lo tanto se verifica (2.40). Además por la proposición 2.1.1, δ → 0 implica ωx′ (δ) → 0. De donde se tiene que ωx′ (δ) → 0, para todo x ∈ A. Sin embargo, si aplicamos el teorema 2.5.3 se tiene la convergencia uniforme sobre todo los conjuntos compactos, en particular para A, puesto que ωx′ (δ) es semi-continua superior para todo x ∈ A. 46 (ii) Sean µ = supx∈A kxk, ǫ > 0 y H una ǫ-red finita de [−µ, µ]. Tomamos δ < ǫ/2 tal que para todo x ∈ A ωx′ (δ) < ǫ/2. Luego sean 0 = s0 < s1 < · · · < sk = 1, tal que máx (si − si−1 ) ≤ δ. Además definimos la aplicación φ : D → D tal que verifique (2.34). Entonces por la proposición 2.4.1, d(φx, x) ≤ ǫ para todo x ∈ A. Por otro lado si definidos B como un conjunto finito de los y tales que si t ∈ [si − si−1 ) entonces y(t) = r para algún r ∈ H, i = 1, . . . , k. Sea t ∈ [si − si−1 ), entonces existe un r ∈ H tal que |r − x(si )| < ǫ, i = 1, . . . , k. Pero como φx(t) = x(si ) cuando t ∈ [si − si−1 ), entonces existe un y ∈ B tal que d(φx, y) < ǫ. Finalmente, gracias a la desigualdad triangular de d d(x, y) < 2ǫ, es decir, se concluye que B es una 2ǫ-red finita de A. Por lo tanto A es un conjunto totalmente acotado con la métrica d. Pero como D no es completo con respecto a d, necesitamos demostrar que A es totalmente acotado con la métrica d◦ . Sean ǫ > 0 y 0 < δ ≤ 1/2, tal que para todo x ∈ A 4δ + ωx′ (δ) < ǫ. Pero como A es totalmente acotado con respecto a d, existe una δ 2 ǫ-red finita B ⊆ D. Si tomamos x ∈ A, existe un y ∈ B tal que d(x, y) < δ 2 . Luego por la proposición 2.3.1, d(x, y) < ǫ, es decir, A es totalmente acotado con respecto a la métrica d◦ . 47 Existe una segunda caracterización de los conjuntos relativamente compactos, basada en el módulo de continuidad ωx′′ (δ). Teorema 2.5.5. Un conjunto A es relativamente compacto en la topologı́a de Skorohod si y solo si verifica (2.40) y lı́m sup ωx′′ (δ) = 0, δ→0 x∈A lı́m sup |x(δ) − x(0)| = 0, δ→0 x∈A lı́m sup |x(1−) − x(1 − δ)| = 0. δ→0 x∈A La demostración de este teorema se la puede hallar en [Billingsley, 1999]. 48 (2.42) Capı́tulo 3 Convergencia débil y densidad del espacio D Al igual que en el capı́tulo anterior, los principales referencias fueron los textos [Billingsley, 1995], [Billingsley, 1999] y [Kumaresan, 2005]. 3.1 Definiciones básicas La convergencia débil o convergencia en distribución es un tipo de convergencia especial, puesto que es la única que depende de las distribuciones de sus variables aleatorias. Es importante mencionar que este tipo de convergencia es la que se usa en el teorema de lı́mite central, resultado ampliamente utilizado en la práctica. Sean Pn y P medidas de probabilidad sobre (Ω, E ). Definición 3.1.1. Si para toda función acotada y continua f de Ω en R Z Ω f dPn → Z f dP, Ω n→∞ decimos que Pn converge débilmente a P. Usaremos la siguiente notación para decir que Pn converge débilmente a P, Pn ⇒ P, n→∞ Dados dos espacios medibles (Ω, E ) y (Ω′ , E ′ ), y h una función E /E ′ -medible. Denotamos el conjunto de todas las discontinuidades de h, por Bh . Teorema 3.1.1. Si Pn ⇒ P y P(Bh ) = 0, entonces Pn h−1 ⇒ Ph−1 , 49 n → ∞. Adicionalmente si X una variable aleatoria de Ω y tiene distribución P, entonces h(x) tiene distribución Ph−1 . De esta manera por el teorema 3.1.1 se tiene el siguiente corolario: Corolario. Sean Xn y X variables aleatorias de Ω. Si Xn ⇒ X y P(Bh ) = 0 entonces h(Xn ) ⇒ h(X), n → ∞. Para no adentrarnos en otros temas, las demostraciones del último teorema y corolario se han omitido. Sin embargo si se desea revisar en detalle estos resultados se puede consultar en [Billingsley, 1999]. 3.2 Conjuntos de dimensión finita Si tomamos 0 ≤ t1 ≤ · · · ≤ tk ≤ 1, definimos la proyección natural πt1 ···tk : D −→ Rk x 7−→ πt1 ···tk (x). donde, πt1 ···tk (x) = (x(t1 ), . . . , x(tk )). Proposición 3.2.1. π0 y π1 son funciones continuas. Demostración. Sean x ∈ D, y ∈ D y ǫ > 0. Si tomamos además δ < ǫ y suponemos que d(x, y) < δ. Se tiene entonces que |π0 (x) − π0 (y)| = |x(0) − y(0)| = |x(0) − y(λ0)| ≤ sup |x(t) − y(λt)| t∈[0,1] ≤ d(x, y) < ǫ. De forma análoga se demuestra para π1 , por lo tanto π0 y π1 son funciones continuas. 50 Para el caso en que 0 < t < 1 las proyecciones serán continuas dependiendo del tipo de argumento (función) que utilicemos para evaluarlas, como se indica en el siguiente teorema. Teorema 3.2.2. Sean x ∈ D y 0 < t < 1, entonces πt es continua en x si y solo si x es continua en t. Demostración. [Billingsley, 1999] (i) Supongamos que x ∈ D es continua en t y que xn → x en la topologı́a de Skorohod. Luego por la proposición 2.2.1 se sigue que xn (t) → x(t). Pero como x(t) = πt (x) se demuestra que πt es continua en x. (ii) Supongamos ahora que x ∈ D es discontinua en t. Si tomamos las aplicaciones λn ∈ Λ tal que λn t = t − 1/n y es lineal sobre los intervalos [0, t] y [t, 1], para todo n, podemos llamar xn (t) = x(λn t). Pero si hacemos que n → ∞, entonces se tiene que xn → x en la topologı́a de Skorohod. Sin embargo como x(t−) 6= x(t), se tiene que xn (t) 6→ x(t). Finalmente se concluye que πt es discontinua en x. Teorema 3.2.3. Cada πt es D/B(R)-medible y cada πt1 ···tk es D/B(Rk )-medible Demostración. 51 [Billingsley, 1999] Como π0 y π1 son continuas, tomamos 0 < t < 1. Definimos la función hǫ : D −→ R x 7−→ hǫ (x), donde, 1 hǫ (x) = ǫ Z t+ǫ x(s)ds. t Si suponemos que xn → x en la topologı́a de Skorohod, entonces por la proposición 2.2.1 xn (r) → x(r) para todos los puntos r ∈ [0, 1] en los que x es continua. Sin embargo el conjunto de todas las discontinuidades es de Lebesgue-medida nula, ya que x tiene un número finito de puntos de discontinuidad. Por otra parte xn es uniformemente acotada, ya que para todo n ∈ N kxn k ≤ 1. Y por lo tanto gracias al Teorema de Convergencia Dominada se sigue que lı́m hǫ (xn ) = hǫ (x), n→∞ es decir, hǫ (·) es continua en la topologı́a de Skorohod. Luego como x es continua por derecha y si hacemos que ǫ → 0 se tiene que hǫ (x) → x(t) y como πt (x) = x(t), se tiene por el teorema 1.7.2 que πt es D/B(R)-medible. Finalmente πt1 ···tk es medible en cada componente y por lo tanto es D/B(Rk )-medible. A continuación tomamos T ⊆ [0, 1] y definimos sobre D la clase Df (T ) de todos los conjuntos finitos de la forma πt−1 H, 1 ···tk donde k es arbitrario, H ∈ B(Rk ) y ti ∈ T , i = 1, . . . , k. Un resultado muy importante para nuestro estudio se presenta a continuación, sin embargo se ha omitido su demostración, la cual se puede encontrar en [Billingsley, 1999]. 52 Teorema 3.2.4. Si 1 ∈ T y T es denso sobre [0, 1], entonces σ(Df (T )) = D, es decir, Df (T ) es una clase separadora (Anexos definición 2). 3.3 Funciones aleatorias en D Si (Ω, E , P) es un espacio de probabilidad y X una función de Ω en D, entonces para cada ω ∈ Ω, X(ω) ∈ D. Y cuando evaluemos en t ∈ [0, 1], usaremos la siguiente notación: Xt (ω) o X(ω, t). Por otra parte si fijamos t, definimos Xt = X(t) como: Xt : Ω −→ R ω 7−→ Xt (ω). Sin embargo notemos que la función Xt es en realidad la composición πt X. De esta manera podemos generalizar a Rk , (Xt1 , . . . , Xtk ) : Ω −→ Rk ω 7−→ (Xt1 (ω), . . . , Xtk (ω)) = πt1 ···tk (X(ω)). Proposición 3.3.1. Sea (Ω, E , P) un espacio de probabilidad. Una función X de Ω en D es aleatoria si y solo si cada Xt (ω) define una variable aleatoria. Demostración. Si suponemos que X es una función aleatoria, es decir, es E /D-medible, entonces la función πt1 ···tk X es E /B(Rk )-medible. Por lo tanto (Xt1 , . . . , Xtk ) es un vector aleatorio. Lo cual implica que Xti es una variable aleatoria, para i = 1, . . . , k. Por otro lado, los conjuntos finitos de D tienen la forma A = πt1 ···tk H, con H ∈ B(Rk ). Y como πt1 ···tk X es E /B(Rk )-medible, entonces X −1 A = (πt1 ···tk X)−1 H ∈ E . 53 Pero por el teorema 3.2.4 Df (T ) genera D, por lo tanto X es E /D-medible. De esta manera podemos asumir que cada proyección πt : D −→ R x 7−→ πt (x) = x(t), es una variable aleatoria sobre (D, D) y la denotaremos por xt . Adicionalmente si P es una medida de probabilidad sobre (D, D) y si pensamos en t como el tiempo, entonces n xt ∈ D : 0 ≤ t ≤ 1 o es un proceso estocástico y las xt se conocen como funciones coordenadas. Para referirnos a la distribución de xt sobre P, utilizar P{xt ∈ H} y Z en lugar de xt dP P{x ∈ D : xt ∈ H} y 3.4 Z xt P(dx). D Distribuciones de dimensión finita Para cada medida de probabilidad P de (D, D), usaremos la notación TP para referirnos al conjunto de t ∈ [0, 1] tal que la proyección πt es continua, a excepción de puntos que formen un conjunto de P-medida (o medida) nula. Por el teorema 3.2.2, podemos concluir que para t ∈ TP si y solo si P(Jt ) = 0, donde n o Jt = x ∈ D : x(t) 6= x(t−) . 54 Es importante recalcar que 0 < t < 1, ya que 1 ∈ TP como se muestra en la siguiente proposición, sin embargo si x ∈ D no necesariamente se tiene que x(1) 6= x(1−), ya que x puede ser continua por izquierda en 1. Proposición 3.4.1. Sea P una medida de probabilidad de (D, D). Entonces 0 ∈ TP , 1 ∈ TP y [0, 1] \ TP es a lo mucho un conjunto contable. Demostración. [Billingsley, 1999] Por la proposición 3.2.1 se tiene que 0 ∈ TP y 1 ∈ TP . Ahora sea ǫ > 0, entonces definimos el siguiente conjunto n o Jt (ǫ) = x ∈ D : |x(t) − x(t−)| > ǫ . Ahora si fijamos ǫ > 0 y δ > 0, entonces máximo para un número finito de t ∈ [0, 1], se verifica la siguiente desigualdad: P(Jt (ǫ)) ≥ δ. Ya que si para todo tn ∈ [0, 1] P(Jtn (ǫ)) ≥ δ, entonces P(lı́m sup Jtn (ǫ)) ≥ lı́m sup P(Jtn (ǫ)) n→∞ n→∞ ≥ δ, sin embargo esto contradice la proposición 2.1.1. Puesto que, si x ∈ lı́m sup Jtn (ǫ), n→∞ entonces para todo n ∈ N existe un k ∈ N tal que |x(tk ) − x(tk −)| > ǫ, 55 para todo k > n. Por otro lado si ǫ ↓ 0, entonces P(Jtn (ǫ)) ↑ P(Jt ) y por lo tanto [n n t ∈ [0, 1] : P(Jtn (1/n)) > 0 o = n t ∈ [0, 1] : P(Jt ) > 0 = [0, 1] \ TP . o Pero si t1 , . . . , tk pertenecen a TP , entonces πt1 ···tk es continua sobre un conjunto de P-medida 1, y por tanto se tiene la siguiente proposición. Sean {Pn } y P medidas de probabilidad sobre (D, D). Proposición 3.4.2. Si Pn ⇒ P y t1 , . . . , tk pertenecen a TP , entonces ⇒ Pπt−1 . Pn πt−1 1 ···tk 1 ···tk Demostración. El resultado se obtiene directamente aplicando el teorema 3.1.1. 3.5 Densidad Para tener una idea intuitiva de lo que es la densidad de una medida de probabilidad o variable aleatoria, se la puede ver como la acotación de una sucesión de números reales. Definición 3.5.1. Una medida de probabilidad P sobre el espacio medible (D, D) se dice densa, si para todo ǫ > 0, existe un conjunto compacto K ⊆ D, tal que P{K} > 1 − ǫ. Puesto que nuestro espacio medible (D, D) es separable y completo se puede aplicar el siguiente teorema para un número finito de medidas de probabilidad, se puede ver su demostración en [Billingsley, 1999] Teorema 3.5.1. Sea (Ω, σ(Ω)) un espacio medible. Si Ω es un espacio separable y completo entonces cada medida de probabilidad sobre (Ω, σ(Ω)) es densa. Al existir una relación entre la compacidad de conjuntos y la densidad de medidas de probabilidad es necesario ver que de qué forma es ésta. Para esto formulamos el siguiente teorema. 56 Teorema 3.5.2. La sucesión {Pn } es densa si y solo si se verifican las siguientes condiciones: lı́m lı́m sup Pn {x ∈ D : kxk ≥ a} = 0 (3.1) a→∞ n→∞ y para todo ǫ > 0 lı́m lı́m sup Pn {x ∈ D : ωx′ (δ) ≥ ǫ} = 0 δ→0 (3.2) n→∞ Demostración. Suponemos que {Pn } es densa y β > 0, escogemos un compacto K ⊆ D tal que Pn {K} > 1 − β para todo n ∈ N. Luego por el teorema 2.5.4 sup kxk < ∞, x∈K lo cual implica que existe a0 ∈ R suficientemente grande tal que K ⊆ {x ∈ D : kxk < a0 }. Por lo tanto para todo n ∈ N Pn {x ∈ D : kxk < a0 } > 1 − β, es decir, Pn {x ∈ D : kxk ≥ a0 } ≤ β. Luego se tiene que lı́m sup Pn {x ∈ D : kxk ≥ a0 } ≤ β. n→∞ Sin embargo esto se verifica para todo a > a0 , ya que {x ∈ D : kxk ≥ a} ⊆ {x ∈ D : kxk ≥ a0 } y por tanto se concluye (3.1). Por otra parte si ǫ > 0 y por el teorema 2.5.4, existe δ0 > 0 suficientemente pequeño tal que K ⊆ {x ∈ D : ωx′ (δ0 ) < ǫ}. Y si procedemos de forma análoga a la primera parte se tiene lı́m sup Pn {x ∈ D : ωx′ (δ0 ) ≥ ǫ}. n→∞ 57 Sin embargo si δ < δ0 , entonces ωx′ (δ) ≤ ωx′ (δ0 ) y por lo tanto {x ∈ D : ωx′ (δ) ≥ ǫ} ⊆ {x ∈ D : ωx′ (δ0 ) ≥ ǫ}. De esta manera se concluye (3.2). Para demostrar el recı́proco, suponemos que la sucesión {Pn } satisface (3.1) y (3.2), es decir, para todo β > 0, existen a0 ∈ R y n0 ∈ N tal que Pn {x ∈ D : kxk ≥ a} ≤ β, (3.3) para todo a > a0 y n > n0 . De igual manera para todo β > 0 y ǫ > 0, existen δ0 ∈ [0, 1] y n0 ∈ N tal que Pn {x ∈ D : ωx′ (δ) ≥ ǫ} ≤ β, (3.4) para todo δ < δ0 y n > n0 . Pero por el teorema 3.5.1 sabemos que para todo s finito, la medidas de probabilidad P1 , . . . , Ps sobre (D, D) son densas. Y por la primera parte verifican (3.1) y (3.2). Por lo tanto sin pérdida de generalidad podemos asumir que n0 = 1 en (3.3) y (3.4). Si tomamos β > 0, entonces escogemos a ∈ R suficientemente grande tal que si B = {x ∈ D : kxk < a}, entonces Pn {B} > 1 − β para todo n ≥ 1. De igual manera escogemos δk > 0 tal que si Bk = {x ∈ D : ωx′ (δk ) < 1/k}, entonces Pn {Bk } > 1 − β/2k para todo n ≥ 1. Finalmente si denotamos A=B∩ \ n Bk y tomamos K = Ā, se tiene que Pn {K} > 1 − 2β. 58 En efecto: Pn {K} ≥ Pn {A} = 1 − Pn {Ac } c ≥ 1 − Pn {B } − Pn ≥ 1− ∞ X β 2k k=0 ! ( [ k∈N Bkc ) = 1 − 2β. Por otro lado por el teorema 2.5.4 K es compacto ya que A satisface (2.40) y (2.41), y por tanto la sucesión {Pn } es densa. Este resultado muestra claramente un nexo entre la primera caracterización de los conjuntos compactos en D y la densidad de la medidas de probabilidad sobre nuestro espacio medible (D, D). Al igual que en el teorema 3.5.2, vamos a formular otro teorema, pero esta vez que relacione la densidad de la medidas de probabilidad con la segunda caracterización de los conjuntos compactos en D. Teorema 3.5.3. La sucesión {Pn } es densa si y solo si se verifican (3.1) y para todo ǫ > 0 y β > 0, existen δ0 ∈ (0, 1) y n0 ∈ N tal que P {x ∈ D : ωx′′ (δ) ≥ ǫ} ≤ β, n Pn {x ∈ D : |x(δ) − x(0)| ≥ ǫ} ≤ β, Pn {x ∈ D : |x(1−) − x(1 − δ)| ≥ ǫ} ≤ β. (3.5) para todo n > n0 y δ < δ0 . 3.6 Convergencia débil Para esta sección vamos a necesitar de un resultado muy importante como es el teorema de Prohorov, el cual no va a ser demostrado, sin embargo si se desea revisar la demostración se la puede encontrar en [Shiryaev, 1996]. Definición 3.6.1 (Medidas relativamente compactas). Sea Π una familia de medidas de probabilidad sobre un espacio medible (Ω, E ). Decimos que Π es relativamente compacta si toda sucesión de elementos de Π contiene una subsucesión débilmente convergente. 59 Teorema 3.6.1 (Prohorov). Sea Π una familia de medidas de probabilidad sobre un espacio medible (Ω, E ). (i) Si Π es densa, entonces es relativamente compacta. (ii) Si Ω es separable y completo, y Π es relativamente compacta, entonces la familia Π es densa. De la parte (i) del teorema de Prohorov se obtiene el siguiente corolario. Corolario. Si {Pn } es densa y si para toda subsucesión {Pnk } se verifica: Pnk ⇒ P, entonces Pn ⇒ P. Teorema 3.6.2. Si {Pn } es densa y Pn πt−1 ⇒ Pπt−1 1 ···tk 1 ···tk para todo t1 , . . . , tk en TP , entonces Pn ⇒ P. Demostración. [Billingsley, 1999] Sea {Pk } = {Pnk } una subsucesión de {Pn }, tal que converge débilmente a alguna medida de probabilidad Q, es decir, Pk ⇒ Q. Si tomamos t1 , . . . , tm en TQ , entonces πt1 ...tm es continua sobre un conjunto de Qmedida 1. Luego por la proposición 3.4.2 se tiene que Pk πt−1 ⇒ Qπt−1 . 1 ...tm 1 ...tm Por otro lado si t1 , . . . , tm′ pertenecen a TP , entonces por hipótesis ⇒ Pπt−1 . Pk πt−1 1 ...tm′ 1 ...tm′ De donde, si t1 , . . . , tn pertenecen a TP ∩ TQ , entonces Qπt−1 ⇒ Pπt−1 . 1 ...tn 1 ...tn 60 Luego como TP ∩ TQ contienen a 0 y 1, y (TP ∩ TQ )c = TPc ∪ TQc es a lo más numerable, se concluye que TP ∩ TQ es denso en [0, 1] y por el teorema 3.2.4 se tiene que Df (TP ∩ TQ ) es una clase separadora. Finalmente se concluye por el teorema 3 de los anexos que P = Q. Ahora consideremos Xn y X elementos aleatorios de D. Teorema 3.6.3. Suponga que Xn ⇒ X. Entonces P{X ∈ C} = 1 si y solo si j(Xn ) ⇒ 0 Demostración. [Billingsley, 1999] Por el ejemplo 1 sabemos que la función j(·) es continua en la topologı́a de Skorohod y por lo tanto gracias al corolario del teorema 3.1.1 j(Xn ) ⇒ j(X) y por lo tanto j(X) = 0 si y solo si X ∈ C. 61 Capı́tulo 4 Simulación de algunos procesos estocásticos importantes A su vez, para este capı́tulo las referencias fundamentales corresponden a los textos [Grigoriu, 2002], [Lefebvre, 2007], [Protter, 2004], [Ross, 2010] y [Ross, 2013]. 4.1 Proceso Estocástico Los procesos estocásticos son una herramienta muy importante para resolver problemas de diferentes ramas, como son: la ingenierı́a, la estadı́stica, la genética, entre otros. En palabras simples un proceso estocástico se puede entender como una familia de variables aleatorias que se encuentran indexadas por un parámetro que puede ser: tiempo, altura, peso, etc. Definición 4.1.1 (Proceso estocástico). Un proceso estocástico es una familia de variables aleatorias {Xt , t ≥ 0} definidas sobre un espacio de probabilidad en común (Ω, E , P). Al analizar los procesos estocásticos es fundamental ver el comportamiento de sus incrementos, por lo que son necesarias las siguientes definiciones. Definición 4.1.2 (Incrementos independientes). Decimos que un proceso estocástico {Xt , t ≥ 0} tiene incrementos independientes si para toda colección 0 ≤ t1 < · · · < tn , los incrementos Xti+1 − Xti , i = 1, . . . , n − 1, son variables aleatorias independientes. Además en la práctica muchos procesos estocásticos cumplen la siguiente propiedad. Definición 4.1.3 (Incrementos estacionarios). Decimos que un proceso estocástico {Xt , t ≥ 0} tiene incrementos estacionarios si para todo 0 ≤ s < t, el incremento Xt − Xs tiene la misma ley de distribución que Xt−s 62 Definición 4.1.4. Sean {Xt , t ≥ 0} un proceso estocástico y ω ∈ Ω fijo. Las funciones de [0, ∞) en R tal que t 7−→ Xt (ω) se dicen caminos o trayectorias. La definición que acabamos de presentar nos sirve para poder definir los diferentes tipos de procesos estocásticos, como es el caso de los procesos estocásticos càdlàg. Estos proceso son de gran importancia en nuestro estudio, pues muestran cuál es el nexo que existe entre el espacio de Skorohod D y los procesos estocásticos. Definición 4.1.5 (Proceso estocástico càdlàg). Un proceso estocástico {Xt , t ≥ 0} se dice càdlàg si sus caminos son elementos de D. Procediendo de la misma manera definimos los procesos estocásticos continuos en base al espacio que pertenecen sus caminos, es decir, C. Definición 4.1.6 (Proceso estocástico continuo). Un proceso estocástico {Xt , t ≥ 0} se dice continuo si sus caminos son elementos de C. A continuación vamos a revisar y simular las principales caracterı́sticas de tres tipos de procesos estocásticos como son: el proceso de Poisson, el proceso de Wiener y el proceso de Lévy que, como veremos más adelante, están muy relacionados. 4.2 Proceso de Poisson El proceso de Poisson ha sido muy importante en la modelización estocástica, además de generar muchas aplicaciones en las teorı́as: de la confiabilidad, de la renovación, de colas, entre otros. Nuestro estudio en esta sección va a estar dirigido a los siguientes tipos de procesos de Poisson: • Proceso de Poisson homogéneo • Proceso de Poisson no homogéneo • Proceso de Poisson compuesto. Puesto que para definir los diferentes procesos de Poisson utilizaremos los procesos de conteo, es necesaria la siguiente definición. Definición 4.2.1 (Proceso de conteo). Un proceso estocástico N = {Nt , t ≥ 0} se dice proceso de conteo si Nt representa el número de eventos que han ocurrido hasta el tiempo t. 63 A partir de aquı́ utilizaremos la notación {ξn }n≥1 para representar los tiempos entre cada evento, es decir, ξm es el tiempo que transcurrió entre la ocurrencia del evento (m − 1)−ésimo y del evento m−ésimo. Asumiendo que S0 = 0, Sn = n X ξi , i=1 n≥1 representa el tiempo total hasta que se produzca u ocurra el evento n−ésimo. Nota 4.2.1. Decimos que el proceso de conteo N no tiene explosiones, si sup Sn = ∞ c.s. n≥0 Definición 4.2.2 (Proceso de Poisson homogéneo). Un proceso estocástico {Nt , t ≥ 0} se dice proceso de Poisson de parámetro λ si se verifican las siguientes condiciones: (i) N0 = 0 c.s; (ii) sus incrementos son independientes; (iii) para todo 0 ≤ s < t, el incremento Nt − Ns tiene distribución de Poisson con parámetro λ(t − s) > 0, es decir, λk (t − s)k e−λ(t−s) , P Nt − Ns = k = k! k = 0, 1, 2, . . . Nota 4.2.2. El literal (iii) indica que el proceso tiene incrementos estacionarios. Nota 4.2.3. Las variables aleatorias {ξn }n≥1 asociadas a este proceso de Poisson siguen una distribución exponencial de parámetro λ. Algunos ejemplos de este tipo de proceso son: a) El número de llamadas recibidas en un “Call Center” durante cierto perı́odo de tiempo b) El número de llegadas a un restaurante durante un hora especı́fica. La media, la varianza, la covarianza y la función caracterı́stica de un proceso de Poisson homogéneo {Nt , t ≥ 0} con parámetro λ son: • E[Nt ] = λt, • Var[Nt ] = λt, • Cov[Ns , Nt ] = λ mı́n (s, t), 64 • ϕ(u; t) = E[eiuNt ] = exp[−λt(1 − eiu )]. 0 1 2 N(t) 3 4 5 El siguiente gráfico muestra una trayectoria de un proceso de Poisson con parámetro λ = 4, junto con el código utilizado, el cuál fue desarrollado en el entorno de programación R. Este código permite simular un proceso de Poisson para cualquier λ > 0 y cualquier intervalo [0, T ] ⊆ R. 0.0 0.2 0.4 0.6 0.8 1.0 t Figura 4.1: Trayectoria de un proceso de Poisson homogéneo con parámetro λ = 4 sobre el intervalo [0, 1]. Código 4.1: Proceso de Poisson homogéneo. p o i s h<−function (Tmax=1,N=100 , lambda=4){ set . s e e d ( 4 7 ) Nt<−numeric ( 0 ) t<−seq ( 0 ,Tmax , length=N) x<−rexp ( 1 , lambda ) t k<−x while (max( x )<Tmax) { t k<−c ( t k , rexp ( 1 , lambda ) ) x<−cumsum( t k ) } f or ( j i n 1 :N) { Nt [ j ]<−max( c ( 0 , which ( x<t [ j ] ) ) ) } Nt<−c ( 0 , Nt ) return ( l i s t ( ’ Tiempos de l l e g a d a ’=x , ’ T o t a l de l l e g a d a s ’=max( Nt ) , ’ G r á f i c o ’=plot ( s t e p f u n ( t , Nt ) , v e r t i c a l s=T, do . points=F , main=”” , x l a b=” t ” , y l a b= ’N( t ) ’ ) ) ) } 65 Mediante la siguiente tabla se presentan los tiempos de llegada o saltos que aparecen en la figura 4.1. Tabla 4.1: Tiempos llegada de un proceso de Poisson homogéneo con parámetro λ = 4 sobre el intervalo [0, 1]. Llegada No (personas) Tiempo de llegada (horas) 1 0,06 2 0,1 3 0,2 4 0,51 5 0,78 Por la forma en que está escrito el código 4.1, se puede simular el proceso de Poisson homogéneo con un parámetro diferente y también sobre el intervalo [0, T ] que se desee. Además, con pequeñas modificaciones del código se pueden simular tiempos de parada relacionados con este proceso, por ejemplo T = máx{Sn : Sn ≤ 3}. Definición 4.2.3 (Proceso de Poisson no homogéneo). Un proceso estocástico {Nt , t ≥ 0} se dice proceso de Poisson no homogéneo de parámetro la función λ(t), t > 0 si se verifican las siguientes condiciones: (i) N0 = 0 c.s; (ii) sus incrementos son independientes; (iii) para todo 0 ≤ s < t, el incremento Xt − Xs tiene distribución de Poisson con Rt parámetro s λ(u)du > 0, es decir, P Nt − Ns = k = ( Rt s λ(u)du)k − R t λ(u)du e s , k! k = 0, 1, 2, . . . Como se puede apreciar con estas definiciones, el proceso de Poisson homogéneo es un caso particular del no homogéneo si tomamos λ(t) = λ, donde λ > 0 es un valor constante. Nota 4.2.4. Un proceso de Poisson no homogéneo no posee incrementos estacionarios debido a que λ(t) no necesariamente es constante. 66 0.0 0.5 1.0 1.5 2.0 2.5 3.0 N(t) A continuación presentamos un ejemplo de una trayectoria de un proceso de Poisson no homogéneo con parámetro la función λ(t) = 4t sobre el intervalo [0, 1], y además su código en R, donde la función está parametrizada. 0.0 0.2 0.4 0.6 0.8 1.0 t Figura 4.2: Trayectoria de un proceso de Poisson no homogéneo con parámetro λ(t) = 4t sobre el intervalo [0, 1]. Código 4.2: Proceso de Poisson no homogéneo. p o i s n h<−function (Tmax=1,N=100) { set . s e e d ( 1 0 ) Nt<−numeric ( 0 ) Rt<−numeric ( 0 ) t<−seq ( 0 ,Tmax , length=N) lambda<−max( 4 ∗t ) #lambda<−4 x<−rexp ( 1 , lambda ) t k<−x while (max( x )<Tmax) { t k<−c ( t k , rexp ( 1 , lambda ) ) x<−cumsum( t k ) } x<−x[− length ( x ) ] f t<−4∗x/lambda #f t<−1 y<−runif ( length ( x ) ) i f ( length ( x ) >1){ i f ( length ( f t )==length ( x ) ) { rt<−0 f or ( j i n 1 : length ( f t ) ) { i f ( y [ j ]<= f t [ j ] ) { 67 r<−x [ j ] rt<−c ( rt , r ) } } else { } else { } rt<−rt [ −1] rt<−x } i f ( y<=f t ) { rt<−x } } f or ( j i n 1 : length ( t ) ) { Nt [ j ]<−max( c ( 0 , which ( rt<=t [ j ] ) ) ) } Nt<−c ( 0 , Nt ) return ( l i s t ( ’ Tiempos de l l e g a d a ’=rt , ’ T o t a l de l l e g a d a s ’=max( Nt ) , ’ G r á f i c o ’=plot ( s t e p f u n ( t , Nt ) , v e r t i c a l s=T, do . points=F , main=”” , x l a b =” t ” , y l a b=”N( t ) ” ) ) ) } De forma análoga al proceso de Poisson homogéneo se presentan los tiempos de interarribo o de llegada para el proceso presentado en la figura 4.2. Tabla 4.2: Tiempos llegada de un proceso de Poisson no homogéneo con parámetro λ(t) = 4t sobre el intervalo [0, 1]. Llegada No (personas) Tiempo de llegada (horas) 1 0,42 2 0,82 3 0,87 La esperanza del proceso que hemos presentado es: E[Nt ] = Z t λ(t)dt 0 2 = 2t . Por otra parte para poder apreciar de mejor manera la diferencia entre estos dos procesos, es necesario expandir el intervalo sobre el que estamos trabajando. Por ejemplo si realizamos las mismas simulaciones que se presentaron anteriormente en la figura 4.1 y la figura 4.2 con la única variación que el intervalo para la variable tiempo sea [0, 100], se tienen las siguientes trayectorias. 68 0 5000 15000 N(t) (No homogéneo) 300 100 0 N(t) (Homogéneo) 0 20 40 60 80 0 20 40 t 60 80 t Figura 4.3: Trayectorias de un proceso de Poisson homogéneo con λ(t) = 4 y Poisson no homogéneo con λ(t) = 4t sobre el intervalo [0, 100]. Como se puede ver en la figura 4.3 la trayectoria del proceso de Poisson homogéneo tiende a la función t 7→ 4t, mientras que la del proceso de Poisson no homogéneo tiende a la función t 7→ 2t2 . Sin embargo sabemos que las esperanzas de estos procesos son E(Nt ) = E(Nt ) = Rt 0 λt (homogéneo) λ(t)dt (no homogéneo). Pero en nuestro ejemplo λ = 4 y λ(t) = 4t respectivamente, por lo que E(Nt ) = 4t (homogéneo) E(Nt ) = 2t2 (no homogéneo). De esta manera podemos decir que las simulaciones realizadas verifican la teorı́a estudiada sobre estos procesos. Definición 4.2.4 (Proceso de Poisson compuesto). Un proceso estocástico {Ct , t ≥ 0} se dice proceso de Poisson compuesto si: Ct = Nt X Yi i=1 donde {Nt , t ≥ 0} es un proceso de Poisson y {Yi , i = 1, . . .} son variables aleatorias independientes idénticamente distribuidas. De igual manera, el siguiente gráfico muestra una trayectoria de un proceso de Poisson compuesto donde las variables Yi asociadas siguen un distribución normal N (0, 1), sobre el intervalo [0, 1], para t. 69 0.5 0.0 −1.0 −0.5 C(t) 0.0 0.2 0.4 0.6 0.8 1.0 t Figura 4.4: Trayectoria de un proceso de Poisson compuesto con λ = 5 y Yi ∼ N (0, 1), i = 1, . . . sobre el intervalo [0, 1] El código de este proceso de Poisson también se desarrolló en R y se lo presenta a continuación. Además con ligeras modificaciones se puede simular el proceso con distribuciones de las variables Yi : uniformes, exponenciales, entre otras, es decir, para cualquier ley de distribución que se encuentra en la base de datos del programa R o que se pueda generar manualmente. Código 4.3: Proceso de Poisson compuesto. poiscomp<−function (Tmax=1,N=100 , lambda=5){ set . s e e d ( 2 3 ) Nt<−numeric ( 0 ) Ct<−numeric ( 0 ) t<−seq ( 0 ,Tmax , length=N) x<−rexp ( 1 , lambda ) t k<−x while (max( x )<Tmax) { t k<−c ( t k , rexp ( 1 , lambda ) ) x<−cumsum( t k ) } a<−length ( x )−1 Rc<−rnorm( a ) #Rc<−r u n i f ( a , 1 0 0 , 5 0 0 ) #Rc <− r e x p ( a ) Dc<−cumsum( Rc ) f or ( i i n 1 :N) { Nt [ i ]<−max( c ( 0 , which ( x<t [ i ] ) ) ) } f or ( i i n 1 :N) { 70 i f ( Nt [ i ] >0) { Ct [ i ]<−sum( Rc [ 1 : Nt [ i ] ] ) } else { Ct [ i ]<−0 } } Ct<−c ( 0 , Ct ) return ( l i s t ( ’ Tiempos de l l e g a d a ’=x[−a −1] , ’ T o t a l de l l e g a d a s ’=a , ’ V a l o r e s Yi en cada tiempo ’=Rc , ’ G r á f i c o ’=plot ( s t e p f u n ( t , Ct ) , v e r t i c a l s=T, do . points=F , main=”” , x l a b=” t ” , y l a b=”C( t ) ” ) ) ) } Los tiempos de llegada y el valor que tomó la variable Yi en cada i (tiempo) se presentan en la siguiente tabla. Tabla 4.3: Tiempos llegada de un proceso de Poisson compuesto con λ = 5 y Yi ∼ N (0, 1), i = 1, . . . sobre el intervalo [0, 1]. 4.3 Llegada No (personas) Tiempo de llegada (horas) Valor Yi (N (0, 1)) Valor Yi acumulado 1 0,03 2 0,35 −1,08 −1,08 3 0,48 0,33 4 0,75 5 0,89 −0,6 −0,51 6 0,93 0,24 0,85 0,92 −0,84 −1,11 −0,26 0,66 Proceso de Wiener El proceso de Wiener o movimiento Browniano surge por la necesidad de describir el movimiento (irregular) que poseen las partı́culas dentro de un fluido. Definición 4.3.1 (Proceso de Wiener). Un proceso estocástico {Wt , t ≥ 0} se dice proceso de Wiener (o movimiento Browniano) si se verifican las siguientes condiciones: (i) W0 = 0; (ii) sus incrementos son independientes y estacionarios; (iii) para todo 0 ≤ s < t, el incremento Wt −Ws tiene distribución Normal N (0, σ 2 (t− s)). Nota 4.3.1. Cuando tomamos σ 2 = 1, el proceso W se conoce como proceso de Wiener estándar. 71 Definición 4.3.2. Sean X = {Xt , t ≥ 0} y Y = {Xt , t ≥ 0} dos procesos estocásticos. Decimos que X y Y son modificaciones si para cada t ≥ 0, X t = Yt c.s. Teorema 4.3.1. Sea X = {Xt , t ≥ 0} un proceso de Wiener, entonces existe al menos una modificación Y de X tal que sus caminos son continuos c.s. La demostración de este teorema se la puede encontrar en [Protter, 2004]. Nota 4.3.2. Muchos autores consideran directamente que los procesos de Wiener son continuos por el teorema anterior, aunque también se puede construir como una aplicación de un proceso lineal en base a una marcha aleatoria. Si X = {Xt , t ≥ 0} es un proceso estocástico tal que sus caminos son continuos por la derecha, entonces existe un proceso [X] creciente tal que sus caminos son continuos por la derecha. Además para todo t ≥ 0 y para toda sucesión de particiones {τn } del intervalo [0, t], donde para cada n ∈ N, la partición τn es de la forma: 0 = s0 < s1n < · · · < skn = t y si n → ∞ verifica máx |sj − sj−1 | → 0. j=1n ,...,kn De esta manera se sigue que si n → ∞, entonces se tiene la siguiente convergencia en probabilidad kn X (Xsj − Xsj−1 )2 → [X]t . j=1n Al proceso estocástico [X] = {[X]t , t ≥ 0} se lo conoce como el proceso de variación cuadrática asociado a X. Nota 4.3.3. El proceso de variación cuadrática asociado a un proceso de Wiener es [W ] = {[W ]t , t ≥ 0}, donde [W ]t = t. A continuación presentamos una trayectoria de un proceso de Wiener estándar, con su respectivo proceso de variación cuadrática. 72 1.0 0.5 0.0 W(t) 0.0 0.2 0.4 0.6 0.8 1.0 t 0.6 0.4 0.0 0.2 [W(t)] 0.8 1.0 Figura 4.5: Trayectoria de un proceso de Wiener estándar sobre el intervalo [0, 1]. 0.0 0.2 0.4 0.6 0.8 1.0 t Figura 4.6: Trayectoria de un proceso de variación cuadrática de Wiener estándar sobre el intervalo [0, 1]. Notemos que en la figura 4.6, el proceso [W ] tiende a comportarse como la función identidad. Mediante el siguiente código, que también fue realizado en R, se generó la trayectoria de la figura 4.5. Sin embargo, con ligeras modificaciones se puede simular la trayectoria de la figura 4.6. 73 Código 4.4: Proceso de Wiener. w i e n e r<−function (Tmax=1,N=500) { set . s e e d ( 7 ) dt<−Tmax/N db<−c ( 0 , sqrt ( dt ) ∗rnorm(N) ) vb<−cumsum( db ˆ 2 ) b<−cumsum( db ) x<−seq ( 0 ,Tmax , dt ) #Proceso de Wiener e s t á n d a r return ( ’ G r á f i c o ’=plot ( x , b , type= ’ l ’ , main= ’ ’ , x l a b= ’ t ’ , y l a b= ’W( t ) ’ ) ) #V a r i a c i ó n C u a d r á t i c a d e l Proceso de Wiener e s t á n d a r #r e t u r n ( ’ G r á f i c o ’= p l o t ( x , vb , t y p e =’ l ’ , main = ’ ’ , x l a b =’ t ’ , y l a b = ’[W( t ) ] ’) ) } Es importante mencionar que este código representa la aproximación, en términos de un marcha aleatoria S0 = 0 √ Sn = ∆t(X1 + · · · + X ∆tt ), donde las Xi son v.a.i.i.d. con distribución normal N (0, 1). 4.4 Proceso de Lévy Estos procesos llevan el nombre del matemático francés Paul Lévy quien fue el que inició con su estudio. Definición 4.4.1. Un proceso estocástico {Xt , t ≥ 0} se dice proceso de Lévy si verifica las siguientes condiciones: (i) X0 = 0; (ii) sus incrementos son independientes y estacionarios; (iii) la función t 7−→ Xt es continua en probabilidad, es decir, para todo ǫ > 0 y t ≥ 0 lı́m P(Xt+h − Xt > ǫ) = 0. h→0 Es importante señalar que los procesos de Poisson y de Wiener son casos particulares de los procesos de Lévy. Los procesos de Lévy se encuentran ı́ntimamente ligados al espacio probabilı́stico (D, D, P), como lo muestra el siguiente teorema cuya demostración se ha omitido. Sin embargo si se desea revisar este resultado se lo puede encontrar en [Protter, 2004]. 74 Teorema 4.4.1. Sea X = {Xt , t ≥ 0} un proceso de Lévy, entonces existe una única modificación Y de X que es càdlàg y también es un proceso de Lévy. La función caracterı́stica de un proceso de Lévy {Xt , t ≥ 0} tiene la siguiente forma: ϕ(u; t) = e−tγ , donde γ es una función continua tal que γ(0) = 0. El proceso de Lévy puede ser representado de forma general usando los procesos que hemos visto anteriormente, como se muestra a continuación. Tomamos W = {Wt , t ≥ 0} un proceso de Wiener y C = {Ct , t ≥ 0} es un proceso de Poisson compuesto con Nt X Ct = Yi , i=1 entonces el proceso X =W +C (4.1) −1.0 −2.0 −1.5 X(t) −0.5 0.0 es un proceso de Lévy. Las siguientes trayectoria muestran un proceso de Lévy de la forma (4.1), donde las variables Yi del proceso de Poisson compuesto son i.i.d con distribución normal N [0, 1] y el proceso de Wiener es estándar, seguido por la trayectoria de su proceso de variación cuadrática. 0.0 0.2 0.4 0.6 0.8 1.0 t Figura 4.7: Trayectoria de un proceso de Lévy sobre el intervalo [0, 1]. 75 3 2 0 1 [X(t)] 0.0 0.2 0.4 0.6 0.8 1.0 t Figura 4.8: Trayectoria de un proceso de variación cuadrática de Lévy sobre el intervalo [0, 1]. Como se aprecia en la figura 4.8 el proceso de variación cuadrática asociado al proceso de Lévy tiene saltos debido al proceso de Poisson compuesto, adicionalmente en los intervalos donde no existen estos saltos el proceso se comporta de manera similar al proceso de variación cuadrática asociado al proceso de Wiener. El código usado para la simulación de este proceso de Lévy se realizó en R y se basó directamente en la unión adecuada del código 4.3 y el código 4.4. Como en el caso del código del proceso de Wiener, este código también permite generar la trayectoria del proceso de Lévy y si lo realizamos algunos cambios se puede simular el proceso de variación cuadrática de un proceso de Lévy. Código 4.5: Proceso de Lévy. l e v y<−function (Tmax=1,N=500 , lambda=4){ set . s e e d ( 4 0 ) Nt<−numeric ( 0 ) Ct<−numeric ( 0 ) Vt<−numeric ( 0 ) t<−seq ( 0 ,Tmax , length=N+1) x<−rexp ( 1 , lambda ) t k<−x while (max( x )<Tmax) { t k<−c ( t k , rexp ( 1 , lambda ) ) x<−cumsum( t k ) } a<−length ( x )−1 Rc<−rnorm( a ) f or ( j i n 1 :N) { 76 Nt [ j ]<−max( c ( 0 , which ( x<t [ j ] ) ) ) } f or ( i i n 1 :N) { i f ( Nt [ i ] >0) { Ct [ i ]<− sum( Rc [ 1 : Nt [ i ] ] ) } else { Ct [ i ]<−0 } } Ct<−c ( 0 , Ct ) dt<−Tmax/N dw<−c ( 0 , sqrt ( dt ) ∗rnorm(N) ) w<−cumsum(dw) Lt=w+Ct Vt [ 1 ]<−0 f or ( i i n 2 : length ( Lt ) ) { Vt [ i ]<−Lt [ i ]−Lt [ i −1] } V2<−cumsum( Vt ˆ 2 ) #Proceso de Levy return ( l i s t ( ’ T o t a l s a l t o s ’=a , ’ G r á f i c o ’=plot ( t , Lt , type= ’ l ’ , main= ’ ’ , x l a b=” t ” , y l a b=”X( t ) ” ) ) ) #V a r i a c i ó n C u a d r á t i c a d e l Proceso de Lévy #r e t u r n ( l i s t ( ’ T o t a l s a l t o s ’=a , ’ G r á f i c o ’= p l o t ( t , V2 , t y p e =’ l ’ , main = ’ ’ , x l a b =” t ” , y l a b =”[X( t ) ] ” ) ) ) } Mediante el siguiente cuadro se resume la relación de los procesos que se han estudiado hasta el momento. Tabla 4.4: Relación entre los procesos estocásticos: Poisson, Wiener y Lévy. Proceso de Poisson Proceso de Wiener Proceso de Lévy X0 = 0 Incrementos estacionarios e independientes Proceso de conteo sin explosiones. Los interarrivos tienen distribución exponencial. Incrementos con distribución normal. Trayectorias continuas en t y no derivables en cada punto. Continuo en probabilidad. Trayectorias càdlàg. A continuación realizamos un aplicación sencilla sobre la teorı́a y la simulación analizadas hasta este punto, incluyendo la idea de un proceso de renovación. 77 Capı́tulo 5 Una aplicación a la teorı́a de renovación Para este capı́tulo hemos utilizado como referencia principal los libros [Lefebvre, 2007], [Rosenthal, 2006], [Ross, 2010] y [Ross, 2013]. 5.1 Proceso de renovación Como vimos en el capı́tulo anterior, los procesos de Poisson son un caso particular de los procesos de conteo, cuya caracterı́stica principal es que los tiempos de ocurrencia entre eventos sucesivos son variables aleatorias independientes e idénticamente distribuidas (v.a.i.i.d.) y siguen una distribución exponencial. Sin embargo, para esta sección generalizamos los procesos de Poisson, haciendo que los tiempos entre los eventos sean independientes e idénticamente distribuidos, pero que sigan una ley de distribución cualquiera. A partir de aquı́ utilizaremos los términos renovaciones y eventos sin distinción. Definición 5.1.1. Sea N = {Nt , t ≥ 0} un proceso de conteo. Si las variables aleatorias {ξn }n≥1 (tiempo entre eventos) son independientes e idénticamente distribuidas, entonces decimos que el proceso N es un proceso de renovación. Utilizaremos las siguientes notaciones, µ = E[ξn ], σ 2 = Var[ξn ] para representar la media y la varianza, respectivamente, de los tiempos entre eventos. Nótese que como los {ξn }n≥1 son v.a.i.i.d. y µ, σ no dependen del ı́ndice n. 78 Recordando del capı́tulo anterior la notación que usábamos para representar al tiempo hasta que ocurra cierto evento n, podemos establecer la siguiente equivalencia Nt < n ⇐⇒ Sn > t. Adicionalmente definimos la variable aleatoria SNt , de la siguiente manera SN t = Nt X ξi . i=1 Usando un resultado clásico de la teorı́a de probabilidades como es la ley de los grandes números, se presenta el siguiente teorema. Teorema 5.1.1. Sea N = {Nt , t ≥ 0} un proceso de conteo, si n → ∞ entonces 1 Nt → t µ c.s; Demostración. [Ross, 2010] Por definición SNt ≤ t ≤ SNt +1 y por lo tanto, para t grande t SNt +1 S Nt ≤ ≤ . Nt Nt Nt Luego por la ley de los grandes números se tiene que SNt → µ c.s. Nt cuando Nt → ∞. Pero como t → ∞ implica Nt → ∞, se concluye que SNt → µ c.s cuando t → ∞. Nt Por otra parte SNt +1 = Nt SNt +1 Nt + 1 Nt + 1 Nt y de forma análoga a la primer parte, si t → ∞ se sigue que SNt +1 → µ c.s, Nt + 1 79 ya que Nt + 1 → 1 c.s. Nt Finalmente se concluye que t → µ c.s. cuando t → ∞. Nt El siguiente teorema se conoce como el teorema elemental de renovación. Sin embargo para su demostración es necesaria la siguiente relación que se deduce directamente de la ecuación de Wald (Anexos teorema 5) E[SNt +1 ] = µ(m(t) + 1), (5.1) donde m(t) = E[Nt ]. A la función m se la conoce como la función de renovación. Nota 5.1.1. Se debe notar que la variable Nt no es un tiempo de parada, por lo general, con respecto a los ξi , sin embargo la variable Nt + 1 si es un tiempo de parada. Además como SNt +1 > t, existe Yt > 0 tal que SNt +1 = t + Yt (5.2) A Yt se le conoce como exceso y asumimos que es acotado, entonces E[Yt ] = 0. t→∞ t lı́m Teorema 5.1.2 (Teorema elemental de renovación). Sea N = {Nt , t ≥ 0} un proceso de renovación, si n → ∞ entonces 1 E(Nt ) → t µ Demostración. [Ross, 2010] Si tomamos la esperanza en (5.2) se tiene que E[SNt +1 ] = t + E[Yt ]. Pero por la relación (5.1) µ(m(t) + 1) = t + E[Yt ], 80 lo que es equivalente a m(t) 1 1 E[Yt ] = − + . t µ t µt Finalmente tomando t → ∞, se concluye que E(Nt ) 1 → . t µ Siguiendo la lı́nea de los teoremas lı́mites existe la versión del teorema de lı́mite central (T.L.C.) para un proceso de renovación. 5.2 Proceso de renovación con recompensa Este tipo de proceso es muy parecido al proceso de Poisson compuesto, con la única variación que los tiempos entre eventos o renovaciones siguen cualquier ley de distribución. Definición 5.2.1. Sean N = {Nt , t ≥ 0} un proceso de renovación y {ξn }n∈N los tiempos entre renovaciones, decimos que Rt = Nt X Zi , (5.3) i=1 es un proceso de renovación con recompensa, donde {Zi } son variables aleatorias i.i.d. y representan las recompensas en cada renovación. Puesto que la sucesión de variables aleatorias {Zi } es i.i.d. podemos usar la siguiente notación de esperanza E[Z] = E[Zn ] Algunas propiedades de este tipo de procesos se encuentran detalladas en el siguiente teorema. Teorema 5.2.1. Sea Rt definido como en (5.3) un proceso de renovación con recompensa. Si suponemos que E[Z] < ∞, µ = E[ξ] < ∞ y si t → ∞, entonces E[Z] Rt → c.s, t µ E[Z] E[Rt ] → . t µ 81 (5.4) La demostración de este teorema es idéntica a la realizada en los teoremas 5.1.1 y 5.1.2. A pesar de esto, si se desea revisar a profundidad este resultado se puede consultar en [Ross, 1996]. 5.3 Aplicación 3000 0 1000 R(t) 5000 Antes de empezar, vamos a recalcar que la aplicación que se va a presentar está basada en una situación real que podrı́a ocurrir en promociones que hacen los centros comerciales por motivo de fechas especiales, sin embargo los datos serán simulados, con el fin de evitar tomar el nombre de alguna empresa en particular. Vamos a suponer que un supermercado tiene la siguiente promoción, que cada 50 personas que cancelan las facturas de los productos adquiridos, la persona número 50 recibe como bono o descuento del 50 % de su compra, es decir, si debı́a pagar $150 ahora sólo debe cancelar $75. Además, como hipótesis vamos a suponer que los tiempos entre renovaciones siguen una ley de distribución exponencial de parámetro λ = 2 y las recompensas una ley de distribución uniforme entre $100 y $500. Usaremos la notación y la teorı́a expuesta en los capı́tulos precedentes. La simulación de esta aplicación se generó durante 10 unidades de tiempo (horas), puesto que algunos centros o locales comerciales trabajan aproximadamente al dı́a esa cantidad de tiempo. En primer lugar presentamos la trayectoria de este proceso y a continuación el código que se utilizó, el cual también fue desarrollado en R. 0 2 4 6 8 10 t Figura 5.1: Trayectoria de un proceso de renovación sobre el intervalo [0, 10]. 82 Como se puede apreciar esta trayectoria corresponde a un proceso de càdlàg. El código utilizado para simular una trayectoria es: Código 5.1: Proceso de renovación con recompensa. prenov2<−function (Tmax , N, lambda , lambda2 ) { set . s e e d ( 1 0 ) Nt<−numeric ( 0 ) Ct<−numeric ( 0 ) Zc<−numeric ( 0 ) N<−Tmax∗N t<−seq ( 0 ,Tmax , length=N) x<−rexp ( 1 , lambda ) t k<−x while (max( x )<Tmax) { t k<−c ( t k , rexp ( 1 , lambda ) ) x<−cumsum( t k ) #l l e g a d a s } r<−f l o o r ( length ( x ) /lambda2 ) f or ( k i n 1 : r ) { temp<−k∗lambda2 Zc [ k ]<−x [ temp ] #t i e m p o s de g a n a d o r e s } a<−length ( Zc ) Rc<−runif ( a , 1 0 0 , 5 0 0 ) #g a n a n c i a s Dc<−cumsum( Rc ) #g a n a n c i a s acumuladas f or ( j i n 1 :N) { Nt [ j ]<−max( c ( 0 , which ( Zc<t [ j ] ) ) ) #numero de g a n a d o r e s } f or ( i i n 1 :N) { i f ( Nt [ i ] >0) { Ct [ i ]<−sum( Rc [ 1 : Nt [ i ] ] ) #g a n a n c i a s e n t r e g a d a en cada tiempo } else { Ct [ i ]<−0 } } Ct<−c ( 0 , Ct ) return ( l i s t ( ’ Tiempos de l l e g a d a ’=Zc , ’ Monto ganado ’=Rc , ’ Monto t o t a l e n t r e g a d o ’=max( Rc ) , ’ G r á f i c o ’=plot ( s t e p f u n ( t , Ct ) , v e r t i c a l s=T, do . points=F , main=” ” , x l a b=” t ” , y l a b=”R( t ) ” ) ) ) } Mediante la siguiente tabla se muestran los tiempos de llegada y la recompensa que obtuvieron los clientes ganadores. 83 Tabla 5.1: Resultados del proceso de renovación con recompensa. Ganador No (personas) Tiempo de llegada (horas) Monto ganado (dólares) Monto acumulado (dólares) 1 0,5 333,67 333,67 2 1,02 106,29 439,96 3 1,5 216,04 656 4 2,12 277,56 933,56 5 2,64 303,74 1237,3 6 3,15 454,24 1691,54 7 3,56 396,63 2088,17 8 4,04 321,81 2409,98 9 4,43 116,27 2526,25 10 4,95 147,59 2673,84 11 5,51 389,65 3063,49 12 5,99 468,76 3532,25 13 6,59 175,93 3708,18 14 7,14 439,46 4147,64 15 7,7 396,14 4543,78 16 8,19 126,58 4670,36 17 8,87 205,86 4876,22 18 9,31 208,64 5084,86 19 9,8 284,35 5369,21 Por las hipótesis de nuestro ejemplo, asumimos que λ = 1/µ = 2 y que E[Z] = 300. Usando estos datos intentaremos ilustrar algunos teoremas que se presentaron en este capı́tulo. Empezaremos con el teorema 5.1.1, donde para nuestro caso Nt 19 = t 10 = 1,9 ≈ λ. Del teorema 5.2.1 sólo vamos a mostrar la ecuación (5.4), por lo tanto 5369,21 Rt = t 10 = 536,92, 84 por otra parte E[Z] = 600. µ Como se observa 536,92 no es “cercano” a 600, esto se debe a que estamos tomando un tiempo relativamente pequeño. Por esta razón presentamos la siguiente tabla que muestra los resultados al tomar intervalos mas grandes. Tabla 5.2: Resultados de la aplicación sobre los intervalos [0, T ], T = 10, 100, 1000. Intervalo [0, t] Total llegadas Nt Diferencia 1 |Nt /t − 1/µ| Monto total entregado Rt [0, 10] 19 [0, 100] [0, 1000] Diferencia 2 |Rt /t − E[Z]/µ| 0,1 5369,22 198 0,02 58322,85 16,771 1985 0,015 598880,83 1,119 63,078 A medida que el intervalo aumenta las diferencias 1 y 2, van disminuyendo y por lo tanto podemos concluir que nuestra aplicación ilustra los teoremas lı́mites expuestos. 85 Capı́tulo 6 Conclusiones y recomendaciones 6.1 Conclusiones El presente trabajo se ha enfocado en la parte topológica de los diferentes espacios medibles, y no en su geometrı́a, pues no nos interesa la forma que los abiertos puedan tener en los diferentes espacios, sino en las propiedades que éstos poseen. Las propiedades de la funciones tipo càdlàg permiten relacionar el espacio D con los procesos estocásticos, y en general con la teorı́a de probabilidades dado que las funciones de distribución generalmente son del tipo càdlàg, lo que genera un gran insumo para el estudio teórico de los procesos estocásticos y sus aplicaciones. Impulsado por el gran desarrollo tecnológico en lo referente a la computación, por ejemplo la velocidad de procesamiento o la gran cantidad de memoria disponible, la programación adquiere un rol fundamental si queremos plasmar la teorı́a aprendida en algo tangible o visible, ya que muchas veces es necesario poder visualizar lo que se realiza teóricamente. Cabe recalcar que muchas veces es imposible poder programar algunas ideas o resultados topológicos, por lo que es importante encontrar un equilibrio entre la parte teórica, la programación y la simulación. Además, estas herramientas permiten pensar de una forma diferente, pues los códigos que se presentan en este estudio no están enfocados a la programación computacional en sı́, sino al manejo de datos simulados, sin ahondar en el análisis estadı́stico de estos datos ni en la velocidad de convergencia. Al realizar las simulaciones se ha tratado de utilizar una mezcla de modelos determinı́sticos y probabilı́sticos, puesto que de alguna forma los parámetros o funciones empleados pueden ser vistos como variables aleatorias. Por lo tanto, algunas variables se han fijado o no se consideraron a la hora de realizar la aplicación, tratando en lo 86 posible de no afectar la calidad de la simulación. En nuestro estudio no se ha enfatizado en el Método de Monte Carlo para la simulación, ya que únicamente hemos simulado trayectorias individuales de los procesos propuestos. Según la amplia bibliografı́a consultada, las aplicaciones de los procesos estudiados son muy variadas: finanzas, meteorologı́a, sismologı́a, medicina, etc, a más de resultados analı́ticos en la misma matemática. 6.2 Recomendaciones Para una buena comprensión del ambiente probabilı́stico y su adecuada aplicación es imprescindible que los estudiantes de la carrera de Matemática adquieran una base teórica sólida, pues sin ésta resulta muy complicado simular procesos estocásticos en general. En muchas situaciones, como son tiempos de parada o teoremas lı́mites, una poderosa herramienta para vislumbrar el comportamiento de las variables o de los procesos es la simulación, asignatura que lamentablemente no se recibe en la carrera de Matemática y que serı́a recomendable incluirla en su pénsum. En la actualidad las diferentes aplicaciones usan procesos tipo càdlàg, como son los procesos de Lévy. Esto sugiere estudiar a mayor profundidad el espacio D, que contiene funciones discontinuas. Debido a esta deficiencia ciertos modelos en finanzas han fracasado estrepitosamente. Luego de este estudio auguro a que en nuestra carrera se puedan realizar aplicaciones muy variadas, especialmente en sismologı́a, tomando en cuenta que en nuestra institución alberga el principal centro de investigación del Ecuador en este campo y uno de los más importantes de Latinoamérica. Siendo polı́tica de Estado el uso de software libre en todas las instituciones públicas, se recomienda su uso, porque permite a los estudiantes y en general a los investigadores generar conocimiento y poder compartirlo de forma libre. En nuestro caso, la principal herramienta para realizar las diferentes simulaciones fue el programa R, todos los códigos implementados se encuentran disponibles en este documento. 87 Referencias [Athreya and Lahiri, 2006] Athreya, K. B. and Lahiri, S. N. (2006). Measure theory and probability theory. Springer Science & Business Media. [Bartle, 1995] Bartle, R. G. (1995). The elements of integration and Lebesgue measure. John Wiley & Sons. [Bickel and Doksum, 2001] Bickel, P. J. and Doksum, K. A. (2001). Mathematical Statistics: Basic Ideas and Selected Topics, volume I. Prentice Hall. [Billingsley, 1995] Billingsley, P. (1995). Probability and measure, third edition. John Wiley & Sons. [Billingsley, 1999] Billingsley, P. (1999). Convergence of probability measures, second edition. John Wiley & Sons. [Brzezniak and Zastawniak, 1999] Brzezniak, Z. and Zastawniak, T. (1999). Basic stochastic processes: a course through exercises. Springer Science & Business Media. [Castañeda et al., 2012] Castañeda, L. B., Arunachalam, V., and Dharmaraja, S. (2012). Introduction to probability and stochastic processes with applications. John Wiley & Sons. [Chamorro, 2010] Chamorro, D. (2010). Espacios de Lebesgue y de Lorentz, volumen I. Cuadernos de Matemática de la Escuela Politécnica Nacional. [Chung, 2001] Chung, K. L. (2001). A course in probability theory. Academic press. [Chung and AitSahlia, 2003] Chung, K. L. and AitSahlia, F. (2003). Elementary probability theory: with stochastic processes and an introduction to mathematical finance, fourth edition. Springer Science & Business Media. [Grigoriu, 2002] Grigoriu, M. (2002). Stochastic calculus: applications in science and engineering. Springer Science & Business Media. [Halmos, 1974] Halmos, P. R. (1974). Naive set theory. Springer Science & Business Media. 88 [Hoel et al., 1986] Hoel, P. G., Port, S. C., and Stone, C. J. (1986). Introduction to stochastic processes. Houghton Mifflin Boston. [Iribarren, 2008] Iribarren, I. L. (2008). Topologı́a de espacios métricos. Limusa. [Kallenberg, 1997] Kallenberg, O. (1997). Foundations of modern probability. SpringerVerlag, New York. [Kumaresan, 2005] Kumaresan, S. (2005). Topology of metric spaces. Alpha Science Int’l Ltd. [Lefebvre, 2007] Lefebvre, M. (2007). Applied stochastic processes. Springer Science & Business Media. [Lima and Diaz, 1997] Lima, E. L. and Diaz, L. (1997). Análisis real, volumen I. Instituto de matemática y ciencias afines. [Morrison, 2012] Morrison, F. (2012). The art of modeling dynamic systems: forecasting for chaos, randomness and determinism. Courier Corporation. [Osaki, 2002] Osaki, S. (2002). Stochastic models in reliability and maintenance. Springer. [Pinsky and Karlin, 2010] Pinsky, M. and Karlin, S. (2010). An introduction to stochastic modeling. Academic press. [Protter, 2004] Protter, P. E. (2004). Stochastic integration and differential equations, volume 21. Springer. [Rosenthal, 2006] Rosenthal, J. S. (2006). A first look at rigorous probability theory, second edition. World Scientific. [Ross, 1996] Ross, S. M. (1996). Stochastic processes, second edition. John Wiley & Sons. [Ross, 2010] Ross, S. M. (2010). Introduction to probability models. Academic press. [Ross, 2013] Ross, S. M. (2013). Simulation, fifth edition. academic Press. [Royden and Fitzpatrick, 2010] Royden, H. L. and Fitzpatrick, P. (2010). Real analysis. Prentice Hall. [Rudin, 1976] Rudin, W. (1976). Principles of mathematical analysis, third edition. McGraw-Hill. [Rudin, 1991] Rudin, W. (1991). Functional analysis, second edition. McGraw-Hill. 89 [Schilling, 2005] Schilling, R. L. (2005). Measures, integrals and martingales. Cambridge University Press. [Shirali and Vasudeva, 2006] Shirali, S. and Vasudeva, H. L. (2006). Metric spaces. Springer Science & Business Media. [Shiryaev, 1996] Shiryaev, A. (1996). Probability, second edition. Springer Science & Business Media. 90 Anexos Definiciones importantes Definición 1 (π-sistema). Una clase P ⊆ σ(Ω) se dice un π-sistema sobre Ω, si para todo A ∈ P y B ∈ P se verifica: (A ∩ B) ∈ P. Definición 2 (Clase separadora). Una clase S ⊆ σ(Ω) se dice separadora si, S es un π-sistema sobre Ω tal que: σ(S ) = σ(Ω). Teorema 3. Sean µ1 y µ2 dos medidas de probabilidad de σ(P), donde P es un π-sistema sobre Ω. Si µ1 (P) = µ2 (P), (1) entonces µ1 (σ(P)) = µ2 (σ(P)). (2) Definición 4 (Tiempo de parada). Sea {Xi }i≥1 una sucesión de variables aleatorias independientes. Una variable aleatoria N que toma valores enteros se dice un tiempo de parada para la sucesión {Xi }i≥1 si el evento {N = n} es independiente de las variables {Xi }i≥N +1 para todo n ≥ 1. Teorema 5 (Ecuación de Wald). Sea {Xi }i≥1 una sucesión de variables aleatorias independientes idénticamente distribuidas con esperanza E[X] < ∞. Si N es un tiempo de parada tal que E[N ] < ∞, entonces E " N X j=1 # Xj = E[N ]E[X]. 91