Modelos estocásticos en las finanzas

Anuncio
TRABAJO FIN DE GRADO
Título
Modelos estocásticos en las finanzas
Autor/es
Guillermo Serna Calderón
Director/es
José Manuel Gutiérrez Jiménez
Facultad
Facultad de Ciencias, Estudios Agroalimentarios e Informática
Titulación
Grado en Matemáticas
Departamento
Curso Académico
2012-2013
Modelos estocásticos en las finanzas, trabajo fin de grado
de Guillermo Serna Calderón, dirigido por José Manuel Gutiérrez Jiménez (publicado por
la Universidad de La Rioja), se difunde bajo una Licencia
Creative Commons Reconocimiento-NoComercial-SinObraDerivada 3.0 Unported.
Permisos que vayan más allá de lo cubierto por esta licencia pueden solicitarse a los
titulares del copyright.
©
©
El autor
Universidad de La Rioja, Servicio de Publicaciones, 2013
publicaciones.unirioja.es
E-mail: [email protected]
Facultad
Facultad de Ciencias, Estudios Agroalimentarios e Informática
Titulación
Grado en Matemáticas
Título
Modelos estocásticos en las finanzas
Autor/es
Guillermo Serna Calderón
Tutor/es
José Manuel Gutiérrez Jiménez
Departamento
Departamento de Matemáticas y Computación
Curso académico
2012-2013
Modelos estocásticos en las finanzas
Guillermo Serna
11 de junio de 2013
ii
iii
Resumen
Este trabajo de fin de Grado es una pequeña introducción a los modelos estocásticos en las
finanzas desde un punto de vista práctico, cuyo objetivo es facilitar la adaptación a un máster
de Matemática financiera.
El trabajo está dividido en tres capítulos. En el primer capítulo se estudian las variables
aleatorias, la generación de números aleatorios y hacemos hincapié especial en el método de
Monte Carlo, desarrollando varias ejemplos mediante el programa Wolfram Mathematica 8.
En el segundo capítulo, tratamos los procesos estocásticos dividiéndolos en procesos de estado discreto y procesos de estado continuo. En los procesos de estado continuo se estudia el
proceso de Wiener, que es fundamental en los modelos estocásticos financieros.
En el último capítulo trataremos el modelo de Black y Scholes, que es trascendental en la
valoración de opciones y acabaremos con la ecuación de Black-Scholes y su importancia.
Por último, nótese que este trabajo puede ser completado en un futuro con las integrales y
ecuaciones diferenciales estocásticas.
Abstract
This Final Year Dissertation is a short introduction to stochastic financial models from a
practical standpoint, whose aim is to make easier the adaptation to a master about Mathematical finance.
This work has three chapters. In the first chapter random variables and generation of random numbers are studied, and a special emphasis in Monte Carlo method is made. In this
section several examples are carried out with the computational software program Wolfram
Mathematica 8.
In the second chapter we explain the stochastic processes and these are divided in processes
with discrete state and processes with continuous state. In the processes with continuous
state, we study the Wiener process, that is essential in stochastic financial models. In the
last chapter we speak about the Black-Scholes model, which is fundamental in the valuation
of options and we will finish with the Black-Scholes equation and his importance.
Finally, we would like to emphasize that this work could be completed with stochastic integration and stochastic differential equations.
iv
Introducción
He decidido realizar este trabajo fin de Grado porque quiero hacer un máster sobre Matemática financiera y así poder obtener algunos conocimientos previos antes de realizar el máster.
Además este trabajo podría ser completado en un futuro con el estudio de integrales y ecuaciones diferenciales estocásticas, puesto que por la limitación de tiempo no hemos podido
realizar este estudio.
En este trabajo se pueden ver tanto temas tratados en la carrera como cadenas de Markov
o variables aleatorias, aunque con un enfoque diferente, como temas no tratados durante la
carrera como pueden ser el proceso de Wiener y el modelo de Black y Scholes.
El propósito de este trabajo fin de Grado es realizar una pequeña introducción a los modelos
estocásticos en las finanzas desde un punto de vista práctico. La estructura general del trabajo consiste en desarrollar una teoría y completarla con ejemplos, muchos de estos ejemplos
son teóricos formando así “pequeños teoremas”. También se han realizado muchos ejemplos
con ordenador mediante el programa Wolfram Mathematica 8, y además en muchos de estos
ejemplos podemos ver el código utilizado.
Se ha divido el trabajo en tres capítulos. En el primer capítulo se estudian las variables aleatorias, para ello hemos definido primero los espacios de probabilidad. También hemos definido
los espacios de Hilbert de variables aleatorias. Y para finalizar el capítulo hemos tratado la
generación de números aleatorios y desarrollado con bastantes ejemplos el método de Monte
Carlo, ya que es un método muy usado en las finanzas.
En el segundo capítulo se habla de los procesos estocásticos dividiendo estos en procesos de
estado discreto y procesos de estado continuo. En los procesos de estado continuo se estudia
el proceso de Wiener o movimiento Browniano que es un proceso de vital importancia en el
mundo de las finanzas cuantitativas y que nos será de utilidad para el siguiente capítulo.
Por último, en el tercer capítulo se estudia el modelo de Black y Scholes que es muy usado
en la valoración de opciones. También se trata la fórmula de Itô, herramienta indispensable
en las Matemática financieras. Por último se ha finalizado este trabajo fin de Grado con la
ecuación de Black-Scholes y la importancia de esta fórmula.
Nótese que en los dos primeros capítulos se ha usado [3] como bibliográfica básica y [1, 2, 4,
5, 7, 8, 9] como complementaría. Y para realizar el último capítulo nos hemos basado en [6].
La conclusión que se puede sacar de este trabajo es que es una pequeñísima introducción a
v
vi
los modelos estocásticos en las finanzas y que se dejan muchos temas abiertos como el de las
integrales y las ecuaciones diferenciales estocásticas.
Finalmente quiero agradecer a mi tutor, José Manuel Gutiérrez, por la predisposición que ha
tenido en todo momento con este trabajo, incluso sin que las finanzas sean su especialidad.
Índice general
1. Variables aleatorias
1.1. Introducción . . . . . . . . . . . . . . . .
1.2. Espacio de probabilidad . . . . . . . . .
1.3. Variables aleatorias . . . . . . . . . . . .
1.4. Espacio de Hilbert de variables aleatorias
1.5. Generación de números aleatorios . . . .
1.6. Método de Monte Carlo . . . . . . . . .
2. Procesos estocásticos
2.1. Introducción . . . . . . . . . . . . .
2.2. Procesos de estado discreto . . . . .
2.3. Procesos de estado continuo . . . .
2.4. Generación de procesos estocásticos
3. El modelo de Black y Scholes
3.1. Introducción . . . . . . . . . .
3.2. El modelo de Black y Scholes
3.3. Proceso de Wiener económico
3.4. Valoración de opciones . . . .
3.5. La ecuación de Black-Scholes .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Bibliografía
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
1
4
8
12
15
.
.
.
.
27
27
30
39
45
.
.
.
.
.
49
49
50
51
52
54
57
vii
viii
ÍNDICE GENERAL
Capítulo 1
Variables aleatorias
1.1.
Introducción
Una variable aleatoria es una función de valores reales definida en un conjunto de resultados de un experimento aleatorio. Las variables aleatorias son importantes en el estudio de
integrales y ecuaciones diferenciales estocásticas que son de gran utilidad en el mundo de
las finanzas, aunque en este trabajo no llegaremos a abordarlas (para ver información sobre
ecuaciones diferenciales e integrales estocásticas consultar [3]).
En este capítulo después de ver espacios de probabilidad, variables aleatorias y una introducción de espacios de Hilbert de variables aleatorias (fundamental para entender las integrales y
ecuaciones diferenciales estocásticas) hablaremos de la generación computacional de números
aleatorios, por último veremos el método de Monte Carlo como aplicación a la generación
computacional de números aleatorios.
Y con todo esto ya estaremos en condiciones de estudiar los procesos estocásticos del capítulo
2.
1.2.
Espacio de probabilidad
Un espacio de probabilidad es una terna (Ω, F, P ) dónde Ω es el conjunto de posibles resultados del experimento (llamado espacio muestral), F la colección de todos los sucesos o eventos
aleatorios y P : F → [0, 1] es una función que asigna probabilidad a los eventos. Asumimos
que F es una σ-álgebra que satisface las siguientes propiedades.
Si A ∈ F entonces Ac ∈ F.1
∪∞
i=1 Ai ∈ F si A1 , A2 , . . . ∈ F.
1
Cuando escribimos Ac nos referimos al complementario de A.
1
2
CAPÍTULO 1. VARIABLES ALEATORIAS
El par (Ω, F) es un espacio medible, que es un espacio donde podemos definir una medida.
Una medida es una función µ concreta que asigna un valor real o medida a cada elemento de
Ω y cumple
1. µ(A) ≥ µ(∅) = 0 ∀A ∈ F.
2. Si Ai ∈ F es una sucesión contable de conjuntos disjuntos entonces
µ(∪∞
i=1 Ai ) =
∞
X
µ(Ai )
i=1
.
Si µ(F) = 1, llamamos a µ medida de probabilidad y como hemos dicho antes la denotamos
como P y si A ∈ F se tiene que P (Ac ) = 1 − P (A). Sea µ una medida en (Ω, F) tenemos que
Si A ⊂ B entonces µ(A) ≤ µ(B) (si µ(A) < ∞ entonces µ(B − A) = µ(B) − µ(A).
Si A ⊂ ∪∞
n=1 An entonces µ(A) ≤
P∞
n=1
µ(An ).
Los siguientes ejemplos muestran algunos espacios de probabilidad. Para ampliar la información véase [4].)
Ejemplo 1.1. Lanzamiento de una moneda.
Consideremos el experimento aleatorio de lanzar una moneda dos veces. Los posibles sucesos
que podemos tener son ω1 = CC, ω2 = CT , ω3 = T C y ω4 = T T (dónde C es cara y T es
cruz). Así el espacio muestral es Ω = {ω1 , ω2 , ω3 , ω4 }. Sin embargo hay muchos conjuntos F
que satisfacen la propiedad de σ-álgebra, el más pequeño es F = {∅, Ω}. Si queremos que los
sucesos {ω1 }, {ω2 } pertenezcan a F entonces tenemos que la σ-álgebra más pequeña que los
contiene es
F = {∅, {ω1 }, {ω2 }, {ω1 , ω2 }, {ω3 , ω4 }, {ω1 , ω3 , ω4 }, {ω2 , ω3 , ω4 }, Ω}.
Para N resultados diferentes la σ-álgebra más pequeña tendrá 2 elementos, ∅ y Ω, y la más
grande tendrá 2N elementos.
Para este ejemplo, P ({ωi }) = 1/4 i = 1, 2, 3, 4. Usando las propiedades anteriores podemos
hallar la probabilidad del evento {ω1 ó ω3 ó ω4 } que es P ({ω1 , ω3 , ω4 }) = 1 − P ({ω2 }) = 3/4.
(Ω, F, P ) es el espacio de probabilidad para este ejemplo.
Ejemplo 1.2. Medida de Lebesgue.
Consideramos el experimento aleatorio de elegir un número real x del intervalo [0, 1]. Entonces Ω = {x : 0 ≤ x ≤ 1}. Sea (a, b] un intervalo en [0, 1] donde x ∈ (a, b]. Definimos
la σ-álgebra F como el conjunto generado por todos los intervalos de la forma (a, b]. Así
que todos los intervalos de la forma (a, b], uniones de intervalos y sus complementarios están
3
1.2. ESPACIO DE PROBABILIDAD
contenidos en la σ-álgebra F. Esta σ-álgebra se llama la σ-álgebra de Borel. Ahora definimos
la medida de probabilidad P . Sea A = (a, b] ∈ F, entonces P (A) = b − a. Entonces P (A)
es la probabilidad de que un elemento x ∈ [0, 1] este en A. Esta medida de probabilidad se
llama medida de Lebesgue para la σ-álgebra F.
Vemos que gracias a las propiedades de medida, un gran número de conjuntos están en F. Por
1
ejemplo (a, b) ∈ F ya que (a, b) = ∪∞
n=1 (a, b − n ]. Por las Leyes de Morgan las intersecciones
1
contables también están en F, en particular {ω} = {x} esta en F ya que {ω} = ∩∞
n=1 (x− n , x].
1−2n 2−2n
Consideremos el siguiente ejemplo particular, sea B1 ∈ F donde B1 = ∪∞
,2
) enn=1 (2
P∞ 1 2n−1
2
= 3.
tonces P (B1 ) = n=0 ( 2 )
Ejemplo 1.3. Número de observaciones; distribución de Poisson.
Consideremos un experimento donde el número de observaciones de un resultado en el intervalo de tiempo [0, t] es interesante. Suponemos que el número de observaciones del resultado
en algún intervalo de tiempo ∆t tiene probabilidad λ∆t + o(∆t) y la probabilidad es independiente del tiempo (por ejemplo la probabilidad de que un coche pase por un cruce puede
satisfacer esta suposición). Consideremos ahora el número de resultados donde t es grande
en comparación con ∆t y sea ωn igual al suceso donde n resultados ocurren en el intervalo
[0, t]. Entonces es claro que Ω = {ω0 , ω1 , ω2 , . . . }. Sea ahora F = {∅, {ω0 }, {ω1 }, . . . , Ω} la
σ-álgebra generada asumiendo que {ωi } ∈ F para = i = 0, 1, 2, . . . . Ahora vamos a determinar una medida de probabilidad para Ω. Por conveniencia de notación P ({ωn }) = Pn (t) es la
probabilidad de que se produzcan n resultados en el intervalo [0, t]. Usando las suposiciones
hechas es claro que P0 (0) = 1 y que Pn (0) = 0 para n ≥ 1. Además
P0 (t + ∆t) = (1 − λ∆t)P0 (t) + o(∆t)
y
Pn (t + ∆t) = (1 − λ∆)Pn (t) + λ∆tPn−1 (t) + o(∆t),
para n ≥ 1 donde 1 − λ∆t es la probabilidad de no tener resultados en el intervalo ∆t y λ∆t
es la probabilidad de un resultado en el intervalo ∆t. Haciendo ∆t → 0 en ambas expresiones
obtenemos
dP0 (t)
= −λP0 (t), P0 (0) = 1
dt
y
dPn (t)
= −λPn (t) + λPn−1 (t), Pn (0) = 0, n ≥ 1.
dt
n
Resolviendo el sistema obtenemos que P {wn } = Pn (t) = e−λt (λt)
para n = 0, 1, 2, . . . , donde
n!
P {wn } es la probabilidad de n resultados en el tiempo t. Con esta probabilidad de medida
(Ω, F, P ) es un espacio de probabilidad. Para verificar esta medida de probabilidad notemos
que
∞
∞
X
X
(λt)n
P (Ω) =
P ({ωn }) =
e−λt
=1
n!
n=0
n=0
4
CAPÍTULO 1. VARIABLES ALEATORIAS
para cualquier t ≥ 0. Llamamos distribución de Poisson al número de resultados en este
experimento aleatorio.
1.3.
Variables aleatorias
En este apartado vamos a definir las variables aleatorias y algunas de sus propiedades, puesto
que son una pieza clave en los procesos estocástico que veremos en el siguiente capítulo (véase
[1]).
Definición 1.1. Una variable aleatoria X en un espacio de probabilidad (Ω, F, P ) es una
función de Ω en R, X : Ω → R.
Definición 1.2. La función de distribución de una variable aleatoria X es la función FX de
R en [0, 1] dada por
FX (x) = P ({ω ∈ Ω : X(ω ≤ x)}), x ∈ R.
Una variable aleatoria puede ser discreta o continua. Una variable aleatoria es discreta si toma
valores en un subconjunto contable {x1 , x2 , x3 . . . } ⊂ R. Es decir que X(ω) ∈ {x1 , x2 , x3 , . . . }
para cada ω ∈ Ω. La función de masa de probabilidad p de una variable aleatoria X es la
función p : {x1 , x2 , x3 , . . . } → [0, 1] dada por p(x) = P (X = x). Notemos que para una
P
variable aleatoria discreta FX (x) = xi <x p(xi ).
Una variable aleatoria es continua si existe una función a trozos no negativa p(x) tal que
Rx
FX (x) = −∞
p(s)ds. En este caso llamamos a p(x) función de densidad de X. Notemos que
R
P (a ≤ X ≤ b) = FX (b) − FX (a) = ab p(s)ds.
Es útil notar que si X es una variable aleatoria y g : R → R es medible Borel, entonces
Y = g(X) es también una variable aleatoria. En efecto, Y (ω) = g(X(ω)) = g(x) si X(ω) = x.
Además, si p(x) es la función de masa para una variable aleatoria discreta X y la inversa de
g existe entonces P (Y = y = g(x)) = P (X = x) = p(x) = p(g −1 (y)). Así q(y) = p(g −1 (y)) es
la función de masa de Y . Además, si X toma los valores discretos {x1 , x2 , x3 , . . . } entonces
Y toma los valores discretos {y1 , y2 , y3 , . . . } donde yi = g(xi ).
Esperanza
Vamos a definir la esperanza dependiendo de si estamos ante una variable aleatoria discreta
o una variable aleatoria continua (véase [4]).
Definición 1.3. Suponemos que X es una variable aleatoria discreta donde
X(ω) ∈ {x1 , x2 , x3 , . . . }
con ω ∈ Ω. Sea p(x) la función de masa de X, entonces decimos que la esperanza de X es
µ = E(X) =
X
i
xi p(xi ) =
X
i
X(ωi )P ({wi })
5
1.3. VARIABLES ALEATORIAS
donde la suma es convergente.
Sea g : R → R una función, sabemos que g(X) = Y también es una variable aleatoria discreta
y la esperanza de g(X) es
E(g(X)) =
X
g(xi )p(xi ).
i
En particular el k-ésimo momento de X es
E(X k ) =
(xi − µ)k p(xi ) para k = 1, 2, . . .
X
i
y definimos el k-ésimo momento central como
E((X − µ)k ) =
X
(xi − µ)k p(xi ) para k = 1, 2, . . . .
i
Definición 1.4. Suponemos que X es una variable aleatoria continua donde X(x) = x y
con función de densidad p(x). Notemos que p(x)∆x es la probabilidad de aproximación de
que X tome un valor en el intervalo (x − ∆x/2, x + ∆x/2). La esperanza de X puede ser
P
aproximada como E(X) ≈ xp(x)∆x y como ∆x → 0 la esperanza de X es
E(X) =
Z ∞
xp(x)dx.
∞
Si definimos una función g como antes tenemos que la esperanza de g(X) es
E(g(X)) =
Z ∞
g(x)p(x)dx.
−∞
El k-ésimo momento y el k-ésimo momento central son
E(X k ) =
Z ∞
xk p(x)dx
−∞
E((X − µ)k ) =
Z ∞
(x − µ)k p(x)dx.
−∞
Propiedades de la esperanza. Sean X, Y variables aleatorias tenemos que
E(X + Y ) = E(X) + E(Y ).
E(XY ) = E(X)E(Y ) si X e Y son independientes, es decir, X no depende de Y y Y
no depende de X.
E(aX) = aE(X) con a ∈ R.
6
CAPÍTULO 1. VARIABLES ALEATORIAS
Varianza
Definición 1.5. La varianza de X se define como el segundo momento central
Var(X) = E((X − µ)2 ).
Nota 1.1. Notemos que:
E((X − µ)2 ) = E(X 2 ) − µ2 .
Ejemplo 1.4. Distribución de Poisson.
Consideremos el experimento aleatorio del ejemplo 1.3 donde la probabilidad de un resultado
en un intervalo de tiempo ∆t es λ∆t+o(∆). Sea γ = λt y recordemos que ωn es igual al suceso
donde n resultados ocurren en el intervalo [0, t]. Sea X(ωn ) = n la definición de una variable
aleatoria X. La función de masa de X es p(n) = P (ωn ) = (e−γ γ n )/n! para n = 0, 1, 2 . . . y
su función de probabilidad es
FX (x) = e−γ
n
X
γk
para n ≤ x < n + 1
k=0 k!
para n = 0, 1, 2, . . . . La variable aleatoria X es una distribución de Poisson.
Para calcular su media y su varianza necesitamos
E(X) =
∞
X
kp(k) =
∞
X
ke−γ
k=0
k=0
∞
X
γk
γ k−1
= e−γ γ
=γ
k!
k=1 (k − 1)!
y
E(X 2 ) =
∞
X
k 2 p(k) = e−γ γ 2
k=0
∞
X
(
k=1
(k − 1)γ k−2
γ k−2
+
) = γ 2 + γ.
(k − 1)!
(k − 1)!
Por lo tanto E(X) = γ y Var(X) = γ.
Ejemplo 1.5. Distribución Uniforme en [u, v].
La distribución Uniforme es el modelo continuo más simple. Corresponde al caso de que
una variable aleatoria sólo puede tomar valores comprendidos entre dos extremos u y v, de
manera que todos los intervalos de una misma longitud (dentro de [u, v]) tienen la misma
probabilidad. También puede expresarse como el modelo probabilístico correspondiente a
tomar un número al azar dentro de un intervalo [u, v].
Sea X(x) = x la definición de una variable aleatoria X. La función de probabilidad de X es
FX (x) =
Z x
p(s)ds donde p(s) =
−∞


0,

1
,
v−u
Notemos que si a, b ∈ [u, v] entonces P (a ≤ X ≤ b) =
distribución uniforme en [u, v], X ∼ U [u, v].
Para calcular su media y su varianza necesitamos
E(X) =
Z b
a
x
Rb
a
s<u o s>v
u ≤ s ≤ v.
p(s)ds = (b − a)/(v − u). X es una
dx
b+a
=
b−a
2
7
1.3. VARIABLES ALEATORIAS
y
2
E(X ) =
Z b
x2
a
Por lo tanto E(X) =
b+a
2
y Var(X) =
dx
1
= (b2 + ab + a2 ).
b−a
3
1
(b
12
− a)2 . Además E(f (X)) =
Rb
a
dx
f (x) b−a
Variables aleatorias múltiples
Consideremos un experimento aleatorio con espacio muestral Ω, conjunto de eventos aleatorios F y medida de probabilidad P . Sean X1 y X2 dos variables aleatorias definidas en
este espacio de probabilidad. El vector aleatorio X = [X1 , X2 ]T lleva Ω a R2 . Notemos que
si A1 , A2 ∈ F como A1 = {ω ∈ Ω : X1 (ω) ≤ x1 } y A2 = {ω ∈ Ω : X2 (ω) ≤ x2 } entonces
A1 ∩ A2 ∈ F y
P (X1 ≤ x1 , X2 ≤ x2 ) = P (A1 ∩ A2 ).
Definición 1.6. La función de distribución acumulativa de X1 y X2 se denota FX1 X2 (x1 , x2 )
y se define como
FX1 X2 (x1 , x2 ) = P (X1 ≤ x1 , X2 ≤ x2 ) = P (A1 ∩ A2 ).
Además si A1 y A2 son independientes se tiene que
FX1 X2 (x1 , x2 ) = P (A1 ∩ A2 ) = P (A1 )P (A2 ) = FX1 (x1 )FX2 (x2 ).
Si suponemos que X1 , X2 son variables aleatorias discretas que toman los valores (x1,i )(x2,j )
para 1 ≤ i ≤ M, 1 ≤ j ≤ N con N, M ∈ N, tenemos que
pX1 X2 (x1,i , x2,j ) = P (X1 = x1,i , X2 = x2,j ).
Por lo tanto llamamos a pX1 X2 función de masa de X = [X1 , X2 ]T y
X
FX1 X2 (x1 , x2 ) =
X
pX1 X2 (x1,i , x2,j ).
x1,i ≤x1 x2,j ≤x2
Si X1 , X2 son variables aleatorias continuas, pX1 X2 (x1 , x1 ) es la función de densidad de X =
[X1 , X2 ]T si
Z x1 Z x2
FX1 X2 (x1 , x2 ) =
pX1 X2 (s1 , s2 )ds2 ds1 .
−∞
−∞
Además la función de densidad satisface
pX1 |X2 (x1 |x2 )pX2 (x2 ) = pX1 X2 (x1 , x2 )
y
pX2 |X1 (x2 |x1 )pX1 (x1 ) = pX1 X2 (x1 , x2 ).
Definición 1.7. La covarianza de X1 y X2 variables aleatorias se define como
Cov(X1 X2 ) = E((X1 − µ1 )(X2 − µ2 )) = E(X1 X2 ) − E(X1 )E(X2 ).
8
CAPÍTULO 1. VARIABLES ALEATORIAS
Y además se tiene la siguiente propiedad
Var(X1 + X2 ) = Var(X1 ) + Var(X2 ) + 2Cov(X1 X2 ).
Notemos que si X1 , X2 son independientes entonces Cov(X1 X2 ) = 0.
Si X = [X1 , X2 , . . . Xn ]T es un vector de n variables aleatorias cada una definida en el espacio
muestral Ω, entonces µ = E(X) es la media del vector de longitud n y E((X − µ)(X − µ)T )
es la matriz n × n llamada matriz covariante. La función de distribución FX se relaciona con
la función de densidad pX de la siguiente manera
FX (x1 , x2 , . . . , xn ) =
Z x1 Z x2
−∞
−∞
...
Z xn
−∞
pX (s1 , s2 , . . . , sn )dsn , . . . , ds2 d1 .
Ejemplo 1.6. Vector de variables aleatorias cuando lanzamos una moneda.
Supongamos que lanzamos una moneda dos veces y su espacio muestral es Ω = {ω1 , ω2 , ω3 , ω4 }
donde ω1 = CC, ω2 = CT , ω3 = T C y ω4 = T T . La P ({ωi }) = 41 para i = 1, 2, 3, 4. Sea
X1 (ω1 ) = no de caras en wi y X2 (ω2 ) = no de cruces en ωi . Por lo tanto la función de masa
tiene la forma




1/4 x1 = 2, x2 = 0 or x1 = 0, x2 = 2
pX1 X2 (x1 , x2 ) =  1/2
x1 = 1, x2 = 1


0
otro caso.
Para este experimento aleatorio E(X) = µ = [1, 1]T y la matriz covariante es




1/2 −1/2 
(X1 − µ1 )2
(X1 − µ1 )(X2 − µ2 ) 
= E
E((X−µ)(X−µ)T ) = E 
2
−1/2 1/2.
(X1 − µ1 )(X2 − µ2 )
(X2 − µ2 )
Por lo tanto X1 y X2 no son independientes y tienen Cov(X1 X2 ) = − 21 .
1.4.
Espacio de Hilbert de variables aleatorias
Los espacios de Hilbert de variables aleatorias y procesos estocásticos unifican y simplifican
el desarrollo de integrales y ecuaciones diferenciales estocásticas.
Recordemos que un espacio vectorial con una métrica o norma definida se llama espacio
métrico.
Definición 1.8. Si un espacio métrico es completo (toda sucesión de Cauchy es convergente)
entonces el espacio métrico es un espacio de Banach.
Definición 1.9. Un espacio pre-Hilbert sobre R es un par (H, (·, ·)) donde H es un espacio
vectorial y (·, ·) : H × H → R cumple:
(λf + µg, h) = λ(f, h) + µ(f, h) para todo λ, µ ∈ R, f, g, h ∈ H,
1.4. ESPACIO DE HILBERT DE VARIABLES ALEATORIAS
9
(f, f ) ∈ [0, ∞) para todo f ∈ H,
(f, f ) = 0 implica f = 0.
Sea (H, (·, ·)) un espacio pre-Hilbert sobre R. Podemos definir una norma en H de la siguiente
manera:
||f || = (f, f )1/2 , f ∈ H.
(1.1)
La norma definida en (1.1) tiene las siguientes propiedades:
Desigualdad triangular:
||f + g|| ≤ ||f || + ||g||.
Desigualdad de Cauchy-Schwarz:
||(f, g)|| ≤ ||f || ||g||.
Definición 1.10. Si un espacio pre-Hilbert es completo entonces lo llamamos espacio de
Hilbert.
Si un espacio S es pre-Hilbert solemos usar un resultado que dice que S puede ser completado
añadiendo elementos a S hasta formar un espacio de Hilbert H. Además se puede ver que
S ⊂ H y que S es denso en H. Por lo tanto si S se completa en H, entonces dado un f ∈ H
y un > 0 existe un g ∈ S tal que ||f − g|| < .
Sea (Ω, F, P ) un espacio de probabilidad. Sea A ∈ F y sea IA la función indicatriz de A, es
decir IA es la variable aleatoria definida por
IA (w) =




1 si w ∈ A



0 si w ∈
/ A.
(1.2)
Entonces se tiene que
E(IA ) = P (A).
Definición 1.11. Las combinaciones lineales finitas de funciones indicatrices son variables
aleatorias simples.
Nota 1.2. Si X es una variable aleatoria simple, entonces X se puede escribir como X(ω) =
i=1 ci IAi y entonces
Pn
E(X) =
n
X
i=1
ci P (Ai ).
10
CAPÍTULO 1. VARIABLES ALEATORIAS
Sea ahora SRV (espacio pre-Hilbert) el conjunto de variables aleatorias simples definidas en el
espacio de probabilidad, SRV = {X : X es un variable aleatoria simple definida en el espacio
de probabilidad (Ω, F, P )}. El conjunto SRV es un espacio vectorial de variables aleatorias.
Sea X, Y ∈ SRV se define el producto como
n X
n
X
(X, Y ) = E(XY ) = E(
ci IAi dj ABj ) =
i=1 j=1
n X
n
X
ci dj P (Ai ∩ Bj )
i=1 j=1
y la norma de la siguiente manera
1
1
||X||RV = (X, X) 2 = (E|X|) 2 .
Podemos completar SRV en HRV , espacio Hilbert, donde SRV es denso en HRV . Si suponemos
que {Xn }∞
n=1 es una sucesión de Cauchy de variables aleatorias en HRV y como HRV es
completo hay una variable aleatoria X ∈ HRV de manera que ||Xn −X|| → 0 cuando n → ∞.
Además dado un > 0 hay una variable aleatoria Y ∈ SRV de modo que ||X − Y || < .
Definición 1.12. La norma de un espacio Hilbert HRV de variables aleatorias es ||X||RV =
(E(|X|2 ))1/2 .
Ejemplo 1.7. Espacio Hilbert L2 [0, 1].
Sea el mismo espacio de probabilidad que en el ejemplo 1.2. Sea SRV todas las variables
aleatorias simples definidas en F. Si X ∈ SRV la variable aleatoria se define como
X(x) =
n
X
ci IAi (x),
i=1
donde Ai ∈ F e IAi es la función indicadora introducida en (1.2) para cada i.
Sea ahora HRV la complexión de SRV . HRV , espacio de Hilbert, incluye todas las variables
aleatorias que están contenidas en [0, 1]. Tomamos una f : [0, 1] → R continua para ver que
las variables aleatorias continuas están en HRV . Sea xi = (i − 1)/n para i = 1, 2, . . . , n y
definimos
fn (x) =
n
X
f (xi )In,i (x), dónde In,i (x) =



i=1
1, (i − 1)/n ≤ x < i/n
0,
otro caso.
Entonces se puede demostrar que esta sucesión de variables aleatorias simples {fn }∞
n=1 es una
sucesión de Cauchy en HRV . Además como ||f − fn ||RV → 0 cuando n → ∞ tenemos que
fn → f en HRV . Así f es el límite de una sucesión de variables aleatorias simples en HRV y
f ∈ HRV .
El espacio de Hilbert HRV de este ejemplo es conocido como L2 [0, 1], que es, HRV = L2 [0, 1] =
R
{funciones medibles Lebesgue f en [0, 1] tal que 01 |f (x)|2 dx < ∞}. Notemos que para
X, Y ∈ HRV se tiene
(X, Y ) =
Z 1
0
X(x)Y (x)dx y
||X||2RV
=
Z 1
0
|X(x)|2 dx.
11
1.4. ESPACIO DE HILBERT DE VARIABLES ALEATORIAS
Convergencia de sucesiones de variables aleatorias
La convergencia de sucesiones de variables aleatorias es importante para el estudio de ecuaciones diferenciales estocásticas. Consideramos una sucesión de variables aleatorias {Xn }∞
n=1
definidas en un espacio de probabilidad (Ω, F, P ) y la existencia de una variable aleatoria X
a la cual la sucesión se aproxima cuando n → ∞. Es importante caracterizar la manera en
que Xn se aproxima a X cuando n → ∞.
Hay varios tipos de criterios de convergencia que suelen usarse para las variables aleatorias.
Un tipo importante es la convergencia en media cuadrática que es la que usaremos.
Definición 1.13. Sea {Xn }∞
n=1 una sucesión de variables aleatorias y sea X una cierta
variable aleatoria. Diremos que {Xn }∞
n=1 converge a X en media cuadrática si se cumple que
lı́m E(Xn − X)2 = 0.
n→∞
Sin embargo, para {Xn }∞
n=1 ⊂ HRV la convergencia en media cuadrática es equivalente a
||Xn − X||RV → 0 cuando n → ∞. Además como HRV es un espacio de Hilbert la existencia
de la variable aleatoria X ∈ HRV es garantizada si {Xn }∞
n=1 es una sucesión de Cauchy en
HRV .
Definición 1.14. Se dice que la sucesión de variables aleatorias {Xn }∞
n=1 es fuertemente
convergente a X si
lı́m E(|Xn − X|) = 0.
n→∞
Convergencia en media cuadrática implica convergencia fuerte.
Desigualdad de Lyapunov (E(|X|p ))1/p <= (E(|X|r ))1/r para 0 < p < r.
Definición 1.15. Se dice que la sucesión de variables aleatorias {Xn }∞
n=1 converge en probabilidad a X si dado algún > 0 tenemos que
lı́m P (|Xn − X| > ) = 0
n→∞
.
Convergencia en media cuadrática también implica convergencia en probabilidad.
Desigualdad de Chebyshev-Markov P ({ω : |X(ω)| ≥ }) ≤
1
E(|X|p )
p
para , p > 0.
Definición 1.16. La sucesión de variables aleatorias {Xn }∞
n=1 se dice que tiene convergencia
casi segura a X si
P (ω ∈ Ω : n→∞
lı́m |Xn (ω) − X(ω)| = 0}) = 1
.
P∞
Lema 1.1. Si
casi segura a X.
n=1
P (|Xn − X| ≥ ) < ∞ para todo > 0, entonces Xn tiene convergencia
12
CAPÍTULO 1. VARIABLES ALEATORIAS
Ejemplo 1.8. Convergencia casi segura y convergencia en media cuadrática.
Sea X una variable aleatoria que es una distribución uniforme en [0, 1], es decir X ∼ U [0, 1],
definimos la sucesión de variables aleatorias {Xn }∞
n=1 de la siguiente manera




0,
0 ≤ X(ω) ≤


X(ω),
1
n2
Xn (ω) = 
1
n2
< X(ω) ≤ 1
para n = 1, 2, . . . . Entonces
∞
X
P (|Xn − X|) ≥ ) ≤
n=1
∞
X
1
<∞
2
n=1 n
para algún > 0.
Por el lema anterior Xn converge casi seguro a X. Y notemos también que
2
E(|Xn − X| ) =
Z
1
n2
0
x2 dx =
1
→ 0 cuando n → ∞.
3n6
Por lo que Xn tiene convergencia cuadrática a X.
Dos resultados importantes que involucran sucesiones de variables aleatorias son la ley de los
números grandes y el teorema central del límite (véase [5]).
La ley de los grandes números. Sean X1 , X2 , . . . variables aleatorias independientes e
idénticamente distribuidas. Sea µ = E(Xn ) y σ 2 = Var(Xn ) ∈ (0, ∞). Definimos Sn =
Pn
i=1 Xi . Entonces
Sn
Sn
lı́m E(| − µ|2 ) = 0 y n→∞
lı́m
= µ.
n→∞
n
n
Teorema 1.2. Teorema central del límite
Sean X1 , X2 , . . . variables aleatorias independientes e idénticamente distribuidas. Sea µ =
P
E(Xn ) y σ 2 = Var(Xn ) ∈ (0, ∞). Definimos Sn = ni=1 Xi . Entonces
lı́m P ((
n→∞
Sn − nµ
√ ) ≤ z) = φ(z),
σ n
dónde φ(z) es la función de distribución de N (0, 1) para cada número real z.
1.5.
Generación de números aleatorios
Para aproximar soluciones de ecuaciones estocásticas se requiere de grandes números aleatorios, [8]. Los algoritmos para generar sucesiones de variables aleatorias son llamados generadores de números pseudo-aleatorios. Hay muchos tipos de generadores para producir
distribuciones uniformes de números aleatorios en [0, 1]. Un generador muy sencillo es de los
centros de los cuadrados, que consiste en tomar un número inicial de cuatro cifras decimales
1.5. GENERACIÓN DE NÚMEROS ALEATORIOS
13
llamado semilla, por ejemplo γ0 = 0.9876 y elevarlo al cuadrado obteniendo un número de
ocho cifras decimales γ02 = 0.97535376. Ahora elegimos las cuatro cifras decimales centrales
y de esta manera obtenemos γ1 = 0.5353, haciendo lo mismo se obtiene γ2 = 0.6546 y así
vamos obteniendo distribuciones uniformes de números aleatorios en [0, 1].
Nota 1.3. Este método presenta algunos problemas, entre otros la obtención de números
pequeños con mayor frecuencia que números grandes.
Ahora vamos a desarrollar el el generador congruencial lineal (uno de los generadores más
conocidos) que tiene la forma
Xn+1 = (aXn + c)mód(m)
para n = 0, 1, 2, . . .
donde a, c y m son enteros no negativos con m normalmente grande y X0 es un número de
partida. Sea d un entero positivo d mod(m) es el resto cuando dividimos d y m, entonces
0 ≤ d mód(m) ≤ m − 1. Ahora podemos calcular la sucesión Un como
Un =
Xn
m
para n = 0, 1, 2 . . .
donde 0 ≤ Un ≤ 1 para cada n. Los Un son distribuciones uniformes en [0, 1]. Si Xi+p = Xi
llamamos periodo del generador al valor más pequeño de p.
Lema 1.3. El periodo de un generador congruencial lineal es m si y solo si (véase [3])
c y m son primos entre sí,
a ≡ 1(mód(d)) para todo d factor primo de m,
a ≡ 1(mód(4)) si m es múltiplo de 4.
Cuando c = 0 y m es un número primo la longitud del periodo es m − 1 si a satisface que
ak 6≡ 1 mod(m) para k = 1, 2, . . . , m − 2. Un generador popular congruente lineal es
Xn+1 = 16807Xn mód(231 − 1)
para n = 0, 1, 2, . . .
donde a = 75 , c = 0 y m = 231 − 1 es un número primo de Mersenne.
Definición 1.17. Se dice que un número primo p es un número de Mersenne si es una unidad
menor que una potencia de 2, p = 2n − 1 n ∈ N.
Ahora asumimos que tenemos una sucesión {Un } de distribuciones uniformes en [0, 1] y
además suponemos que necesitamos una sucesión {Yn } que esta formada por distribuciones
acordes a una distribución FY que no puede ser una distribución uniforme pero tiene que
14
CAPÍTULO 1. VARIABLES ALEATORIAS
ser monótona creciente. Una forma de calcular la sucesión {Yn } con la sucesión {Un } es fijar
Y = g(U ) por una función g, notemos que g −1 (Y ) = U . Para encontrar g −1 consideramos
−1
FY (y) = P ({g(U ) ≤ y}) = P ({U ≤ g (y)}) =
= g −1 (y)
Si FY (y) =
Ry
−∞
Z g−1 (y)
1ds
0
para 0 ≤ g −1 (y) ≤ 1.
py (s)ds, entonces
Z Yn
−∞
py (s)ds = Un
para n = 1, 2, 3 . . .
se suele usar esta fórmula para calcular Yn ya que los Un son distribuciones uniformes pseudoaleatorias.
Para el método de Monte Carlo que veremos más adelante son necesarios números aleatorios
y aunque podemos crearles usaremos la implementación de Mathematica para ellos, ya que
es más eficiente.
Ejemplo 1.9. Generación de números pseudo-aleatorios.
Un par de ejemplos hechos con Mathematica para generar números pseudo-aleatorios mediante el generador congruencial lineal son
n = Prime[10^6]; a = 10; c = 21;
f[x_] = Mod[a*x + c, n]; NestList[f, 12, 50]
n = 101; a = 9; c = 2;
f[x_] = Mod[a*x + c, n]; NestList[f, 12, 50]
Los dos comandos anteriores nos generan una lista de cincuenta números pseudo-aleatorios
empezando por el doce. Para conseguir distribuciones uniformes en [0, 1] solo tenemos que
dividir cada número por n.
Ejemplo 1.10. Generación de números aleatorios distribuidos exponencialmente.
Suponemos que necesitamos que la sucesión {Yn } esté formada por números aleatorios distribuidos exponencialmente en [0, ∞) entonces tenemos que asumir que la sucesión {Un } esta
formada por números aleatorios distribuidos uniformemente en [0, 1]. En este caso la función
de densidad es de la forma py (s) = e−s para s ≥ 0, como necesitamos encontrar Yn se tiene
que
Z Yn
0
e−s = 1 − e−Yn = Un
Por lo tanto Yn = − log(1 − Un )
para n = 1, 2, 3 . . . .
para n = 1, 2, 3 . . .
15
1.6. MÉTODO DE MONTE CARLO
1.6.
Método de Monte Carlo
El método de Monte Carlo es un método estadístico numérico, usado para aproximar expresiones matemáticas complejas y costosas de evaluar con exactitud. El método de Monte Carlo
fue creado por Nicholas Metropolis Constantino (1915-1999) y Stanislaw Ulam (1909-1986)
(véase figuras 1.1 y 1.2). El método se llamó así en referencia al Casino de Monte Carlo
(Principado de Mónaco) por ser “la capital del juego de azar”, al ser la ruleta un generador
simple de números aleatorios.
Historia del método de Monte Carlo
El método de Monte Carlo surge formalmente en el año 1944, sin embargo, ya existían
prototipos y procesos anteriores que se basaban en los mismos principios.
El empleo del método de Monte Carlo para fines de investigación comenzó con el desarrollo de
la bomba atómica en la Segunda Guerra Mundial en el Laboratorio Nacional de Los Álamos.
Durante el desarrollo de este proyecto, los científicos Von Neumann (1903-1957) y Ulam
perfeccionaron la técnica y la aplicaron a problemas de cálculo de difusión de neutrones
en un material. Alrededor de 1970, los desarrollos teóricos en complejidad computacional
comienzan a proveer mayor precisión y relación para el empleo del método Monte Carlo.
Actualmente el método Monte Carlo a veces es usado para analizar problemas que no tienen
un componente aleatorio explícito; en estos casos un parámetro determinista del problema
se expresa como una distribución aleatoria y se simula dicha distribución. La simulación
de Monte Carlo también fue creada para resolver integrales que no se pueden resolver por
métodos analíticos (aquí es donde nos centraremos), para solucionar estas integrales se usaron
números aleatorios. Posteriormente fue utilizado para cualquier esquema que emplee números
aleatorios, usando variables aleatorias con distribuciones de probabilidad conocidas.
Figura 1.1: Nicholas Metropolis Constantino
Figura 1.2: Stanislaw Ulam
16
CAPÍTULO 1. VARIABLES ALEATORIAS
Cálculo de integrales por el método de Monte Carlo
Podemos estimar la integral de una función continua f con Monte Carlo, [9]. Esta integral
puede verse como el cálculo de la esperanza de la función f cuando se aplica a una variable
aleatoria de distribución uniforme. Supongamos que el intervalo de integración es [0, 1] y sea
X1 , X2 , . . . , Xn una muestra de variables aleatorias independientes con distribución uniforme
en el intervalo [0, 1], entonces
Z
1
f (x) dx = E(f (X)),
0
con X una variable aleatoria uniforme en [0, 1].
De esta manera, gracias a la ley de los Grandes Números esta integral se puede aproximar
por
Z 1
n
1X
f (Xi )
f (x) dx ≈
n i=1
0
Todo el problema se reduce a generar la muestra.
Por otro lado, obsérvese que cualquier integral sobre el intervalo [a, b] se puede transformar
a una integral sobre el intervalo [0, 1] con el siguiente cambio de variable x = a + (b − a)u
Z b
f (x) dx = (b − a)
a
Z 1
f (a + (b + a)u) du ≈
0
n
b−aX
f (a + (b − a)Ui ),
n i=1
con Ui variables aleatorias uniformes en [0, 1].
Estimación del error
Sea X una variable aleatoria con función de distribución F , f una función continua y sea
I = E(f (X)). Sea X1 , X2 , . . . , Xn una muestra de variables aleatorias independientes con
P
función de distribución F y denótese In = n1 ni=1 f (Xi ). Si σ 2 es la varianza de f (X) entonces
σ2
es la varianza de In por ser las Xi variables aleatorias independientes.
n
√ n ) se comporta como
Por el Teorema del Límite Central se sabe que para n grande, Zn = (I−I
σ n
una variable aleatoria normal con media cero y varianza uno por lo que
λσ
P (|I − In | < √ ) = P (|Zn | < λ) ≈ λΦ(λ)
n
2
λ −x /2
1
con Φ(λ) = 2π
dx y λ se selecciona dependiendo de la probabilidad que se desee
0 e
obtener. Por ejemplo si se quiere obtener que la probabilidad sea 0.95 se selecciona λ como
1.96. Por lo que el error que se comete al usar el método de Monte Carlo es aproximadamente
√σ . Si σ ≈ 1, se requiere de n = 104 para tener al menos dos cifras significativas.
n
Este resultado permite establecer un intervalo de confianza de α %. Para ello se selecciona λ
dela forma que Φ(λ) = α2 . De esta manera, con probabilidad α podemos asegurar que el valor
exacto de la esperanza I está en el intervalo
R
λσ
λσ
[In − √ , In + √ ].
n
n
1.6. MÉTODO DE MONTE CARLO
17
El problema para usar el resultado anterior es que hay que conocer el valor de la desviación
típica de f (X). Lo que se hace en la práctica es estimarla por la varianza muestral. Con este
intervalo se determina el tamaño que se requiere que tenga n para tener la precisión deseada.
Por ejemplo si se desea tener un intervalo de confianza del 95 % de longitud 10−2 se debe
escoger n > 4(1.96)2 σf 104 .
Error cuadrático medio
Desde el punto de vista estadístico el método de Monte Carlo genera un estimador insesgado
ya que E(In ) = I. Por otro lado, el error cuadrático medio se define como
E((I − In )2 ) = E(I − E(In ))2 + Var(In ).
Si se desea reducir el error cuadrático medio lo que hay que hacer es reducir σ o incrementar
el tamaño n de la muestra de variables aleatorias. A veces el valor de n es tan grande que es
costoso incrementar la muestra, por lo que se ha optado por generar métodos para reducir la
varianza; estos métodos se conocen con el nombre de reducción de varianza.
Ejemplo 1.11. Integral de Monte Carlo con Mathematica.
R
En este ejemplo vamos a aproximar la integral 010 ecos x dx mediante el método de Monte
Carlo con la implementación que tiene Mathematica para el método y la nuestra, empecemos
por la que tiene Mathematica:
NIntegrate[Exp[Cos[x]], {x, 0, 10}, Method -> "MonteCarlo",
MaxPoints -> 1000]
NIntegrate::maxp: The integral failed to converge after 1100 integrand evaluations. NI
11.9987
NIntegrate[Exp[Cos[x]], {x, 0, 10}, Method -> "MonteCarlo",
MaxPoints -> 100000]
11.9804
ListPlot[Last[
Reap[NIntegrate[Exp[Cos[x]], {x, 0, 10}, Method -> "MonteCarlo",
MaxPoints -> 1000,
EvaluationMonitor :> Sow[{x, Exp[Cos[x]]}]]]], Filling -> 0,
AxesOrigin -> {0, 0}] // Quiet
18
CAPÍTULO 1. VARIABLES ALEATORIAS
Nos damos cuenta de que si escogemos un n que genera un error grande Mathematica nos
avisa. Además hemos pintado la solución gráficamente con LisPlot para ver como se va
aproximando aleatoriamente, ver figura 1.3.
Ahora mostraremos un ejemplo para aproximar y dibujar integrales por Monte Carlo sin usar
la implementación que tiene Mathematica de Monte Carlo:
f[x_] = E^(Cos[x]); a = 0; b = 10;
MonteCarloIntegral[n0_] :=
Module[{i},
n = n0;
X = Table[Random[Real, {a, b}], {i, 1, n}];
f1 = 1/n Sum[f[Part[X, i]], {i, 1, n}];
v = (b - a);
approx = v*f1;
Return[{n, approx} ];]
MonteCarloIntegral[100000]
{100000, 12.1103}
MonteCarloDibujo[n0_] := Module[{n = n0},
MonteCarloIntegral[n];
graph =
Plot[f[x], {x, a, b}, PlotStyle -> Magenta];
Y = f[X];
P = Map[Point, Transpose[{X, Y}]];
dots = Graphics[{Red, PointSize[0.01], P}];
L = Map[Line, Transpose[{Transpose[{X, 0 Y}], Transpose[{X, Y}]}]];
lines = Graphics[{Red, Thickness[0.005], L}];
Show[graph, dots, lines]]
La aproximación nos queda parecida a si la hacemos con el método de Monte Carlo que tiene
ya implementado Mathematica. En la figura 1.4 podemos ver la aproximación de la integral
dibjuada con 100 puntos, ya que si usamos más puntos no se aprecian bien la distintas
aproximaciones.
Ejemplo 1.12. Aproximación con Monte Carlo de π.
Imaginamos un círculo de radio uno inscrito en un cuadrado y suponemos que el centro
del círculo tiene coordenadas (0, 0). Sabemos que el área de este círculo es π y el área del
19
1.6. MÉTODO DE MONTE CARLO
2.5
2.5
2.0
2.0
1.5
1.5
1.0
1.0
0.5
0.5
2
4
6
8
10
Figura 1.3: Aproximación de ecos x con la implementación de Mathematica
2
4
6
8
Figura 1.4: Aproximación de ecos x con la implementación nuestra
cuadrado es 4. Llamamos ρ al cociente del área del círculo con el área del cuadrado, ρ =
0.7853981633974483 (con 16 dígitos).
Una forma de aproximar π es coger puntos dentro del cuadrado y contar cuantos de estos están
dentro del círculo. Suponemos que escogemos el siguiente conjunto de puntos {(−1+ 2i−1
, −1+
32
2j−1 32 32
)}i=1 j=1 de los cuales 812 están dentro del círculo y 212 están fuera. El porcentaje de
32
812
puntos dentro del circulo es ρ = 1024
= 0.79296875. Por lo tanto el área aproximada del
circulo es
área del cícurlo ≈ 4 ∗ ρ = 4 ∗ 0.79296875 = 3.171875.
Y como el círculo es de radio uno esto también es la aproximación de π.
Vamos a hacer una simulación de Monte Carlo para aproximar el valor de π cogiendo n
puntos aleatorios {(xi , yi )}ni=1 dentro del cuadrado unidad y calculando ρ = m
dónde m es el
n
2
2
número de puntos que satisfacen xi + yi ≤ 1. Para ello nos ayudaremos de Mathematica:
MonteCarloPi[n0_] := Module[{d, i},
n = n0;
Pin = Pout = {};
For[i = 1, i <= n, i++,
X = Random[];
Y = Random[];
d = X^2 + Y^2;
If[d <= 1, Pin = Append[Pin, {X, Y}],
Pout = Append[Pout, {X, Y}];];];
m = Length[Pin];
k = Length[Pout];
\[Rho] = m/n;
approx = \[Rho]*4.0;
Return[approx];];
10
20
CAPÍTULO 1. VARIABLES ALEATORIAS
MonteCarloPiConDibujo[n0_] := Module[{},
MonteCarloPi[n0];
Pin = Map[Point, Pin];
DOTSin = Graphics[{Red, PointSize[0.02], Pin}];
Pout = Map[Point, Pout];
DOTSout = Graphics[{Green, PointSize[0.02], Pout}];
circle =
Graphics[{Blue, Thickness[0.01], Circle[{0, 0}, 1, {0, Pi/2}]}];
line = Graphics[{Line[{{1, 0}, {1, 1}, {0, 1}}]}];
Print["La aproximación de \[Pi] es ", approx];
Show[DOTSin, DOTSout, circle, line, Axes -> True,
Ticks -> {Range[0, 1, 0.5], Range[0, 1, 0.5]}, AspectRatio -> 1]]
MonteCarloPiConDibujo[1000]
La aproximación de \[Pi] es 3.176
Y la aproximación de π que hallamos con nuestro programa es 3.176.
Nota 1.4. La función MonteCarloPiConDibujo también nos dibuja la sección del circulo
donde escogemos los puntos para calcular la aproximación como se puede ver en las figuras
1.5 y 1.6.
1.
1.
0.5
0.5
0.5
1.
Figura 1.5: Aproximación de π con 100 puntos
0.5
1.
Figura 1.6: Aproximación de π con 1000 puntos
21
1.6. MÉTODO DE MONTE CARLO
Ejemplo 1.13. Estimación mediante Monte Carlo de la distancia media entre dos puntos.
En este ejemplo estudiamos la estimación de la distancia media entre dos puntos aleatorios
en el intervalo [0, 1] y la de distancia de dos puntos aleatorios en el cuadrado [0, 1] × [0, 1].
Podemos plantear cada uno de estos problemas con integrales. En el primer caso
I=
Z 1Z 1
0
0
|x1 − x2 | dx1 dx2
es la distancia media entre dos puntos aleatorios elegidos en el intervalo [0, 1], mientras que
en el segundo caso
J=
Z 1Z 1Z 1Z 1q
0
0
0
0
(x1 − x2 )2 + (y1 − y2 )2 dx1 dx2 dy1 dy2
que es la distancia media entre dos puntos aleatorios en [0, 1]×[0, 1]. La estimación por Monte
Carlo de estos valores se calcula usando las sumas
In =
n
1X
|x1,i − x2,i |
n i=1
donde x1,i , x2,i son distribuciones uniformes en [0, 1] y
Jn =
n q
1X
(x1,i − x2,i )2 + (y1,i − y2,i )2
n i=1
donde x1,i , x2,i , y1,i , y2,i son distribuciones uniformes en [0, 1]. Las integrales múltiples son tan
fáciles de calcular por Monte Carlo como las integrales simples, ya que una integral múltiple
solo involucra una suma. Además el error es proporcional a √1n en ambos casos, como hemos
visto antes. Una forma de programar el ejemplo con Mathematica sería
nrum = 1000000; arum = nrum; s1 = N[0, 8]; s2
For[i = 1, i <= nrum, i++,
x1 = N[RandomVariate[UniformDistribution[]],
x2 = N[RandomVariate[UniformDistribution[]],
s1 = s1 + f/arum; s2 = s2 + (f^2)/arum]
sd = Sqrt[s2 - s1^2];
Print["n = ", nrum, "
s1 = ", s1 , "
s2 =
", s2 , "
n = 1000000
sd = 0.235511
s1 = 0.333285
s2 = 0.166544
= N[0, 8];
8];
8]; f = Abs[x1 - x2];
s1 = N[0, 8]; s2 = N[0, 8];
For[i = 1, i <= nrum, i++,
x1 = N[RandomVariate[UniformDistribution[]], 8];
x2 = N[RandomVariate[UniformDistribution[]], 8];
y1 = N[RandomVariate[UniformDistribution[]], 8];
sd = ", sd
22
CAPÍTULO 1. VARIABLES ALEATORIAS
y2 = N[RandomVariate[UniformDistribution[]], 8];
f = Sqrt[(x1 - x2)^2 + (y1 - y2)^2]; s1 = s1 + f/arum;
s2 = s2 + (f^2)/arum]
sd = Sqrt[s2 - s1^2];
Print["n = ", nrum, "
s1 = ", s1 , "
s2 = ", s2 , "
n = 1000000
s1 = 0.521155
s2 = 0.332928
sd = ", sd]
sd = 0.247641
Para generar las distribuciones uniformes hemos usado programas implementados en Mathematica. Usando un millón de ejemplos, es decir n = 106 , In = 0.3332928 y Jn = 0.521155.
Para la comparación los valores exactos para I y J con cinco cifras significativas son 0.33333
y 0.52141 respectivamente.
Nota 1.5. Notemos que en el código anterior de Mathematica sd es la desviación típica de
dos puntos aleatorias elegidos en el intervalo [0, 1].
Ejemplo 1.14. Estimación de la longitud media de un conjunto.
Este ejemplo muestra la flexibilidad de las técnicas de Monte Carlo. Sea
S = {000, 001, 002, . . . , 999}
el conjunto los números de tres dígitos. En este ejemplo, vamos a seleccionar conjuntos
aleatorios de S pero con con ciertas propiedades. En particular, para cada conjunto B ⊂ S
se selecciona aleatoriamente de tal manera que los elementos de B difieren cada uno del otro
en al menos dos dígitos. Además, el conjunto B se construye tan grande como sea posible
de modo que para cualquier x ∈ B c hay un y ∈ B de tal forma que x e y tienen dos
dígitos iguales. Sea Ω = {B1 , B2 , B3 , . . . , BN } con N = 1016 (el número total de posibles
conjuntos con estas propiedades es más elevado), una colección de conjuntos seleccionados
aleatoriamente con las propiedades explicadas anteriormente. Definimos la variable aleatoria
X en Ω de manera que X(B) es igual al número de elementos en el conjunto B, de forma
que X : Ω → [50, 100] (podemos ver esta demostración en [2]). Definimos la medida de
probabilidad P por P (Bi ) = N1 para i = 1, 2, . . . , N ; es interesante estimar el número medio
P
de elementos en los conjuntos B ∈ Ω, es decir, E(X) = N1 N
i=1 X(Bi ). Como N es muy grande
no podemos computar todos los conjuntos de Ω. Por lo tanto E(X) puede ser estimado usando
P
que E(X) ≈ M1 M
i=1 X(Bi ) para M < N . El código de Mathematica usado para hallar la
aproximación es el siguiente:
A = Flatten[Table[{i, j, k}, {i, 0, 9}, {j, 0, 9}, {k, 0, 9}], 2];
B := RandomInteger[{1, 1000}, 100];
1.6. MÉTODO DE MONTE CARLO
23
sepuedeponer[vec_, mat_, cont_] :=
Module[{v = vec, m = mat, c = cont, inic = 0}, cot = inic;
For[t = 1, t <= c && cot <= 1, t++, cot = 0;
For[n = 1, n <= 3, n++,
If[Part[v, n] == Part[m, t, n], cot = cot + 1]]]; Return[cot];];
sum = 1; cont1 = 0; cont3 = 0; cuadrado = 0; For[i = 1, i <= 10000, i++,
W = ConstantArray[as, {100, 3}]; a = Part[B, i]; b = Part[A, a];
Part[W, 1] = b; cont2 = 1; cont4 = 0;
For[j = RandomInteger[{1, 1000}], cont2 < 2, j++,
For[t = 1, t <= 3, t++,
If[Part[A, j, t] == Part[W, 1, t], cont1 = cont1 + 1]] If[
cont1 < 2, cont2 = cont2 + 1; Part[W, cont2] = Part[A, j];];
cont1 = 0];
For[j = 1, j <= 500, j++,
If[sepuedeponer[Part[A, j], W, cont2] < 2, cont2 = cont2 + 1;
Part[W, cont2] = Part[A, j]]];
For[j = 1000, j > 500, j--,
If[sepuedeponer[Part[A, j], W, cont2] < 2, cont2 = cont2 + 1;
Part[W, cont2] = Part[A, j]]];
For[t = 1, t <= 100, t++,
If[Part[W, t, 1] != "as", cont3 = cont3 + 1; cont4 = cont4 + 1]];
cuadrado = cuadrado + cont4^2]; media =
N[cont3/10000,2]; Print["E(X) = ", media]; Print["Var(X) = ",
N[cuadrado/10000,2] - media^2]
E(X) = 87.35
Var(X) = 2.65
Como vemos computando M = 1000 conjuntos, E(X) y Var(X) es estimado como E(X) =
8.75 y Var(X) = 2.65.
Ejemplo 1.15. Error del método y error estadístico en la estimación de Monte Carlo.
Este ejemplo ilustra los dos tipos de error involucrados en la estimación de integrales estocásticas o en la aproximación de soluciones de ecuaciones diferenciales estocásticas. Sea
IN =
N
X
i−1
, donde ηi ∼ N (0, 1) para cada i.
3/2 η
i
i=1 N
Se tiene que E(IN2 ) → E(I 2 ) =
1
3
cuando N → ∞. Sin embargo E(IN2 ) puede ser calculado
24
CAPÍTULO 1. VARIABLES ALEATORIAS
Tabla 1.1: Estimaciones de E(I 2 ) para el ejemplo 1.15
Valor de M
101
102
103
104
105
N = 101
0.415569
0.287986
0.269821
0.281819
0.286986
N = 102
0.260003
0.323847
0.322794
0.332764
0.328806
N = 103
0.281216
0.375468
0.330602
0.330221
0.333478
exactamente como
E(IN2 )
=
N
X
(i − 1)2
N (N − 1)(2N − 1)
1
1
1 2N 3 − 3N 2 + N
1
)=
+
=
(
= −
.
3
3
3
N
N
6
6N
3 2N
6N 2
i=1
Por lo tanto el método del error en está aproximación es
1
1
−
2N
6N 2
que es cero cuando N tiende a infinito. El error del método se debe a usar N subintervalos en la
aproximación de la integral estocástica. También, hay un error estadístico en la aproximación
de E(I 2 ) por E(IN2 ) que es debido a usar un número finito de muestras M para estimar E(IN2 ).
Supongamos por lo tanto que IN,m , para m = 1, 2, . . . , M son M muestras de IN usando los
números aleatorios ηi,m para 1 ≤ i ≤ N , 1 ≤ m ≤ M . Así que
E(I 2 ) − E(IN2 ) =
IN,m =
N
X
i−1
η , donde ηi,m ∼ N (0, 1).
3/2 i,m
i=1 N
Entonces
M
M X
N
1 X
1 X
i−1
(IN,m )2 =
(
ηi,m )2 ,
M m=1
M m=1 i=1 N 3/2
√
donde hay un error estadístico proporcional a 1/ M en la estimación de E(IN2 ). Por lo tanto
P
2
cuando estimamos E(I 2 ) usando M
m=1 (IN,m ) /M existen dos errores, uno es el error estadís√
tico que es proporcional a 1/ M donde M es el número de muestras. Notemos que cuando
M → ∞ la aproximación puede no ser satisfactoria si el valor de N no es suficientemente
grande. Observemos los diferentes valores de E(IN2 ) que están en la tabla 1.1. Estos cálculos
están hechos en Mathematica con el siguiente programa:
E(IN2 ) ≈
aproximación[M_, N_] :=
Module[{m = M, n = N, sum1 = 0, sum2 = 0},
For[j = 1, j <= m, j++, sum1 = (sum2^2)/(n^3) + sum1; sum2 = 0;
For[i = 1, i <= n, i++,
sum2 = sum2 + (i - 1)*RandomVariate[NormalDistribution[]]]];
Return[Print["E[I^2]= ", sum1/m]]]
1.6. MÉTODO DE MONTE CARLO
25
Recordemos que E(I 2 ) = 1/3 exactamente. Observemos que cuando M aumenta, el error
estadístico disminuye y el error total se acerca al error del método. Para N grande el error
que se produce es debido principalmente al error estadístico que puede ser alto para pequeños
tamaños de muestra, es decir, valores pequeños de M . La primera columna (N = 10) en la
tabla da valores con error del método grande. La primera fila (M = 10) da valores con error
estadístico grande. Este ejemplo muestra que para obtener valores que se asemejen al real el
error del método y el error estadístico deben ser pequeños.
26
CAPÍTULO 1. VARIABLES ALEATORIAS
Capítulo 2
Procesos estocásticos
2.1.
Introducción
La teoría de los procesos estocásticos se centra en el estudio y modelización de sistemas que
evolucionan a lo largo del tiempo, o del espacio, de acuerdo a unas leyes no determinísticas,
es decir, de carácter aleatorio.
La fórmula habitual de describir la evolución del sistema es mediante sucesiones o conjuntos
de variables aleatorias. De esta manera se puede estudiar cómo evoluciona una variable aleatoria a lo largo del tiempo. Por ejemplo, el número de personas que espera en una ventanilla
en un banco en un instante t de tiempo; el precio de las acciones de una empresa a lo largo
de un año, etc.
La primera idea básica es identificar un proceso estocástico con una sucesión de variables
aleatorias {X(t) : t ∈ T } donde la variable t indica el instante de tiempo o espacio correspondiente. Esta idea se puede generalizar fácilmente, permitiendo que los instantes de tiempo
en los que se definen las variables aleatorias sean continuos. Así, se podrá hablar de una
colección o familia de variables aleatorias {X(t) : t ∈ R}, que da una idea más exacta de los
que es un proceso estocático (véase [3]).
Definición 2.1. Un proceso estocástico es una familia de variables aleatorias {X(t) : t ∈ T },
con T ⊆ R, definidas en un espacio de probabilidad (Ω, F, P ) y relacionadas por un parámetro
t donde t varía en el conjunto T .
Nota 2.1. Normalmente el parámetro t juega el papel del tiempo.
Ejemplo 2.1. Algunos ejemplos de variables aleatorias en procesos estocásticos pueden ser
los siguientes:
X(t): número de personas que esperan un autobús en un instante t.
X(t): precio de una acción de una empresa en un día t del mes (t = 1, 2, . . . , 30).
27
28
CAPÍTULO 2. PROCESOS ESTOCÁSTICOS
X(t): número de parados en el mes t (t = 1, 2, . . . , 12).
Para que un proceso estocástico esté completamente definido hay que determinar las variables
aleatorias, es decir, determinar e identificar la distribución de probabilidad asociada a cada
una de ellas y, es más, la distribución conjunta de todas ellas.
Definición 2.2. Al conjunto T ⊆ R se le denomina conjunto paramétrico y puede ser
continuo o numerable.
Definición 2.3. Se denomina conjunto de estados E, al conjunto de los posibles valores que
pueden tomar las variables aleatorias {X(t)}t∈T .
Por tanto, dependiendo de como sea el conjunto T y el tipo de variable aleatoria X(t) se
puede establecer la siguiente clasificación de los procesos estocásticos:
Si el conjunto T , es continuo, por ejemplo R+ , diremos que X(t) es un proceso estocástico de parámetro continuo.
Si por el contrario T es discreto, por ejemplo N, diremos que nos encontramos frente a
un proceso estocástico de parámetro discreto.
Si para cada instante t la variable aleatoria X(t) es de tipo continuo, diremos que el
proceso estocástico es de estado continuo.
Si para cada instante t la variable aleatoria X(t) es de tipo discreto, diremos que el
proceso estocástico es de estado discreto.
Definición 2.4. Una cadena es un proceso estocástico en el cual el tiempo se mueve en forma
discreta y la variable aleatoria solo toma valores discretos en el espacio de estados.
Ejemplo 2.2. Cadena.
Se lanza una moneda varias veces y suponemos que cada vez que sale cara, un jugador gana
una moneda y si sale cruz pierde una moneda. Podemos definir un proceso estocástico que
modeliza la evolución del juego. Así, si X(n) = Xn es el número de unidades monetarias que
le quedan al jugador después de n lanzamientos, el espacio muestral de Xn es
Ω = {n-tuplas de caras y cruces}
de modo que el número de elementos de Ω es 2n.
Suponemos que tanto la probabilidad de obtener cara como la de obtener cruz es la misma,
1/2.
Vemos que es un proceso discreto donde el conjunto paramétrico es T = {1, 2, . . . , n} y el
posible conjunto de estados es
E = {−n, −n + 1, . . . , −3, −2, −1, 0, 1, 2, 3, . . . , n − 1, n}.
29
2.1. INTRODUCCIÓN
Si n = 6 y fijamos por ejemplo ω = (cara, cara, cruz, cruz, cruz, cruz) tenemos que
X1 (ω) = 1
X2 (ω) = 2
X3 (ω) = 1
X4 (ω) = 0
X5 (ω) = −1 X6 (ω) = −2.
Ahora si fijamos t, por ejemplo en t = 3, se puede calcular la distribución de X3 . El conjunto
de posibles estados de X3 es:
0
−1
−2
1
2
0
−1 −3 −1
de modo que E = {−3, −1, 1, 3} y
1
1
0
3 −1
1
23
3
P {X3 = −1} = 3
2
3
P {X3 = 1} = 3
2
1
P {X3 = 3} = 3
2
P {X3 = −3} =
1
1
8
3
=
8
3
=
8
1
= .
8
=
Podemos definir una nueva variable aleatoria en este caso (t = 3):
Y ≡ número de caras obtenidas (éxitos).
Se puede observar que nuestra nueva variable aleatoria Y es igual a una distribución binomial
1
Y ∼ B(3, p = ),
2
por lo tanto X3 se distribuye como una B(3, p = 21 ). Por lo que hemos identificado un proceso
estocástico. Podemos ver este ejemplo más estudiado en el ejemplo 2.4.
Definición 2.5. Un proceso de saltos puros es un proceso estocástico en el cual los cambios
de estados ocurren de forma aislada y aleatoria pero la variable aleatoria solo toma valores
discretos en el espacio de estados.
Para el caso de los procesos de saltos puros se puede considerar como ejemplo la función
indicatriz, definida en la ecuación (1.2).
Vemos que en la función indicatriz solo hay dos posibles estados 0 y el 1, y si escogemos el
conjunto A aleatoria vemos que podemos pasar de un estado a otro en cualquier punto. La
figura 2.1 muestra un ejemplo de esta función.
30
CAPÍTULO 2. PROCESOS ESTOCÁSTICOS
1.0
0.8
0.6
0.4
0.2
1
2
3
4
5
Figura 2.1: Función indicatriz.
2.2.
Procesos de estado discreto
En el caso de procesos estocásticos con espacio de estados discretos, una secuencia de variables
que indique el valor del proceso en instantes sucesivos suele representarse de la siguiente
manera (X(t0 ) = X0 ):
{X0 = x0 , X1 = x1 , . . . , Xn−1 = xn−1 , Xn = xn }
en la que cada variable Xi , i = 0, . . . , n, tiene una distribución de probabilidad que, en
general, es distinta de las otras variables pero podría tener características comunes.
El principal interés del estudio a realizar en el caso discreto es el cálculo de probabilidades
de ocupación de cada estado a partir de las propiedades de cambio de estado. Si en el
instante n − 1 se está en el estado xn−1 , con qué probabilidad se estará en el estado xn .
Está probabilidad se denotará como
P (Xn = xn |Xn−1 = xn−1 )
A este tipo de probabilidad condicionada se le denomina probabilidad de transición o de
cambio de estado. A las probabilidades del tipo P (Xn = xn ) se les denominan probabilidades
de ocupación de estado.
Otro tipo de probabilidades de interés es de ocupar un cierto estado en el instante n, dado
que en todos los instantes anteriores, desde n = 0 hasta n − 1, sé conoce en que estado estuvo
el proceso. Esto se puede definir como:
P (Xn = xn |X0 = x0 , X1 = x1 , . . . , Xn−1 = xn−1 ).
Nótese que esta probabilidad depende de todo el proceso anterior, mientras que la probabilidad de transición depende únicamente del estado actual que ocupe el proceso.
31
2.2. PROCESOS DE ESTADO DISCRETO
Se dice que un proceso cumple la propiedad de Markov cuando todo la historia pasada del
proceso se puede resumir en la posición actual que ocupa el proceso para poder calcular la
probabilidad de cambiar a otro estado, es decir
P (Xn = xn |X0 = x0 , X1 = x1 , . . . , Xn−1 ) = P (Xn = xn |Xn−1 = xn−1 ).
Aquellas cadenas que cumplen la propiedad de Markov se llaman cadenas de Markov. Otra
manera de denotar a las probabilidades de transición es de la forma siguiente
P (Xn = j|Xn−1 = i) = pij (n).
Una propiedad interesante que puede tener una cadena es que los valores pij (n) no dependan
del valor de n. Es decir, las probabilidades de cambiar de estado son las mismas en cualquier
instante. Esta propiedad indica que las probabilidades de transición son estacionarias.
Cadenas de Markov
Ya hemos definido antes las cadenas de Markov ahora notemos que las probabilidades de transición suelen disponerse en forma de matriz cuadrada, encabezada cada fila y cada columna
con el estado correspondiente, tal y como se recoge a continuación (véase [7]):
E1
E2
...
Em
p11

p
 21
 .
 ..
p12
p22
..
.
...
...
..
.
p1m
p2m
..
.
Em pm1
pm2
...
pmm
E1
E2
..
.









A la matriz anterior se le suele llamar matriz de transición. Puesto que los elementos de
la fila i-ésima representan las probabilidades de pasar del estado Ei al resto de los posibles
estados, la suma de todos ellos vale 1, pues corresponde a la probabilidad del suceso seguro.
La matriz de transición de una cadena de Markov es un caso particular de matrices denominadas estocásticas. Una matriz estocástica es una matriz (no necesariamente cuadrada) cuyos
elementos son no negativos y cumplen que la suma de los elementos de cada fila es igual a 1.
Algunas propiedades de las matrices estocásticas
A continuación presentamos las siguientes propiedades que podrán ser de utilidad:
Si A y B son dos matrices estocásticas para las que está definido el producto AB,
entonces dicho producto es también una matriz estocástica.
Si A es una matriz cuadrada estocástica, entonces un valor propio de la matriz es igual
a 1.
32
CAPÍTULO 2. PROCESOS ESTOCÁSTICOS
Si A es una matriz cuadrada estocástica con todos sus elementos positivos, entonces la
sucesión de matrices An , n = 1, 2, . . . converge hacia una matriz U que tiene todas sus
filas iguales a un vector u, que es el único vector fila propio estocástico de la matriz A
correspondiente al valor propio 1, esto es, solución de la ecuación u(A − I) = 0.
Nota 2.2. La hipótesis de que sean positivos todos los elementos de A en la tercera propiedad
descrita es esencial, ya que de no ser así la sucesión de sus potencias no converge hacia una
matriz con todas sus filas iguales.
Uno de los problemas asociados con las cadenas de Markov es el siguiente: dado que la cadena
se halla inicialmente en el estado Ei (P (X0 ) = i), ¿cuál será la probabilidad de que se halle
en el estado Ej después de n pasos? La respuesta para n = 1 es clara: la probabilidad de
transición pij . Para calcularla cuando n = 2 la respuesta no es tan sencilla, la probabilidad
(2)
de pasar del estado Ei al Ej en dos pasos, probabilidad a la que denotaremos pij es la suma
de las probabilidades de pasar de Ei a Ek y de Ek a Ej cuando k varía desde 1 hasta m, es
decir,
(2)
pij =
m
X
pik pkj
k=1
(2)
y la expresión anterior muestra que pij es el elemento de la fila i y de la columna j de la
matriz A2 . Por lo tanto la probabilidad de pasar en n pasos del estado Ei al Ej , pnij , es el
elemento (ij) de la matriz An .
Si se parte del sistema en un determinado estado, digamos el Ei , se puede representar dicho
hecho diciendo que le instante inicial se está con probabilidad 1 en Ei y con probabilidad
0 en cada uno de los restantes estados, lo que sugiere introducir un vector estocástico mdimensional cuyas componentes son funciones de la variable natural n = 0, 1, 2, 3, . . .
x(n) = (x1 (n), x2 (n), . . . , xm (n))
de forma que xi (0) = 1, xj (0) = 0 para j 6= i, y xk (n) es la probabilidad de que en el
paso n el sistema se encuentre en el estado Ek , k = 1, 2, . . . , m. Es claro que el vector
correspondiente a n = 1 es justamente la fila i-ésima de la matriz A, que no es otra cosa
sino el producto del vector (0, 0, . . . , 0, 1(i) , 0, . . . , 0) por la matriz de transición A, es decir,
el vector (pi1 , pi2 , . . . , pim ), formado por las probabilidades de transición desde el estado Ei a
cada uno de los estados. Así pues,
(x1 (1), x2 (1), . . . , xm (1)) = (0, 0, . . . , 0, 1(i) , 0, . . . , 0)A
y, en general,
(x1 (n), x2 (n), . . . , xm (n)) = (0, 0, . . . , 0, 1(i) , 0, . . . , 0)An
lo que también puede expresarse así:
(x1 (n + 1), x2 (n + 1), . . . , xm (n + 1)) = (x1 (n), x2 (n), . . . , xm (n))A, n = 0, 1, 2, . . .
33
2.2. PROCESOS DE ESTADO DISCRETO
o, en forma más compacta,
x(n + 1) = x(n)A.
Esta última expresión permite ver que las ecuaciones planteadas al intentar estudiar la evolución de una cadena de Markov constituyen un sistema de ecuaciones en diferencias, si bien
con unas restricciones derivadas del hecho de que tanto la matriz A como el vector x(n) son
matrices estocásticas. Esto supone, por ejemplo, que el vector nulo, que obviamente es un
punto de equilibrio del sistema de ecuaciones en diferencias, no debe ser considerado en este
contexto.
Una cadena de Markov se llama regular si existe un número natural n tal que la potencia
n-ésima de su matriz de transición tiene todos sus elementos positivos, en cuyo caso todas
las potencias de la matriz de exponente mayor que n también tienen todos sus elementos positivos. El estudio de la evolución de una cadena de Markov regular resulta particularmente
simple.
Ejemplo 2.3. Cadena de Markov regular.
Una sala de cine burgalesa decide programar semanalmente las películas siguiendo el siguiente
método: si en una semana se proyectó una norteamericana, a la semana siguiente se programará, dos de cada tres veces, una española, y una de cada tres veces, una francesa. Si la
película programada fue francesa, la semana siguiente será norteamericana, francesa o española con iguales probabilidades para cada una. Finalmente, si la película programada fue
española, la semana siguiente se programará española una de cada tres veces y norteamericana dos de cada tres veces. Después de seguir este esquema durante un año ¿se habrá cumplido
con la cuota de pantalla que exige programar al menos un 25 % de películas de producción
nacional?
Tal como está planteada la programación, nos encontramos frente a una cadena de Markov
con tres estados a los que denotaremos E,F y N -correspondiente a la nacionalidad de la
película programada, (E)spañola, (F)rancesa o (N)orteamericana- y matriz de transición:
E

E 1/3

M = F
 1/3
N 2/3
F
N

0 2/3

1/3 1/3 

1/3 0
Aunque la matriz no tiene todos los elementos positivos, su cuadrado, que es la matriz


5/9 2/9 2/9


 4/9 2/9 1/3 


1/3 1/9 5/9
sí que los tiene, por lo que la cadena de Markov es regular y se puede aplicar la tercera
propiedad citada anteriormente. Las sucesivas potencias de la matriz de Markov convergen
34
CAPÍTULO 2. PROCESOS ESTOCÁSTICOS
hacia una matriz con todas sus filas iguales, fila que no es otra que le único vector fila propio
estocástico de dicha matriz correspodiente al valor propio 1. Para calcularlo resolvemos el
sistema de ecuaciones:


1/3 − 1
0
2/3



[u1 , u2 , u3 ]  1/3
1/3 − 1 1/3 
 = [0, 0, 0].
2/3
1/3
−1
Si tomamos u3 como parámetro obtenemos las siguientes soluciones
u1 =
t
5t
, u2 = u3 = t
4
2
de forma que, tomando t > 0 y dividiendo cada una de las tres componentes por la suma de
todas ellas obtenemos el vector propio estocástico
u = [5/11, 2/11, 4/11]
y la matriz límite buscada es:


5/11 2/11 4/11


 5/11 2/11 4/11  .


5/11 2/11 4/11
Del examen de la misma se desprende que, en promedio, se habrán proyectado en el año 5 películas españolas de cada 11, lo que equivale alago más de un 45 % cumpliéndose sobradamente
las cuotas de pantalla.
Cadenas de Markov absorbentes Si en una cadena de Markov es imposible abandonar
un estado una vez que se ha llegado a él, se dice que dicho estado es absorbente. Ello obliga
a que si el estado absorbente es el E1 , las probabilidades de transición verifiquen:
p11 = 1, p1i = 0, i 6= 1.
Una cadena de Markov puede tener más de un estado absorbente. Siempre es posible, renombrándolos si es necesario, lograr que los estados absorbentes sean los primeros en la lista
de estados que tiene la cadena. Al resto de estados, que no son absorbentes se les denomina
transitorios. Nótese que todos los estados de una cadena de Markov regular son transitorios.
Una cadena de Markov se dice que es absorbente si tiene al menos un estado absorbente y
desde cualquier estado es posible alcanzar un estado absorbente en un número finito de pasos.
Los principales problemas que se plantean al considerar la evolución de una cadena de Markov
absorbente son:
Si se empieza en un estado transitorio determinado ¿cuál es la probabilidad de terminar
en un estado absorbente prefijado?
35
2.2. PROCESOS DE ESTADO DISCRETO
¿Cuántas veces, por término medio, se pasará por estados transitorios antes de terminar
en un estado absorbente?
¿Cuántas veces, por término medio, se pasará por un estado transitorio determinado si
se comienza el proceso en otro estado transitorio (que puede ser el mismo)?
Para contestar a estas preguntas, comencemos escribiendo la matriz de transición de la cadena
de Markov absorbente colocando en primer lugar los estados absorbentes. En el caso de que
existan r estados absorbentes entre el total de m estados, la matriz de transición será

















1
0
..
.
0
1
..
.
0
0
...
...
pr+1,1 pr+1,2
..
..
.
.
pm1
pm2
0
0
..
.
0
0
..
.
...
...
1
0
. . . pr+1,r pr+1,r+1
..
..
...
.
.
. . . pmr
pm,r+1
...
...
...
...
...
...
...
0
0
..
.









0 

pr+1,m 



..

.

pmm
Como se ve, la matriz de transición en este caso está formada por cuatro bloques bien
diferenciados


I
O
 r

B A
El primero, Ir , es la matriz cuadrada unidad de dimensión r. La submatriz O es la matriz nula
de r filas y m − r columnas. La submatriz B tiene m − r filas y r columnas y no puede ser la
matriz nula, pues algún elemento de la misma tiene que ser igual a la probabilidad de pasar
de uno de los estados transitorios Er+1 , . . . , Em a algún estado absorbente E1 , E2 , . . . , Er .
Por consiguiente, todos sus elementos son no negativos, menores que 1 y al menos uno no es
positivo. Finalmente, la subamtriz A es cuadrada de dimensión m − r, y todos sus elementos
son no negativos y menores que 1.
Si se denota por I la matriz unidad de dimensión m − r se tiene el siguiente teorema (que no
demostraremos, véase [7]).
Teorema 2.1. La matriz I − A admite inversa y además si se define
X = (I − A)−1 , Z = XB
se tiene que
El elemento xij de X nos da el promedio de veces que el proceso de Markov pasa por el
estado Ej si comenzó en el Ei .
36
CAPÍTULO 2. PROCESOS ESTOCÁSTICOS
La suma de los elementos de la fila i de X,
m−r
X
xij
j=1
nos da el promedio de pasos que necesita el proceso para alcanzar un estado absorbente
partiendo del estado transitorio Ei .
El elemento zij de Z nos da la probabilidad de terminar en el estado absorbente Ej
partiendo del estado transitorio Ei .
Por lo tanto quedan contestadas las preguntas que nos hacíamos anteriormente.
Ejemplo 2.4. Cadena de Markov absorbente.
Dos jugadores J1 y J2 , cada uno con la misma cantidad de monedas de igual valor, deciden
jugar una serie de partidas a cara y cruz, conviniendo que si sale cara el jugador J1 pagará
una moneda a J2 , y si sale cruz recibirá una moneda de J2 , continuando el juego de esta
forma hasta que uno de ellos se arruine. ¿Nos hallamos ante un proceso de Markov?, ¿se
puede calificar la correspondiente cadena de Markov de absorbente?
Obviamente nos basta considerar la evolución de la cantidad de monedas que tenga J1 , pues
ese dato determina lo que tiene J2 en cada etapa del juego. Si, inicialmente cada jugador posee
n monedas, consideremos marcados sobre la semirrecta real positiva los puntos de abscisa
0, 1, 2, . . . , 2n. Puesto que J1 posee n monedas, imaginemos que lo colocamos en el punto de
abscisa n. Ahora, J1 juega la primera partida y tiene una probabilidad igual a 1/2 de ganar
o perder. Si pierde, entrega una moneda y tendrá n − 1, por lo que lo desplazaremos al punto
que tiene dicha abscisa, si gana se encontrará con n + 1 monedas, y lo imaginaremos en el
puntos de abscisa n + 1.
Si J1 alcanza el punto de abscisa 2n el juego termina con la ruina de J2 , si por el contrario,
alcanza el punto 0, J1 se arruina. Estamos en presencia de un proceso de 2n + 1 estados,
E0 , E1 , . . . , E2n , correspondientes a cada de uno de los puntos en que puede hallarse el jugador
J1 . Estamos por lo tanto ante una cadena de Markov absorbente, con dos estados absorbentes
E0 y E2n y los demás transitorios.
Por fijar ideas, si tomamos n = 3 la matriz de transición, una vez colocados los estados
absorbentes E0 y E6 en las dos primeras posiciones, es:

















1
0
0
0
0
0
0

0
1
0
0
0
0
0 


1/2 0
0 1/2 0
0
0 


0
0 1/2 0 1/2 0
0 


0
0
0 1/2 0 1/2 0 


0
0
0
0 1/2 0 1/2 

0 1/2 0
0
0 1/2 0
37
2.2. PROCESOS DE ESTADO DISCRETO
Las matrices X = (I − A)−1 y Z = XB son

X=









5/3
4/3
1
2/3
1/3
4/3
8/3
2
4/3
2/3
1
2
3
2
1
2/3
4/3
2
8/3
4/3
1/3
2/3
1
4/3
5/3






,













Z=
5/6
2/3
1/2
1/3
1/6
1/3
1/3
1/2
2/3
5/6





.




Del examen de X se desprende que, en promedio, el número de tiradas necesarias para acabar
la partida si los dos jugadores comienzan con tres monedas cada uno es nueve, que es la suma
de los elementos de la tercera fila de la matriz. Si uno hubiera comenzado con cuatro monedas
y el otro con dos, el promedio del número de jugadas hasta finalizar es ocho, reduciendo a
cinco si un jugador empieza con una moneda y el otro con cinco. La matriz Z, por otra parte
nos informa de que las probabilidades de ganar de cada uno de los jugadores son iguales
si ambos empiezan con el mismo número de monedas. Si uno comienza con dos y otro con
cuatro, este segundo tiene el doble de probabilidad de ganar que el otro, como vemos en la
cuarta fila de la matriz.
Procesos de saltos puros
En este caso, el proceso sigue siendo discreto en estados pero la gran diferencia es que los
cambios de estado ocurren en cualquier instante en el tiempo (tiempo continuo). Hemos
apuntado anteriormente que un ejemplo típico de procesos de saltos puros es la función
indicatriz. Otros ejemplos de procesos de saltos puros son los siguientes:
Definición 2.6. Un proceso estocástico en tiempo continuo {X(t), t ≥ 0} se dice que es un
proceso de conteo si representa el número de veces que ocurre un suceso hasta el instante de
tiempo t.
En particular, se tiene que X(t) ∈ N, y X(s) ≤ X(t) ∀s < t.
Definición 2.7. Un proceso de conteo se dice que es un proceso de Poisson homogéneo de
intensidad (o tasa) λ > 0, si:
X(0) = 0.
X(t1 ) − X(t0 ), X(t2 ) − X(t1 ), . . . , X(tn ) − X(tn − 1) son variables aleatorias independientes (proceso de incrementos independientes).
X(t + s) − X(s) es el número de sucesos que ocurren entre el instante s y el instante
t + s y además sigue una distribución de Poisson de parámetro λt
38
CAPÍTULO 2. PROCESOS ESTOCÁSTICOS
El proceso de Poisson se utiliza básicamente para modelar los llamados procesos de colas. En
ellos se pueden incluir muchos procesos: coches que llegan al peaje de una autopista, clientes
que llegan a un banco, peticiones que llegan a un servidor de Internet, llamadas que pasan
por una centralita, etc.
Tiene algunas características fundamentales:
Para cada instante t, X(t) seguirá una distribución de Poisson de parámetro λt.
Las diferencias entre los tiempos de llegadas consecutivas siguen una distribución exponencial de parámetro λ, es decir, X(i + 1) − X(i) siguen una exponencial de parámetro
λ.
Ejemplo 2.5. Proceso de Poisson con intensidad λ.
Sea X(t) igual al número de observaciones en el tiempo t. Asumimos que la probabilidad de
una observación en el intervalo de tiempo ∆t es igual a λ∆t + o(∆t). Haciendo referecnia
al ejemplo 1.3 es claro que esto es un proceso estocástico continuo y la probabilidad de n
observaciones en un tiempo t es
P (X(t) = n) = Pn (t) = e−λt
(λt)n
.
n!
El proceso X(t) es un proceso estocástico de parámetro continuo y de estado discreto. Específicamente, X(t) es un proceso de Poisson con intensidad λ > 0. Notemos que X(0) = 0 y
el número de observaciones en cualquier tiempo t es una distribución de Poisson con media
λt. Es decir, para cualquier λ ≥ 0
P (X(t + s) − X(s) = n) = e−λt
(λt)n
.
n!
Ciertamente, el proceso es un proceso de Markov y
P (X(t + ∆t) ≤ m + ∆m|X(t) = m) =
∆m
X
l=0
e−λ∆t
(λ∆t)l
l!
y la distribución de probabilidad en el tiempo t+∆t solo depende de el estado del sistema en el
tiempo t y no de la historia del sistema. Ademas si consideramos que Y (t) = X(t + s) − X(s)
para algún s ≥ 0, entonces Y (t) es también un proceso de Poisson con intensidad λ y
Y (0) = 0. La figura 2.2 muestra el comportamiento aleatorio de los saltos discretos en un
proceso de Poisson. Notemos que el promedio del proceso de Poisson (dibujado con línea
discontinua) sigue de cerca la recta λt . Hemos utilizado el siguiente código para dibujarlo:
xx = 4034218;
nt = 500; nrum = 200; time = 10; lambda = 1;
h = time/nt; tt = Range[0, time, h];
39
2.3. PROCESOS DE ESTADO CONTINUO
10
8
6
4
2
2
4
6
8
10
Figura 2.2: Proceso de Poisson con 200 muestras para la trayectoria y λ = 1.
sm = ConstantArray[0, {nt + 1, 1}]; s2 =
ConstantArray[0, {nt + 1, 1}]; patha =
ConstantArray[0, {nt + 1, 1}]; pathb = ConstantArray[0, {nt + 1, 1}];
For[j = 1, j <= nrum, j++, y = 0; Part[sm, 1] = y; Part[s2, 1] = y*y;
Part[patha, 1] = y; Part[pathb, 1] = y;
For[i = 1, i <= nt, i++, unr = random[xx]; xx = Part[unr, 2];
If[Part[unr, 1] < lambda*h, y = y + 1];
Part[sm, i + 1] = (Part[sm, i + 1] + y/nrum);
Part[s2, i + 1] = (Part[s2, i + 1] + y*y/nrum);
Part[pathb, i + 1] = Part[patha, i + 1]; Part[patha, i + 1] = y]]
a = 16807; b = 2^31 - 1;
random[x_] := (d = IntegerPart[a*x/b]; t = a*x - d*b;
unr = ConstantArray[0, {2, 1}]; Part[unr, 1] = t/b;
Part[unr, 2] = t; Return[unr])
Show[ListPlot[{Flatten[sm]}, Joined -> True, PlotStyle -> Dashed,
Ticks -> {{2, 4, 6, 8, 10}, {2, 4, 6, 8, 10}}],
ListPlot[{patha}, Joined -> True]]
2.3.
Procesos de estado continuo
Ahora consideramos un proceso estocástico continuo {X(t) : t ∈ T } definido en el espacio de
probabilidad (Ω, F, P ) donde T = [0, N ] es un intervalo de tiempo y el proceso está definido
40
CAPÍTULO 2. PROCESOS ESTOCÁSTICOS
en todos los instantes de tiempo del intervalo. Un proceso estocástico de tiempo continuo es
una función X : T ×Ω → R de dos variables t y ω y X puede ser de estado continuo o discreto
como hemos dicho en la introducción. En particular X(t) = X(t, ·) es una variable aleatoria
para cada valor de t ∈ T y X(·, ω) asigna el intervalo T a R. Generalmente el conocimiento
especifico de ω es innecesario, pero ω es importante ya que cada ω ∈ Ω define una trayectoria
diferente. Como consecuencia, lo normal es que la variable ω suela suprimirse, es decir, X(t)
representa una variable aleatoria para cada valor de t y X(·) representa una trayectoria en
todo el intervalo T = [0, N ]
Como ya hemos visto antes el proceso estocástico X es un proceso de Markov si el estado de
el proceso en algún tiempo tn ∈ T determina el estado futuro del proceso. Específicamente
P (X(tn+1 ) ≤ xn+1 |X(tn ) = xn ) = P (X(tn + 1) ≤ xn+1 |X(t1 ) = x1 , . . . , X(tn ) = xn ) donde
t1 < t2 < . . . < tn < tn+1 .
Características de un proceso estocástico
Del mismo modo que en una variable unidimensional X, podemos calcular su media, su varianza y otras características, y en variables n-dimensionales obtenemos un vector de medias,
matriz de covarianzas, etc., en un proceso estocástico podemos obtener algunas características
que describen su comportamiento: medias, varianzas y covarianzas. Puesto que las características del proceso pueden variar a lo largo de t estas características no serán parámetros
sino que serán funciones de t. Así:
Definición 2.8. Llamaremos función de medias del proceso a una función de t que proporciona las medias de las distribuciones marginales para cada instante t
µt = E(X(t)).
Definición 2.9. Llamaremos función de varianzas del proceso a una función de t que proporciona las varianzas de las distribuciones marginales para cada instante t
σt2 = Var(X(t)).
Definición 2.10. Llamaremos función de autocovarianzas del proceso a la función que proporciona la covarianza existente entre dos instante de tiempo cualesquiera:
Cov(t, s) = Cov(s, t) = Cov(X(t), X(s)).
Definición 2.11. Llamaremos función de autocorrelación a la estandarización de la función
de covarianzas:
Cov(t, s)
ρt,s =
σt σs
2.3. PROCESOS DE ESTADO CONTINUO
41
En general, estas dos últimas funciones dependen de dos parámetros (dos instantes). Una
condición de estabilidad que aparece en muchos fenómenos es que la dependencia sólo dependa, valga la redundancia, de la “distancia” entre ellos y no del instante considerado. En
estos casos tendremos:
Cov(t, t + j) = Cov(s, s + j) = γj j = 0, ±1, ±2, . . .
Por otro lado, si estudiamos casos concretos como la evolución de las ventas de una empresa
o la concentración de un contaminante, sólo disponemos de una única realización y aunque el
proceso estocástico exista, al menos conceptualmente, para poder estimar las características
“transversales” del proceso (medias, varianzas, etc..) a partir de la serie es necesario suponer
que estas permanecen estables a lo largo de t. Esta idea nos conduce a lo que se entiende por
condiciones de estacionariedad de un proceso estocástico (o de una serie temporal).
Procesos estocásticos estacionarios
En una primera aproximación, llamaremos estacionarios a aquellos procesos estocásticos que
tengan un comportamiento constante a lo largo del tiempo. Si buscamos el correspondiente
comportamiento de las series temporales asociadas a esos procesos, veremos gráficas que se
mantienen en un nivel constante con unas pautas estables de oscilación.
En la práctica del análisis de series encontraremos series con problemas de estacionariedad
que afecten a cualquiera de sus parámetros básicos, siendo los que más suelen afectar al
proceso de análisis las inconstancias en media y varianza.
Definición 2.12. Diremos que un proceso es estacionario en sentido estricto si al realizar un
mismo desplazamiento en el tiempo de todas las variables de cualquier distribución conjunta
finita, resulta que esta distribución no varía, es decir:
F (X(t1 ), X(t2 ), . . . , X(tr )) = F (X(t1+j ), X(t2+j ), . . . , X(tr+j ))
para todo conjunto de índices (t1 , t2 , . . . , tr ) y todo j.
Esta condición resulta bastante restrictiva y por consiguiente se adoptan otras un poco más
“débiles”.
Definición 2.13. Diremos que un proceso estocástico es estacionario en sentido débil si
mantiene constantes todas sus características lo largo del tiempo, es decir, si para todo t:
µt = µ
σt2 = σ 2
Cov(t, t + j) = Cov(s, s + j) = γj j = 0, ±1, ±2, . . .
42
CAPÍTULO 2. PROCESOS ESTOCÁSTICOS
Nota 2.3. En algunos libros este tipo de estacionariedad recibe el nombre de estacionariedad
en sentido amplio o estacionariedad de segundo orden. Por otro lado, si sólo exigimos que la
función de medias sea constante se dirá que el proceso es estacionario de primer orden o en
media.
A continuación veremos un ejemplo que nos introducirá a los procesos de Wiener.
Ejemplo 2.6. Una aproximación al proceso de Wiener (o movimiento Browniano).
Sean Xi (t) para i = 1, 2, . . . , N N procesos independientes de Poisson con intensidad N . Sea
YN (t) otro proceso estocástico definido por
YN (t) =
N
X
Xi (t) − λt
√
λN
i=1
Por el teorema central del límite, cuando N aumenta YN (t) se aproxima a una variable
aleatoria con distribución normal de media 0 y varianza t.
YN (t) se aproxima a un proceso de Wiener o a un movimiento Browniano W (t) cuando
N aumenta. Un proceso de Wiener {W (t), t ≥ 0} es un proceso estocástico continuo con
incrementos estacionarios independientes de manera que
W (0) = 0 y W (t) − W (s) ∼ N (0, t − n) para todo 0 ≤ s ≤ t.
Así E(W (t)) = 0, Var(W (t) − W (s)) = t − s para todo 0 ≤ s ≤ t y, en particular,
W (t2 ) − W (t1 ) ∼ N (0, t2 − t1 ) y W (t4 ) − W (t3) ∼ N (0, t4 − t3 )
son variables aleatorias gaussianas independientes para 0 ≤ t1 < t2 ≤ t3 < t4 . Notemos que
un proceso de Wiener es un proceso de Markov homogéneo. Además W (t) representa una
variable aleatoria en cada valor de t.
Puede ser interesante ver como una trayectoria de un proceso de Wiener W (t) puede ser
generada por un número finito de puntos. Suponemos que la trayectoria de un proceso de
Wiener es descrita en el intervalo [t0 , tN ] con la sucesión de puntos {ti }N
i=0 donde t0 = 0.
Entonces W (t0 ) = 0 y la trayectoria de un proceso de Wiener en los puntos t0 , t1 , . . . , tN
viene dada por
q
W (ti ) = W (ti−1 ) + ηi−1 ti − ti−1 para i = 1, 2, . . . , N.
donde ηi−1 son N (0, 1) distribuciones normales independientes para i = 1, 2, . . . , N . Los
valores W (ti ), i = 0, 1, . . . , N determinan una trayectoria de Wiener en los puntos {ti }N
i=0 .
Otra manera interesante de generar un proceso de Wiener, la cual usa un número contable
de variables aleatorias con distribuciones normales es la expansión de Karhumen-Loève. La
expansión de Karhumen-Loéve se deriva de la serie de Fourier del proceso de Wiener y tiene
la forma
√
∞
X
2 2T
(2n + 1)πt
ηn sen(
)
W (t) =
2T
0 (2n + 1)π
43
2.3. PROCESOS DE ESTADO CONTINUO
para t ∈ [0, T ], donde ηn ∼ N (0, 1) para n = 0, 1, . . . . De hecho ηn es dada en la fórmula
anterior por
η=
(2n + 1)π Z T
(2n + 1)πt
)dt para n = 0, 1, 2, . . . .
W (t) sen(
1/2
3/2
2 T
2T
0
Veamos que la serie W (t) tiene las propiedades requeridas por el proceso de Wiener, sea
√
N
X
(2n + 1)πt
2 2T
ηn sen(
)
SN (t) =
2T
n=0 (2n + 1)π
la N -ésima suma parcial de la serie. Por la definición de espacio de Hilbert, HRV , del tema
anterior es fácil ver que Sn (t) ∈ HRV para cada t ∈ [0, T ] y que {SN (t)} es sucesión de
Cauchy en el espacio de Hilbert HRV . De hecho, como ηn ∼ N (0, 1) para cada n se tiene que
2
(t)) donde
SN (t) ∼ N (0, σN
2
σN
(t) = t −
observemos que
t=
∞
X
8T
(2n + 1)πt
sen2 (
)
2
2
2T
n=N +1 (2n + 1) π
∞
X
8T
(2n + 1)πt
sen2 (
).
2
2
2T
n=0 (2n + 1) π
Notemos que para cada t ∈ [0, T ] W (t) ∈ HRV . Además W es continua en media cuadrática
pero no posee derivada. Para ver la continuidad de W consideramos
||W (t + ∆t) − W (t)||2RV = E(W (t + ∆t) − W (t))2 = ∆t
√
Por lo que ||W (t + ∆t) − W (t)||RV = ∆t y dado > 0 existe un δ > 0 de modo que
||W (t + ∆t) − W (t)||RV < cuando ∆t < δ. Sin embargo como
||
W (t + ∆t) − W (t) 2
1
||RV =
∆t
∆t
no hay F (t) ∈ HRV tal que
||
W (t + ∆t) − W (t)
− F (t)||2RV → 0 cuando ∆t → 0.
∆t
Puede ser útil tratar el tema de la esperanza de las funciones W (t) para 0 ≤ t ≤ T . Primero
recordemos que
−(x−y)2
1
2|t|
p(t, x, y) =
para x, y ∈ R
e
(2π|t|)1/2
es la función de densidad de variables aleatorias normales con media y varianza |t|. Sea W (t)
un proceso de Wiener en [0, T ]. Claramente para t1 ∈ [0, T ] y G : R → R,
E(G(W (t1 ))) =
Z ∞
∞
G(x1 )p(t1 , x1 , 0)dx1 .
44
CAPÍTULO 2. PROCESOS ESTOCÁSTICOS
Además
P (W (t1 ) ≤ z1 ) =
Z z1
∞
p(t1 , x1 , 0)dx1 .
Ahora consideramos una partición de [0, T ], 0 = t0 ≤ t1 ≤ t2 ≤ . . . ≤ tk ≤ T . Para
G : R2 → R,
E(G(W (t1 ), W (t2 ))) =
Z ∞ Z ∞
−∞
−∞
G(x1 , x2 )p(t1 , x1 , 0)p(t2 − t1 , x2 , x1 )dx1 dx2 .
Además para G : Rk → R,
E(G(W (t1 ), W (t2 ), . . . , W (tk ))) =
Z ∞
...
Z ∞
−∞
−∞
G(x1 , . . . , xk )p(t1 , x1 , 0) . . . p(tk − tk , xk , xk−1 )dx1 . . . dxk .
Las funciones de densidades p(tm −tm−1 , xm , xm−1 ) para m = 1, 2, 3, . . . , k definen un conjunto
finito-dimensional de medidas de probabilidad en Rk . La distribución de probabilidad en esta
partición satisface
Ft1 ,t2 ,...,tk (z1 , z2 , . . . , zk ) = P (W (t1 ) ≤ z1 , . . . , W (tk ) ≤ zk ) =
Z zk Z zk−1
−∞
−∞
...
Z z1
−∞
p(t1 , x1 , 0) . . . p(tk − tk , xk , xk−1 )dx1 . . . dxk .
El proceso estocástico es el proceso de Wiener o movimiento Browniano W (t) sobre cualquier
partición de [0, T ], la distribución finita-dimensional de W (t) se reduce a la expresión anterior.
Finalmente consideramos la función de densidad p(y, t, x, s) para el proceso de Wiener de x
en tiempo s e y en tiempo t. En este caso,
p(y, t, x, s) =
−(x−y)2
1
2|t−s|
e
(2π|t − s|)1/2
claramente p(y, t, x, s) = p(y, x, |t − s|), por lo que el proceso de Wiener es un proceso de
Markov homogéneo continuo.
Ejemplo 2.7. Proceso de Wiener con Mathematica.
Con este programa que vamos a mostrar a continuación podemos dibujar dos procesos de
Wiener, las figuras 2.3 y 2.4 son el resultado del programa. También hemos dibujado la media
y la varianza de uno de ellos, véase figura 2.5.
El código utilizado es
xx = 56430.; n = 500; nrun = 200; tf = 5.; h = tf/n; hs =
Sqrt[h]; tt = Range[0, tf, h];
y3 = ConstantArray[0, {n, 1}]; y4 = ConstantArray[0, {n, 1}]; ya =
ConstantArray[0, {n, 1}]; yv = ConstantArray[0, {n, 1}];
45
2.4. GENERACIÓN DE PROCESOS ESTOCÁSTICOS
sa = 0.; sv = 0.; a = 16807; b = 2^31 - 1;
For[j = 1, j <= nrun, j++,
For[i = 1, i <= (n - 1), i++, d = IntegerPart[a*xx/b];
t = a*xx - d*b; unr = ConstantArray[0, {2, 1}]; Part[unr, 1] = t/b;
Part[unr, 2] = t/b; u1 = Part[unr, 1]; u2 = Part[unr, 2];
hlp = Sqrt[-2.*Log[u1]]; Part[unr, 1] = hlp*Cos[Pi*2.*u2];
Part[unr, 2] = hlp*Sin[Pi*2.*u2]; xx = t; a1 = 0; a2 = 0; b11 = 1;
b12 = 0; b21 = 0; b22 = 1;
Part[y3, i + 1] =
Part[y3, i] + a1*h + hs*b11*Part[unr, 1] + hs*b12*Part[unr, 2];
Part[y4, i + 1] =
Part[y4, i] + a2*h + hs*b21*Part[unr, 1] + hs*b22*Part[unr, 2];
Part[ya, i + 1] = Part[ya, i + 1] + Part[y4, i + 1]/nrun;
Part[yv, i + 1] = Part[yv, i + 1] + (Part[y4, i + 1]^2)/nrun];
sa = sa + Part[y4, n]/nrun; sv = sv + (Part[y4, n]^2)/nrun;]
5
15
4
10
3
2
5
1
100
200
300
400
Figura 2.3: Proceso de Wiener
2.4.
500
100
200
300
400
500
Figura 2.4: Proceso de Wiener
Generación de procesos estocásticos
Se suele usar números pseudo-aleatorios para simular procesos estocásticos. Primero consideramos un proceso estocástico discreto, en particular, una cadena de Markov {Xn } en
0 = t0 < t1 < t2 < . . . < tn = T donde x0 = z0 y Xn es una variable aleatoria discreta para
cada tiempo tn , n = 0, 1, . . . , N . Notemos que Xn ∈ M = {z−m , z−m+1 , . . . , zm }. Suponemos
46
CAPÍTULO 2. PROCESOS ESTOCÁSTICOS
250
200
150
100
50
100
200
300
400
500
Figura 2.5: La media (en azúl) y varianza (en rojo) del proceso de Wiener de la figura 2.4
que la matriz de transición dependiente de t viene dada por

Pn =










(n)
(n)
p−m,−m
p−m,−m+1 . . .
(n)
(n)
p−m+1,−m p−m+1,−m+1 . . .
..
..
..
.
.
.
(n)
(n)
pm−1,−m pm−1,−m+1 . . .
(n)
(n)
...
pm,−m
pm,−m+1
(n)
(n)
p−m,m−1
p−m,m
(n)
(n)
p−m+1,m−1 p−m+1,m
..
..
.
.
(n)
pm−1,m−1
(n)
pm,m−1






,


(n)
pm−1,m 

(n)
pm,m
(n)
donde pi,j = P {Xn+1 = zj |Xn = zi }. Consideremos la siguiente trayectoria {Xn , 0 ≤ n ≤
(0)
N } donde en t0 , X0 = z0 . Para encontrar X1 tenemos que calcular primero p0,j para j =
−m, −m + 1, . . . , m. El siguiente paso es generar un número pseudo-aleatorio de distribución
uniforme en [0, 1], η0 , y calcular un r0 que cumpla que
rX
0 −1
(0)
p0,j < η0 ≤
j=−m
r0
X
(0)
p0,j .
j=−m
(1)
Finalmente igualamos X1 a zr0 . Para encontrar X2 tenemos que calcular primero pr0 ,j para
j = −m, −m + 1, . . . , m. Entonces como antes generamos una distribución uniforme η1 en
[0, 1] y calculamos r1 de modo que
rX
1 −1
j=−m
(0)
pr0 ,j < η1 ≤
r1
X
(0)
pr0 ,j .
j=−m
Entonces igualamos X2 a zr1 . Repitiendo estos pasos N veces obtendremos una ordenación
de {Xk }N
k=0 del proceso estocástico.
Ahora consideramos una trayectoria para una cadena de Markov continua {X(t), t ∈ [0, T ]}.
Generalmente las trayectorias de los procesos continuos son determinadas como un conjunto
discreto de tiempos, es decir, una trayectoria X(t) es calculada en los tiempos t0 , t1 , . . . , tN
2.4. GENERACIÓN DE PROCESOS ESTOCÁSTICOS
47
donde 0 = t0 < t1 < t2 < . . . < tN = T . De esta manera X(t) puede ser aproximado entre
estos puntos, usando por ejemplo interpolación lineal a trozos.
Ejemplo 2.8. Simulación de un proceso de Poisson.
Consideremos un proceso de Poisson X(t) con intensidad λ. Recordemos que el proceso X(t)
es igual al número de observaciones en tiempo t donde la probabilidad de una observación
en tiempo ∆t es igual a λ∆t + o((∆t)2 ). Del ejemplo 1.3, vimos que
P (X(t) = n) = e−λt
(λt)n
n!
Consideremos ahora este proceso continuo en los tiempos discretos tk = kh para k =
0, 1, 2, . . . , N donde h = T /N .Sea
X(tk+1 ) = X(tk ) + ηk para k = 0, 1, . . . , N − 1, donde Xt0 = 0
y los números aleatorios ηk son elegidos de forma que
P (ηk = n) = e−λh
(λh)n
para n = 0, 1, 2, . . . .
n!
Por lo tanto X(tk ) son distribuciones de Poisson con intensidad λ en los tiempos discretos
t0 , t1 , . . . , tN . Notemos que para encontrar ηk dada una distribución uniforme ηk en [0, 1]
utilizamos la siguiente relación
ηX
k −1
j=0
e−λh
ηk
X
(λh)j
(λh)j
< ηk ≤
e−λh
.
j!
j!
j=−0
Ejemplo 2.9. Simulación de la trayectoria de un proceso de Wiener.
Consideremos un proceso de Wiener W (t) en [0, T ]. Como antes simulamos este proceso en
los tiempos continuos tk = kh para k = 0, 1, 2, . . . , N donde h = T /N y sea
X(tk+1 ) = X(tk ) + ηk para k = 0, 1, . . . , N − 1,
donde Xt0 = 0 y ηk son distribuciones uniformes normales con media 0 y varianza h. Cada
trayectoria del proceso continuo se calcula en los tiempos discretos t0 , t1 , . . . , tN . Así W (tk ) =
X(tk ) para k = 0, 1, 2, . . . , N . Para estimar W (t) en algún tiempo t 6= tk para algún k,
podemos usar una interpolación lineal continua como por ejemplo
W (t) ≈ X(tk )
tk+1 − t
t − tk
+ X(tk+1 )
para tk ≤ t ≤ tk+1 .
h
h
Ejemplo de un proceso estocástico real
Los procesos estocásticos son comunes en física, biología, meteorología y finanzas. Un ejemplo
clásico de proceso estocástico físico es el decaimiento que consiste en que átomos de isotopos
48
CAPÍTULO 2. PROCESOS ESTOCÁSTICOS
inestables se transforman en otros isotopos. Supongamos que tenemos inicialmente n0 átomos
en un isotopo radiactivo y suponemos también que λ es la constante de decadencia de los
isotopos. Esto significa que la probabilidad que probabilidad de que un átomo se transforme
en un pequeño intervalo de tiempo ∆t es de λ∆t + O((∆)2 ). Sea N (t) el número de átomos
en un tiempo t y sea pn (t) la probabilidad de que halla n átomos también en un tiempo t.
Entonces podemos obtener que
p0 (t + ∆t) = p0 (t)(1 − λn ∆t),
pn (t + ∆t) = pn+1 (t)λ(n + 1)∆t + pn (t)(1 − λn∆t) + O((∆t)2 ).
Haciendo ∆ → 0 obtenemos

 dpn0 (t)

dt
dpn (t)
dt
= −λn0 pn0 (t)
para pn0 (0) = 1
y
= −λnpn (t) + λ(n + 1)pn+1 (t) con pn (0) = 0 para 0 ≤ n < n0 .
Podemos calcular el número esperado de átomos como
n0
X
n0
dE(N (t)) X
dpn (t)
E(N (t)) =
npn (t) y
=
n
.
dt
dt
n=0
n=0
Y
nX
n0
n0
0 −1
dE(N (t)) X
dpn (t) X
λn(n + 1)pn+1 (t)
n
−λ2 pn (t) +
=
=
dt
dt
n=0
n=0
n=0
=
=
n0
X
n=0
n0
X
−λ2 pn (t) +
nX
0 −1
λ(n − 1)pn+1 (t)
n=1
−λnpn (t) = −λE(N (t)).
n=0
Por lo tanto,
Así E(N (t)) = n0 e−λt
dE(N (t))
= −λE(N (t)) con E(N (t)) = n0 .
dt
es el número esperado de átomos en el tiempo t.
Capítulo 3
El modelo de Black y Scholes
3.1.
Introducción
En este capítulo introducimos el modelo básico de las matemáticas financieras, el modelo
de Black y Scholes, y presentamos la famosa fórmula de valoración de opciones europeas de
compra (call option) y de venta (put option). También hablaremos de la fórmula de Itô, una
herramienta matemática necesaria para las finanzas (véase [6]).
Modelización matemática en finanzas
Suponemos que tenemos un mercado financiero con dos posibilidades de inversión:
Un activo sin riesgo, caja de ahorros o cuenta corriente, llamado bono, que paga un
interés instantáneo de tasa r ≥ 0. Notemos que su evolución sigue la siguiente ecuación
diferencial
dBt
= rdt B0 = 1,
Bt
cuya solución es
Bt = ert .
Un activo de riesgo, aleatorio, que designamos mediante
St = S0 eXt ,
donde {Xt } es un proceso estocástico en un espacio de probabilidad (Ω, F, P ) que
cumple que X0 = 0.
Opciones
En este apartado vamos a introducir una tercera alternativa de inversión denominada opción,
que es un contrato que paga f (ST ) (con f una función) en el instante T a su poseedor.
Notemos que
49
50
CAPÍTULO 3. EL MODELO DE BLACK Y SCHOLES
Al activo S se le llama subyacente.
Si f (x) = (x − k)+ , donde k es el precio acordado en T , tenemos una opción de compra
(call option).
Si f (x) = (k − x)+ tenemos una opción de venta (pull option).
Si T es fijo (tiene que estar estipulado en el contrato) la opción es europea.
Si T puede ser elegido por el poseedor del contrato la opción es americana.
3.2.
El modelo de Black y Scholes
El modelo de Black y Scholes es de tiempo continuo t ∈ [0, T ] y consta de dos activos:
B = (Bt )t∈[0,T ] que evoluciona en forma determinística según la ley
dBt
= rdt, B0 = 1,
Bt
donde r es la tasa de interés por unidad de tiempo y B representa un bono (bond).
El precio de la acción (stock) S = (St )t∈[0,T ] es de evolución aleatoria (o contingente) y
sigue la siguiente ecuación diferencial
dSt
= µdt + σdW, S0 = x,
St
donde
• µ es el retorno medio del activo con riesgo (la media).
• σ la volatidad (capacidad de variación en los precios que tiene un activo respecto
a su media).
• W es un movimiento Browiano.
Ahora tenemos que dar una sentido (aunque sea práctico) a la expresión dW .
Fórmula de Itô
Para valorar opciones debemos desarrollar una herramienta fundamental en las finanzas que
es la fórmula de Itô, la cual es una generalización de la regla de la cadena del cálculo usual
de funciones.
Antes de nada tenemos que conseguir dar sentido y generalizar la igualdad
(dW )2 = dt.
51
3.3. PROCESO DE WIENER ECONÓMICO
Para ello consideramos f : R −→ R una función con derivadas continuas (regular) cuyo
desarrollo de Taylor es
1
f (x) − f (x0 ) = f 0 (x0 )∆x + f 00 (x0 )(∆x)2 + . . .
2
Habitualmente el segundo término se desprecia frente al primero, pero si x = Wt y x0 = Wt0
tenemos que
(∆x)2 = (∆W )2 ∼ ∆t,
y el aporte no se desprecia frente al primer sumando (los otros términos son efectivamente
de mayor orden).
Sea ahora f = f (x, t) una función regular de dos variables, argumentando de manera similar
que antes (aunque no lo veremos) se tiene que
f (Wt , t) − f (W0 , 0) =
Z t
0
fx (Ws , s)dWs +
Z t
0
1Z t
ft (Ws , s)ds +
fxx (Ws , s)ds
2 0
que es la fórmula de Itô. Sintéticamente tenemos
1
df (Wt , t) = fx (Wt , t)dWt + fxx (Wt , t)dt + ft (Wt , t)dt.
2
Nota 3.1. La primera integral (llamada integral estocástica)
se como un límite de sumas del tipo
n−1
X
Rt
0
fx (Ws , s)dWs , debe entender-
fx (Wti )(Wti+1 − Wti ).
i=0
Ejemplo 3.1. Sea f (x) = x2 . Tenemos que
ft = 0, fx = f 0 = 2x, fxx = f 00 = 2.
Por lo tanto resulta que
f (Wt ) − f (W0 ) = Wt2 =
Z t
0
Nota 3.2. No tenemos que confundir
el resultado seria (Wt )2 y no es así.
3.3.
(2Ws )dWs +
Rt
0 (2Ws )dWs
Z t
1Z t
2ds = (2Ws )dWs + t.
2 0
0
con una integral normal ya que de ser así
Proceso de Wiener económico
En 1900, L. Bachelier introdujo un modelo del movimiento Browniano que propone que las
acciones evolucionan como
Lt = L0 + σWt + γt,
52
CAPÍTULO 3. EL MODELO DE BLACK Y SCHOLES
donde Wt es un proceso de Wiener, Lt el precio de la acción en el tiempo t y σ, γ constantes.
Notemos que Lt puede tomar valores negativos.
En 1965 P. Samuelson propone el siguiente modelo
Gt = G0 eσWt +γt ,
para los precios de la acción en un tiempo t. A G se le llama movimiento Browniano o
geométrico. Veamos que esta definición verifica la formula del activo con riesgo S en el
modelo de Black y Scholes. Como G es función de W podemos aplicar la fórmula de Itô.
Considerando
f (x, t) = G0 eσx+γt ,
tenemos que
Gt = f (Wt , t).
Las derivadas parciales de f (x, t) son
fx (x, t) = σf (x, t), fx x(x, t) = σ 2 f (x, t), ft (x, t) = γf (x, t),
por lo que
1
dGt = df (Wt , t) = σGt dWt + σ 2 Gt dt + γGt dt,
2
y dividiendo por Gt se tiene
dGt
1
= (γ + σ 2 )dt + σdWt
Gt
2
= µdt + σdWt ,
con µ = γ + 12 σ 2 .
Es decir el proceso de Wiener económico verifica la definición del activo con riesgo en el
modelo de Black y Scholes.
Como µ = γ + 12 σ 2 la fórmula para S es
1
2
St = S0 eσWt +(µ− 2 σ )t .
3.4.
Valoración de opciones
Antes de nada debemos introducir la definición de portafolio.
Definición 3.1. Un portafolio en un modelo de Black y Scholes es un par de procesos
estocásticos π = (at , bt ) que representa la cantidad de bonos at y la cantidad de acciones bt
de un agente en cada instante t. El valor de un portafolio π en el instante t es
Vtπ = at Bt + bt St .
53
3.4. VALORACIÓN DE OPCIONES
Para calcular el precio V (S0 , T ) de una opción europea que se paga f (St ), Black y Scholes
propusieron construir un portafolio que sea equivalente a poseer la opción. Propusieron que
replique la opción y que sea autofinanciante. Cuando existe el portafolio decimos que el
modelos es completo.
Veamos en detalle lo que queremos decir:
Replique la opción, es decir, en el momento de ejecución de la opción el portafolio iguale
en capital a la opción.
VTπ = aT BT + bT ST = f (ST ).
Sea autofinanciante, es decir, la variación de capital es producto únicamente de las
variaciones de los precios de los activos B y S. Matemáticamente esto se formula de la
siguiente manera
dVtπ = at dBt + bt dSt .
El precio de la opción se define entonces como el precio del portafolio autofinanciante en
t = 0, es decir
V (S0 , T ) = a0 B0 + b0 S0 .
Construcción del portafolio
Black y Scholes demostraron que el portafolio replicante y autosuficiente es único, determinando entonces un precio racional para la opción.
Para encontrarlo, buscamos una función H(x, t) tal que
Vtπ = H(St , t).
La condición de réplica es VTπ = f (ST ), lo que se logra si
H(x, t) = f (x).
Como el portafolio y la opción son equivalentes, el precio de la opción sera el capital necesario
para comprar el portafolio en t = 0, es decir
V (S0 , T ) = H(S0 , 0).
Para determinar H y π = (at , bt ) de manera que
Vtπ = at Bt + bt St H(St , t),
comenzamos calculando el diferencial de V de dos formas distintas para igualar el resultado.
Primero como S es función de W , y H es función de S podemos aplicar la formula de Itô,
resultando
1
1
dVtπ = dH = Hx dS + Hxx dt + Ht dt = (µSHx + σ 2 S 2 Hxx + Ht ) + Hx SσdW.
(3.1)
2
2
54
CAPÍTULO 3. EL MODELO DE BLACK Y SCHOLES
Nota 3.3. Para calcular la ecuación anterior tener en cuenta que (dS)2 = σ 2 S 2 (dW )2 y que
(dW )2 = dt.
Por otra parte como π es autosuficiente y at Bt = Ht − Bt St tenemos que
dVtπ = adB + bdS = raBdt + b(µSdt + σSdW )
= r(H − bS)dt + µbSdt + bSσdW
(3.2)
= (rH + (µ − r)bS)dt + bSσdW.
Igualando los coeficientes de dW en 3.1 y 3.2 obtenemos que
bt = Hx (St , t).
3.5.
La ecuación de Black-Scholes
Utilizando que bt = Hx (St , t) e igualando (3.1) y (3.2) se tiene que
1
rsHx + σ 2 S 2 Hxx + Ht = rH.
2
Además, para que sea réplica, se tiene que H(ST , T ) = f (ST ). Si ambas condiciones se
verifican para todos los valores posibles x que toma el activo, se tiene
1 2 2
σ x Hxx (x, t) + rxHx (x, t) + Ht (x, t) = rH(x, t)
2


H(x, T ) = f (x).



Esto es la ecuación de Black-Scholes. Es una ecuación diferencial en derivadas parciales. La
condición de réplica es la condición inicial o de frontera. La condición que obtuvimos primero:
bt = Hx (St , t),
nos da la cantidad de acciones necesarias para replicar la opción.
La solución de la ecuación diferencial viene dada por
H(x, t) = xΦ(x1 (x, t)) − erT KΦ(x2 (x, t)),
con
T −t
x1 (x, t) =
log xeK
− 1 σ 2 (T − t)
√ 2
,
σ T −t
T −t
log xeK
+ 1 σ 2 (T − t)
√ 2
.
σ T −t
Entonces el valor de la opción que corresponde a t0 es
x2 (x, t) =
V (S0 , T ) = S0 Φ(x1 ) − erT KΦ(x2 )
3.5. LA ECUACIÓN DE BLACK-SCHOLES
con
55
T
log S0Ke − 12 σ 2 (T )
√
x1 =
,
σ T
T
log S0Ke + 12 σ 2 (T )
√
x2 =
.
σ T
Importancia de la fórmula de Black-Scholes
El detalle clave es que la solución no depende de µ, el rendimiento del activo subyacente a la
opción, los parámetros que aparecen son r y σ. Para aplicar la formula se tiene que:
r se obtiene de bonos (preferentemente en la misma moneda) con vencimiento (plazo
de vida de una activo financiero) T .
σ no es observable, se calcula (en general) a partir de precios de opciones, es la volatilidad implícita.
56
CAPÍTULO 3. EL MODELO DE BLACK Y SCHOLES
Bibliografía
[1] R. B. Ash: Real Analysis and Probability, Academic Press, Inc. Londres, 1972.
[2] E. J. Allen: Random selection of 3-digits numbers, Mathematical Spectrum 33
(2000/2001), 8–10.
[3] E. J. Allen: Modeling with Itô stochastic differential equations, Springer, The Netherlands, 2007.
[4] R. Durrett: Probability. Theory Examples, Cambridge University Press, Cambridge,
2010.
[5] G. B. Folland: Real Analysis. Modern techniques and their applications, John Wiley
& Sons, Nueva York, 1984.
[6] E. Mordecki: Modelos matemáticos en finanzas: Valuación de opciones. 1998. Curso de
actualización para egresados. UPAE, Facultad de Ciencias Económicas y Administración,
http://www.cmat.edu.uy/~mordecki/courses/upae/upae-curso.pdf
[7] S. Pérez-Cacho, F. M. Gómez y J. M. Marbán: Modelos matemáticos y procesos
dinámicos: un primer contacto, Servicio Publicaciones Univ. Valladolid, 2002.
[8] L. J. Rodríguez-Aragón: Simulación, Método de Montecarlo. Área de Estadística
e Investigación Operativa, Universidad de Castilla-La Mancha, http://www.uclm.es/
profesorado/licesio/Docencia/mcoi/Tema4_guion.pdf
[9] S. Weinzierl: Introduction to Monte Carlo methods, arXiv:hep-ph/0006269.
57
58
BIBLIOGRAFÍA
Descargar