Probabilidad de transición (aplicadas a juegos de

Anuncio
Alumnas: Nuccelli, Nadia Alejandra
Olmos, Norma
Comisión E- Grupo 7
Probabilidad de transición: cadenas de Markov
Algunas veces se está interesado en cómo cambia una variable aleatoria con el tiempo. El estudio
de una variable aleatoria con el tiempo incluye procesos estocásticos.
Un proceso o sucesión de eventos que se desarrolla en el tiempo en el cual el resultado en
cualquier etapa contiene algún elemento que depende del azar se denomina proceso aleatorio o
proceso estocástico. Por ejemplo, la sucesión podría ser las condiciones del tiempo en un
determinado lugar en una serie de días consecutivos: el tiempo cambia día a día de una manera
que en apariencia es algo aleatoria. El meteorólogo seguramente consulta las imágenes satelitales;
pero también sabe que el clima en un día del año corresponde de alguna manera a un fenómeno
aleatorio, es así como hoy puede ser soleado, ser lluvioso o fresco sin lluvia, y que el clima estaría
en una y solo una de estas tres posibilidades y que la ocurrencia de una de ellas excluye a las
demás. También es fácil ver que la probabilidad de que en un día específico llueva, o sea soleado
o fresco sin lluvia, está muy relacionada con lo ocurrido al clima el día anterior.
En la mayoría de los procesos estocásticos, cada resultado depende de lo que sucedió en etapas
anteriores del proceso. Por ejemplo, el tiempo en un día determinado no es aleatorio por completo,
sino que es afectado en cierto grado por el tiempo de días previos.
Los procesos estocásticos se pueden clasificar atendiendo a dos aspectos: si el espacio de
estados posibles de la variable aleatoria contiene valores discretos o continuos y de si los valores
del tiempo son discretos o continuos.
El caso más simple de un proceso estocástico en que los resultados dependen de otros, ocurre
cuando el resultado en cada etapa sólo depende del resultado de la etapa anterior y no de
cualquiera de los resultados previos. Tal proceso se denomina proceso de Markov o cadena de
Markov (una cadena de eventos, cada evento ligado al precedente) y reciben su nombre del
matemático ruso Andrei Andreevitch Markov (1856-1922).
La cadena de Markov se ha aplicado a áreas como educación, comercialización, servicios de
salud, finanzas, contabilidad y producción. Es un tipo especial de proceso discreto en el tiempo,
es decir, es un proceso estocástico en el que los valores del tiempo son discretos y los estados
posibles de la variable aleatoria contiene valores discretos.
Estas cadenas tienen memoria, recuerdan el último evento y eso condiciona las posibilidades de
los eventos futuros, es por ello que con las cadenas de Markov podremos hacer predicciones de
comportamientos futuros como las que se observaron en las situaciones anteriores.
Así, si llamamos estados a cada una de estas posibilidades que se pueden presentar en un
experimento o situación especifica, entonces podemos visualizar en las Cadenas de Markov una
herramienta que nos permitiría conocer a corto y largo plazo los estados en que se encontrarían en
periodos o tiempos futuros.
Definición
Una cadena de Markov es una sucesión de ensayos similares u observaciones en la cual
cada ensayo tiene el mismo número finito de resultados posibles y en donde la probabilidad
de cada resultado para un ensayo dado depende sólo del resultado del ensayo
inmediatamente precedente y no de cualquier resultado previo.
Propiedad de Markov: Dada una secuencia de variables aleatorias {Xn, n: 0,1, 2...}, tales que el
valor de Xn es el estado del proceso en el tiempo n, que cumplen la probabilidad de alcanzar
cualquier estado j de la variable que depende exclusivamente del estado i alcanzado en el instante
de tiempo anterior, entonces:
P(X n+1 = j / X n = i, X n-1= i1,...X0=in) = P( X n+1 = j / X n = i)
Esta identidad es la denominada propiedad de Markov.
1
Alumnas: Nuccelli, Nadia Alejandra
Olmos, Norma
Comisión E- Grupo 7
Si el sistema se mueve del estado i durante un período al estado j durante el siguiente período, se
dice que ocurrió una transición de i a j.
Se define para cada par de estados (i, j) que se alcanzan en dos pasos consecutivos de n y n+1
una probabilidad condicional denominada probabilidad de transición pij.
P (Xn+1 = j / Xn = i) = pij
(suposición estacionaria)
Supongamos que las probabilidades de transición de un paso son estacionarias, es decir, que no
cambian con el tiempo. Las probabilidades de transición del estado Xi al estado Xj estructuradas en
forma matricial da lugar a lo que se denomina matriz de transición:
Dicha matriz relaciona los estados de la variable en dos pasos consecutivos a través de sus
probabilidades de transición.
Una matriz de transición para una cadena de Markov de n estados es una matriz de n x n con
todos los registros no negativos y con la propiedad adicional de que la suma de los registros de
cada fila es 1.
Definición:
Consideremos un proceso de Markov en que el sistema posee n estados posibles, dados
por los números 1, 2, 3, …, n. Denotemos pij a la probabilidad de que el sistema pase al
estado j después de cualquier ensayo en donde su estado era i. Los números pij se
denominan probabilidades de transición y la matriz nxn P = (pij ) se conoce como matriz de
transición del sistema.
Observaciones:
Las probabilidades pij deben satisfacer las condiciones:
La suma pi1 + pi2 + …+ pin = 1 . Esta suma representa la probabilidad de que el sistema
pase a uno de los estados 1, 2, …., n dado que empieza en el estado i. Ya que el sistema ha
de estar en uno de estos n estados, la suma de probabilidades debe ser igual a 1. Esto significa
que los elementos en cualquier renglón de la matriz de transición deben sumar 1.
2) Cada elemento pij ≥ 0.
1)
Ejemplos sencillos:
En un pueblo, al 90% de los días soleados le siguen días soleados, y al 80% de
los días nublados le siguen días nublados. Con esta información modelar el clima del
pueblo como una cadena de Markov.
EJEMPLO 1:
Tiempo de hoy (x1)
0,9
soleado
Tiempo de mañana (x2)
soleado
nublado
0,1
2
Alumnas: Nuccelli, Nadia Alejandra
Olmos, Norma
Comisión E- Grupo 7
Tiempo de hoy (x1)
0,2
nublado
Tiempo de mañana (x2)
soleado
nublado
0,8
Se trata de una cadena de Markov con dos estados {s1= soleado, s2 = nublado} que para abreviar
representaremos por {s1, s2}, siendo la matriz de probabilidades de transición:
s1 s2
0,9 0,1 s1
P=
0,2 0,8 s2
El proceso de este ejemplo sólo puede adquirir uno de dos estados posibles s1 = soleado y s2 =
nublado.
La probabilidad con que se va de un estado a otro depende del estado en que estamos en el
presente.
Dejemos que X1 represente el estado del clima del día número 1, X2 el estado del clima del día
número 2 y así sucesivamente. En general, para n = 1, 2,... sea Xn el estado del clima en el
enésimo día.
La sucesión de observaciones X1, X2,... se llama un proceso estocástico o proceso aleatorio. La
primera observación X1 se conoce como el estado inicial del proceso y para n = 2, 3,..., Xn es el
estado del proceso en el tiempo n. En un proceso de este tipo los valores de las observaciones
no pueden predecirse con precisión de antemano. Sin embargo puede especificarse una
probabilidad de observar determinado valor.
En un proceso estocástico el estado varía en una forma aleatoria. Para describir el modelo de
probabilidad es necesario especificar una probabilidad para cada uno de los posibles valores del
estado inicial. También es necesario especificar para cada estado subsiguiente Xn+1 todas las
probabilidades condicionales de la forma siguiente: P (Xn+1 = sn+1 | X1 = s1, X2 = s2,..., Xn = sn). Esto
quiere decir que para todos los tiempos n, el modelo de probabilidad debe especificar la
probabilidad condicional de que el proceso esté en el estado sn+1 en el tiempo n+1, dado que en los
tiempos 1, 2, ..., n el proceso estuvo en los estados s1, s2, ..., sn.
Esta matriz que incluye las probabilidades de pasar de un estado a otro en un paso es la matriz de
transición. Los elementos en cada una de las filas suman uno. En la primera fila representamos
P (Xn = s1 | Xn-1 = s1) = P (soleado | soleado) = 0,9 y P (Xn = s2 | Xn 1 = s1) = P (nublado |
soleado) = 0,1.
Si un día está soleado, en el 70% de los casos el día siguiente continua soleado y
en el 30% se pone nublado. En términos de probabilidad, lo que nos sirve para predecir el
clima, vemos que la probabilidad de que continúe soleado el día siguiente es 0,7 y la
probabilidad de que al día siguiente esté nublado es 0,3. También nos fijamos en que si un
día está nublado, la probabilidad de que esté soleado el día siguiente es 0,6 y la probabilidad
de que se ponga nublado es 0,4.
EJEMPLO 2:
Las probabilidades del ejemplo pueden presentarse en forma de matriz:
s1
s2
0,7 0,3 s1
P=
0,6 0,4 s2
3
Alumnas: Nuccelli, Nadia Alejandra
Olmos, Norma
Comisión E- Grupo 7
Los elementos en cada una de las filas suman uno. En la primera fila representamos
P (Xn = s1 | Xn-1 = s1) = P (soleado | soleado) = 0,7 y P (Xn = s2 | Xn 1 = s1) = P (nublado |
soleado) = 0,3.
Ahora, si hoy está nublado, ¿cuál es la probabilidad de que mañana continúe nublado?
¿cuál es la probabilidad de que está nublado pasado mañana?
Podemos ilustrar esta situación por medio de un diagrama de árbol:
Tiempo de hoy (x1)
Tiempo de mañana (x2)
0,7
Tiempo de pasado mañana (x3)
soleado
soleado
0,6
0,3
0,6
nublado
nublado
nublado
soleado
0,4
0,4
nublado
Con la ayuda del diagrama podemos predecir qué ocurrirá mañana si sabemos que hoy está
nublado.
Vemos que la probabilidad de que mañana continúe nublado es 0,4, es decir, si hiciéramos esta
predicción muchas veces estaríamos en lo correcto cerca del 40% de las veces. Para conocer la
probabilidad de esté nublado pasado mañana buscamos en las hojas del árbol correspondientes al
tiempo pasado mañana los lugares donde dice nublado. Hay dos hojas donde esto ocurre. Ahora
lo que queda es determinar cómo desde el principio, desde la raíz del árbol, podemos llegar allí.
Si hoy está nublado, para que pasado mañana esté nublado, podríamos tener un día de mañana
soleado o nublado. Así tenemos las siguientes secuencias en orden de (hoy, mañana, pasado
mañana): (nublado, soleado, nublado) o (nublado, nublado, nublado) donde pasado mañana
es nublado. Estas secuencias son mutuamente excluyentes, corresponden a caminos distintos, así
tenemos que:
P (pasado mañana nublado | hoy nublado) = P ((nublado, soleado, nublado) o (nublado,
nublado, nublado))
= P (nublado, soleado, nublado) + P (nublado,
nublado, nublado)
= (0,6 x 0,3) + (0,4 x 0,4) = 0,34
Este resultado se obtuvo multiplicando las probabilidades condicionales a lo largo de los caminos
desde hoy nublado hasta pasado mañana nublado.
Si usamos la regla de multiplicación repetidas veces vemos que las probabilidades en una cadena
de Markov deben cumplir:
P( X1 = s1, X2 = s2, ..., Xn = sn) = P (X1 = s1) P( X2 = s2| X1 = s1) P( X3 = s3| X2 = s2) ... P(Xn = sn | Xn-1 = sn-1).
La probabilidad de que pasado mañana esté nublado si sabemos que hoy está nublado
corresponde entonces a encontrar P(X3 = s2 | X1 = s2). Para calcular esta probabilidad examinamos
los posibles estados del día de mañana y las formas de cómo llegar a X3 = s2.
Así la probabilidad que nos interesa se puede calcular como hicimos antes, usando la fórmula de
probabilidad total:
P(X3 = s2 | X1 = s2) = (0,6 x 0,3) + (0,4 x 0,4)
4
Alumnas: Nuccelli, Nadia Alejandra
Olmos, Norma
Comisión E- Grupo 7
= P( X2 = s1| X1 = s2) P( X3 = s2 | X2 = s1) + P( X2 = s2 | X1 = s2) P( X3 = s2 | X2 = s2 ).
Es decir, hemos descompuesto el evento de que pasado mañana esté nublado si sabemos que
hoy lo está en términos de todas los estados que se pueden observar mañana. Entonces, para
cada posible estado del clima de mañana examinamos cómo podemos tener el día de pasado
mañana nublado.
Si examinamos la expresión (0,6 x 0,3) + (0,4 x 0,4), vemos que ésta corresponde al elemento en
la segunda fila y segunda columna de la matriz que resulta al multiplicar P x P. Es decir:
s1
s2
0,7 0,3
s1
s2
s1
0,7 0,3
PxP=
s2
0,7 x 0,7 + 0,3 x 0,6 0,7 x 0,3 + 0,3 x 0,4 s1
=
0,6 0,4
0,6 0,4
0,6 x 0,7 + 0,4 x 0,6 0,6 x 0,3 + 0,4 x 0,4 s2
s1
s2
0,67 0,33 s1
=
0,66 0,34 s2
Esta última matriz es la matriz de transición del proceso en dos pasos. Nos da las probabilidades
de llegar en dos pasos a cualquier estado si partimos de un estado particular.
Por ejemplo, de ahí podemos leer que P(X3 = s2 | X1 = s1) = 0,33 y P(X3 = s1| X1 = s2) = 0,66. Como
el proceso es estacionario podemos inclusive determinar que P(X5 = s2 n | X3 = s2) =0,34, ya que
lo único que afecta el resultado es el número de días en el futuro en que queremos hacer la
predicción.
Podemos extender este argumento a cualquier número de días en el futuro en que queremos hacer
la predicción, ya que P x P = P2 corresponde a las probabilidades de transición en dos pasos,
entonces P3, P4,..., Pm,... corresponden a las probabilidades de transición en 3, 4,..., m pasos
respectivamente. De hecho, la matriz Pm se conoce como la matriz de transición en m pasos
de la cadena de Markov.
El ejemplo del clima es un ejemplo típico de cadena de Markov:
1)
2)
3)
4)
5)
Tenemos ciertos estados, en este caso s1 = soleado y s2 = nublado.
En cada momento estamos en uno de estos estados.
En el próximo momento volveremos a estar en ese u otro estado.
Pasamos de un estado a otro con cierta probabilidad que sólo puede depender del estado
inmediatamente anterior.
Esta probabilidad no cambia con el transcurso del tiempo.
5
Descargar