Probabilidad de transición (aplicadas a juegos de

Alumnas: Nuccelli, Nadia Alejandra Olmos, Norma Comisión E- Grupo 7 Probabilidad de transición: cadenas de Markov Algunas veces se está interesado en cómo cambia una variable aleatoria con el tiempo. El estudio de una variable aleatoria con el tiempo incluye procesos estocásticos. Un proceso o sucesión de eventos que se desarrolla en el tiempo en el cual el resultado en cualquier etapa contiene algún elemento que depende del azar se denomina proceso aleatorio o proceso estocástico. Por ejemplo, la sucesión podría ser las condiciones del tiempo en un determinado lugar en una serie de días consecutivos: el tiempo cambia día a día de una manera que en apariencia es algo aleatoria. El meteorólogo seguramente consulta las imágenes satelitales; pero también sabe que el clima en un día del año corresponde de alguna manera a un fenómeno aleatorio, es así como hoy puede ser soleado, ser lluvioso o fresco sin lluvia, y que el clima estaría en una y solo una de estas tres posibilidades y que la ocurrencia de una de ellas excluye a las demás. También es fácil ver que la probabilidad de que en un día específico llueva, o sea soleado o fresco sin lluvia, está muy relacionada con lo ocurrido al clima el día anterior. En la mayoría de los procesos estocásticos, cada resultado depende de lo que sucedió en etapas anteriores del proceso. Por ejemplo, el tiempo en un día determinado no es aleatorio por completo, sino que es afectado en cierto grado por el tiempo de días previos. Los procesos estocásticos se pueden clasificar atendiendo a dos aspectos: si el espacio de estados posibles de la variable aleatoria contiene valores discretos o continuos y de si los valores del tiempo son discretos o continuos. El caso más simple de un proceso estocástico en que los resultados dependen de otros, ocurre cuando el resultado en cada etapa sólo depende del resultado de la etapa anterior y no de cualquiera de los resultados previos. Tal proceso se denomina proceso de Markov o cadena de Markov (una cadena de eventos, cada evento ligado al precedente) y reciben su nombre del matemático ruso Andrei Andreevitch Markov (1856-1922). La cadena de Markov se ha aplicado a áreas como educación, comercialización, servicios de salud, finanzas, contabilidad y producción. Es un tipo especial de proceso discreto en el tiempo, es decir, es un proceso estocástico en el que los valores del tiempo son discretos y los estados posibles de la variable aleatoria contiene valores discretos. Estas cadenas tienen memoria, recuerdan el último evento y eso condiciona las posibilidades de los eventos futuros, es por ello que con las cadenas de Markov podremos hacer predicciones de comportamientos futuros como las que se observaron en las situaciones anteriores. Así, si llamamos estados a cada una de estas posibilidades que se pueden presentar en un experimento o situación especifica, entonces podemos visualizar en las Cadenas de Markov una herramienta que nos permitiría conocer a corto y largo plazo los estados en que se encontrarían en periodos o tiempos futuros. Definición Una cadena de Markov es una sucesión de ensayos similares u observaciones en la cual cada ensayo tiene el mismo número finito de resultados posibles y en donde la probabilidad de cada resultado para un ensayo dado depende sólo del resultado del ensayo inmediatamente precedente y no de cualquier resultado previo. Propiedad de Markov: Dada una secuencia de variables aleatorias {Xn, n: 0,1, 2...}, tales que el valor de Xn es el estado del proceso en el tiempo n, que cumplen la probabilidad de alcanzar cualquier estado j de la variable que depende exclusivamente del estado i alcanzado en el instante de tiempo anterior, entonces: P(X n+1 = j / X n = i, X n-1= i1,...X0=in) = P( X n+1 = j / X n = i) Esta identidad es la denominada propiedad de Markov. 1 Alumnas: Nuccelli, Nadia Alejandra Olmos, Norma Comisión E- Grupo 7 Si el sistema se mueve del estado i durante un período al estado j durante el siguiente período, se dice que ocurrió una transición de i a j. Se define para cada par de estados (i, j) que se alcanzan en dos pasos consecutivos de n y n+1 una probabilidad condicional denominada probabilidad de transición pij. P (Xn+1 = j / Xn = i) = pij (suposición estacionaria) Supongamos que las probabilidades de transición de un paso son estacionarias, es decir, que no cambian con el tiempo. Las probabilidades de transición del estado Xi al estado Xj estructuradas en forma matricial da lugar a lo que se denomina matriz de transición: Dicha matriz relaciona los estados de la variable en dos pasos consecutivos a través de sus probabilidades de transición. Una matriz de transición para una cadena de Markov de n estados es una matriz de n x n con todos los registros no negativos y con la propiedad adicional de que la suma de los registros de cada fila es 1. Definición: Consideremos un proceso de Markov en que el sistema posee n estados posibles, dados por los números 1, 2, 3, …, n. Denotemos pij a la probabilidad de que el sistema pase al estado j después de cualquier ensayo en donde su estado era i. Los números pij se denominan probabilidades de transición y la matriz nxn P = (pij ) se conoce como matriz de transición del sistema. Observaciones: Las probabilidades pij deben satisfacer las condiciones: La suma pi1 + pi2 + …+ pin = 1 . Esta suma representa la probabilidad de que el sistema pase a uno de los estados 1, 2, …., n dado que empieza en el estado i. Ya que el sistema ha de estar en uno de estos n estados, la suma de probabilidades debe ser igual a 1. Esto significa que los elementos en cualquier renglón de la matriz de transición deben sumar 1. 2) Cada elemento pij ≥ 0. 1) Ejemplos sencillos: En un pueblo, al 90% de los días soleados le siguen días soleados, y al 80% de los días nublados le siguen días nublados. Con esta información modelar el clima del pueblo como una cadena de Markov. EJEMPLO 1: Tiempo de hoy (x1) 0,9 soleado Tiempo de mañana (x2) soleado nublado 0,1 2 Alumnas: Nuccelli, Nadia Alejandra Olmos, Norma Comisión E- Grupo 7 Tiempo de hoy (x1) 0,2 nublado Tiempo de mañana (x2) soleado nublado 0,8 Se trata de una cadena de Markov con dos estados {s1= soleado, s2 = nublado} que para abreviar representaremos por {s1, s2}, siendo la matriz de probabilidades de transición: s1 s2 0,9 0,1 s1 P= 0,2 0,8 s2 El proceso de este ejemplo sólo puede adquirir uno de dos estados posibles s1 = soleado y s2 = nublado. La probabilidad con que se va de un estado a otro depende del estado en que estamos en el presente. Dejemos que X1 represente el estado del clima del día número 1, X2 el estado del clima del día número 2 y así sucesivamente. En general, para n = 1, 2,... sea Xn el estado del clima en el enésimo día. La sucesión de observaciones X1, X2,... se llama un proceso estocástico o proceso aleatorio. La primera observación X1 se conoce como el estado inicial del proceso y para n = 2, 3,..., Xn es el estado del proceso en el tiempo n. En un proceso de este tipo los valores de las observaciones no pueden predecirse con precisión de antemano. Sin embargo puede especificarse una probabilidad de observar determinado valor. En un proceso estocástico el estado varía en una forma aleatoria. Para describir el modelo de probabilidad es necesario especificar una probabilidad para cada uno de los posibles valores del estado inicial. También es necesario especificar para cada estado subsiguiente Xn+1 todas las probabilidades condicionales de la forma siguiente: P (Xn+1 = sn+1 | X1 = s1, X2 = s2,..., Xn = sn). Esto quiere decir que para todos los tiempos n, el modelo de probabilidad debe especificar la probabilidad condicional de que el proceso esté en el estado sn+1 en el tiempo n+1, dado que en los tiempos 1, 2, ..., n el proceso estuvo en los estados s1, s2, ..., sn. Esta matriz que incluye las probabilidades de pasar de un estado a otro en un paso es la matriz de transición. Los elementos en cada una de las filas suman uno. En la primera fila representamos P (Xn = s1 | Xn-1 = s1) = P (soleado | soleado) = 0,9 y P (Xn = s2 | Xn 1 = s1) = P (nublado | soleado) = 0,1. Si un día está soleado, en el 70% de los casos el día siguiente continua soleado y en el 30% se pone nublado. En términos de probabilidad, lo que nos sirve para predecir el clima, vemos que la probabilidad de que continúe soleado el día siguiente es 0,7 y la probabilidad de que al día siguiente esté nublado es 0,3. También nos fijamos en que si un día está nublado, la probabilidad de que esté soleado el día siguiente es 0,6 y la probabilidad de que se ponga nublado es 0,4. EJEMPLO 2: Las probabilidades del ejemplo pueden presentarse en forma de matriz: s1 s2 0,7 0,3 s1 P= 0,6 0,4 s2 3 Alumnas: Nuccelli, Nadia Alejandra Olmos, Norma Comisión E- Grupo 7 Los elementos en cada una de las filas suman uno. En la primera fila representamos P (Xn = s1 | Xn-1 = s1) = P (soleado | soleado) = 0,7 y P (Xn = s2 | Xn 1 = s1) = P (nublado | soleado) = 0,3. Ahora, si hoy está nublado, ¿cuál es la probabilidad de que mañana continúe nublado? ¿cuál es la probabilidad de que está nublado pasado mañana? Podemos ilustrar esta situación por medio de un diagrama de árbol: Tiempo de hoy (x1) Tiempo de mañana (x2) 0,7 Tiempo de pasado mañana (x3) soleado soleado 0,6 0,3 0,6 nublado nublado nublado soleado 0,4 0,4 nublado Con la ayuda del diagrama podemos predecir qué ocurrirá mañana si sabemos que hoy está nublado. Vemos que la probabilidad de que mañana continúe nublado es 0,4, es decir, si hiciéramos esta predicción muchas veces estaríamos en lo correcto cerca del 40% de las veces. Para conocer la probabilidad de esté nublado pasado mañana buscamos en las hojas del árbol correspondientes al tiempo pasado mañana los lugares donde dice nublado. Hay dos hojas donde esto ocurre. Ahora lo que queda es determinar cómo desde el principio, desde la raíz del árbol, podemos llegar allí. Si hoy está nublado, para que pasado mañana esté nublado, podríamos tener un día de mañana soleado o nublado. Así tenemos las siguientes secuencias en orden de (hoy, mañana, pasado mañana): (nublado, soleado, nublado) o (nublado, nublado, nublado) donde pasado mañana es nublado. Estas secuencias son mutuamente excluyentes, corresponden a caminos distintos, así tenemos que: P (pasado mañana nublado | hoy nublado) = P ((nublado, soleado, nublado) o (nublado, nublado, nublado)) = P (nublado, soleado, nublado) + P (nublado, nublado, nublado) = (0,6 x 0,3) + (0,4 x 0,4) = 0,34 Este resultado se obtuvo multiplicando las probabilidades condicionales a lo largo de los caminos desde hoy nublado hasta pasado mañana nublado. Si usamos la regla de multiplicación repetidas veces vemos que las probabilidades en una cadena de Markov deben cumplir: P( X1 = s1, X2 = s2, ..., Xn = sn) = P (X1 = s1) P( X2 = s2| X1 = s1) P( X3 = s3| X2 = s2) ... P(Xn = sn | Xn-1 = sn-1). La probabilidad de que pasado mañana esté nublado si sabemos que hoy está nublado corresponde entonces a encontrar P(X3 = s2 | X1 = s2). Para calcular esta probabilidad examinamos los posibles estados del día de mañana y las formas de cómo llegar a X3 = s2. Así la probabilidad que nos interesa se puede calcular como hicimos antes, usando la fórmula de probabilidad total: P(X3 = s2 | X1 = s2) = (0,6 x 0,3) + (0,4 x 0,4) 4 Alumnas: Nuccelli, Nadia Alejandra Olmos, Norma Comisión E- Grupo 7 = P( X2 = s1| X1 = s2) P( X3 = s2 | X2 = s1) + P( X2 = s2 | X1 = s2) P( X3 = s2 | X2 = s2 ). Es decir, hemos descompuesto el evento de que pasado mañana esté nublado si sabemos que hoy lo está en términos de todas los estados que se pueden observar mañana. Entonces, para cada posible estado del clima de mañana examinamos cómo podemos tener el día de pasado mañana nublado. Si examinamos la expresión (0,6 x 0,3) + (0,4 x 0,4), vemos que ésta corresponde al elemento en la segunda fila y segunda columna de la matriz que resulta al multiplicar P x P. Es decir: s1 s2 0,7 0,3 s1 s2 s1 0,7 0,3 PxP= s2 0,7 x 0,7 + 0,3 x 0,6 0,7 x 0,3 + 0,3 x 0,4 s1 = 0,6 0,4 0,6 0,4 0,6 x 0,7 + 0,4 x 0,6 0,6 x 0,3 + 0,4 x 0,4 s2 s1 s2 0,67 0,33 s1 = 0,66 0,34 s2 Esta última matriz es la matriz de transición del proceso en dos pasos. Nos da las probabilidades de llegar en dos pasos a cualquier estado si partimos de un estado particular. Por ejemplo, de ahí podemos leer que P(X3 = s2 | X1 = s1) = 0,33 y P(X3 = s1| X1 = s2) = 0,66. Como el proceso es estacionario podemos inclusive determinar que P(X5 = s2 n | X3 = s2) =0,34, ya que lo único que afecta el resultado es el número de días en el futuro en que queremos hacer la predicción. Podemos extender este argumento a cualquier número de días en el futuro en que queremos hacer la predicción, ya que P x P = P2 corresponde a las probabilidades de transición en dos pasos, entonces P3, P4,..., Pm,... corresponden a las probabilidades de transición en 3, 4,..., m pasos respectivamente. De hecho, la matriz Pm se conoce como la matriz de transición en m pasos de la cadena de Markov. El ejemplo del clima es un ejemplo típico de cadena de Markov: 1) 2) 3) 4) 5) Tenemos ciertos estados, en este caso s1 = soleado y s2 = nublado. En cada momento estamos en uno de estos estados. En el próximo momento volveremos a estar en ese u otro estado. Pasamos de un estado a otro con cierta probabilidad que sólo puede depender del estado inmediatamente anterior. Esta probabilidad no cambia con el transcurso del tiempo. 5

Probabilidad de transición (aplicadas a juegos de

Productos

Apoyo

Probabilidad de transición (aplicadas a juegos de

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib