4. Hipotesis HMMs

Hipótesis básicas de las HMMs, y posibles variantes. Luca Martino Tratamiento de Voz y Audio Master Interuniversitario en Comunicaciones y Multimedia [email protected] 1 INDICE 1. 2. 3. 4. 5. 6. 7. Introducción .............................................................................................................3 Definiciones previas .................................................................................................3 Hipótesis de partida.................................................................................................4 Debilidad del enfoque clásico .................................................................................5 Perceptrón Multicapa (MLP) .................................................................................6 HMM híbrida ...........................................................................................................7 Referencias ...............................................................................................................9 2 1. Introducción En este trabajo analizaremos las hipótesis fundamentales para el desarrollo clásico de las Cadenas de Markov Ocultas (HMM) para Reconocimiento de Habla, y sus posibles variantes debidas al utilizo conjunto con redes neuronales artificiales (ANN). 2. Definiciones previas Las Cadenas Ocultas de Markov (HMM) asumen que el vector de datos en estudio sea lineal y estacionario a trozos. Las HMM son maquinas compuestas por 2 procesos estocásticos concurrentes: una secuencia oculta de estados (no directamente observable) que modela la estructura temporal de la señal de voz, y un proceso de datos de salida modela las propiedades estacionarias locales de la señal. Supondremos que la señal de voz esté descrita por un números finitos de estados K cuyas transiciones están sometida a leyes estadísticas conocidas, y 2 estados inicial y final que no emiten observaciones. Cada estado emitirá con una cierta densidad de probabilidad unos datos, que serán nuestras observaciones acústicas. Generalmente, se añaden dos estados inicial y final que no emiten observaciones Q  q1 , q2 ,..,qk  q I  estadoinicial(no emite) (1) q F  estado final(no emite) Entonces, nuestro modelo estará compuesto por la probabilidades de transición de estado p( xt 1  q j | xt  qi ) (será una matriz de transición), y la probabilidad de emisión p( yt 1 | xt ) . Con xt  Q hemos indicado el estado corriente al tiempo t. yt y t 1 yt  2 y t 3 p( yt 1 xt 1 ) xt p( xt 1 xt ) xt 1 xt  2 xt 3 t Cada frase será representada por una secuencia M de diferentes modelos HMMs (una cada unidad de lenguaje, como palabras); dado el correspondiente vector de observaciones acústicas Y, la probabilidad de interés será P(M | Y ) . Claramente el nuestro objetivo en decodificación seria maximizar esta probabilidad respecto a M conocidos las observaciones Y (MAP, máximo a posteriori), aunque tampoco es obvio como poderla estimar. Desafortunadamente, la fase de entrenamiento no suele permitir caracterizar P(M | Y ) , sino solamente la probabilidad de generar un cierto vector acústico dado el modelo ( P(Y | M ) , verosimilitud). Podemos utilizar la formula de Bayes: 3 P( M | Y )  P(Y | M )  P( M ) P(Y ) (2) Donde se nota como la probabilidad P(M | Y ) está dividida en dos partes: la primera P(Y | M ) P(Y ) es la parte acústica, mientras la segunda P(M) se refiere al modelo de lenguaje. Cuando entrenamos maximizando P(Y | M ) , haremos referencia al criterio MLE (Maximum Likelihood Estimate), y este el caso de las HMM clásicas. Es interesante notar, que si denotamos con  el conjunto de todos los posibles parámetros en el esquema planteado anteriormente (numero de estado, topología de la cadena, densidades, posibles unidades de lenguaje…) para todos los posibles modelos, si fijamos un modelo M los parámetros libres  sobre los cuales podemos entrenar, estarán sensiblemente reducidos. 3. Hipótesis de partida El modelo descrito se basa sobre las hipótesis siguientes: H1: la P(M ) de una secuencia de estados puede ser calculada separadamente, sin conocimientos de los datos acústicos. El cálculo de la probabilidad P(M ) se apoya en modelos de lenguaje formulados en términos de gramática estocástica. H2: suponiendo conocida una secuencia de datos, la probabilidad P (Y ) puede ser considerada constante e independiente del modelo (esto es verdad solo si los parámetros están fijos). H3: se asume que la cadena de Markov será de primer orden; en formula: p( xt | xt 1 , xt 2 ....,x1 )  p( xt | xt 1 ) (3) Además se suele considerar las probabilidades de transición invariantes en el tiempo, es decir, estacionarias. H4: en el párrafo precedente hemos hablado de probabilidades de emisión, basándonos en esta suposición: p( yt | X t 1 , Yt )  p( yt | xt ) X t 1  xt 1 , xt 2 ,.., x1  Yt  yt , yt 1 ,.., y1  (4) Es decir asumimos que la emisión de una observación no depende de las pasadas observaciones, sino solamente del estado corriente (tampoco de los estados anteriores). Merece la pena evidenciar que esto, de todas formas, no significa que los datos observados sean independientes entre si: p( yt | Yt )  p( yt ) !!!! (5) 4 H5: cuando se consideran observaciones yt continuas, las p( yt | xt ) se modelan como gaussianas multivariadas, o más en general mezclas de gaussianas. De todas formas, aunque no se utilicen exactamente estas densidades siempre tendremos que hacer alguna suposición al respecto. 4. Debilidad del enfoque clásico Hemos afirmado que típicamente para entrenar una HMM se utiliza el criterio MLE; pero hay varios problemas a respecto: 1. implícitamente asumimos que el modelo (con su relativa topología y densidad de probabilidades) se ajustaban bien a la estructura de los datos. 2. el criterio MLE no discrimina entre varios modelos (tenemos que suponer un modelo dado) mientras el criterio MAP nos ayuda en diferenciar entre modelos “rivales”. 3. También la hipótesis H3 (cadena de Markov del primer orden) puede resultar limitante. 4. La hipótesis H4 resulta restrictiva porque no tenemos en cuenta de las observaciones cercanas (pasadas y futuras). 5. Hay que suponer una densidad de emisión a priori asociadas a cada estado. En general deberíamos maximizar para todos los modelos M i : P( M i | Y )  P(Y | M i )  P( M i ) P(Y ) (6) Y en este caso, en la fase de entrenamiento P (Y ) no puede ser considerada constante porque dependiente de los parámetros de todos los posible modelos. De hecho, recordando que  es el conjunto de parámetros de todos los posibles modelos y teniendo en cuenta que los modelos son mutuamente exclusivos, P (Y ) puede ser escrita: P( X | )   P( X | M k , )  P(M k | )  P( X | M k , )  P(M k ) k (7) k Claramente la suma incluye el modelo correcto; por la hipótesis H1 hemos considerado P(M k | )  P(M k ) y las verosimilitudes P(Y | M i ) dependen solamente de los parámetros  i presentes en M i : P ( M i | Y , )  P(Y | M i ,  i )  P( M i ) P(Y | M i ,  i )  P( M i )   P(Y | M k ,  k )  P( M k ) (8) k i Si maximizamos P(M i | Y , ) restringiendo los parámetros al subespacio M i , volvemos al criterio MLE (el denominador se reduce a una constante). Si no hacemos ninguna limitación, maximizar la (8) equivale a maximizar la expresión: 5 P ( M i | Y , )  1  1   P(Y | M k ,  k )  P( M k ) P(Y | M i ,  i )  P( M i ) k i (9) P(Y | M i ,  i )  P( M i )   P(Y | M k ,  k )  P(M k ) k i Si asumimos iguales probabilidades a-priori P(M k ) , hallamos el llamado Criterio de Máxima Mutua-Información que consiste en maximizar esta función: P(Y | M i ,  i )  P(Y | M k ,  k ) (10) k i Que es también un criterio discriminante. De todas formas, este no es el método más utilizado por razones computacionales, por que la matemática del asunto suele complicarse mucho (con muchas restricciones añadidas). Más en adelante describiremos un enfoque diferente para resolver el problema. 5. Perceptrón Multicapa (MLP) Mc Culloch y Pitts en 1943concibieron un modelo abstracto y simple de una neurona artificial: F(z) x1 w1 x i wi xm  z F(z) y wm Donde F(z) es no lineal: M  y  F   wi  xi   i 1  (11) La arquitectura de una red neuronal artificial (ANN) está formada da múltiples conexiones de este sistema elemental; los pesos serán ajustados según los objetivos prefijados. En general, se eligen los pesos wi en manera tal que la salida generada y por la ANN sea lo más cercana posible a la verdadera salida dada una cierta entrada (la red trata de encontrar un modelo desconocido que generó la salidas). Este “aprendizaje” se llama supervisado porque se conoce las salidas que hacen el papel de supervisor. En el aprendizaje no supervisado se utiliza con el objetivo del algoritmo es ajustar los pesos para que la red encuentre alguna estructura presente el los datos. 6 Una aplicación natural de la ANN es para clasificación: si se fuerza que la suma de las salidas de la maquina sume uno sobre todas las clases se puede considerar como un estimación de una probabilidades a posteriori ( p( xt  qk | yt ) ) . El perceptrón multicapa es uno de los tipos de redes más comunes. Se basa en otra red mas simple llamada perceptrón simple solo que el número de capas ocultas puede ser mayor o igual que una. Es una red unidireccional (feedforward). La arquitectura típica de esta red es la siguiente: 1. Capa de entrada: Constituida por aquellas neuronas que introducen los patrones de entrada en la red. En estas neuronas no se produce procesamiento. 2. Capas ocultas: Formada por aquellas neuronas cuyas entradas provienen de capas anteriores y las salidas pasan a neuronas de capas posteriores. 3. Capa de salida: Neuronas cuyos valores de salida se corresponden con las salidas de toda la red. Capa de salida Capa de salida Capa de salida Capa oculta Capa oculta Capa oculta Capa de entrada Capa de entrada Capa de entrada x y1 yi yM r y1 yi yM y1 yi yM Las neuronas de la capa oculta usan como regla de propagación la suma ponderada de las entradas con los pesos y sobre esa suma ponderada se aplica una función de transferencia de tipo sigmoide, que está acotada. En unos casos se utilizan esquemas recurrentes donde la salida de una capa se realimenta en entrada. 6. HMM híbrida Hemos visto como un MLP puede proporcionar a la salida una aproximación de la probabilidad a posteriori de Bayes: si entrenamos la red neuronal para clasificar el vector de observaciones acústica podemos calcular p( xt  qt | yt ) . Es decir, para cada observación tratamos de entender a cual “clase” pertenece. La idea básica de las HMM híbridas consiste en utilizar las densidades de probabilidad generada por un MLP como posibles probabilidades de una HMM. Por ejemplo podemos pensar estas posibles variaciones de la probabilidad de transición: 7 Caso 1: p( xt | X t 1 , Yt )  p( xt | xt 1 , yt ) Es la variación más simple que podemos implementar. Esta probabilidad podría ser calculada con un MLP recurrente con vector corriente la observación acústica y como feedback el estado anterior. Caso 2: p( xt | X t 1 , Yt )  p( xt | xt 1 , xt 2 ,.., xt k , yt ) A parte el dato observado al tiempo t añadimos la dependencia de varios estados antecedentes. Este enfoque conlleva varios problemas: el número de parámetros es excesivos, y el algoritmo de Viterbi no está bien pensado para probabilidades de orden mayor.  Caso 3: p( xt | X t 1 , Yt )  gtk  p( xt  qk | g t 1 , yt )    Donde g tk representa la salida del MLP por la clase qk al tiempo t, y g t  g t1 , g t2 ,...,g tK es el vector con todas las salidas del MLP. En este caso, la transición depende por la observación acústica corriente, y todas las probabilidades condicionales anteriores. Estas ultimas, puede ser generada por un verdadero MLP recurrente. Caso 4: p( xt | X t 1 , Yt )  p( xt | yt , yt 1 , yt 2 ,...yt k )  p( xt | yt c ,.., yt ,.., yt c ) Ahora la dependencia por los estados anteriores está sustituida por la dependencia de k observaciones (incluso pueden ser datos futuros). Aunque no sea más estrictamente una cadena de Markov, se puede aplicar el mismo formalismo y aplicar el algoritmo de Viterbi para entrenar y luego decodificar. Esta elección de la probabilidad de transición tiene su relevancia si se tiene en cuente que la probabilidad MAP puede ser factorizada: P( M i | Y )   .... P( x1  qL ,.....,x N  qL , M i | Y ) L1 1 LN (12) N donde se suma sobre todo posibles caminos en M i . La expresión a la derecha puede ser factorizada: P( x1  q L ,.....,x N  q L , M i | Y )  P( x1  q L ,.....,x N  q L | Y )  N 1 N 1  P( M i | Y , x1  q L ,.....,x N  q L ) (13) N 1 Que sugiere separar el cálculo en dos partes. La primera parte es la decodifica del vector acústico en una secuencia de estados. La segunda parte representa el paso fonológico y de léxico; además como conocemos la secuencia de estado asociada a las observaciones, podemos eliminar la dependencia explicita da las Y: P(M i | Y , x1  q L ,.....,x N  q L )  P(M i | x1  q L ,.....,x N  q L ) 1 N 1 N (14) 8 Así que a la hora de calcular la P(M i | Y ) nos quedamos solo con el primer factor. Además también el primer factor puede ser factorizado ulteriormente: P( x1  q L ,.....,x N  q L | Y )  p( x1  q L | Y )  p( x 2  q L | Y , x1  q L )  1 N 1 2 1  p( x N  q L | Y , x1  q L ,.....,x N 1  q L N  1 N  p(xn  q Ln | X n1 , Y) N 1 ) (15) n 1 Y este factor es la probabilidad de transición modificada, como visto en los casos anteriores. 7. Referencias [1] Connectionist Speech Recognition; H.A. Bourlard, N. Morgan [2] Connectionist Probability Estimators in HMM Speech Recognition; S. Renals, N. Morgan, H.Boulard. [3] Redes Neuronales Artificiales; F. Izaurieta, C. Saavedra. [4] Redes Neuronales Artificiales; R.Salas. 9

4. Hipotesis HMMs

Documentos relacionados

Productos

Apoyo

4. Hipotesis HMMs

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib