El uso de medidas de confianza en un gestor de diálogo dirigido por

El uso de medidas de confianza en un gestor de diálogo dirigido por la semántica Francisco Torres, Emilio Sanchis, Encarna Segarra Departamento de Sistemas Informáticos y Computación (DSIC) Universidad Politécnica de Valencia (UPV) {ftgoterr, esanchis, esegarra} @dsic.upv.es Resumen En este trabajo se presenta una propuesta para la utilización, por parte del gestor de diálogo, de medidas de confianza proporcionadas durante el proceso de reconocimiento y comprensión. Las características principales del gestor de diálogo propuesto son: la entrada es una representación mediante frames de la información proporcionada en el turno de usuario; tanto los frames como los atributos van ponderados mediante una medida de confianza que indica la fiabilidad de esa información; el modelo de diálogo es un autómata estocástico, aprendido de un conjunto de muestras etiquetadas. Durante el proceso de diálogo, el gestor combina las probabilidades del modelo con la información proporcionada por las medidas de confianza. Esta aproximación se ha aplicado a un sistema de diálogo de acceso telefónico en castellano que contiene información sobre horarios de trenes. 1. Introducción Algunas de las características de los sistemas de acceso mediante diálogo hablado a sistemas de información son: el acceso al sistema es telefónico, lo que les da una operatividad real; las tareas son de dominio restringido, ya que es preciso limitar su léxico y ámbito semántico para obtener sistemas viables; y finalmente, la iniciativa en el diálogo es mixta, para permitir que el usuario tenga cierta libertad en la generación de los turnos, resultando el diálogo más natural. La descripción de algunos de estos sistemas desarrollados en los últimos años se puede encontrar en [1], [2], [3], [4], [5] y [6]. En el desarrollo de sistemas de diálogo hablado intervienen diversas fuentes de conocimiento que deben cooperar para dar respuesta a las preguntas de los usuarios. En un sistema modular intervienen, entre otros, el módulo de reconocimiento del habla, el módulo de comprensión del habla y el gestor de diálogo. Uno de los principales problemas que deben abordar estos sistemas es la acumulación de los errores generados en los diferentes módulos; el módulo de comprensión debe tratar con los errores generados en la fase de reconocimiento, y el gestor de diálogo con los generados en la fase de comprensión. La gran dificultad que entraña el desarrollo de un sistema de diálogo hace inevitables estos errores. En el caso del reconocimiento de las pronunciaciones, se deben, principalmente, a los efectos típicos del habla espontánea, además del contexto ruidoso (teléfono, lugar no silencioso, etc.), en que se realizan las llamadas. En el caso de la comprensión, a los errores arrastrados de la etapa anterior de reconocimiento se incorporan los errores propios, debidos generalmente a la insuficiente cobertura en la modelización del campo semántico de la tarea. La necesidad de tratar con errores o con resultados de poca fiabilidad hace especialmente interesante la asociación de valores de confianza a los resultados de las decodificaciones, tanto acústico-fonéticas como léxicas o semánticas. Si nos fijamos en los algoritmos clásicos de decodificación sobre modelos estocásticos, como es el caso del algoritmo de Viterbi, observaremos que la decodificación global óptima exige a veces que determinados segmentos de esa decodificación sean poco probables. La información que contienen los valores de confianza no puede ser recuperada en un sistema de escritura automática, pero sí puede ser usada en un sistema de diálogo, por ejemplo preguntando concretamente sobre el dato sobre el que se tiene una baja confianza. Por ello, en la mayoría de sistemas de diálogo, la transmisión de la información entre los módulos se lleva a cabo mediante múltiples hipótesis (n-best, grafos de palabras, etc.), y se puede ampliar asociando medidas de confianza sobre los resultados obtenidos. Existen múltiples trabajos para la obtención de valores de confianza, sobre todo a nivel de palabra, en los sistemas de reconocimiento de habla [7] y [8]. Se basan principalmente en la combinación de indicadores respecto a la “calidad” del reconocimiento acústico, de las transiciones del modelo de lenguaje, u otros elementos de los modelos utilizados. La utilización de estos valores de confianza complica el diseño del gestor de diálogo. Si consideramos un gestor de diálogo basado en reglas, deberá introducir nuevas reglas para considerar todas las nuevas situaciones. Si consideramos un gestor de diálogo representado mediante un modelo estocástico, se deberá considerar que la información de entrada no sólo es un frame, con sus atributos, sino un frame y sus atributos, con los correspondientes valores de confianza asociados. Estos valores deben ser tenidos en cuenta por el modelo en el proceso de diálogo. El trabajo que presentamos aborda el problema de la falta de fiabilidad de las entradas al gestor de diálogo. Para ello se introducen valores de confianza que el gestor utiliza como un dato más a la hora de tomar sus decisiones. Combinando las probabilidades del modelo con estos valores de confianza se pretende que el gestor dirija el diálogo hacia confirmaciones de atributos dudosos, y sólo genere respuestas cuando se disponga de la seguridad suficiente sobre los atributos. El gestor de diálogo [9], basado en modelos estocásticos, ha sido desarrollado dentro del marco del proyecto BASURDE [10], [11] y [12], cuyo objetivo es la construcción de un sistema de diálogo de acceso telefónico en castellano que contiene información sobre horarios de trenes. El modelo de diálogo consiste en un autómata estocástico aprendido a partir de un corpus de diálogo etiquetado en términos de actos de diálogo y de frames. Este modelo incorpora un método de suavizado basado en la generalización de la entrada y el uso de dos autómatas con diferente nivel de detalle. 2. Estimación del modelo de diálogo La tarea definida en el proyecto consiste en consultas telefónicas sobre horarios, precios y servicios de trenes españoles de largo recorrido. Se adquirieron 215 diálogos usando la técnica del Mago de Oz. El número total de turnos de usuario adquirido fue de 1.460 (14.902 palabras). Los estados del modelo de diálogo se representan mediante actos de diálogo. En el proyecto BASURDE se ha propuesto un conjunto de etiquetas de actos de diálogo de tres niveles [13]. El primer nivel describe el comportamiento general del diálogo y es independiente de la tarea (apertura, cierre, pregunta, confirmación, …). El segundo nivel está relacionado con la representación semántica del turno y es específico de la tarea (hora-salida, precio, tipo-tren, …). En el tercer nivel se representan los valores (atributos) dados en el turno de diálogo. El modelo estocástico se ha estimado a partir de los dos primeros niveles, quedando el tercer nivel implícito en la información semántica que recibe el gestor de diálogo en su entrada. 3. Descripción del sistema 3.1. Representación semántica con medidas de confianza Se han considerado dos niveles en la asociación de medidas de confianza a la representación semántica del turno de usuario: confianza en el identificador de frame (segundo nivel del etiquetado) y confianza en los valores de atributos (tercer nivel del etiquetado). En función de la fiabilidad en las etapas de reconocimiento y de comprensión de las frases del usuario, el módulo de comprensión proporcionará una representación semántica del turno de usuario. Esta representación, tanto los frames como los atributos, vendrá acompañada de las correspondientes medidas de confianza. En la figura 1 se muestra, con un ejemplo de un turno de usuario, el formato de la entrada al módulo gestor de diálogo. U0: Hola, quería viajar de Burgos a Bilbao el dos de marzo y volver el cinco de marzo, el dos de marzo quiero ir por la mañana, ¿qué es lo que hay? U0: (HORA-SALIDA) #0.95 CIUDAD-ORIGEN: Burgos #0.82 CIUDAD-DESTINO: Bilbao #0.82 FECHA-SALIDA: 02-03-2003 # 0.63 INTERVALO-HORA-SALIDA: 05.00-13.00 # 0.57 (HORA-SALIDA-V) #0.75 FECHA-SALIDA: 05-03-2003 # 0.63 Figura 1: Ejemplo de representación semántica 3.2. Algoritmo del gestor de diálogo En la Figura 2 se muestra el algoritmo del gestor del diálogo considerando medidas de confianza. El curso del diálogo usuario–sistema está determinado por dos componentes: el modelo estocástico de diálogo (MD) y el registro de valores actuales (RVA). En la generalización de la representación semántica del turno de usuario se tendrán en cuenta las medidas de confianza. Dicha generalización (input_MD) determinará el conjunto de las transiciones posibles en el modelo de diálogo por turno del usuario. Paralelamente, en el registro de valores actuales, se almacenarán los valores de los atributos y sus confianzas asociadas. Así, mediante la consulta del RVA, la información disponible sobre las medidas de confianza también será utilizada, en la actualización del MD por turno del sistema, para elegir transición entre el conjunto de las transiciones posibles. Finalmente, las medidas de confianza almacenadas en el RVA se facilitan al módulo generador de respuestas. De este modo, la respuesta generada en lenguaje natural podrá ser más escueta o más detallada, podrá incluir o excluir ciertos atributos, en función de las medidas de confianza. Iniciar (RVA); /* RVA = Registro Valores Actuales */ Lectura (MD); /* MD = Autómatas Modelo Diálogo */ estado_MD = Apertura; /* Estado inicial del diálogo */ Repetir inFrames = Lectura(frases del usuario); /* inFrames = frames usuario, información semántica */ conf_inFrames = Lectura(confianzas en frases del usuario); /* conf_inFrames = confianzas en los frames usuario */ input_MD = Adaptar(RVA, inFrames, conf_inFrames); /* input_MD = entradas para transiciones en MD */ estado_MD = Actualizar(estado_MD, input_MD); /* actualización del modelo por turno de usuario */ RVA = Actualizar(RVA, inFrames, conf_inFrames); /* actualización del registro por turno de usuario */ estado_MD = Actualizar(estado_MD, RVA); /* actualización del modelo por turno del sistema */ RVA = Actualizar(RVA, output_MD, output_BD); /* actualización del registro por turno del sistema */ outFrames = Adaptar(output_MD); /* output_MD = etiqueta asociada al estado alcanzado */ conf_outFrames = Lectura(RVA); /* conf_outFrames = confianzas registradas en RVA */ Escritura(outFrames, conf_outFrames); Hasta estado_MD = Cierre Figura 2: Algoritmo del gestor de diálogo 3.3. Medidas de confianza y generalización semántica Dada la escasez de muestras de aprendizaje, se estimaron dos modelos: un modelo principal, específico de la tarea, con 310 estados y un alfabeto formado por un conjunto de cadenas de formato (Turno:PrimerNivel:SegundoNivel), y otro modelo auxiliar, genérico, con 74 estados y un alfabeto de cadenas de la forma (Turno:PrimerNivel). Las limitaciones del modelo principal se superan, en situaciones ordinarias, mediante la generalización de los frames o representación semántica del turno de usuario, y, en situaciones extraordinarias, mediante la consulta del modelo auxiliar. Para actualizar el modelo principal tras la intervención del usuario, en la anterior versión del módulo gestor [9], se disponía de tres métodos de generalización de la representación semántica del turno de usuario: concatenación, integración y fragmentación de frames. En la actual versión, se han añadido dos nuevos métodos de generalización que consideran las confianzas hasta el segundo nivel del etiquetado: concatenación condicionada por la confianza y fragmentación condicionada por la confianza. En la figura 3 se ilustra el funcionamiento de los cinco métodos de generalización. Dados 3 actos de diálogo y sus medidas de confianza: inFrames = (U:Afirmación:Ciudad_destino,Tipo_tren) (U:Pregunta:Hora_salida,Precio) (U:Pregunta:Hora_salida_v) conf_inFrames = (Afirmación #0.80 : Ciudad_destino #0.83, Tipo_tren #0.66) (Pregunta #0.93 : Hora_salida #0.89, Precio #0.74) (Pregunta #0.55 : Hora_salida_v #0.45) Ejemplos de los métodos de generalización semántica: • por concatenación incondicional: (U:Pregunta:Hora_salida,Precio) (U:Pregunta:Hora_salida_v) • por concatenación condicionada por la confianza: (U:Afirmación:Ciudad_destino,Tipo_tren) (U:Pregunta:Hora_salida,Precio) • por integración: (U:Pregunta:Hora_salida,Precio,Hora_salida_v) • por fragmentación aleatoria: (U:Afirmación:Tipo_tren) (U:Pregunta:Precio) • por fragmentación condicionada por la confianza: (U:Afirmación:Ciudad_destino) (U:Pregunta:Hora_salida) Figura 3: Ejemplos de generalización semántica El método de concatenación condicionada por la confianza utiliza las medidas de confianza de los frames. El anterior método de concatenación incondicional construye nuevas entradas para la actualización del modelo de diálogo mediante la poda sucesiva de los frames componentes de la representación semántica original. Dicha representación es interpretada como una lista cronológica cuyos primeros elementos se consideran más distantes en el tiempo, menos importantes y, por tanto, más prescindibles. El nuevo método de concatenación condicionada por la confianza mantiene el principio constructivo de poda sucesiva de frames componentes. Pero interpreta la representación semántica original como una lista ordenada en sentido creciente de confianza. Así, en el ejemplo de la figura 3, concatena el frame con confianza 0.80 y el frame con confianza 0.93, y descarta el frame con confianza 0.55, frame que siempre se incluye en la concatenación incondicional. El método de fragmentación condicionada por la confianza utiliza las medidas de confianza de los atributos (etiquetas del segundo nivel, conceptos específicos de la tarea). El anterior método de fragmentación aleatoria construía nuevas entradas para la actualización del modelo de diálogo mediante la generación aleatoria de una sublista de los atributos presentes en la representación semántica original. El nuevo método de fragmentación condicionada por la confianza mantiene el principio constructivo de sublista de atributos, pero añade a la misma sólo aquellos atributos cuyas confianzas superen un determinado umbral. Así, en el ejemplo de la figura 3, y suponiendo un umbral de confianza de 0.80, se incluyen en la sublista sólo los dos atributos indicados, mientras que en la fragmentación aleatoria podrían incluirse los atributos con menor confianza. 3.4. Medidas de confianza y actualización del modelo La actualización del modelo principal exige una adecuada planificación de las prioridades de las cadenas input_MD construidas mediante los cinco métodos de generalización semántica. Las cadenas que reflejen con mayor exactitud la información semántica del turno de usuario y que presenten una mayor confianza serán más prioritarias en la búsqueda de transiciones en el modelo. Las figuras 4 y 5 muestran cómo el uso de las medidas de confianza permite cambiar el curso del diálogo. En ambas figuras se plantea la misma situación de diálogo (turno de usuario U2). La figura 4 presenta la respuesta del sistema en ausencia de información de confianzas; el modelo se actualiza con una cadena, (U:Pregunta:Precio), generada por concatenación incondicional. La figura 5 muestra la respuesta del sistema considerando la información de confianza; el modelo se actualiza con (U:Pregunta:Hora_llegada,Hora_salida), generada por concatenación condicionada por la confianza. U2: Para viajar a Bilbao el dos de marzo, ¿a qué horas sale y llega? ¡ah!, y ¿cuánto es?, por favor. U2: (HORA-SALIDA) CIUDAD-DESTINO: Bilbao FECHA-SALIDA: 02-03-2003 (HORA-LLEGADA) CIUDAD-DESTINO: Bilbao FECHA-SALIDA: 02-03-2003 (PRECIO) CIUDAD-DESTINO: Bilbao FECHA-SALIDA: 02-03-2003 ... modeloNivel2 actualizado por usuario con (U:Pregunta:Precio) modeloNivel2 actualizado por sistema con (S:Respuesta:Precio) (S:Nueva_consulta:Nil) ... S2: (INFORMACION) PRECIO: 20.00 (NUEVA-CONSULTA) S2: El billete cuesta veinte euros. ¿Quiere hacer otra consulta? Figura 4: Fragmento de diálogo sin medidas de confianza U2: Para viajar a Bilbao el dos de marzo, ¿a qué horas sale y llega? ¡ah!, y ¿cuánto es?, por favor. U2: (HORA-SALIDA) # 0.90 CIUDAD-DESTINO: Bilbao # 0.92 FECHA-SALIDA: 02-03-2003 # 0.83 (HORA-LLEGADA) # 0.75 CIUDAD-DESTINO: Bilbao # 0.92 FECHA-SALIDA: 02-03-2003 # 0.83 (PRECIO) # 0.43 CIUDAD-DESTINO: Bilbao # 0.92 FECHA-SALIDA: 02-03-2003 # 0.83 ... modeloNivel2 actualizado por usuario con (U:Pregunta:Hora_llegada,Hora_salida) modeloNivel2 actualizado por sistema con (S:Respuesta:Hora_llegada,Hora_salida) (S:Nueva_consulta:Nil) ... S2: (INFORMACION) HORA-LLEGADA: 20.00 HORA-SALIDA: 18.00 (NUEVA-CONSULTA) S2: El tren sale a las seis y llega a las ocho. ¿Quiere hacer otra consulta? Figura 5: Fragmento de diálogo con medidas de confianza Las medidas de confianza, asociadas a la última intervención o asociadas a anteriores intervenciones y almacenadas en el RVA, son tenidas en cuenta a la hora de elegir una transición en el modelo de diálogo cuando se dispone de un conjunto de posibles transiciones. En la anterior versión del módulo gestor, dicho conjunto de posibles transiciones era objeto de una poda que excluía aquellas transiciones incoherentes con ciertas reglas (por ejemplo, transiciones a confirmaciones de atributos que ya hubieran sido confirmados) y, del subconjunto resultante, se elegía la transición que el modelo fijara como más probable. En la actual versión, se mantiene la poda de transiciones incoherentes con ciertas reglas, pero algunas han sido modificadas (por ejemplo, transiciones a respuestas cuando las confianzas en ciertos atributos, como ciudad de origen y ciudad de destino, son inferiores a un determinado umbral). Del subconjunto de posibles transiciones restante, se elige la mejor transición conforme a un criterio que pondera tanto la probabilidad asignada por el modelo de diálogo como las confianzas en los atributos implicados, disponibles en el registro de valores actuales. Una típica situación de diálogo donde se puede observar el efecto de estas variaciones es la primera intervención del sistema en respuesta a la consulta inicial del usuario. En la anterior versión del módulo gestor, el sistema casi siempre respondía con una petición de confirmación de los atributos ciudad de origen y ciudad de destino, tal como se muestra en la figura 6. U0: Hola, quería viajar de Burgos a Bilbao el dos de marzo. U0: (HORA-SALIDA) CIUDAD-ORIGEN: Burgos CIUDAD-DESTINO: Bilbao FECHA-SALIDA: 02-03-2003 S0: (CONFIRMACION) CIUDAD-ORIGEN: Burgos CIUDAD-DESTINO: Bilbao S0: ¿Quiere viajar desde Burgos a Bilbao? Figura 6: Fragmento de diálogo sin medidas de confianza La respuesta actual del sistema es más versátil y, dependiendo de las confianzas en los atributos ciudad de origen, ciudad de destino y fecha de salida, podría ser, además de la anterior, una de las siguientes: 1. Respuesta a la consulta del usuario (si se dispone de una confianza muy alta en los tres atributos citados), tal como se muestra en la figura 7. U0: Hola, quería viajar de Burgos a Bilbao el dos de marzo. U0: (HORA-SALIDA) # 0.95 CIUDAD-ORIGEN: Burgos # 0.95 CIUDAD-DESTINO: Bilbao # 0.95 FECHA-SALIDA: 02-03-2003 # 0.90 S0: (ESPERA) (INFORMACION) HORA-SALIDA: 15.30 (NUEVA-CONSULTA) S0: Un momento, por favor. El tren sale a las tres y media. ¿Quiere hacer otra consulta? Figura 7: Fragmento de diálogo con medidas de confianza 2. Petición de confirmación del atributo fecha de salida (si se dispone de una confianza baja en este atributo y alta en los otros atributos), tal como se muestra en la figura 8. U0: Hola, quería viajar de Burgos a Bilbao el dos de marzo. U0: (HORA-SALIDA) # 0.95 CIUDAD-ORIGEN: Burgos # 0.90 CIUDAD-DESTINO: Bilbao # 0.85 FECHA-SALIDA: 02-03-2003 # 0.35 S0: (CONFIRMACION) FECHA-SALIDA: 02-03-2003 S0: ¿Quiere viajar el dos de marzo? Figura 8: Fragmento de diálogo con medidas de confianza 3. Petición de confirmación de los atributos ciudad de origen, ciudad de destino y fecha de salida (si se dispone de una confianza baja en este atributo y media en los otros dos atributos), tal como se muestra en la figura 9. U0: Hola, quería viajar de Burgos a Bilbao el dos de marzo. U0: (HORA-SALIDA) # 0.95 CIUDAD-ORIGEN: Burgos # 0.55 CIUDAD-DESTINO: Bilbao # 0.50 FECHA-SALIDA: 02-03-2003 # 0.35 S0: (CONFIRMACION) CIUDAD-ORIGEN: Burgos CIUDAD-DESTINO: Bilbao FECHA-SALIDA: 02-03-2003 S0: ¿Quiere viajar desde Burgos a Bilbao el dos de marzo? Figura 9: Fragmento de diálogo con medidas de confianza Así se mantiene el sesgo del modelo de diálogo, que prima la petición de confirmación de los atributos ciudad de origen y ciudad de destino, pero se suaviza en función de las confianzas relativas entre atributos. 3.5. Medidas de confianza y generación de respuestas Con el fin de evaluar el módulo gestor de diálogo de un modo más real, se ha desarrollado un módulo generador de respuestas. En su versión preliminar, el módulo generador de respuestas traduce la representación semántica del turno del sistema (la salida del gestor de diálogo) a frases en castellano, conforme a una serie de plantillas fijas y unas reglas de combinación de estas plantillas con los valores de atributos presentes en las respuestas. Las respuestas así generadas carecen de suficiente naturalidad, son demasiado rígidas. En esta nueva versión se han usado las medidas de confianza para dotar de una mayor flexibilidad a la respuesta del sistema. Si la transición del modelo ha llevado a consultar la base de datos (BD), la respuesta del sistema incluirá obligatoriamente los valores de atributos extraídos de la BD. Pero puede incluir también, opcionalmente, otros atributos cuyos valores hubieran cambiado en la precedente intervención del usuario. El módulo gestor de diálogo incluirá, en sus frames de salida, los valores y confianzas de los atributos de reciente modificación, información disponible en el registro de valores actuales. Si el RVA almacena los valores de esos atributos con una confianza alta, el generador de respuestas puede omitirlos y responder de modo escueto con el resultado de la consulta a la BD. Si, en cambio, algunos de esos atributos presentan una confianza baja, inferior a un cierto umbral, entonces el generador de respuestas decidirá citarlos y responder de un modo más extenso, con una confirmación implícita de esos atributos y con el resultado de la consulta a la BD. En la figura 10 se reproduce un fragmento de diálogo, con dos turnos de usuario y de sistema, que ilustra las dos situaciones planteadas. El módulo gestor de diálogo añade, en sus frames de respuesta, los atributos modificados en la última intervención del usuario, distinguiéndolos mediante el sufijo ACTUAL. El módulo generador de respuestas incluirá en su salida los valores de atributos tipo actual cuyas confianzas sean menores al umbral. En el turno etiquetado S4, el sistema responde a la consulta del usuario sobre el tipo de tren y también cita la fecha de salida, dada su baja confianza, como confirmación implícita. En el turno etiquetado S5, el sistema dispone de mayor confianza en la fecha de salida y omite su referencia en la respuesta. ... U4: Sí. Quiero saber qué tipo de tren es *del cuatro de marzo, el primer tren por la tarde que va de Burgos a Bilbao. U4: (AFIRMACION) # 0.80 (TIPO-TREN) # 0.95 CIUDAD-ORIGEN: Burgos # 0.87 CIUDAD-DESTINO: Bilbao # 0.84 FECHA-SALIDA: 04-03-2003 # 0.63 INTERVALO-HORA-SALIDA: 13.00-21.00 # 0.81 S4: (ESPERA) (INFORMACION) TIPO-TREN: talgo # 1.00 HORA-SALIDA: 17.00 # 1.00 FECHA-ACTUAL: 04-03-2003 # 0.63 INTERVALO-HORA-ACTUAL: 13.00-21.00 # 0.81 (NUEVA-CONSULTA) S4: Un momento, por favor. El tren del cuatro de marzo es un talgo y sale a las cinco. ¿Quiere hacer otra consulta? U5: Sí. ¿También hay talgo ese día por la noche? U5: (AFIRMACION) # 0.80 (HORA-SALIDA) # 0.95 TREN-ACTUAL: talgo # 0.95 FECHA-ACTUAL: 04-03-2003 # 0.95 INTERVALO-HORA-ACTUAL: 21.00-05.00 # 0.86 S5: (INFORMACION) HORA-SALIDA: 22.00 # 1.00 INTERVALO-HORA-ACTUAL: 21.00-05.00 # 0.86 (NUEVA-CONSULTA) S5: Sale a las diez. ¿Quiere hacer otra consulta? ... Figura 10: Fragmento de diálogo 4. Conclusiones Se ha presentado un módulo gestor de diálogo basado en modelos estocásticos y con capacidad de adaptación ante intervenciones de usuario con diferentes niveles de confianza, facilitados por el módulo de comprensión. Las soluciones que se adoptaron para superar las limitaciones del modelo estocástico se han ampliado para utilizar esta nueva fuente de información. Así, se han implementado dos nuevos métodos de generalización de la representación semántica del turno de usuario y se ha modificado la planificación de prioridades de las entradas al modelo, la función de poda de transiciones posibles y la función que elige la mejor transición. El registro de valores actuales también ha sido ampliado para almacenar las medidas de confianza, colaborando así tanto en las decisiones de actualización del modelo como en la determinación de la respuesta del sistema en lenguaje natural. El módulo generador de respuestas se sirve de los valores y confianzas de los atributos de tipo actual, facilitados por el RVA, para establecer el nivel de seguridad en el diálogo en curso. Si la seguridad es alta, convienen respuestas escuetas que doten de agilidad al diálogo. Pero, ante turnos de diálogo con baja confianza, parece más prudente ampliar la respuesta, mediante citas de atributos que funcionan como confirmaciones implícitas, y así evitar que posibles confusiones entre los interlocutores se extiendan hacia los sucesivos turnos de diálogo. En este trabajo se ha llevado a cabo una primera aproximación para la incorporación de la información contenida en los valores de confianza. Un estudio más detallado de los errores más comunes propagados por los módulos de reconocimiento y comprensión nos permitirá mejorar la estrategia de tratamiento de errores en el gestor de diálogo. 5. Agradecimientos Este trabajo se ha desarrollado en el marco del proyecto TUSIR subvencionado por la CICYT número TIC2000-0664C02-01. 6. Referencias [1] Cmu communicator spoken dialog toolkit (csdtk). http://www.speech.cs.cmu.edu/communicator/. [2] Pieraccini, R. y Levin, E., “AMICA: the AT&T Mixed Innitiative Conversational Architecture”, European Conference on Speech Communication and Technology EUROSPEECH, 1875-1878, Rhodes (Grecia), 1997. [3] Lamel, L., Rosset, S., Gauvain, J. L., Bennacef, S., Garnier-Rizet, M. y Prouts, B., “The LIMSI ARISE System”, Speech Communication, 31(4):339-353, 2000. [4] Glass, J. y Weinstein, E., “Speech builder: facilitating spoken dialog system development”, European Conference on Speech Communication and Technology EUROSPEECH, 1335-1338, Aalborg (Dinamarca), 2001. [5] Córdoba, R., San-Segundo, R., Montero, J.M., Colás, J., Ferreiros, J. Macias-Guarasa, J. y Pardo, J.M., “An interactive directory assistance service for Spanish with large vocabulary recognition”, European Conference on [6] [7] [8] [9] [10] [11] [12] [13] Speech Communication and Technology EUROSPEECH, 1279-1282, Aalborg (Dinamarca), 2001. López-Cozar, R., Rubio, A. J., García, P., Díaz_verdejo, J. E. y López-Soler, J. M., “Sistema telefónico de información a viajeros”, Primeras Jornadas en Tecnología del Habla, Sevilla (España), 2000. Zhang R. And Rudnicky A. I., “Word Level Confidence Annotation using Combinations of Features”, European Conference on Speech Communication and Technology EUROSPEECH, 2105-2108, Scandinavia, 2001. Hazen T. J., Seneff S., Polifroni J., “Recognition confidence scoring and its use in speech understanding systems”, Computer Speech and Language, 16, 49-67, 2002. Torres, F., Sanchis, E., Segarra, E., “Desarrollo de un gestor de diálogo basado en modelos estocásticos y dirigido por la semántica”, Procesamiento del Lenguaje Natural, 29, 175-180, 2002. Bonafonte, A., Aibar, P., Castell, N. Lleida, E., Mariño, J.B., Sanchis, E. y Torres, I., “Desarrollo de un sistema de diálogo oral en dominios restringidos”, Primeras Jornadas en Tecnología del Habla, Sevilla (España), 2000. Sanchis, E. Segarra, E., Galiano, I., García, F. y Hurtado, L., “Modelización de la Comprensión mediante técnicas de Aprendizaje Automático”, Primeras Jornadas en Tecnología del Habla, Sevilla (España), 2000. Segarra, E. y Sanchis, E., Galiano, M., García, F. y Hurtado, L., “Extracting Semantic Information through Automatic Learning Techniques”, International Journal of Pattern Recognition and Artificial Intelligence, 16(3), 301-307, 2001. Martínez, C., Sanchis, E., García, F. y Aibar, P., “A labeling proposal to annotate dialogues”, Third International Conference on Language Resources and Evaluation, LREC, 1577-1582, Las Palmas (España), 2002.

El uso de medidas de confianza en un gestor de diálogo dirigido por

Documentos relacionados

Productos

Apoyo

El uso de medidas de confianza en un gestor de diálogo dirigido por

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib