El uso de medidas de confianza en un gestor de diálogo dirigido por

Anuncio
El uso de medidas de confianza en un gestor de diálogo dirigido
por la semántica
Francisco Torres, Emilio Sanchis, Encarna Segarra
Departamento de Sistemas Informáticos y Computación (DSIC)
Universidad Politécnica de Valencia (UPV)
{ftgoterr, esanchis, esegarra} @dsic.upv.es
Resumen
En este trabajo se presenta una propuesta para la utilización,
por parte del gestor de diálogo, de medidas de confianza proporcionadas durante el proceso de reconocimiento y
comprensión. Las características principales del gestor de
diálogo propuesto son: la entrada es una representación mediante frames de la información proporcionada en el turno de
usuario; tanto los frames como los atributos van ponderados
mediante una medida de confianza que indica la fiabilidad de
esa información; el modelo de diálogo es un autómata estocástico, aprendido de un conjunto de muestras etiquetadas.
Durante el proceso de diálogo, el gestor combina las probabilidades del modelo con la información proporcionada por las
medidas de confianza. Esta aproximación se ha aplicado a un
sistema de diálogo de acceso telefónico en castellano que contiene información sobre horarios de trenes.
1. Introducción
Algunas de las características de los sistemas de acceso mediante diálogo hablado a sistemas de información son: el
acceso al sistema es telefónico, lo que les da una operatividad
real; las tareas son de dominio restringido, ya que es preciso
limitar su léxico y ámbito semántico para obtener sistemas
viables; y finalmente, la iniciativa en el diálogo es mixta, para
permitir que el usuario tenga cierta libertad en la generación
de los turnos, resultando el diálogo más natural. La descripción de algunos de estos sistemas desarrollados en los últimos
años se puede encontrar en [1], [2], [3], [4], [5] y [6].
En el desarrollo de sistemas de diálogo hablado intervienen diversas fuentes de conocimiento que deben cooperar
para dar respuesta a las preguntas de los usuarios. En un sistema modular intervienen, entre otros, el módulo de
reconocimiento del habla, el módulo de comprensión del
habla y el gestor de diálogo. Uno de los principales problemas
que deben abordar estos sistemas es la acumulación de los
errores generados en los diferentes módulos; el módulo de
comprensión debe tratar con los errores generados en la fase
de reconocimiento, y el gestor de diálogo con los generados
en la fase de comprensión. La gran dificultad que entraña el
desarrollo de un sistema de diálogo hace inevitables estos
errores. En el caso del reconocimiento de las pronunciaciones,
se deben, principalmente, a los efectos típicos del habla espontánea, además del contexto ruidoso (teléfono, lugar no
silencioso, etc.), en que se realizan las llamadas. En el caso de
la comprensión, a los errores arrastrados de la etapa anterior
de reconocimiento se incorporan los errores propios, debidos
generalmente a la insuficiente cobertura en la modelización
del campo semántico de la tarea.
La necesidad de tratar con errores o con resultados de poca fiabilidad hace especialmente interesante la asociación de
valores de confianza a los resultados de las decodificaciones,
tanto acústico-fonéticas como léxicas o semánticas. Si nos
fijamos en los algoritmos clásicos de decodificación sobre
modelos estocásticos, como es el caso del algoritmo de Viterbi, observaremos que la decodificación global óptima exige a
veces que determinados segmentos de esa decodificación sean
poco probables.
La información que contienen los valores de confianza no
puede ser recuperada en un sistema de escritura automática,
pero sí puede ser usada en un sistema de diálogo, por ejemplo
preguntando concretamente sobre el dato sobre el que se tiene
una baja confianza. Por ello, en la mayoría de sistemas de
diálogo, la transmisión de la información entre los módulos se
lleva a cabo mediante múltiples hipótesis (n-best, grafos de
palabras, etc.), y se puede ampliar asociando medidas de confianza sobre los resultados obtenidos.
Existen múltiples trabajos para la obtención de valores de
confianza, sobre todo a nivel de palabra, en los sistemas de
reconocimiento de habla [7] y [8]. Se basan principalmente en
la combinación de indicadores respecto a la “calidad” del reconocimiento acústico, de las transiciones del modelo de
lenguaje, u otros elementos de los modelos utilizados.
La utilización de estos valores de confianza complica el
diseño del gestor de diálogo. Si consideramos un gestor de
diálogo basado en reglas, deberá introducir nuevas reglas para
considerar todas las nuevas situaciones. Si consideramos un
gestor de diálogo representado mediante un modelo estocástico, se deberá considerar que la información de entrada no sólo
es un frame, con sus atributos, sino un frame y sus atributos,
con los correspondientes valores de confianza asociados. Estos valores deben ser tenidos en cuenta por el modelo en el
proceso de diálogo.
El trabajo que presentamos aborda el problema de la falta
de fiabilidad de las entradas al gestor de diálogo. Para ello se
introducen valores de confianza que el gestor utiliza como un
dato más a la hora de tomar sus decisiones. Combinando las
probabilidades del modelo con estos valores de confianza se
pretende que el gestor dirija el diálogo hacia confirmaciones
de atributos dudosos, y sólo genere respuestas cuando se disponga de la seguridad suficiente sobre los atributos.
El gestor de diálogo [9], basado en modelos estocásticos,
ha sido desarrollado dentro del marco del proyecto
BASURDE [10], [11] y [12], cuyo objetivo es la construcción
de un sistema de diálogo de acceso telefónico en castellano
que contiene información sobre horarios de trenes. El modelo
de diálogo consiste en un autómata estocástico aprendido a
partir de un corpus de diálogo etiquetado en términos de actos
de diálogo y de frames. Este modelo incorpora un método de
suavizado basado en la generalización de la entrada y el uso
de dos autómatas con diferente nivel de detalle.
2. Estimación del modelo de diálogo
La tarea definida en el proyecto consiste en consultas telefónicas sobre horarios, precios y servicios de trenes españoles de
largo recorrido. Se adquirieron 215 diálogos usando la técnica
del Mago de Oz. El número total de turnos de usuario adquirido fue de 1.460 (14.902 palabras).
Los estados del modelo de diálogo se representan mediante actos de diálogo. En el proyecto BASURDE se ha
propuesto un conjunto de etiquetas de actos de diálogo de tres
niveles [13]. El primer nivel describe el comportamiento general del diálogo y es independiente de la tarea (apertura, cierre,
pregunta, confirmación, …). El segundo nivel está relacionado con la representación semántica del turno y es específico de
la tarea (hora-salida, precio, tipo-tren, …). En el tercer nivel
se representan los valores (atributos) dados en el turno de
diálogo. El modelo estocástico se ha estimado a partir de los
dos primeros niveles, quedando el tercer nivel implícito en la
información semántica que recibe el gestor de diálogo en su
entrada.
3. Descripción del sistema
3.1. Representación semántica con medidas de confianza
Se han considerado dos niveles en la asociación de medidas de
confianza a la representación semántica del turno de usuario:
confianza en el identificador de frame (segundo nivel del etiquetado) y confianza en los valores de atributos (tercer nivel
del etiquetado).
En función de la fiabilidad en las etapas de reconocimiento y de comprensión de las frases del usuario, el módulo de
comprensión proporcionará una representación semántica del
turno de usuario. Esta representación, tanto los frames como
los atributos, vendrá acompañada de las correspondientes
medidas de confianza. En la figura 1 se muestra, con un ejemplo de un turno de usuario, el formato de la entrada al módulo
gestor de diálogo.
U0: Hola, quería viajar de Burgos a Bilbao el dos de marzo y
volver el cinco de marzo, el dos de marzo quiero ir por la mañana, ¿qué es lo que hay?
U0: (HORA-SALIDA) #0.95
CIUDAD-ORIGEN: Burgos #0.82
CIUDAD-DESTINO: Bilbao #0.82
FECHA-SALIDA: 02-03-2003 # 0.63
INTERVALO-HORA-SALIDA: 05.00-13.00 # 0.57
(HORA-SALIDA-V) #0.75
FECHA-SALIDA: 05-03-2003 # 0.63
Figura 1: Ejemplo de representación semántica
3.2. Algoritmo del gestor de diálogo
En la Figura 2 se muestra el algoritmo del gestor del diálogo
considerando medidas de confianza.
El curso del diálogo usuario–sistema está determinado por
dos componentes: el modelo estocástico de diálogo (MD) y el
registro de valores actuales (RVA). En la generalización de la
representación semántica del turno de usuario se tendrán en
cuenta las medidas de confianza. Dicha generalización (input_MD) determinará el conjunto de las transiciones posibles
en el modelo de diálogo por turno del usuario.
Paralelamente, en el registro de valores actuales, se almacenarán los valores de los atributos y sus confianzas asociadas.
Así, mediante la consulta del RVA, la información disponible
sobre las medidas de confianza también será utilizada, en la
actualización del MD por turno del sistema, para elegir transición entre el conjunto de las transiciones posibles.
Finalmente, las medidas de confianza almacenadas en el
RVA se facilitan al módulo generador de respuestas. De este
modo, la respuesta generada en lenguaje natural podrá ser más
escueta o más detallada, podrá incluir o excluir ciertos atributos, en función de las medidas de confianza.
Iniciar (RVA); /* RVA = Registro Valores Actuales */
Lectura (MD); /* MD = Autómatas Modelo Diálogo */
estado_MD = Apertura; /* Estado inicial del diálogo */
Repetir
inFrames = Lectura(frases del usuario);
/* inFrames = frames usuario, información semántica */
conf_inFrames = Lectura(confianzas en frases del usuario);
/* conf_inFrames = confianzas en los frames usuario */
input_MD = Adaptar(RVA, inFrames, conf_inFrames);
/* input_MD = entradas para transiciones en MD */
estado_MD = Actualizar(estado_MD, input_MD);
/* actualización del modelo por turno de usuario */
RVA = Actualizar(RVA, inFrames, conf_inFrames);
/* actualización del registro por turno de usuario */
estado_MD = Actualizar(estado_MD, RVA);
/* actualización del modelo por turno del sistema */
RVA = Actualizar(RVA, output_MD, output_BD);
/* actualización del registro por turno del sistema */
outFrames = Adaptar(output_MD);
/* output_MD = etiqueta asociada al estado alcanzado */
conf_outFrames = Lectura(RVA);
/* conf_outFrames = confianzas registradas en RVA */
Escritura(outFrames, conf_outFrames);
Hasta
estado_MD = Cierre
Figura 2: Algoritmo del gestor de diálogo
3.3. Medidas de confianza y generalización semántica
Dada la escasez de muestras de aprendizaje, se estimaron dos
modelos: un modelo principal, específico de la tarea, con 310
estados y un alfabeto formado por un conjunto de cadenas de
formato (Turno:PrimerNivel:SegundoNivel), y otro modelo
auxiliar, genérico, con 74 estados y un alfabeto de cadenas de
la forma (Turno:PrimerNivel).
Las limitaciones del modelo principal se superan, en situaciones ordinarias, mediante la generalización de los frames
o representación semántica del turno de usuario, y, en situaciones extraordinarias, mediante la consulta del modelo
auxiliar.
Para actualizar el modelo principal tras la intervención del
usuario, en la anterior versión del módulo gestor [9], se disponía de tres métodos de generalización de la representación
semántica del turno de usuario: concatenación, integración y
fragmentación de frames. En la actual versión, se han añadido
dos nuevos métodos de generalización que consideran las
confianzas hasta el segundo nivel del etiquetado: concatenación condicionada por la confianza y fragmentación
condicionada por la confianza. En la figura 3 se ilustra el
funcionamiento de los cinco métodos de generalización.
Dados 3 actos de diálogo y sus medidas de confianza:
inFrames = (U:Afirmación:Ciudad_destino,Tipo_tren)
(U:Pregunta:Hora_salida,Precio) (U:Pregunta:Hora_salida_v)
conf_inFrames =
(Afirmación #0.80 : Ciudad_destino #0.83, Tipo_tren #0.66)
(Pregunta #0.93 : Hora_salida #0.89, Precio #0.74)
(Pregunta #0.55 : Hora_salida_v #0.45)
Ejemplos de los métodos de generalización semántica:
•
por concatenación incondicional:
(U:Pregunta:Hora_salida,Precio) (U:Pregunta:Hora_salida_v)
•
por concatenación condicionada por la confianza:
(U:Afirmación:Ciudad_destino,Tipo_tren)
(U:Pregunta:Hora_salida,Precio)
•
por integración:
(U:Pregunta:Hora_salida,Precio,Hora_salida_v)
•
por fragmentación aleatoria:
(U:Afirmación:Tipo_tren) (U:Pregunta:Precio)
•
por fragmentación condicionada por la confianza:
(U:Afirmación:Ciudad_destino) (U:Pregunta:Hora_salida)
Figura 3: Ejemplos de generalización semántica
El método de concatenación condicionada por la confianza utiliza las medidas de confianza de los frames. El anterior
método de concatenación incondicional construye nuevas
entradas para la actualización del modelo de diálogo mediante
la poda sucesiva de los frames componentes de la representación semántica original. Dicha representación es interpretada
como una lista cronológica cuyos primeros elementos se consideran más distantes en el tiempo, menos importantes y, por
tanto, más prescindibles.
El nuevo método de concatenación condicionada por la
confianza mantiene el principio constructivo de poda sucesiva
de frames componentes. Pero interpreta la representación
semántica original como una lista ordenada en sentido creciente de confianza. Así, en el ejemplo de la figura 3,
concatena el frame con confianza 0.80 y el frame con confianza 0.93, y descarta el frame con confianza 0.55, frame que
siempre se incluye en la concatenación incondicional.
El método de fragmentación condicionada por la confianza utiliza las medidas de confianza de los atributos (etiquetas
del segundo nivel, conceptos específicos de la tarea). El anterior método de fragmentación aleatoria construía nuevas
entradas para la actualización del modelo de diálogo mediante
la generación aleatoria de una sublista de los atributos presentes en la representación semántica original.
El nuevo método de fragmentación condicionada por la
confianza mantiene el principio constructivo de sublista de
atributos, pero añade a la misma sólo aquellos atributos cuyas
confianzas superen un determinado umbral. Así, en el ejemplo de la figura 3, y suponiendo un umbral de confianza de
0.80, se incluyen en la sublista sólo los dos atributos indicados, mientras que en la fragmentación aleatoria podrían
incluirse los atributos con menor confianza.
3.4. Medidas de confianza y actualización del modelo
La actualización del modelo principal exige una adecuada
planificación de las prioridades de las cadenas input_MD
construidas mediante los cinco métodos de generalización
semántica. Las cadenas que reflejen con mayor exactitud la
información semántica del turno de usuario y que presenten
una mayor confianza serán más prioritarias en la búsqueda de
transiciones en el modelo.
Las figuras 4 y 5 muestran cómo el uso de las medidas de
confianza permite cambiar el curso del diálogo. En ambas
figuras se plantea la misma situación de diálogo (turno de
usuario U2). La figura 4 presenta la respuesta del sistema en
ausencia de información de confianzas; el modelo se actualiza
con una cadena, (U:Pregunta:Precio), generada por concatenación incondicional. La figura 5 muestra la respuesta del
sistema considerando la información de confianza; el modelo
se actualiza con (U:Pregunta:Hora_llegada,Hora_salida),
generada por concatenación condicionada por la confianza.
U2: Para viajar a Bilbao el dos de marzo, ¿a qué horas sale y
llega? ¡ah!, y ¿cuánto es?, por favor.
U2:
(HORA-SALIDA)
CIUDAD-DESTINO: Bilbao
FECHA-SALIDA: 02-03-2003
(HORA-LLEGADA)
CIUDAD-DESTINO: Bilbao
FECHA-SALIDA: 02-03-2003
(PRECIO)
CIUDAD-DESTINO: Bilbao
FECHA-SALIDA: 02-03-2003
...
modeloNivel2 actualizado por usuario con (U:Pregunta:Precio)
modeloNivel2 actualizado por sistema con
(S:Respuesta:Precio) (S:Nueva_consulta:Nil)
...
S2:
(INFORMACION)
PRECIO: 20.00
(NUEVA-CONSULTA)
S2: El billete cuesta veinte euros. ¿Quiere hacer otra consulta?
Figura 4: Fragmento de diálogo sin medidas de confianza
U2: Para viajar a Bilbao el dos de marzo, ¿a qué horas sale y
llega? ¡ah!, y ¿cuánto es?, por favor.
U2:
(HORA-SALIDA) # 0.90
CIUDAD-DESTINO: Bilbao # 0.92
FECHA-SALIDA: 02-03-2003 # 0.83
(HORA-LLEGADA) # 0.75
CIUDAD-DESTINO: Bilbao # 0.92
FECHA-SALIDA: 02-03-2003 # 0.83
(PRECIO) # 0.43
CIUDAD-DESTINO: Bilbao # 0.92
FECHA-SALIDA: 02-03-2003 # 0.83
...
modeloNivel2 actualizado por usuario con
(U:Pregunta:Hora_llegada,Hora_salida)
modeloNivel2 actualizado por sistema con
(S:Respuesta:Hora_llegada,Hora_salida)
(S:Nueva_consulta:Nil)
...
S2:
(INFORMACION)
HORA-LLEGADA: 20.00
HORA-SALIDA: 18.00
(NUEVA-CONSULTA)
S2: El tren sale a las seis y llega a las ocho. ¿Quiere hacer otra
consulta?
Figura 5: Fragmento de diálogo con medidas de confianza
Las medidas de confianza, asociadas a la última intervención o asociadas a anteriores intervenciones y almacenadas en
el RVA, son tenidas en cuenta a la hora de elegir una transición en el modelo de diálogo cuando se dispone de un
conjunto de posibles transiciones. En la anterior versión del
módulo gestor, dicho conjunto de posibles transiciones era
objeto de una poda que excluía aquellas transiciones incoherentes con ciertas reglas (por ejemplo, transiciones a
confirmaciones de atributos que ya hubieran sido confirmados) y, del subconjunto resultante, se elegía la transición que
el modelo fijara como más probable.
En la actual versión, se mantiene la poda de transiciones
incoherentes con ciertas reglas, pero algunas han sido modificadas (por ejemplo, transiciones a respuestas cuando las
confianzas en ciertos atributos, como ciudad de origen y ciudad de destino, son inferiores a un determinado umbral). Del
subconjunto de posibles transiciones restante, se elige la mejor transición conforme a un criterio que pondera tanto la
probabilidad asignada por el modelo de diálogo como las
confianzas en los atributos implicados, disponibles en el registro de valores actuales.
Una típica situación de diálogo donde se puede observar
el efecto de estas variaciones es la primera intervención del
sistema en respuesta a la consulta inicial del usuario. En la
anterior versión del módulo gestor, el sistema casi siempre
respondía con una petición de confirmación de los atributos
ciudad de origen y ciudad de destino, tal como se muestra en
la figura 6.
U0: Hola, quería viajar de Burgos a Bilbao el dos de marzo.
U0:
(HORA-SALIDA)
CIUDAD-ORIGEN: Burgos
CIUDAD-DESTINO: Bilbao
FECHA-SALIDA: 02-03-2003
S0:
(CONFIRMACION)
CIUDAD-ORIGEN: Burgos
CIUDAD-DESTINO: Bilbao
S0: ¿Quiere viajar desde Burgos a Bilbao?
Figura 6: Fragmento de diálogo sin medidas de confianza
La respuesta actual del sistema es más versátil y, dependiendo de las confianzas en los atributos ciudad de origen,
ciudad de destino y fecha de salida, podría ser, además de la
anterior, una de las siguientes:
1.
Respuesta a la consulta del usuario (si se dispone de una
confianza muy alta en los tres atributos citados), tal como se muestra en la figura 7.
U0: Hola, quería viajar de Burgos a Bilbao el dos de marzo.
U0:
(HORA-SALIDA) # 0.95
CIUDAD-ORIGEN: Burgos # 0.95
CIUDAD-DESTINO: Bilbao # 0.95
FECHA-SALIDA: 02-03-2003 # 0.90
S0:
(ESPERA)
(INFORMACION)
HORA-SALIDA: 15.30
(NUEVA-CONSULTA)
S0: Un momento, por favor. El tren sale a las tres y media.
¿Quiere hacer otra consulta?
Figura 7: Fragmento de diálogo con medidas de confianza
2.
Petición de confirmación del atributo fecha de salida (si
se dispone de una confianza baja en este atributo y alta en
los otros atributos), tal como se muestra en la figura 8.
U0: Hola, quería viajar de Burgos a Bilbao el dos de marzo.
U0:
(HORA-SALIDA) # 0.95
CIUDAD-ORIGEN: Burgos # 0.90
CIUDAD-DESTINO: Bilbao # 0.85
FECHA-SALIDA: 02-03-2003 # 0.35
S0:
(CONFIRMACION)
FECHA-SALIDA: 02-03-2003
S0: ¿Quiere viajar el dos de marzo?
Figura 8: Fragmento de diálogo con medidas de confianza
3.
Petición de confirmación de los atributos ciudad de origen, ciudad de destino y fecha de salida (si se dispone de
una confianza baja en este atributo y media en los otros
dos atributos), tal como se muestra en la figura 9.
U0: Hola, quería viajar de Burgos a Bilbao el dos de marzo.
U0:
(HORA-SALIDA) # 0.95
CIUDAD-ORIGEN: Burgos # 0.55
CIUDAD-DESTINO: Bilbao # 0.50
FECHA-SALIDA: 02-03-2003 # 0.35
S0:
(CONFIRMACION)
CIUDAD-ORIGEN: Burgos
CIUDAD-DESTINO: Bilbao
FECHA-SALIDA: 02-03-2003
S0: ¿Quiere viajar desde Burgos a Bilbao el dos de marzo?
Figura 9: Fragmento de diálogo con medidas de confianza
Así se mantiene el sesgo del modelo de diálogo, que prima la petición de confirmación de los atributos ciudad de
origen y ciudad de destino, pero se suaviza en función de las
confianzas relativas entre atributos.
3.5. Medidas de confianza y generación de respuestas
Con el fin de evaluar el módulo gestor de diálogo de un modo
más real, se ha desarrollado un módulo generador de respuestas. En su versión preliminar, el módulo generador de
respuestas traduce la representación semántica del turno del
sistema (la salida del gestor de diálogo) a frases en castellano,
conforme a una serie de plantillas fijas y unas reglas de combinación de estas plantillas con los valores de atributos
presentes en las respuestas. Las respuestas así generadas carecen de suficiente naturalidad, son demasiado rígidas.
En esta nueva versión se han usado las medidas de confianza para dotar de una mayor flexibilidad a la respuesta del
sistema. Si la transición del modelo ha llevado a consultar la
base de datos (BD), la respuesta del sistema incluirá obligatoriamente los valores de atributos extraídos de la BD. Pero
puede incluir también, opcionalmente, otros atributos cuyos
valores hubieran cambiado en la precedente intervención del
usuario.
El módulo gestor de diálogo incluirá, en sus frames de salida, los valores y confianzas de los atributos de reciente
modificación, información disponible en el registro de valores
actuales. Si el RVA almacena los valores de esos atributos
con una confianza alta, el generador de respuestas puede omitirlos y responder de modo escueto con el resultado de la
consulta a la BD. Si, en cambio, algunos de esos atributos
presentan una confianza baja, inferior a un cierto umbral,
entonces el generador de respuestas decidirá citarlos y responder de un modo más extenso, con una confirmación
implícita de esos atributos y con el resultado de la consulta a
la BD.
En la figura 10 se reproduce un fragmento de diálogo, con
dos turnos de usuario y de sistema, que ilustra las dos situaciones planteadas. El módulo gestor de diálogo añade, en sus
frames de respuesta, los atributos modificados en la última
intervención del usuario, distinguiéndolos mediante el sufijo
ACTUAL. El módulo generador de respuestas incluirá en su
salida los valores de atributos tipo actual cuyas confianzas
sean menores al umbral.
En el turno etiquetado S4, el sistema responde a la consulta del usuario sobre el tipo de tren y también cita la fecha de
salida, dada su baja confianza, como confirmación implícita.
En el turno etiquetado S5, el sistema dispone de mayor confianza en la fecha de salida y omite su referencia en la
respuesta.
...
U4: Sí. Quiero saber qué tipo de tren es *del cuatro de marzo,
el primer tren por la tarde que va de Burgos a Bilbao.
U4: (AFIRMACION) # 0.80
(TIPO-TREN) # 0.95
CIUDAD-ORIGEN: Burgos # 0.87
CIUDAD-DESTINO: Bilbao # 0.84
FECHA-SALIDA: 04-03-2003 # 0.63
INTERVALO-HORA-SALIDA: 13.00-21.00 # 0.81
S4: (ESPERA)
(INFORMACION)
TIPO-TREN: talgo # 1.00
HORA-SALIDA: 17.00 # 1.00
FECHA-ACTUAL: 04-03-2003 # 0.63
INTERVALO-HORA-ACTUAL: 13.00-21.00 # 0.81
(NUEVA-CONSULTA)
S4: Un momento, por favor. El tren del cuatro de marzo es un
talgo y sale a las cinco. ¿Quiere hacer otra consulta?
U5: Sí. ¿También hay talgo ese día por la noche?
U5: (AFIRMACION) # 0.80
(HORA-SALIDA) # 0.95
TREN-ACTUAL: talgo # 0.95
FECHA-ACTUAL: 04-03-2003 # 0.95
INTERVALO-HORA-ACTUAL: 21.00-05.00 # 0.86
S5: (INFORMACION)
HORA-SALIDA: 22.00 # 1.00
INTERVALO-HORA-ACTUAL: 21.00-05.00 # 0.86
(NUEVA-CONSULTA)
S5: Sale a las diez. ¿Quiere hacer otra consulta?
...
Figura 10: Fragmento de diálogo
4. Conclusiones
Se ha presentado un módulo gestor de diálogo basado en modelos estocásticos y con capacidad de adaptación ante
intervenciones de usuario con diferentes niveles de confianza,
facilitados por el módulo de comprensión. Las soluciones que
se adoptaron para superar las limitaciones del modelo estocástico se han ampliado para utilizar esta nueva fuente de
información. Así, se han implementado dos nuevos métodos
de generalización de la representación semántica del turno de
usuario y se ha modificado la planificación de prioridades de
las entradas al modelo, la función de poda de transiciones
posibles y la función que elige la mejor transición.
El registro de valores actuales también ha sido ampliado
para almacenar las medidas de confianza, colaborando así
tanto en las decisiones de actualización del modelo como en
la determinación de la respuesta del sistema en lenguaje natural. El módulo generador de respuestas se sirve de los valores
y confianzas de los atributos de tipo actual, facilitados por el
RVA, para establecer el nivel de seguridad en el diálogo en
curso. Si la seguridad es alta, convienen respuestas escuetas
que doten de agilidad al diálogo. Pero, ante turnos de diálogo
con baja confianza, parece más prudente ampliar la respuesta,
mediante citas de atributos que funcionan como confirmaciones implícitas, y así evitar que posibles confusiones entre los
interlocutores se extiendan hacia los sucesivos turnos de diálogo.
En este trabajo se ha llevado a cabo una primera aproximación para la incorporación de la información contenida en
los valores de confianza. Un estudio más detallado de los
errores más comunes propagados por los módulos de reconocimiento y comprensión nos permitirá mejorar la estrategia de
tratamiento de errores en el gestor de diálogo.
5. Agradecimientos
Este trabajo se ha desarrollado en el marco del proyecto
TUSIR subvencionado por la CICYT número TIC2000-0664C02-01.
6. Referencias
[1] Cmu communicator spoken dialog toolkit (csdtk).
http://www.speech.cs.cmu.edu/communicator/.
[2] Pieraccini, R. y Levin, E., “AMICA: the AT&T Mixed
Innitiative Conversational Architecture”, European Conference on Speech Communication and Technology
EUROSPEECH, 1875-1878, Rhodes (Grecia), 1997.
[3] Lamel, L., Rosset, S., Gauvain, J. L., Bennacef, S., Garnier-Rizet, M. y Prouts, B., “The LIMSI ARISE System”,
Speech Communication, 31(4):339-353, 2000.
[4] Glass, J. y Weinstein, E., “Speech builder: facilitating
spoken dialog system development”, European Conference on Speech Communication and Technology
EUROSPEECH, 1335-1338, Aalborg (Dinamarca), 2001.
[5] Córdoba, R., San-Segundo, R., Montero, J.M., Colás, J.,
Ferreiros, J. Macias-Guarasa, J. y Pardo, J.M., “An interactive directory assistance service for Spanish with large
vocabulary recognition”, European Conference on
[6]
[7]
[8]
[9]
[10]
[11]
[12]
[13]
Speech
Communication
and
Technology
EUROSPEECH, 1279-1282, Aalborg (Dinamarca), 2001.
López-Cozar, R., Rubio, A. J., García, P., Díaz_verdejo,
J. E. y López-Soler, J. M., “Sistema telefónico de
información a viajeros”, Primeras Jornadas en Tecnología
del Habla, Sevilla (España), 2000.
Zhang R. And Rudnicky A. I., “Word Level Confidence
Annotation using Combinations of Features”, European
Conference on Speech Communication and Technology
EUROSPEECH, 2105-2108, Scandinavia, 2001.
Hazen T. J., Seneff S., Polifroni J., “Recognition confidence scoring and its use in speech understanding
systems”, Computer Speech and Language, 16, 49-67,
2002.
Torres, F., Sanchis, E., Segarra, E., “Desarrollo de un
gestor de diálogo basado en modelos estocásticos y dirigido por la semántica”, Procesamiento del Lenguaje
Natural, 29, 175-180, 2002.
Bonafonte, A., Aibar, P., Castell, N. Lleida, E., Mariño,
J.B., Sanchis, E. y Torres, I., “Desarrollo de un sistema
de diálogo oral en dominios restringidos”, Primeras Jornadas en Tecnología del Habla, Sevilla (España), 2000.
Sanchis, E. Segarra, E., Galiano, I., García, F. y Hurtado,
L., “Modelización de la Comprensión mediante técnicas
de Aprendizaje Automático”, Primeras Jornadas en
Tecnología del Habla, Sevilla (España), 2000.
Segarra, E. y Sanchis, E., Galiano, M., García, F. y Hurtado, L., “Extracting Semantic Information through
Automatic Learning Techniques”, International Journal
of Pattern Recognition and Artificial Intelligence, 16(3),
301-307, 2001.
Martínez, C., Sanchis, E., García, F. y Aibar, P., “A labeling proposal to annotate dialogues”, Third
International Conference on Language Resources and
Evaluation, LREC, 1577-1582, Las Palmas (España),
2002.
Descargar