5. Reconocimiento de habla y sistemas de diálogo

Anuncio
MÁSTER OFICIAL EN
LENGUA ESPAÑOLA Y LITERATURA HISPÁNICA
Aplicación de las tecnologías de la información y de la
comunicación (TIC) a la Lengua española
Tecnologías del habla, Carme de-la-Mota
RECONOCIMIENTO DE HABLA
Y SISTEMAS DE DIÁLOGO
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona
1
GUIÓN DEL CURSO
„ Interacción entre personas y ordenadores
Conversión de texto en habla
„ Reconocimiento de habla
„ Sistemas de diálogo
„ Interacción entre personas mediatizada por ordenador
„ Traducción de lenguas orales
„ Traducción entre lengua oral y lengua de signos
„ Reconocimiento de habla y generación de caras animadas
para lectura labial
„ La necesidad de crear y etiquetar corpus orales
„ Aplicaciones
„
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona
2
1. Interacción
entre personas y ordenadores
„ Conversión de texto en habla
„ Reconocimiento de habla
„ Sistemas de diálogo
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona
3
1.2. Reconocimiento de habla
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona
4
Reconocimiento
„ Caras
„ Iris
„ Firmas
„ Voces…
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona
5
Reconocimiento
„ Reconocimiento de la lengua
„ Reconocimiento del habla
„ Comprensión del habla (!)
„ Identificación y verificación del hablante
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona
6
Reconocimiento: estructura
„ Extractor de parámetros acústicos que
servirán para el reconocimiento
„ Reconocedor o identificador piezas
lingüísticas
„ Modelo de lenguaje o analizador
sintáctico/contextual
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona
7
Reconocimiento: módulos
J. Llisterri, C. Carbó, M. J. Machuca, C. de-la-Mota, M. Riera, A. Ríos (2003) "El papel de la lingüística en
el desarrollo de las tecnologías del habla“, en M. Casas Gómez (dir.) y C. Varo Varo (ed.) VII Jornadas
de Lingüística. Cádiz: Universidad de Cádiz. ISBN: 84-88423-30-6: 137-191
http://liceu.uab.es/~joaquim/publicacions/Llisterri_Carbo_Machuca_Mota_Riera_Rios_03_Linguistica_Tecn
ologias_Habla.pdf
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona
8
„ Vocabulario
Restringido
„ Sin restricciones
„ Pausas
„ Reconocimiento de palabras aisladas
„ Reconocimiento de habla continua
„ Locutor
„ Dependiente del locutor: entrenamiento previo
„ Independiente del locutor: cualquier usuario
„
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona
9
Problemas: los entornos ruidosos
„ Medios de transporte, oficinas, fábricas…
„ Tipos de interferencias:
„
Ruidos
„
„
„
Predecibles
Aleatorios
Otras voces
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona
10
Problemas: segmentación de unidades
„ ¿Me podrías solucionar esta duda?
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona
11
Estimación de fronteras: dendograma
Captura de cambios
en la señal
(Richard M.Stern, Xiang Li, Jon Nedel, Mike Seltzer y Rita Singh (2002) “Reconocimiento del
habla en ambientes GSM y ruidosos: progreso y enfoques futuros”, Department of Electrical
and Computer Engineering and School of Computer Science Carnegie Mellon University
Pittsburgh, Pennsylvania)
12
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona
Estimación de fronteras: HMM
basado en el centro del fonema
„ Detección de la zona estable
(Richard M.Stern, Xiang Li, Jon Nedel, Mike Seltzer y Rita Singh (2002) “Reconocimiento del
habla en ambientes GSM y ruidosos: progreso y enfoques futuros”, Department of Electrical
and Computer Engineering and School of Computer Science Carnegie Mellon University
Pittsburgh, Pennsylvania)
13
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona
Estimación de fronteras:
conocimiento lingüístico
+voicing
+obstruent
-obstruent
-voicing
-sonorant
+sonorant
„ Búsqueda de la coherencia espectral
(Richard M.Stern, Xiang Li, Jon Nedel, Mike Seltzer y Rita Singh (2002) “Reconocimiento del
habla en ambientes GSM y ruidosos: progreso y enfoques futuros”, Department of Electrical
and Computer Engineering and School of Computer Science Carnegie Mellon University
Pittsburgh, Pennsylvania)
14
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona
Filtros espectrales
„ Coeficientes obtenidos a partir del domino
espectral
„ Semejanza con el sistema de percepción
humano
„ Uso de parámetros como: MFCC (Mel
Frequency Cepstral Coefficients)
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona
15
Reconocimiento
modelo
almacenado
comparación
representativo
unidades en su contexto
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona
16
¿Qué unidad es?
„ Búsqueda de la cadena adecuada
„ Habitualmente:
estadística y probabilidad (Modelos Ocultos
de Markov, Hidden Markov Models, HMM)
„ algoritmos
„
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona
17
Corrección de errores
„ “Diccionarios”: información lingüística
„ Modelo de lenguaje
¿Es esa secuencia posible en el contexto x?
„ Por el contexto, ¿qué secuencia es más
probable que sea?
„
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona
18
Dragon 10, Nuance
Dragon 10, español (Dragon Naturally Speaking)
Nuance
http://www.youtube.com/watch?v=hWQtSbLftvA
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona
19
Verbio
„
http://www.redvox.es/verbio.html
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona
20
CMU Sphinx
„
„
Código abierto, adaptable al español
Carnegie Mellon, http://cmusphinx.sourceforge.net/wordpress/
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona
21
Reconocimiento: Windows Vista
http://www.youtube.com/watch?v=YyH9iEL6u1g
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona
22
Reconocimiento y dictado.
Philips Speech Magic
„ http://www.speech.philips.com/index.php?id=715
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona
23
TELL ME MORE® ONLINE
http://www.tellmemore.com/content/view/full/163
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona
24
Identificación y verificación del hablante
„ La llamada “firma vocal”
„ Comparación con voces de una base de
datos
„ Identificación y verificación de la persona por
la voz: control de acceso, personalización,
bloqueo y desbloqueo de elementos (p.ej. un
terminal), transacciones comerciales por
Internet
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona
25
Identificación y verificación
comparación
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona
26
Identificación
voces indubitadas
voz dubitada
Locutor X
comparación
¿Alguna de estas voces es de X?
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona
Verificación
voces indubitadas
voz dubitada
comparación
Locutor X
¿Es esta voz la de X?
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona
Verificación del locutor
Credit
card
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona
29
Proyecto VILE
„ Estudio acústico de la variación
inter e intralocutor en español
„ 2 etapas
VILE: BFF2001-2551, 2001-2004 y
„ VILE II: HUM2005-06980/FILO, 2005-2009
„
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona
30
Proyecto VILE y VILE II
„ BFF2001-2551, 2001-2004 y HUM2005-06980/FILO, 2005-2009
„ Mª José Albalá y Juana Gil
Laboratorio de Fonética, CSIC
„ Elena Battaner
Departamento de Comunicación II, Universidad Rey Juan Carlos
„ Victoria Marrero (IP, VILE II)
Departamento de Lengua Española y Lingüística General,
Universidad Nacional de Educación a Distancia
„ Mario Carranza, Carme de-la-Mota, Joaquim Llisterri (IP, VILE I),
María Jesús Machuca, Natalia Madrigal, Montse Marquina,
Montserrat Riera y Antonio Ríos
Departamento de Filología Española, Universidad Autónoma de
Barcelona
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona
31
Objetivos del proyecto VILE
Caracterización acústica de los elementos
segmentales y suprasegmentales que contribuyen a
establecer la individualidad de un hablante
2. Conocimiento fonético para la mejora de los
sistemas de reconocimiento, identificación o
verificación automáticas del locutor
3. Nuevos datos acústicos para la práctica de la
fonética judicial
1.
SEAF 2003, II Congreso de la Sociedad Española de Acústica Forense
Barcelona, del 9 al de 11 de abril de 2003
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona
32
Etapas del proyecto VILE y VILE II
„ Delimitación de los fenómenos fonéticos objeto de
„
„
„
„
interés
Análisis acústico de los fenómenos fonéticos
seleccionados en una muestra de materiales extraída
de corpus disponibles
Estudio de los resultados desde la perspectiva de la
variación interlocutor e intralocutor
Validación perceptiva
Conclusiones para el reconocimiento automático de
locutor y la fonética forense
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona
33
1.3. Sistemas de diálogo
„ Reconocimiento de habla
„ Comprensión del lenguaje natural y gestión
del diálogo
„
Acceso a bases de datos, sistemas de
interrogación y respuesta, entornos
colaborativos, teleoperación, adaptación al
usuario
„ Síntesis de habla
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona
34
Sistemas de diálogo: módulos
J. Llisterri, C. Carbó, M. J. Machuca, C. de-la-Mota, M. Riera, A. Ríos (2003) "El papel de la lingüística en
el desarrollo de las tecnologías del habla“, en M. Casas Gómez (dir.) y C. Varo Varo (ed.) VII Jornadas
de Lingüística. Cádiz: Universidad de Cádiz. ISBN: 84-88423-30-6: 137-191
http://liceu.uab.es/~joaquim/publicacions/Llisterri_Carbo_Machuca_Mota_Riera_Rios_03_Linguistica_Tecn
ologias_Habla.pdf
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona
35
„ Interpretación:
A primera hora de la mañana
„ Un poco más tarde
„ No te acerques tanto
„ ¿Tendrían algo… distinto?
„
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona
36
Estudio de interacciones
Persona
Persona
diálogo
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona
37
Mago de Oz
Persona
Persona
diálogo
Foto: teclarosrg
Diseño de escenarios para las distintas situaciones
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona
38
Roomline
„
„
Computer Science Department, CMU
http://www.cs.cmu.edu/~dbohus/ravenclaw-olympus/roomline.html
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona
39
ARISE (LIMSI)
„
„
ARISE, Automatic Railway Information Systems for Europe
http://www.limsi.fr/Recherche/TLP/theme4.html
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona
40
Sistema de diálogo aplicado al control
HIFI (Proyecto EDECAN, UPM)
http://lorien.die.upm.es/~macias/edecan/demos/index.php?status=dialog
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona
41
Portales de voz :ydilo.com
„
http://www.ydilo.com/esp/index.html
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona
42
Sistemas tutoriales inteligentes
Ordenador TUTOR
Persona ESTUDIANTE
Foto: teclarosrg
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona
43
1. Interacción
entre personas y ordenadores
„ Conversión de texto en habla
„ Reconocimiento de habla
„ Sistemas de diálogo
Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona
44
Descargar