MÁSTER OFICIAL EN LENGUA ESPAÑOLA Y LITERATURA HISPÁNICA Aplicación de las tecnologías de la información y de la comunicación (TIC) a la Lengua española Tecnologías del habla, Carme de-la-Mota RECONOCIMIENTO DE HABLA Y SISTEMAS DE DIÁLOGO Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 1 GUIÓN DEL CURSO Interacción entre personas y ordenadores Conversión de texto en habla Reconocimiento de habla Sistemas de diálogo Interacción entre personas mediatizada por ordenador Traducción de lenguas orales Traducción entre lengua oral y lengua de signos Reconocimiento de habla y generación de caras animadas para lectura labial La necesidad de crear y etiquetar corpus orales Aplicaciones Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 2 1. Interacción entre personas y ordenadores Conversión de texto en habla Reconocimiento de habla Sistemas de diálogo Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 3 1.2. Reconocimiento de habla Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 4 Reconocimiento Caras Iris Firmas Voces… Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 5 Reconocimiento Reconocimiento de la lengua Reconocimiento del habla Comprensión del habla (!) Identificación y verificación del hablante Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 6 Reconocimiento: estructura Extractor de parámetros acústicos que servirán para el reconocimiento Reconocedor o identificador piezas lingüísticas Modelo de lenguaje o analizador sintáctico/contextual Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 7 Reconocimiento: módulos J. Llisterri, C. Carbó, M. J. Machuca, C. de-la-Mota, M. Riera, A. Ríos (2003) "El papel de la lingüística en el desarrollo de las tecnologías del habla“, en M. Casas Gómez (dir.) y C. Varo Varo (ed.) VII Jornadas de Lingüística. Cádiz: Universidad de Cádiz. ISBN: 84-88423-30-6: 137-191 http://liceu.uab.es/~joaquim/publicacions/Llisterri_Carbo_Machuca_Mota_Riera_Rios_03_Linguistica_Tecn ologias_Habla.pdf Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 8 Vocabulario Restringido Sin restricciones Pausas Reconocimiento de palabras aisladas Reconocimiento de habla continua Locutor Dependiente del locutor: entrenamiento previo Independiente del locutor: cualquier usuario Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 9 Problemas: los entornos ruidosos Medios de transporte, oficinas, fábricas… Tipos de interferencias: Ruidos Predecibles Aleatorios Otras voces Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 10 Problemas: segmentación de unidades ¿Me podrías solucionar esta duda? Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 11 Estimación de fronteras: dendograma Captura de cambios en la señal (Richard M.Stern, Xiang Li, Jon Nedel, Mike Seltzer y Rita Singh (2002) “Reconocimiento del habla en ambientes GSM y ruidosos: progreso y enfoques futuros”, Department of Electrical and Computer Engineering and School of Computer Science Carnegie Mellon University Pittsburgh, Pennsylvania) 12 Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona Estimación de fronteras: HMM basado en el centro del fonema Detección de la zona estable (Richard M.Stern, Xiang Li, Jon Nedel, Mike Seltzer y Rita Singh (2002) “Reconocimiento del habla en ambientes GSM y ruidosos: progreso y enfoques futuros”, Department of Electrical and Computer Engineering and School of Computer Science Carnegie Mellon University Pittsburgh, Pennsylvania) 13 Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona Estimación de fronteras: conocimiento lingüístico +voicing +obstruent -obstruent -voicing -sonorant +sonorant Búsqueda de la coherencia espectral (Richard M.Stern, Xiang Li, Jon Nedel, Mike Seltzer y Rita Singh (2002) “Reconocimiento del habla en ambientes GSM y ruidosos: progreso y enfoques futuros”, Department of Electrical and Computer Engineering and School of Computer Science Carnegie Mellon University Pittsburgh, Pennsylvania) 14 Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona Filtros espectrales Coeficientes obtenidos a partir del domino espectral Semejanza con el sistema de percepción humano Uso de parámetros como: MFCC (Mel Frequency Cepstral Coefficients) Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 15 Reconocimiento modelo almacenado comparación representativo unidades en su contexto Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 16 ¿Qué unidad es? Búsqueda de la cadena adecuada Habitualmente: estadística y probabilidad (Modelos Ocultos de Markov, Hidden Markov Models, HMM) algoritmos Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 17 Corrección de errores “Diccionarios”: información lingüística Modelo de lenguaje ¿Es esa secuencia posible en el contexto x? Por el contexto, ¿qué secuencia es más probable que sea? Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 18 Dragon 10, Nuance Dragon 10, español (Dragon Naturally Speaking) Nuance http://www.youtube.com/watch?v=hWQtSbLftvA Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 19 Verbio http://www.redvox.es/verbio.html Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 20 CMU Sphinx Código abierto, adaptable al español Carnegie Mellon, http://cmusphinx.sourceforge.net/wordpress/ Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 21 Reconocimiento: Windows Vista http://www.youtube.com/watch?v=YyH9iEL6u1g Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 22 Reconocimiento y dictado. Philips Speech Magic http://www.speech.philips.com/index.php?id=715 Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 23 TELL ME MORE® ONLINE http://www.tellmemore.com/content/view/full/163 Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 24 Identificación y verificación del hablante La llamada “firma vocal” Comparación con voces de una base de datos Identificación y verificación de la persona por la voz: control de acceso, personalización, bloqueo y desbloqueo de elementos (p.ej. un terminal), transacciones comerciales por Internet Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 25 Identificación y verificación comparación Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 26 Identificación voces indubitadas voz dubitada Locutor X comparación ¿Alguna de estas voces es de X? Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona Verificación voces indubitadas voz dubitada comparación Locutor X ¿Es esta voz la de X? Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona Verificación del locutor Credit card Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 29 Proyecto VILE Estudio acústico de la variación inter e intralocutor en español 2 etapas VILE: BFF2001-2551, 2001-2004 y VILE II: HUM2005-06980/FILO, 2005-2009 Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 30 Proyecto VILE y VILE II BFF2001-2551, 2001-2004 y HUM2005-06980/FILO, 2005-2009 Mª José Albalá y Juana Gil Laboratorio de Fonética, CSIC Elena Battaner Departamento de Comunicación II, Universidad Rey Juan Carlos Victoria Marrero (IP, VILE II) Departamento de Lengua Española y Lingüística General, Universidad Nacional de Educación a Distancia Mario Carranza, Carme de-la-Mota, Joaquim Llisterri (IP, VILE I), María Jesús Machuca, Natalia Madrigal, Montse Marquina, Montserrat Riera y Antonio Ríos Departamento de Filología Española, Universidad Autónoma de Barcelona Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 31 Objetivos del proyecto VILE Caracterización acústica de los elementos segmentales y suprasegmentales que contribuyen a establecer la individualidad de un hablante 2. Conocimiento fonético para la mejora de los sistemas de reconocimiento, identificación o verificación automáticas del locutor 3. Nuevos datos acústicos para la práctica de la fonética judicial 1. SEAF 2003, II Congreso de la Sociedad Española de Acústica Forense Barcelona, del 9 al de 11 de abril de 2003 Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 32 Etapas del proyecto VILE y VILE II Delimitación de los fenómenos fonéticos objeto de interés Análisis acústico de los fenómenos fonéticos seleccionados en una muestra de materiales extraída de corpus disponibles Estudio de los resultados desde la perspectiva de la variación interlocutor e intralocutor Validación perceptiva Conclusiones para el reconocimiento automático de locutor y la fonética forense Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 33 1.3. Sistemas de diálogo Reconocimiento de habla Comprensión del lenguaje natural y gestión del diálogo Acceso a bases de datos, sistemas de interrogación y respuesta, entornos colaborativos, teleoperación, adaptación al usuario Síntesis de habla Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 34 Sistemas de diálogo: módulos J. Llisterri, C. Carbó, M. J. Machuca, C. de-la-Mota, M. Riera, A. Ríos (2003) "El papel de la lingüística en el desarrollo de las tecnologías del habla“, en M. Casas Gómez (dir.) y C. Varo Varo (ed.) VII Jornadas de Lingüística. Cádiz: Universidad de Cádiz. ISBN: 84-88423-30-6: 137-191 http://liceu.uab.es/~joaquim/publicacions/Llisterri_Carbo_Machuca_Mota_Riera_Rios_03_Linguistica_Tecn ologias_Habla.pdf Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 35 Interpretación: A primera hora de la mañana Un poco más tarde No te acerques tanto ¿Tendrían algo… distinto? Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 36 Estudio de interacciones Persona Persona diálogo Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 37 Mago de Oz Persona Persona diálogo Foto: teclarosrg Diseño de escenarios para las distintas situaciones Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 38 Roomline Computer Science Department, CMU http://www.cs.cmu.edu/~dbohus/ravenclaw-olympus/roomline.html Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 39 ARISE (LIMSI) ARISE, Automatic Railway Information Systems for Europe http://www.limsi.fr/Recherche/TLP/theme4.html Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 40 Sistema de diálogo aplicado al control HIFI (Proyecto EDECAN, UPM) http://lorien.die.upm.es/~macias/edecan/demos/index.php?status=dialog Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 41 Portales de voz :ydilo.com http://www.ydilo.com/esp/index.html Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 42 Sistemas tutoriales inteligentes Ordenador TUTOR Persona ESTUDIANTE Foto: teclarosrg Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 43 1. Interacción entre personas y ordenadores Conversión de texto en habla Reconocimiento de habla Sistemas de diálogo Carme de-la-Mota, Tecnologías del habla, Universitat Autònoma de Barcelona 44