TEMA 3. LOS SISTEMAS DE RECONOCIMENTO AUTOMÁTICO DEL HABLA 1 Esquema 11. 2. 3. 4. 5. 6. Introducción Características de los sistemas de reconocimiento automático t áti del d l habla h bl Técnicas para el reconocimiento automático del habla Estructura de los sistemas de reconocimiento Ejemplos Aplicaciones del reconocimiento automático del habla 2 0 Introducción 0. Reconocimiento automático del habla Sistema Si t d comprensión de ió automática t áti del d l habla. h bl = Sistema que transforma la señal de habla humana en una acción: - texto (dictado automático) - anotación, indexación (y recuperación) de una información en un documento sonoro - otras acciones (comando vocal, etc.) Transformar señal de habla en representación simbólica Del habla... ... al texto Léonard a peint la Joconde. 3 0 Introducción 0. Ámbitos relacionados con el reconocimiento automático del habla: - Corrección fonética en aprendizaje p j en autonomía de lenguas g extranjeras - Identificación automática del locutor - Reconocimiento automático de la lengua Y, más allá: - Comprensión automática del habla 4 0 Introducción 0. Evolución del reconocimiento automático del habla: 5 Características 1. Decisiones previas Para crear una nueva aplicación de reconocimiento automático del habla: 1. 2. 33. 4. 5. Definición de la utilidad de la aplicación, de las características del usuario y realización de tests por medio de una interfaz para verificar si el concepto está adaptado al entorno de la aplicación. Definición de los mensajes o del tipo de mensajes que deben ser reconocidos por el sistema (conjunto finito o no de palabras o de frases, tamaño del diccionario, etc.). Determinación del entorno: micro, micro canal de transmisión, transmisión ruidos, ruidos etc. etc Determinación de la variabilidad de la señal a reconocer (robustez/versatilidad). Tests 6 2. Principales dificultades Características Dificultades del reconocimiento automático del habla: 11. 2. Cantidad C tid d de d información i f ió a tratar t t Variabilidad de información a tratar • • • • • • • Variabilidad de entornos Variabilidad fonética: cantado -> cantao; médecin -> métcin... V i bilid d inter-locutor Variabilidad i t l t Variabilidad intra-locutor 9 realizaciones de /a/ producidas por el mismo locutor Variabilidad de tipos de habla Información prosódica: Vamos! / Vamos?; Vaya monos / vayámonos Desambiguación por razones sintácticas o semánticas: Le président a parlé / Le pprésidant a ppar les;; Il l’a chanté / Il l’a chanter / Il l’a chantez / Il l’a chantée / etc. 7 Características 3. Decisiones y dificultad -Tipo de enunciados: palabras aisladas palabras conectadas detección palabras clave habla continua habla espontánea - Número de locutores: monolocutor multi monolocutor multi-monolocutor independiente del locutor - Tamaño del léxico: restringido especializado generalista silencioso ruidoso (ruido previsible) - Entorno: ruidoso (ruido aleatorio) - Perfil de los usuarios: entrenado habitual ocasional naïf 8 Técnicas 1. Modelos para el RAH - Modelo de producción (articulación): aplicación de la teoría acústica de producción del habla para inférir las características articulatorias. - Modelo acústico: aplicación de los conocimientos en análisis acústico del habla y en tratamiento de la señal. - Modelo M d l auditivo: diti aplicación li ió de d los l modelos d l cocleares l y neuronales y de los detectores auditivos de rasgos acústicos. - Modelo perceptivo: aplicación de los modelos de percepción del habla y de extracción de rasgos fónicos perceptivos. - Modelos estocásticos: no basados en conocimientos fonéticos. 9 Técnicas 1. Modelos para el RAH Históricamente: - Años 70: métodos basados en conocimiento (descodificación acústico-fonética). ú ti f éti ) - Finales años 70: reconocimiento de palabras aisladas, programación dinámica. dinámica - Años 80: Modelos Escondidos de Markov (HMM) - A p partir de los años 90: habla continua, ggrandes léxicos, adaptaciones. 10 Técnicas 2. Principio del RAH Fase de entrenamiento: - Adquisición de datos etiquetados - Extracción de características - Creación de los “modelos” de referencia Fase de reconocimiento automático: - Adquisición Ad i i ió de d la l señal ñ l - Comparación de la señal con los “modelos” modelos y la señal - Cálculo de las distancias entre los “modelos” (similaridad) - Proceso(s) de decisión 11 Técnicas 2. Principio del RAH Depende de: a) Tipo de reconocimiento - Palabras aisladas - Palabras clave - Grandes léxicos - Palabra P l b continua ti / espontánea tá b) Técnicas de comparación - Señal continua (parametrizada o no) - Señales discretas 12 Técnicas 3. Señal de habla Conversión analógico-digital Frecuencia de muestreo: teorema de Nyquist yq 13 Técnicas 3. Señal de habla Calidad de la señal: Relación señal sobre ruido (RSR) 14 Técnicas 4. Parametrización Generalidades: - Análisis en ventana deslizante (30 ms.) con recubrimiento t o pasa-bajo pasa bajo (8 (8kHz)) - Filtro - Pre-acentuación (disminución de la dinámica del espectro) - Eliminación de la componente continua ( no información inútil)) Principales tipos de métodos de parametrización: - Espectrales: raramente utilizados directamente - LPC (Linear Predictive Coding): Modelo autoregresivo; principio: eliminar la redundancia temporal de la señal. Basado sobre modelo articulatorio de fuente y filtro. - PLP (Perceptually-based Linear Prediction): Inspirado en modelos de percepción, intensidad percibida depende de la frecuencia (± escala de Bark o de Mel): - MFCC (Mel (M l F Frequency C Cepstrum t Coefficients) C ffi i t ) - DTW (Dynamic Time Warping) 15 Técnicas 5. Descodificación acústico-fonética 16 5. Técnicas de comparación Técnicas Técnicas de comparación: a)) Señal continua (p (parametrizada o no)) • • Comparación entre la señal y el modelo de referencia (< fase de entrenamiento) • Determinación de la distancia entre la señal y el modelo de referencia • Proceso de decisión sobre similitud entre las 2 Si parametrizada: señal y “modelo” representados por conjunto de parámetros • frecuenciales: formantes, coeficientes LPC, espectro de energía por bandas frecuenciales • Temporales (Δ impulsiones de f0, pasos por 0, envolvente de amplitud) b) Señales discretas • Segmentación (y concatenación) de los segmentos a partir de la identificación de los parámetros acústicos de los segmentos sucesivos. 17 Técnicas 5. Técnicas de comparación 18 Técnicas 5. Técnicas de comparación 19 1. Reconocimiento de palabras aisladas Estructura Comparación de señales contínuas Créación paatterns ref. Extracción dee las caract. Ad dquisición de datos Fase de entreenamiento F Digitalización de la señal Diccionario de patterns Comparación Detección principio y final palabra Codificación > pattern Cálculo Δ (pattern señal / patterns dico) Decisión de reconocimiento Output (escrito, acción...) 20 Estructura 2. Reconocimiento de grandes léxicos Mismo principio que para el reconocimiento de palabras aisladas, pero se necesita: - Definir unidades subléxicas - Clasificar previamente las entradas léxicas del di i diccionario i 21 Estructura 3. Reconocimiento de habla continua Necesidad de decodificación acústico-fonética Necesidad de: - Definir las unidades de reconocimiento (dífonos, trífonos, semisílabas...)) - Recurrir a “modelo de lenguaje” (cf. Infra) - Plantear estrategia de decisión post-comparación post comparación 22 Estructura Modelos de lenguaje Habla continua Módulos: - Fonológico y fonotáctico - Léxico - Gramática: - Probabilista: todas las frases son posibles, pero tienen probabilidades distintas - De estados finitos: partición binaria de las secuencias de palabras en “posibles” o “imposibles” A la salida: n mejores frases. 23 Estructura Habla continua Modelos de lenguaje 24 Estructura Estrategias de decisión Habla continua Tres grandes tipos de estrategias: 1) Ascendente / Descendente / Mixta: leer y/o predecir 2) Izquierda-derecha Izquierda derecha / Medio-laterales Medio laterales 3) Búsqueda solución óptima: 1) 2) 3) 4) Estrategias totales: toma en consideración todas las soluciones posibles (no aplicable a grandes vocabularios) Estrategia de “el mejor primero”: se empieza por el elemento que presenta mayor probabilidad. E Estrategia i en redd o “algunos “ l mejores j primero” i ” (i(intermedia di entre (1) y (2)) Estrategia por “islotes de confianza”, a base de palabras-clave de reconocimiento robusto. 25 Extracciión de caract. Adquisición n de datos Fasse de entrenaamiento Comp pilación de m modelos Léxico os y gramatiicales Creación patterns reef. 3. Reconocimiento de habla continua Estructura Diccionario Fonético (patterns de dífonos...) Digitalización de la señal Comparación DAF Cálculo Δ (pattern señal / patterns dico) Diccionario léxico Comparación p Algoritmo g de reconocimiento Cálculo Δ (pattern señal / patterns dico) (patterns léxicos) Decisión de reconocimiento1 Eventualmente Módulo de comprensión Gramática Output (escrito, acción...) 1 con o sin umbral 26 Ejemplos 1. Reconocimiento de voz de Windows Los empresarios quieren eliminar la prórroga sine die de los convenios. Los empresarios quieren eliminar las prórrogas y de los convenido. p de las cláusulas de descuelgue. g La ppatronal pplantea la ampliación La patronal plantea la ampliación de las cláusulas de descuelgue La CEOE ha propuesto a los sindicatos CC.OO. y UGT una profunda reforma del contenido de la negociación colectiva. En concreto plantea la La G o L ha ppropuesto p a los sindicatos ccoo y ugt g en una pprofunda reforma del contenido de la negociación g colectiva. En concreto a pplantear la eliminación de la ultraactividad de los convenios –de forma que se elimine su prórroga automática cuando caducan- y la ampliación de la eliminación de la junta la actividad de los convenios –Héctor Márquez eliminar su prórroga automática cuando le toca- y la ampliación de la « cláusula de descuelgue » salarial aprobada en la reforma laboral. La reforma de la negociación colectiva es la clave de la flexibilidad del cláusula de descuelgue salarial aprobado en la reforma laboral. La reforma de la negociación colectiva es la clave de la flexibilidad del mercado laboral y es más importante aún que la reforma laboral. Por esta razón los agentes sociales se reservan el derecho a negociarla mercado laboral yo es más importante aún que la reforma laboral. Po resta razón los agentes sociales se reservará el derecho a negociar la bilateralmente sin interferencias del Gobierno. De hecho, aprovecharán para « retocar » algunos puntos conflictivos. bilateralmente siempre yo no vi a un. De hecho lo aprovecharán para retocar algunos puntos XXX. Esto explica que la respuesta de los sindicatos haya sido inmediata. Esto explica que la respuesta de los sindicatos haya sido inmediata. 27 Ejemplos 2. Dragon Naturally Speaking Test con entrenamiento básico Comédie. Un père juif veut marier sa fille dans la tradition avec le fils de son meilleur ami. Mais la belle est Comédie Un air je lui veux marier sa fille dans la tradition avec le fils de son meilleur Anne. Comédie. Anne Mais la del est déjà amoureuse. Richissime propriétaire d’une chaîne de casinos, Max est un homme heureux. déjà amoureuse. Richissime propriétaire d’une chaîne de casinos, ma est un homme heureux. Fier de sa réussite sociale, il est surtout très satisfait de voir sa fille, Lisa, briller dans tous les domaines. Fier de sa réussite sociale, il est surtout très satisfait de voir sa fille, ni de la, brillait dans tous les domaines. Il lui nourrit d’ailleurs d’ambitieux projets. Son rêve : la marier dans la plus pure tradition juive, avec Il lui nourrit d’ailleurs d’ambitieux projets. Son revé : la mariée est dans la structure tradition juive, avec Sydney Azerad, fils de son meilleur ami. Lorsqu’il apprend que Lisa est déjà amoureuse d’un autre Sydney adhéra de, si de son meilleur ami. Lorsqu’il apprend que Nizar est déjà amoureuse d’un autre garçon prénommé Jean-Christophe, il voit rouge. D’autant qu’il s’agit d’un goy, c’est-à-dire un non-juif. garçon prénommé Jean Christophe, il voit XXXX. D’autant qu’il s’agit Dan Goldin, c’est-à-dire d’un on suit. Une gentille comédie, comédie sans plus plus. Une gentille comédie, semble. Dan Goldin = ex-directeur de la NASA ; Nizar Baraka = premier ministre Marocain. 28 Aplicaciones Principales aplicaciones Telecomunicaciones: • Sistemas de información telefónica: páginas amarillas, meteorología, transportes, museos, cines,, estado de cuentas en un banco,, etc. • Acceso telefónico a textos escritos: consulta de bases de datos, del mail, etc. • Encuestas telefónicas, etc. Burótica: • Aplicaciones A li i “ “manos lib ” libres” • Dictado automático (libre, informes médicos, etc.) • Entrada de datos numéricos • Traducción asistida por ordenador (TAO) oral oral-oral/escrito oral/escrito Ayuda a personas con minusvalías: • Aplicaciones de ayuda a discapacitados motores (o visuales) Aplicaciones industriales: • Consulta C lt de d informaciones i f i en los l automóviles t ó il • Control de comandos en los aviones, etc. • Consulta sobre el estado de un sistema • Control de robots Aprendizaje de lenguas extranjeras: 29 • Software de aprendizaje, traducción automática, etc. Links hacia demos de RAH (http://liceu.uab.cat/~joaquim/speech_technology/tecnol_parla/recognition/refs_reconeixement.html#General _overviews_recognition i iti ) (http://liceu.uab.cat/~joaquim/speech_technology/tecnol_parla/recursos.html#Reconeixement_enllacos) ASR / RAP / Dictado automático / Dictée automatique, etc. • http://www.nuance.com/talk/ (Naturally Speaking) • http://www.vecsys.fr/applications/applis-vocales.htm#mgpt • http://www.speechware.be/fr/freedemo.php Libres de acceso (Linux): ( ) • http://freespeech.sourceforge.net/ • http://www.kiecza.net/daniel/linux/cvoicecontrol/index-1.html p 30