Los sistemas de reconocimiento automático del habla

Anuncio
TEMA 3. LOS SISTEMAS DE
RECONOCIMENTO AUTOMÁTICO
DEL HABLA
1
Esquema
11.
2.
3.
4.
5.
6.
Introducción
Características de los sistemas de reconocimiento
automático
t áti del
d l habla
h bl
Técnicas para el reconocimiento automático del habla
Estructura de los sistemas de reconocimiento
Ejemplos
Aplicaciones del reconocimiento automático del habla
2
0 Introducción
0.
Reconocimiento automático del habla
 Sistema
Si t
d comprensión
de
ió automática
t áti del
d l habla.
h bl
= Sistema que transforma la señal de habla humana en una acción:
- texto (dictado automático)
- anotación, indexación (y recuperación) de una información
en un documento sonoro
- otras acciones (comando vocal, etc.)
 Transformar señal de habla en representación simbólica
Del habla...
... al texto
Léonard a peint la
Joconde.
3
0 Introducción
0.
Ámbitos relacionados con el reconocimiento automático del
habla:
- Corrección fonética en aprendizaje
p
j en autonomía de lenguas
g
extranjeras
- Identificación automática del locutor
- Reconocimiento automático de la lengua
Y, más allá:
- Comprensión automática del habla
4
0 Introducción
0.
Evolución del reconocimiento automático del habla:
5
Características
1. Decisiones previas
Para crear una nueva aplicación de reconocimiento automático
del habla:
1.
2.
33.
4.
5.
Definición de la utilidad de la aplicación, de las características del usuario y
realización de tests por medio de una interfaz para verificar si el concepto
está adaptado al entorno de la aplicación.
Definición de los mensajes o del tipo de mensajes que deben ser
reconocidos por el sistema (conjunto finito o no de palabras o de frases,
tamaño del diccionario, etc.).
Determinación del entorno: micro,
micro canal de transmisión,
transmisión ruidos,
ruidos etc.
etc
Determinación de la variabilidad de la señal a reconocer
(robustez/versatilidad).
Tests
6
2. Principales dificultades
Características
Dificultades del reconocimiento automático del habla:
11.
2.
Cantidad
C
tid d de
d información
i f
ió a tratar
t t
Variabilidad de información a tratar
•
•
•
•
•
•
•
Variabilidad de entornos
Variabilidad fonética:
cantado -> cantao; médecin -> métcin...
V i bilid d inter-locutor
Variabilidad
i t l t
Variabilidad intra-locutor
9 realizaciones de /a/ producidas por el mismo locutor
Variabilidad de tipos de habla
Información prosódica: Vamos! / Vamos?; Vaya monos / vayámonos
Desambiguación por razones sintácticas o semánticas: Le président a parlé /
Le pprésidant a ppar les;; Il l’a chanté / Il l’a chanter / Il l’a chantez / Il l’a chantée /
etc.
7
Características
3. Decisiones y dificultad
-Tipo de enunciados:
palabras aisladas
palabras conectadas
detección palabras clave
habla continua
habla espontánea
- Número de locutores:
monolocutor
multi monolocutor
multi-monolocutor
independiente del locutor
- Tamaño del léxico:
restringido
especializado
generalista
silencioso
ruidoso (ruido previsible)
- Entorno:
ruidoso (ruido aleatorio)
- Perfil de los usuarios:
entrenado
habitual
ocasional
naïf
8
Técnicas
1. Modelos para el RAH
- Modelo de producción (articulación): aplicación de la teoría
acústica de producción del habla para inférir las características
articulatorias.
- Modelo acústico: aplicación de los conocimientos en análisis
acústico del habla y en tratamiento de la señal.
- Modelo
M d l auditivo:
diti
aplicación
li ió de
d los
l
modelos
d l
cocleares
l
y
neuronales y de los detectores auditivos de rasgos acústicos.
- Modelo perceptivo: aplicación de los modelos de percepción del
habla y de extracción de rasgos fónicos perceptivos.
- Modelos estocásticos: no basados en conocimientos fonéticos.
9
Técnicas
1. Modelos para el RAH
Históricamente:
- Años 70: métodos basados en conocimiento (descodificación
acústico-fonética).
ú ti f éti )
- Finales años 70: reconocimiento de palabras aisladas,
programación dinámica.
dinámica
- Años 80: Modelos Escondidos de Markov (HMM)
- A p
partir de los años 90: habla continua, ggrandes léxicos,
adaptaciones.
10
Técnicas
2. Principio del RAH
Fase de entrenamiento:
- Adquisición de datos etiquetados
- Extracción de características
- Creación de los “modelos” de referencia
Fase de reconocimiento automático:
- Adquisición
Ad i i ió de
d la
l señal
ñ l
- Comparación de la señal con los “modelos”
modelos y la señal
- Cálculo de las distancias entre los “modelos”
(similaridad)
- Proceso(s) de decisión
11
Técnicas
2. Principio del RAH
Depende de:
a) Tipo de reconocimiento
- Palabras aisladas
- Palabras clave
- Grandes léxicos
- Palabra
P l b continua
ti
/ espontánea
tá
b) Técnicas de comparación
- Señal continua (parametrizada o no)
- Señales discretas
12
Técnicas
3. Señal de habla
Conversión analógico-digital
Frecuencia de muestreo: teorema de Nyquist
yq
13
Técnicas
3. Señal de habla
Calidad de la señal: Relación señal sobre ruido (RSR)
14
Técnicas
4. Parametrización
Generalidades:
- Análisis en ventana deslizante (30 ms.) con recubrimiento
t o pasa-bajo
pasa bajo (8
(8kHz))
- Filtro
- Pre-acentuación (disminución de la dinámica del espectro)
- Eliminación de la componente continua ( no información
inútil))
Principales tipos de métodos de parametrización:
- Espectrales: raramente utilizados directamente
- LPC (Linear Predictive Coding): Modelo autoregresivo;
principio: eliminar la redundancia temporal de la señal. Basado
sobre modelo articulatorio de fuente y filtro.
- PLP (Perceptually-based Linear Prediction): Inspirado en
modelos de percepción, intensidad percibida depende de la
frecuencia (± escala de Bark o de Mel):
- MFCC (Mel
(M l F
Frequency C
Cepstrum
t
Coefficients)
C ffi i t )
- DTW (Dynamic Time Warping)
15
Técnicas
5. Descodificación acústico-fonética
16
5. Técnicas de comparación
Técnicas
Técnicas de comparación:
a)) Señal continua (p
(parametrizada o no))
•
•
Comparación entre la señal y el modelo de referencia (< fase de
entrenamiento)
•
Determinación de la distancia entre la señal y el modelo de referencia
•
Proceso de decisión sobre similitud entre las 2
Si parametrizada: señal y “modelo” representados por conjunto de
parámetros
•
frecuenciales: formantes, coeficientes LPC, espectro de energía por
bandas frecuenciales
•
Temporales (Δ impulsiones de f0, pasos por 0, envolvente de amplitud)
b) Señales discretas
•
Segmentación (y concatenación) de los segmentos a partir de la
identificación de los parámetros acústicos de los segmentos sucesivos.
17
Técnicas
5. Técnicas de comparación
18
Técnicas
5. Técnicas de comparación
19
1. Reconocimiento de palabras aisladas
Estructura
Comparación de señales contínuas
Créación paatterns ref.
Extracción dee las caract.
Ad
dquisición de datos
Fase de entreenamiento
F
Digitalización de la señal
Diccionario
de patterns
Comparación
Detección principio y final palabra
Codificación > pattern
Cálculo Δ (pattern señal / patterns dico)
Decisión de reconocimiento
Output (escrito, acción...)
20
Estructura
2. Reconocimiento de grandes léxicos
Mismo principio que para el reconocimiento de palabras
aisladas, pero se necesita:
- Definir unidades subléxicas
- Clasificar previamente las entradas léxicas del
di i
diccionario
i
21
Estructura
3. Reconocimiento de habla continua
Necesidad de decodificación acústico-fonética  Necesidad de:
- Definir las unidades de reconocimiento (dífonos, trífonos,
semisílabas...))
- Recurrir a “modelo de lenguaje” (cf. Infra)
- Plantear estrategia de decisión post-comparación
post comparación
22
Estructura
Modelos de lenguaje
Habla
continua
Módulos:
- Fonológico y fonotáctico
- Léxico
- Gramática:
- Probabilista: todas las frases son posibles, pero tienen
probabilidades distintas
- De estados finitos: partición binaria de las secuencias de
palabras en “posibles” o “imposibles”
A la salida: n mejores frases.
23
Estructura
Habla
continua
Modelos de lenguaje
24
Estructura
Estrategias de decisión
Habla
continua
Tres grandes tipos de estrategias:
1) Ascendente / Descendente / Mixta: leer y/o predecir
2) Izquierda-derecha
Izquierda derecha / Medio-laterales
Medio laterales
3) Búsqueda solución óptima:
1)
2)
3)
4)
Estrategias totales: toma en consideración todas las soluciones posibles
(no aplicable a grandes vocabularios)
Estrategia de “el mejor primero”: se empieza por el elemento que
presenta mayor probabilidad.
E
Estrategia
i en redd o “algunos
“ l
mejores
j
primero”
i
” (i(intermedia
di entre (1) y (2))
Estrategia por “islotes de confianza”, a base de palabras-clave de
reconocimiento robusto.
25
Extracciión de caract.
Adquisición
n de datos
Fasse de entrenaamiento
Comp
pilación de m
modelos
Léxico
os y gramatiicales
Creación patterns reef.
3. Reconocimiento de habla continua
Estructura
Diccionario
Fonético
(patterns de
dífonos...)
Digitalización de la señal
Comparación
DAF
Cálculo Δ (pattern señal / patterns dico)
Diccionario
léxico
Comparación
p
Algoritmo
g
de reconocimiento
Cálculo Δ (pattern señal / patterns dico)
(patterns
léxicos)
Decisión de reconocimiento1
Eventualmente
Módulo de comprensión
Gramática
Output (escrito, acción...)
1
con o sin umbral
26
Ejemplos
1. Reconocimiento de voz de Windows
Los empresarios quieren eliminar la prórroga sine die de los convenios.
Los empresarios quieren eliminar las prórrogas y de los convenido.
p
de las cláusulas de descuelgue.
g
La ppatronal pplantea la ampliación
La patronal plantea la ampliación de las cláusulas de descuelgue
La CEOE ha propuesto a los sindicatos CC.OO. y UGT una profunda reforma del contenido de la negociación colectiva. En concreto plantea la
La G o L ha ppropuesto
p
a los sindicatos ccoo y ugt
g en una pprofunda reforma del contenido de la negociación
g
colectiva. En concreto a pplantear la
eliminación de la ultraactividad de los convenios –de forma que se elimine su prórroga automática cuando caducan- y la ampliación de la
eliminación de la junta la actividad de los convenios –Héctor Márquez eliminar su prórroga automática cuando le toca- y la ampliación de la
« cláusula de descuelgue » salarial aprobada en la reforma laboral. La reforma de la negociación colectiva es la clave de la flexibilidad del
cláusula de descuelgue salarial aprobado en la reforma laboral. La reforma de la negociación colectiva es la clave de la flexibilidad del
mercado laboral y es más importante aún que la reforma laboral. Por esta razón los agentes sociales se reservan el derecho a negociarla
mercado laboral yo es más importante aún que la reforma laboral. Po resta razón los agentes sociales se reservará el derecho a negociar la
bilateralmente sin interferencias del Gobierno. De hecho, aprovecharán para « retocar » algunos puntos conflictivos.
bilateralmente siempre yo no vi a un. De hecho lo aprovecharán para retocar algunos puntos XXX.
Esto explica que la respuesta de los sindicatos haya sido inmediata.
Esto explica que la respuesta de los sindicatos haya sido inmediata.
27
Ejemplos
2. Dragon Naturally Speaking
Test con entrenamiento básico
Comédie. Un père juif veut marier sa fille dans la tradition avec le fils de son meilleur ami. Mais la belle est
Comédie Un air je lui veux marier sa fille dans la tradition avec le fils de son meilleur Anne.
Comédie.
Anne Mais la del est
déjà amoureuse. Richissime propriétaire d’une chaîne de casinos, Max est un homme heureux.
déjà amoureuse. Richissime propriétaire d’une chaîne de casinos, ma est un homme heureux.
Fier de sa réussite sociale, il est surtout très satisfait de voir sa fille, Lisa, briller dans tous les domaines.
Fier de sa réussite sociale, il est surtout très satisfait de voir sa fille, ni de la, brillait dans tous les domaines.
Il lui nourrit d’ailleurs d’ambitieux projets. Son rêve : la marier dans la plus pure tradition juive, avec
Il lui nourrit d’ailleurs d’ambitieux projets. Son revé : la mariée est dans la structure tradition juive, avec
Sydney Azerad, fils de son meilleur ami. Lorsqu’il apprend que Lisa est déjà amoureuse d’un autre
Sydney adhéra de, si de son meilleur ami. Lorsqu’il apprend que Nizar est déjà amoureuse d’un autre
garçon prénommé Jean-Christophe, il voit rouge. D’autant qu’il s’agit d’un goy, c’est-à-dire un non-juif.
garçon prénommé Jean Christophe, il voit XXXX. D’autant qu’il s’agit Dan Goldin, c’est-à-dire d’un on suit.
Une gentille comédie,
comédie sans plus
plus.
Une gentille comédie, semble.
Dan Goldin = ex-directeur de la NASA ; Nizar Baraka = premier ministre Marocain.
28
Aplicaciones
Principales aplicaciones
Telecomunicaciones:
• Sistemas de información telefónica: páginas amarillas, meteorología, transportes, museos,
cines,, estado de cuentas en un banco,, etc.
• Acceso telefónico a textos escritos: consulta de bases de datos, del mail, etc.
• Encuestas telefónicas, etc.
Burótica:
• Aplicaciones
A li i
“
“manos
lib ”
libres”
• Dictado automático (libre, informes médicos, etc.)
• Entrada de datos numéricos
• Traducción asistida por ordenador (TAO) oral
oral-oral/escrito
oral/escrito
Ayuda a personas con minusvalías:
• Aplicaciones de ayuda a discapacitados motores (o visuales)
Aplicaciones industriales:
• Consulta
C
lt de
d informaciones
i f
i
en los
l automóviles
t ó il
• Control de comandos en los aviones, etc.
• Consulta sobre el estado de un sistema
• Control de robots
Aprendizaje de lenguas extranjeras:
29
• Software de aprendizaje, traducción automática, etc.
Links hacia demos de RAH
(http://liceu.uab.cat/~joaquim/speech_technology/tecnol_parla/recognition/refs_reconeixement.html#General
_overviews_recognition
i
iti )
(http://liceu.uab.cat/~joaquim/speech_technology/tecnol_parla/recursos.html#Reconeixement_enllacos)
ASR / RAP / Dictado automático / Dictée automatique, etc.
• http://www.nuance.com/talk/ (Naturally Speaking)
• http://www.vecsys.fr/applications/applis-vocales.htm#mgpt
• http://www.speechware.be/fr/freedemo.php
Libres de acceso (Linux):
(
)
• http://freespeech.sourceforge.net/
• http://www.kiecza.net/daniel/linux/cvoicecontrol/index-1.html
p
30
Descargar