Bases de datos para CTH

Anuncio
Conversión de texto en habla
Tecnologías de la Información y Comunicaciones
en Redes Móviles
2005/2006
Eduardo Lleida [email protected]
Eva Navas [email protected]
Tecnologías del habla
Índice
„ Introducción
„ Estructura de un sistema CTH
„ Modelado prosódico. Habla emocional
„ Técnicas de síntesis de voz
„ Bases de datos para CTH
„ Evaluación
„ Aplicaciones
„ Perspectiva histórica
„ Lenguajes de marcado para CTH
Tecnologías del habla
Bases de datos para CTH
„ Introducción
„ Bases de datos orales para CTH
„ Elementos
„ Herramientas
„ Bases de datos para modelado prosódico
„ Duración
„ Entonación
„ Pausas
„ Emociones
„ Bases de datos para síntesis
„ Síntesis por formantes
„ Técnicas de concatenación
„ Técnicas basadas en corpus
Tecnologías del habla
Bases de datos orales
„ Base de datos oral:
Conjunto de grabaciones estructurado y etiquetado
„ Representativa del fenómeno que se desea
estudiar
„
„ Consideraciones a realizar:
Corpus textual
„ Locutor
„ Calidad de la grabación
„ Datos a añadir
„
Tecnologías del habla
Bases de datos para CTH
„ Introducción
„ Bases de datos orales para CTH
„ Elementos
„ Herramientas
„ Bases de datos para modelado prosódico
„ Duración
„ Entonación
„ Pausas
„ Emociones
„ Bases de datos para síntesis
„ Síntesis por formantes
„ Técnicas de concatenación
„ Técnicas basadas en corpus
Tecnologías del habla
Elementos de las bases de datos
Señal de voz
Espectrograma
Curva de pitch
Marcas de
fonema
Marcas de palabra
Marcas de
grupo acentual
.
.
.
Etc.
Tecnologías del habla
Herramientas: etiquetado lingüístico
„ Identificar fenómenos lingüísticos de interés
División en sílabas
„ Localización de acentos
„ Categorización de las palabras…
„
„ Generalmente se realiza con los módulos de
procesado lingüístico del CTH
Tecnologías del habla
Herramientas: transcriptor fonético
„ Transcriptor fonético: produce la transcripción
fonética de una palabra o texto
„ Uso del alfabeto IPA o SAMPA
„ Produce diferentes transcripciones
Transcripción estándar
„ Transcripciones alternativas
„ Transcripciones dialectales
„
Tecnologías del habla
Herramientas: segmentador
Tecnologías del habla
Herramientas: segmentador
„ DTW Dynamic Time Warping
„
Proyección dinámica de la señal sintética sobre la
natural
Tecnologías del habla
Herramientas: segmentador
Base de datos sin segmentar
Base de datos segmentada
a+B+a+D+e
Entrenamiento
de modelos
Modelos
Segmentación
„ Basado en HMM (Modelos Ocultos de Markov
„ Un modelo para cada fonema
„ Modelos entrenados con la base de datos que se debe segmentar
„
Grabaciones (wav) + transcripciones (sin alinear)
Tecnologías del habla
Herramientas: laringógrafo
„ Grabar el pulso glotal
„ Proporciona tres señales:
Señal de voz (Sp)
„ Tren de pulsos (Tx)
„ Pulso glotal (Lx)
„
Tecnologías del habla
Herramientas: laringógrafo
Fase abierta
Fase cerrada
Tecnologías del habla
Herramientas: laringógrafo
Tecnologías del habla
Bases de datos para CTH
„ Introducción
„ Bases de datos orales para CTH
„ Elementos
„ Herramientas
„ Bases de datos para modelado prosódico
„ Duración
„ Entonación
„ Pausas
„ Emociones
„ Bases de datos para síntesis
„ Síntesis por formantes
„ Técnicas de concatenación
„ Técnicas basadas en corpus
Tecnologías del habla
Bases de datos para modelado prosódico
„ Bases de datos necesarias en la metodología
general de obtención de un modelo prosódico:
Inicio
Obtención de la
base de datos
- Diseño del corpus
- Grabaciones
no
Etiquetado de la
base de datos
sí
Estudio estadístico
de los parámetros
- Segmentación
- Etiquetado lingüístico
Evaluación del
modelo obtenido
calidad
aceptable
no
sí
Modelo
Tecnologías del habla
base datos
válida
Bases de datos para modelado de la
duración
„ Importancia factores intrínsecos y extrínsecos
„ Muchas combinaciones de factores
„ Enormes bases de datos para su estudio
estadístico
„ Corpus: Equilibrado fonéticamente
„ Locutor: Válido un solo locutor
„ Datos:
Segmentada a nivel de fonema
largo
„ Transcripción fonética fiel
„
Tecnologías del habla
proceso
Bases de datos para modelado de la
entonación
„ Corpus:
„ Bases de datos con frases de distintas estructuras
sintácticas
„ Frases de diferente complejidad y longitud con pausas
internas
„ Desequilibrado fonéticamente
„ Locutor:
Elegir el locutor con cuidado
„ Datos:
„ Calcular las curvas de entonación con gran precisión: uso de
laringógrafo
„ Etiquetado de la curva de entonación, según el modelo de
entonación elegido
„ Parámetros de Fujisaki o TILT, etiquetas ToBI…
Tecnologías del habla
Bases de datos para modelado de las
pausas
„ Corpus: La base de datos debe contener textos
largos, para analizar pausas entre frases
„ Locutor:
Las bases de datos para el modelado de la
ubicación de las pausas pueden ser textuales
„ Para modelar las características de las pausas son
necesarias bases de datos orales
„
„ Datos:
Etiquetada morfológica y sintácticamente
Tecnologías del habla
Bases de datos para modelado de las
emociones
„ Voz natural:
„ Emociones verdaderas
9
„ No se puede controlar el contenido
8
„ Señales cortas
8
„ Incluyen disfluencias
8
8„ Necesidad de etiquetar la emoción
„ Problemas éticos
8
Tecnologías del habla
Bases de datos para modelado de las
emociones
„ Voz provocada
„ Más fácil de grabar
9
„ Difícil determinar la emoción expresada
8
„ Problemas éticos
8
„ Voz actuada
„ Emociones no naturales
8
„ Contenido controlado
9
„ Fácil grabación
9
„ Fácil etiquetado de la emoción
9
Tecnologías del habla
Bases de datos para modelado de las
emociones
„ Emociones a considerar
„ No hay acuerdo
„ The Big Six:
„ Alegría
„ Asco
„ Enfado
„ Miedo
„ Sorpresa
„ Tristeza
„ Estilo neutro
Hartuko al zenuke kafetxo bat
nirekin Iruña kafetegian?
„ Textos de la base de datos
„ Relacionados con la emoción
„ No relacionados con la emoción
Tecnologías del habla
Bases de datos para modelado de las
emociones
„ Cuidadosa selección del locutor
„ Uso de laringógrafo
„ El grado de reconocimiento de las emociones en
la base de datos ha de ser evaluado
Tecnologías del habla
Bases de datos para CTH
„ Introducción
„ Bases de datos orales para CTH
„ Elementos
„ Herramientas
„ Bases de datos para modelado prosódico
„ Duración
„ Entonación
„ Pausas
„ Emociones
„ Bases de datos para síntesis
„ Síntesis por formantes
„ Técnicas de concatenación
„ Técnicas basadas en corpus
Tecnologías del habla
Bases de datos para síntesis de formantes
„ Son necesarias para crear las reglas del modelo
„ Las trayectorias de los formantes se deben
analizar sistemáticamente
„
Grupos VC, CV, VCV
„ Repeticiones de los grupos
„ Un único locutor
„ Parametrización de los datos
Tecnologías del habla
Bases de datos para síntesis por
concatenación
„ Selección de la unidad:
Párrafos
„ Frases
„ Palabras
„ Sílabas
„ Difonemas
„ Fonemas
„
Número de
unidades
necesarias
Tecnologías del habla
Número de
concatenaciones
Bases de datos para síntesis por
concatenación
„ Uso de laringógrafo
facilitar marcado síncrono con
pitch
„ Pruebas con varios locutores antes de grabar la base de
datos completa
„ Opciones para grabar las unidades:
„
„
Extraerlas de voz natural:
„ Al diseñar el corpus asegurarse de que están todas las
unidades
„ Repetición de muchas unidades que permite elegir la mejor
„ Proceso de selección tedioso
Utilizar logotomas
„ El contexto articulatorio en torno a la unidad debe ser lo más
neutro posible
„ Posición de la unidad en el logotoma controlada
Tecnologías del habla
Bases de datos para síntesis por
concatenación
„ Los difonemas deben extraerse de la mitad de las
palabras asegurar articulación
„ Pronunciados consistentemente
„
Pitch constante, energía, duración
„ Buscar la lista de los fonemas del idioma:
„ Añadir alófonos interesantes
„ Considerar acento, posición…
„ Fonemas extranjeros
„ Verificar el corpus:
„ Listar todos los difonemas y justificar los que falten
Tecnologías del habla
Bases de datos para síntesis por
selección de unidades
„ Podado de unidades:
„
Para mejorar la calidad
„
Unidades con parámetros muy alejados de la media:
ƒ En la práctica no resultan seleccionadas
ƒ Eliminarlas mejora la calidad de la síntesis
„
Para reducir el tamaño
„
Unidades con parámetros muy similares:
ƒ No contribuyen a la diversidad de la base de datos
ƒ Eliminarlas no disminuye la calidad de la síntesis
Tecnologías del habla
Consideraciones prácticas
„ Elegir bien el texto de entrada
Si se conoce la aplicación se consigue mejor cobertura de palabras
Buena cobertura de fonemas, considerando el contexto
Poca ambigüedad
Fácil de leer
Buen locutor
„ Los locutores profesionales son mejores: estilo y articulación
consistente
Grabación
„ Situación ideal:
„
„
„
„
„
„
„
„
„
„
Cámara anecoica
Calidad de grabación de estudio profesional
Señal del laringógrafo
Buenas condiciones de grabación
Tecnologías del habla
Descargar