Naturalidad y expresividad en la conversión de texto en habla: las

Anuncio
Naturalidad y expresividad en la conversión de texto en habla:
las consonantes róticas en coda silábica en español
Luz Rello
Universitat Autònoma de Barcelona
Joaquim Llisterri
Universitat Autònoma de Barcelona
[email protected]
[email protected]
Los actuales sistemas de conversión de texto en habla se basan en la selección de unidades
de longitud variable a partir de un corpus en el que se encuentra buena parte de la información
fonética que anteriormente se definía mediante reglas. Aunque tal aproximación no parece propiciar
la incorporación de conocimiento fonético, en el presente trabajo se pretende mostrar que,
modelizando adecuadamente la variación alofónica, es posible lograr (1) una síntesis más cercana al
habla natural a la vez que (2) se introduce una mayor expresividad.
El estudio se centra en el análisis de las realizaciones de las consonantes róticas del español
en posición de coda silábica, contrastando las voces sintetizadas para el español peninsular del
conversor de texto en habla Loquendo TTS con las producciones de un locutor nativo y con las
manifestaciones fonéticas esta clase de sonidos descritas en la bibliografía. Tras el análisis acústico
de un corpus de 125 segmentos para cada una de las voces, se han constatado diferencias
significativas entre el habla sintetizada y la natural en lo que se refiere a la frecuencia de aparición
de realizaciones simples y múltiples y a la duración de la consonante rótica; se ha observado
también un efecto del modo de articulación, del lugar de articulación y de la sonoridad de la
consonante que sigue a la rótica, tanto en el tipo de realización como en la duración del segmento
estudiado. Las conclusiones obtenidas permiten enriquecer la variación alofónica contextual en la
conversión de texto en habla, con las consiguientes mejoras de la naturalidad y de la expresividad
que se pueden alcanzar con la elección de determinadas realizaciones segmentales.
Descargar