Naturalidad y expresividad en la conversión de texto en habla: las consonantes róticas en coda silábica en español Luz Rello Universitat Autònoma de Barcelona Joaquim Llisterri Universitat Autònoma de Barcelona [email protected] [email protected] Los actuales sistemas de conversión de texto en habla se basan en la selección de unidades de longitud variable a partir de un corpus en el que se encuentra buena parte de la información fonética que anteriormente se definía mediante reglas. Aunque tal aproximación no parece propiciar la incorporación de conocimiento fonético, en el presente trabajo se pretende mostrar que, modelizando adecuadamente la variación alofónica, es posible lograr (1) una síntesis más cercana al habla natural a la vez que (2) se introduce una mayor expresividad. El estudio se centra en el análisis de las realizaciones de las consonantes róticas del español en posición de coda silábica, contrastando las voces sintetizadas para el español peninsular del conversor de texto en habla Loquendo TTS con las producciones de un locutor nativo y con las manifestaciones fonéticas esta clase de sonidos descritas en la bibliografía. Tras el análisis acústico de un corpus de 125 segmentos para cada una de las voces, se han constatado diferencias significativas entre el habla sintetizada y la natural en lo que se refiere a la frecuencia de aparición de realizaciones simples y múltiples y a la duración de la consonante rótica; se ha observado también un efecto del modo de articulación, del lugar de articulación y de la sonoridad de la consonante que sigue a la rótica, tanto en el tipo de realización como en la duración del segmento estudiado. Las conclusiones obtenidas permiten enriquecer la variación alofónica contextual en la conversión de texto en habla, con las consiguientes mejoras de la naturalidad y de la expresividad que se pueden alcanzar con la elección de determinadas realizaciones segmentales.