MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES NEURONALES PARA SÍNTESIS DE VOZ EN DOMINIO RESTRINGIDO Carlos Martín Valle 3 Estudio de la entonación 3.1 Introducción Para una correcta comprensión del modelo de entonación que se usa en este proyecto, se ha considerado oportuno incluir este capítulo, el cual está dedicado a repasar más detenidamente la entonación en el habla. Para ello, se realizará el estudio de la entonación de acuerdo con dos campos relacionados con ella: la prosodia, como parte de la Lingüística, y la conversión texto-voz, como parte de la Tecnología del Habla. Para el primero de ellos se definirán los conceptos y teoría acerca de la entonación, que nos servirán para expresar las ideas relativas a la misma, vista ya desde el prisma de la conversión texto-voz. 3.2 Definiciones A continuación, se van a explicar unos conceptos básicos acerca de la entonación; conceptos que se utilizarán a lo largo de toda la memoria de este proyecto. Muchos de ellos les resultarán conocidos al lector, sin embargo, conviene recordarlos. Más información sobre este tema se puede encontrar en [Saiz-00]. o Prosodia: es la parte de la Gramática que abarca el estudio de las leyes de la estructura métrica y las cuestiones relacionadas con el ritmo de la poesía, pero también se ocupa de todos los procedimientos que afectan a la articulación melódica del texto literario. Tiene en cuenta el timbre de los sonidos, la altura, la intensidad, la duración, la entonación (ascendente o descendente) y el acento. o Entonación: es la línea melódica con que se pronuncian las unidades lingüísticas de un mensaje. Lo esencial en la entonación son las variaciones tonales. Cuando se comienza a hablar, las cuerdas vocales se ponen en tensión y se produce una elevación más o menos rápida del tono, y al terminar la emisión, el relajamiento de las cuerdas vocales origina el descenso tonal. Las unidades menores de la entonación son el grupo fónico, el tonema y la pausa, que se definen a continuación. Capítulo 3: Estudio de la Entonación Página 29 MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES NEURONALES PARA SÍNTESIS DE VOZ EN DOMINIO RESTRINGIDO Carlos Martín Valle o Grupo fónico: un grupo fónico es la parte del discurso que se pronuncia entre dos pausas sucesivas. Así, la siguiente oración consta de tres grupos fónicos, que se separan con rayas verticales: Desde tu llegada | siempre que estamos juntos | recordamos a María. La extensión del grupo fónico es variable, desde grupos fónicos de una sílaba hasta de veinte sílabas, que es el fragmento de cadena fónica considerado como límite en una pronunciación normal no forzada. En español, el grupo fónico medio consta de ocho sílabas, lo cual explica que el verso octosílabo sea el más antiguo e importante de la poesía española. o Tonema: el tonema es la parte final de la curva melódica de cada uno de los grupos fónicos en que se divide el discurso. Es la parte más significativa de la entonación, lo realmente distintivo de la entonación, y se da frecuentemente a partir de la última sílaba acentuada. En español, se pueden distinguir, básicamente, tres tipos de tonemas: El tonema horizontal: se produce sólo en suspensión. Es propio de las oraciones entrecortadas e inacabadas: Dime con quién andas... El tonema descendente: puede ser de dos tipos, de cadencia y de semicadencia. Encontramos su diferencia en que el descenso del segundo es menos pronunciado que el del primero. El tonema ascendente: como en el caso anterior, también éste puede ser de dos tipos, de anticadencia y de semianticadencia. La diferencia entre ambos estriba en que el segundo alcanza una altura menor que el primero. o Pausa: las pausas son las interrupciones que se hacen al final de la emisión de cada grupo fónico. Están motivadas por razones fisiológicas -necesitamos respirar y recuperar el aire para la fonación- y por razones lingüísticas –las pausas son unidades significativas que marcan el final de una expresión con significación-. o Modalidad oracional: con las oraciones podemos manifestar contenidos objetivos o representativos, pero podemos, asimismo, adoptar posturas subjetivas de duda, mandato, extrañeza y otras. En las oraciones emitimos dos factores: por un lado “lo que se dice”, o sea, el contenido objetivo, y por otro, la actitud subjetiva del que Capítulo 3: Estudio de la Entonación Página 30 MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES NEURONALES PARA SÍNTESIS DE VOZ EN DOMINIO RESTRINGIDO Carlos Martín Valle habla. De esta forma, ante un mismo contenido, el hablante puede manifestar actitudes diferentes tales como las de aseverar, negar, dudar, mandar, desear, preguntar, exclamar, manifestar asombro, temor, etc. Según este criterio, se tiende a clasificar las oraciones en enunciativas, interrogativas, exclamativas o admirativas (con sus variantes de sorpresa, temor, alegría, etc.), exhortativas (o de mandato), desiderativas (o de deseo), y dubitativas (con sus grados de duda, posibilidad, probabilidad). 3.3 La entonación vista desde la prosodia Una vez que ya están aclarados los términos fundamentales acerca de la entonación, se pasa a su estudio, en el que se verá, en primer lugar, la prosodia. 3.3.1 Funciones de la entonación Las funciones que realiza la entonación son varias: o Función distintiva: la entonación permite distinguir la modalidad oracional: Saldrá ¿Saldrá? ¡Saldrá! o Función integradora: la entonación integra las palabras que forman la oración en una unidad significativa: El niño estudia la lección. o Función delimitadora: se pueden agrupar las palabras en unidades oracionales menores de significación o relación sintáctica: El niño / estudia / la lección. 3.3.2 La entonación como medio para transmitir la información La entonación juega un papel fundamental en la naturalidad de la voz, entendida ésta como elemento de información suprasegmental. Los tonos agudos suelen asociarse con estados anímicos emocionales, y los graves con situaciones depresivas. El ascenso del tono se utiliza para despertar el interés a través del interlocutor, lo que explica que el ascenso tonal caracterice a los enunciados no terminados, a las preguntas, a las expresiones afectivas. Por el contrario, el descenso Capítulo 3: Estudio de la Entonación Página 31 MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES NEURONALES PARA SÍNTESIS DE VOZ EN DOMINIO RESTRINGIDO Carlos Martín Valle del tono marca el final del enunciado afirmativo (tonema descendente), al no ser necesario mantener el interés y la atención del oyente. Se podría decir que cada hablante tiene su propio tono; las características de pronunciación de cada individuo varían según su estado de ánimo y hábitos de pronunciación. El oído de las personas es muy sensible a las características tonales, de tal manera que se puede identificar a las personas por sus características de pronunciación. También la entonación tiene en cada región cierta fisonomía propia. Así, se dan hábitos de pronunciación peculiares a los que llamamos acentos; por ejemplo, se pueden distinguir los acentos de un aragonés, de un gallego, de un catalán, de un argentino,... Por lo tanto, el conjunto de tonos, que forman la línea melódica o entonación, adquiere valores lingüísticos significativos. Se trata de una de las principales características lingüísticas de la oración y hace posible que las palabras, que forman la oración, adquieran valor como unidad de sentido expresivo. La prosodia considera la independencia de varios niveles de descripción suprasegmental y de sus respectivos efectos sobre la entonación. Estos niveles se resumen en el acento de las palabras y la entonación de las oraciones. Para mayor información al respecto, se puede consultar [Saiz-00]. 3.3.3 El acento en las palabras La entonación de la palabra aislada, que es la unidad lingüística más simple desde el punto de vista gramatical, viene marcada por el acento. Así, el tono es mayor en la sílaba tónica (acentuada) que en las sílabas átonas. Por otro lado, mientras que la entonación se mantiene constante hasta la sílaba acentuada, a partir de la subida experimentada en ésta, el tono decrece suavemente hasta el final de la palabra. El primer efecto se hace notable cuanto mayor sea el número de sílabas, mientras que el segundo destaca de forma especial en las palabras esdrújulas. Capítulo 3: Estudio de la Entonación Página 32 MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES NEURONALES PARA SÍNTESIS DE VOZ EN DOMINIO RESTRINGIDO Carlos Martín Valle 3.3.4 La entonación en las oraciones En el ámbito oracional, para cada grupo fónico, la entonación viene caracterizada por una subida inicial, por un descenso suave en el medio, y por el tonema, que será ascendente o descendente, dependiendo de la modalidad oracional y de la posición del grupo fónico dentro de la oración. Decíamos más arriba que ciertas modalidades oracionales se diferencian por la función distintiva de la entonación. Nosotros veremos tres modalidades oracionales diferentes por ser sus entonaciones respectivas también diferentes: Se echó a llorar. ¿Se echó a llorar? ¡Se echó a llorar! 3.3.4.1 Entonación de las oraciones enunciativas o Si la oración enunciativa consta de un solo grupo fónico, su línea melódica termina en cadencia. El tono decae a partir de la última sílaba acentuada. o Si la oración enunciativa consta de dos grupos fónicos, mientras que el primero termina en anticadencia (o semianticadencia), el segundo lo hace en cadencia. o En el caso de que la oración enunciativa esté compuesta por más de dos grupos fónicos, pueden darse distintas configuraciones de la curva melódica. Entre ellas, destacamos el caso en que todos los grupos fónicos acaban en anticadencia. Otra posibilidad surge cuando uno de los grupos fónicos es un inciso parentético, al cual le corresponde un tonema de semicadencia, mientras que los anteriores aparecen configurados con tonemas de semianticadencia (o suspensión), y el último, como siempre, termina en cadencia. 3.3.4.2 Entonación de las oraciones interrogativas o En las interrogativas directas totales, la curva melódica se caracteriza por una elevación de la voz por encima del tono normal desde la primera sílaba acentuada, con un descenso posterior hasta la penúltima sílaba, para elevarse luego en la última con un tonema de anticadencia. Esta conformación de la línea Capítulo 3: Estudio de la Entonación Página 33 MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES NEURONALES PARA SÍNTESIS DE VOZ EN DOMINIO RESTRINGIDO Carlos Martín Valle melódica con ese ascenso inicial por encima del tono normal, justifica en español el uso de los signos de interrogación no sólo al final, como en otras lenguas, sino también al principio. o En las interrogativas directas parciales, el tonema desciende terminando en cadencia. La no terminación en anticadencia, como en el caso anterior, se debe a que el elemento tónico inicial (pronombre o adverbio interrogativo) indica por sí solo la interrogación. o Si se trata de interrogativas disyuntivas, el primer miembro termina en anticadencia, y el segundo en cadencia. 3.3.4.3 Entonación de las oraciones admirativas Como se ha indicado anteriormente, este tipo de oraciones ofrece una gama muy variada de estados anímicos en el hablante, lo que hace compleja la descripción de su línea melódica. No obstante, en general, se caracterizan por ascensos tonales rápidos seguidos de descensos bruscos; los descensos dependen de las palabras que se quieren destacar. 3.4 La entonación vista desde la conversión texto-voz Se va a estudiar, en este capítulo, la entonación desde otro punto de vista: el de la conversión texto-voz. A partir de este momento, se va a hacer especial hincapié en los aspectos físicos de la entonación, que se analizarán mediante modelos matemáticos. 3.4.1 Información y entonación en la conversión texto-voz Como ya se sabe, la entonación es uno de los elementos más importantes para conseguir mayor naturalidad en la conversión que aquí se trata. La causa de esto se encuentra en que, en la mayoría de las lenguas, la entonación juega un papel fundamental en la transmisión de la información, tanto lingüística (acento en las palabras, estructura sintáctica, modalidad oracional, etc.) como no lingüística (naturalidad, emoción, identidad del hablante, etc.). Por tanto, para generar una curva de frecuencia fundamental de calidad lo más próxima posible a la natural, cabe desear partir de un modelo de entonación por reglas que represente cuantitativamente las relaciones entre la entonación y su información prosódica subyacente. Capítulo 3: Estudio de la Entonación Página 34 MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES NEURONALES PARA SÍNTESIS DE VOZ EN DOMINIO RESTRINGIDO Carlos Martín Valle La característica acústica de la entonación más importante en la transmisión de la información prosódica, es la evolución temporal de la frecuencia fundamental, comúnmente denominada contorno de f0. Otros rasgos prosódicos, como la duración de los sonidos que componen la frase, o la curva de energías de la señal acústica, son menos importantes desde el punto de vista perceptivo [Saiz-00]. 3.4.1.1 Análisis y síntesis de contornos de f0 Según lo expuesto anteriormente, para llegar a obtener un modelo de entonación que sea capaz de reproducir lo mejor posible esta faceta del habla, a través de un conjunto de reglas de control de la frecuencia fundamental, el contorno de f0 deberá relacionarse adecuadamente con las características lingüísticas del texto. Sin embargo, a causa de las dificultades que se dan tanto en la realización de análisis precisos, como en la obtención de descripciones cuantitativas, estas relaciones no parecen estar del todo claras. Su esclarecimiento requiere: o Seleccionar parámetros que sean capaces de describir los rasgos principales del contorno de f0. o Generar un método para extraer estos parámetros a partir de un contorno de f0. o Extraer la información lingüística relevante del texto, a partir de conocimientos lingüísticos y fonéticos sobre sus propiedades prosódicas. o Estudiar correlaciones entre los parámetros del contorno de f0 y las características lingüísticas del texto a procesar. 3.4.1.2 Modelos de entonación El modelado de la entonación se realizó sobre varios idiomas (entre otros, el alemán, danés, francés, inglés, japonés y sueco), y con diferentes aproximaciones teóricas. Algunos de los modelos más usados en lo que a prosodia y conversión texto-voz se refiere son los siguientes: o Modelo de Aix, para inglés y francés. o Modelos de Fujisaki, para japonés, inglés británico, chino, alemán, español, griego, francés, portugués y gallego. Capítulo 3: Estudio de la Entonación Página 35 MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES NEURONALES PARA SÍNTESIS DE VOZ EN DOMINIO RESTRINGIDO Carlos Martín Valle o Modelo IPO, para holandés, inglés británico, alemán, ruso, italiano, francés y español. o Modelo de Kohler, para alemán. o Modelo de Ladd, para inglés británico. o Modelo de Lund, para sueco, chino, griego, francés y hausa. o Modelo de O’Shaughnessy y Allen, para inglés americano. o Modelo de Pierrehumbert, para inglés americano, japonés y español. o Modelo de Thorsen, para danés. Como se puede observar, solamente en tres casos (Fujisaki, IPO y Pierrehumbert) se ha intentado modelar la entonación del español. A continuación, se desarrollarán brevemente aquellos que se han aplicado al español así como los desarrollados en el GTH. 3.4.1.2.1 Clasificación Como ya se dijo anteriormente, la prosodia considera la independencia de varios niveles de descripción suprasegmental y de sus respectivos efectos sobre la entonación. Así, se debe ver la principal función de los modelos de entonación en la capacidad de determinar los efectos e interacciones de cada nivel individual. Desde este punto de vista, lo que variará de unos modelos de entonación a otros será la forma de interpretar la estructura de la entonación, entendiendo ésta como el modo en que se integran los distintos componentes de la misma. De esta manera, cada modelo dispondrá de su propia parametrización de las características de f0, que se relacionará de forma adecuada con los rangos lingüísticos del texto. Se clasifican los modelos entonativos en dos tipos según la interpretación que hagan de la estructura de la entonación: o Modelos lineales: sostienen que los contornos de f0 se obtienen de una secuencia de tonos fonológicamente distintos, asignados a cada sílaba, mediante la aplicación de determinadas reglas. Los modelos de Ladd, Pierrehumbert y los que se han desarrollado en el GTH se engloban dentro de este modelo. Capítulo 3: Estudio de la Entonación Página 36 MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES NEURONALES PARA SÍNTESIS DE VOZ EN DOMINIO RESTRINGIDO Carlos Martín Valle o Modelos jerárquicos: tienen una organización superposicional, e interpretan los contornos de f0 como una estructura compleja resultante de la superposición de estructuras de diferentes niveles (oración, palabra, sílaba, segmento, etc.). Modelos de este tipo son los de Fujisaki, O’Shaughnessy y Allen, Lund y IPO. La principal diferencia entre estos dos tipos de modelos se encuentra en el modo en que definen la relación entre las variaciones locales y las tendencias globales del contorno de la frecuencia fundamental. Es decir, se distinguen en la forma de ver la relación del contorno de f0 con el acento en las palabras y la entonación en las oraciones. El problema que surge de todo esto es que, en los aspectos prosódicos, tanto de las palabras como de las oraciones, se expresan mediante la misma característica acústica: la variación de la frecuencia fundamental en función del tiempo. No hay forma de decidir, ya sea por medidas acústicas, o por criterios perceptivos, si las variaciones de f0 vienen motivadas por la acentuación de las palabras o por la entonación de las oraciones. Aunque estos efectos se pueden separar en un plano lingüístico (como ya se vio anteriormente), aquí, los modelos que establecen las reglas que se pueden formular predicen, o bien independencia entre el acento y la entonación, o bien interacción mutua entre ambos. 3.4.1.2.2 Modelos lineales Estos modelos suponen que los contornos de f0 se generan en un solo ciclo, de izquierda a derecha, mediante la concatenación de movimientos de f0. Por lo tanto, asumen que los contornos carecen de estructura jerárquica. Según este enfoque, las curvas melódicas son el resultado de un proceso de interpolación entre valores de f0 sucesivos, que son la realización fonética de segmentos tonales. Además, consideran que no hay diferentes niveles. A continuación, y como ejemplos de estos modelos, se van a explicar brevemente los modelos de Pierrehumbert, de picos y valles y el modelo neuronal. 3.4.1.2.2.1 Modelo de Pierrehumbert Se trata de un modelo desarrollado inicialmente por Janet Pierrehumbert, el cual tuvo aportaciones posteriores de Mark Liberman y de Mary Beckman. Es un modelo multilingüe ya que para él, se han utilizado datos de diferentes lenguas, sobre todo inglés Capítulo 3: Estudio de la Entonación Página 37 MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES NEURONALES PARA SÍNTESIS DE VOZ EN DOMINIO RESTRINGIDO Carlos Martín Valle americano y japonés; el cual ha demostrado su validez con su aplicación al sistema de conversión texto-habla de Olive. Los componentes especificados por el modelo son: 1. Una línea de base (baseline). 2. Una serie de tonos: o Tonos de límite (boundary tones): aparecen en los límites de diferentes constituyentes: H%, L%. o Acentos de tono (pitch accents): pueden darse los siguientes casos: Dos acentos de tono simples: H* (un acento de tono que primero crece y después puede caer) y L* (un acento de tono que primero disminuye y luego puede crecer), que aportan a la variación de la frecuencia fundamental una dicotomía simple. Cinco acentos de tono compuestos: H*+L, H+L*, L*+H, L+H*, H*+H, que tratan de compensar la variación temporal en los lugares de los acentos relacionados con el comienzo de la vocal silábica. o Acentos de frase (phrase accents): H, L. Los contornos de f0 se formarán mediante la concatenación sobre la línea base de los siguientes elementos: a) Un tono de límite inicial (que puede no aparecer). b) Una serie de acentos de tono, que dependerá de la longitud de la frase. c) Un acento de frase. d) Un tono de límite final. 3.4.1.2.2.2 Modelo de picos y valles Los picos se corresponden con aquellas sílabas que están acentuadas, a las que, por tanto, se les asocia una mayor frecuencia fundamental. Los valles, por el contrario, son las sílabas que preceden a los picos. La unidad de asignación de valores de frecuencia fundamental es la sílaba. Capítulo 3: Estudio de la Entonación Página 38 MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES NEURONALES PARA SÍNTESIS DE VOZ EN DOMINIO RESTRINGIDO Carlos Martín Valle La curva de tono se divide en tres tramos bien definidos: o Zona inicial: comprende el contorno de f0 desde el principio del grupo fónico hasta la primera sílaba tónica. En ella, se asigna un valor de frecuencia fundamental a la primera sílaba del grupo fónico en función del signo de puntuación que se encuentra al final del grupo fónico (un punto, una coma, un punto y coma, un signo de admiración o de interrogación, etc.). o Zona intermedia: abarca desde la primera sílaba tónica hasta la penúltima. En esta zona se asignan valores de f0 a las sílabas tónicas, o picos, y a las sílabas que se denominan valles, y a partir de estos valores se calcula la curva de entonación para la zona intermedia: Picos: el modelo se basa en aplicar una recta con dos puntos fijos, los valores de la primera y la última tónica, e interpolar linealmente para calcular el valor de frecuencia fundamental de la otras sílabas tónicas, hasta la penúltima. Valles: se usa un algoritmo similar, aunque con valores de f0 más bajos y distinta pendiente. Se aplica otra recta entre dos puntos fijos: el valor del primer valle y el del último, variando la pendiente según el número de tónicas que haya dentro del grupo fónico. Al resto de las sílabas de la zona intermedia se les asigna un valor de f0 siguiendo una interpolación lineal entre los valores de los picos y los valles. o Zona final: corresponde a la curva de frecuencia fundamental que va desde la penúltima tónica hasta el final del grupo fónico. Esta es la zona más importante del contorno de f0, ya que es la que realmente marca la entonación de la frase y da sentido y significado al resto de la frase. Se asigna un valor de f0 al último valle, a la última tónica y a la última sílaba, y se hace una interpolación lineal para el resto de las sílabas pertenecientes a esta zona. Estos valores varían no sólo en función del signo de puntuación del grupo fónico, como en la zona inicial, sino también dependiendo de la posición de la sílaba tónica en la última palabra del grupo fónico: se asignan valores de f0 diferentes según la terminación sea oxítona (palabras agudas) o no (palabras llanas y esdrújulas). Capítulo 3: Estudio de la Entonación Página 39 MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES NEURONALES PARA SÍNTESIS DE VOZ EN DOMINIO RESTRINGIDO Carlos Martín Valle A cada uno de los valores de tono de cada fonema obtenidos mediante el algoritmo, se les suma un valor aleatorio (±5 hertzios) que permite una cierta variabilidad. 3.4.1.2.2.3 Modelo neuronal Este modelo, realizado mediante una Red Neuronal, también toma la sílaba como unidad básica para la asignación de valores de frecuencia fundamental. Por tanto, la información con que se alimenta la Red Neuronal está basada en dicha unidad. Conjuntamente, se realiza un enventanado de los parámetros de entrada, que consiste en incluir, además de los parámetros del núcleo silábico de interés, también los de un cierto número de sílabas anteriores y posteriores a la misma. Los parámetros que recibe la Red Neuronal como entradas son los siguientes: o Un parámetro llamado “zscore”, que indica a la Red si se va a usar o no la codificación correspondiente al mismo. o El modo de normalización (media y rango). o Indicación sobre si la sílaba es inicial o no. Será inicial si está comprendida entre la primera sílaba de la frase y la primera acentuada, ambas inclusive. o Indicación sobre si la sílaba es final o no. Lo será si está comprendida entre la anterior a la última tónica y la última sílaba, ambas inclusive. o Acento en la sílaba. Lo que indica si la sílaba es tónica o no. o Tipo de terminación del grupo fónico al que pertenece la sílaba. o Tipo de terminación más la posibilidad de añadir información sobre el comienzo del grupo fónico. o Codificación de las sílabas. o Indicación sobre si la sílaba en cuestión forma parte de una palabra función o no. o Indicación del número de palabras que componen el grupo fónico. o Información acerca de si la sílaba pertenece a la última palabra o no. o Indicación de si la sílaba es final de palabra o no. o Tamaño del enventanado que se va a considerar. Capítulo 3: Estudio de la Entonación Página 40 MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES NEURONALES PARA SÍNTESIS DE VOZ EN DOMINIO RESTRINGIDO Carlos Martín Valle o Tamaño de la capa oculta de la Red Neuronal. o Información de la frecuencia anterior. o Información codificada acerca del número de frases totales que componen los experimentos. 3.4.1.2.3 Modelos jerárquicos En contraposición a los modelos lineales, los modelos jerárquicos, o de organización superposicional, se prestan a una aproximación cuantitativa: los contornos de f0 generados por estos modelos resultan de una superposición aditiva de componentes que, en principio, son independientes entre sí. Un modelo de entonación que facilite componentes para la acentuación, por un lado, y entonación de la frase, por otro, y que genere las reglas pertinentes en términos de comandos parametrizados, se presenta bastante tentador. Como un modelo jerárquico satisface el principio de superposición, se puede determinar el efecto de un componente dado de la entonación mediante una unidad prosódica definida, tal como una frase o una sílaba acentuada. De esta manera, los factores que contribuyen a la variabilidad de los contornos de f0 se pueden investigar por separado, relacionándolos con las características lingüísticas del texto, para establecer reglas que permitan calcular, en el proceso de síntesis, el valor resultante de f0 para todos los instantes de tiempo en el curso de la pronunciación sintetizada. 3.4.1.2.3.1 Modelo IPO Toma el nombre del instituto en el que fue desarrollado: el Institute for Perception Research (IPO) de Eindhoven (Holanda). Inicialmente sólo se aplicó al holandés, aunque, más tarde, también se desarrolló para el inglés británico, alemán, ruso, italiano, francés y español. Los componentes del modelo son los que se enumeran a continuación: o Unas líneas de declinación, que marcarían los hipotéticos límites inferior y superior de los contornos de f0: Línea de declinación alta. Línea de declinación baja. Capítulo 3: Estudio de la Entonación Página 41 MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES NEURONALES PARA SÍNTESIS DE VOZ EN DOMINIO RESTRINGIDO Carlos Martín Valle Línea de declinación intermedia. o Una serie de movimientos relevantes de tono, que se definen en función de una serie de rasgos: Dirección del cambio: - más incremento: ascendente. - menos incremento: descendente. Número de sílabas que cubre: - más extensión: el movimiento está asociado con dos o más sílabas. - menos extensión: abarca una sola sílaba. Final del movimiento con respecto al inicio de la parte sonora de la sílaba: - temprano: final del movimiento cerca del inicio de la parte sonora. - tardío: final del movimiento cerca del final de la parte sonora. Rango del movimiento: - más amplio: cubre el rango entre las líneas superior e inferior de declinación. - menos amplio: el movimiento cubre un rango menor. Velocidad del cambio: - rápida. - lenta. El modelo IPO proporciona una descripción y un modelado bastante completos de la entonación de un lenguaje. Sin embargo, tiene el defecto de no relacionar las curvas resultantes con la información lingüística y paralingüística de la entonación, tan importantes en la consecución de naturalidad para la entonación. 3.4.1.2.3.2 Modelo de Fujisaki Se trata de la única aproximación que saca provecho del principio de superposición en un sentido estrictamente matemático. Como los componentes en que divide el contorno de f0 se corresponden directamente con la acentuación y la entonación de las Capítulo 3: Estudio de la Entonación Página 42 MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES NEURONALES PARA SÍNTESIS DE VOZ EN DOMINIO RESTRINGIDO Carlos Martín Valle oraciones, este modelo se presenta como una solución del problema que se planteaba más arriba, sobre la necesidad de una integración entre las características lingüísticas y las de los contornos de f0. El modelo de Fujisaki tiene, junto con la cualidad que se acaba de mencionar, la ventaja de que reduce grados de libertad por el uso de un número limitado de parámetros para definir la frecuencia fundamental, lo que es importante para la construcción de un módulo de análisis de contornos de f0 observados. Esta reducción de la cantidad de datos constituye un importante aspecto para determinadas aplicaciones, y en concreto, para la conversión texto-voz. El contorno suave resultante de la superposición de los componentes del modelo es, asimismo, apropiado para aproximar los contornos de f0 producidos en el habla natural. Estas características favorables hacen del modelo de Fujisaki una herramienta muy útil para el análisis y síntesis de contornos de f0 en varios idiomas. Por ello, se ha utilizado ampliamente tanto en la investigación como en el desarrollo de conversores texto-voz. La información de este capítulo está extraída de [Saiz-00], aquí se puede consultar para obtener más información sobre la entonación. Capítulo 3: Estudio de la Entonación Página 43