Entonación - Grupo de Tecnología del Habla

Anuncio
MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES
NEURONALES PARA SÍNTESIS DE VOZ EN DOMINIO RESTRINGIDO
Carlos Martín Valle
3 Estudio de la entonación
3.1 Introducción
Para una correcta comprensión del modelo de entonación que se usa en este
proyecto, se ha considerado oportuno incluir este capítulo, el cual está dedicado a
repasar más detenidamente la entonación en el habla.
Para ello, se realizará el estudio de la entonación de acuerdo con dos campos
relacionados con ella: la prosodia, como parte de la Lingüística, y la conversión texto-voz,
como parte de la Tecnología del Habla.
Para el primero de ellos se definirán los conceptos y teoría acerca de la entonación,
que nos servirán para expresar las ideas relativas a la misma, vista ya desde el prisma de
la conversión texto-voz.
3.2 Definiciones
A continuación, se van a explicar unos conceptos básicos acerca de la entonación;
conceptos que se utilizarán a lo largo de toda la memoria de este proyecto. Muchos de
ellos les resultarán conocidos al lector, sin embargo, conviene recordarlos. Más
información sobre este tema se puede encontrar en [Saiz-00].
o
Prosodia: es la parte de la Gramática que abarca el estudio de las leyes de la
estructura métrica y las cuestiones relacionadas con el ritmo de la poesía, pero
también se ocupa de todos los procedimientos que afectan a la articulación
melódica del texto literario. Tiene en cuenta el timbre de los sonidos, la altura, la
intensidad, la duración, la entonación (ascendente o descendente) y el acento.
o
Entonación: es la línea melódica con que se pronuncian las unidades lingüísticas
de un mensaje. Lo esencial en la entonación son las variaciones tonales. Cuando
se comienza a hablar, las cuerdas vocales se ponen en tensión y se produce una
elevación más o menos rápida del tono, y al terminar la emisión, el relajamiento de
las cuerdas vocales origina el descenso tonal.
Las unidades menores de la entonación son el grupo fónico, el tonema y la pausa,
que se definen a continuación.
Capítulo 3: Estudio de la Entonación
Página 29
MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES
NEURONALES PARA SÍNTESIS DE VOZ EN DOMINIO RESTRINGIDO
Carlos Martín Valle
o
Grupo fónico: un grupo fónico es la parte del discurso que se pronuncia entre dos
pausas sucesivas. Así, la siguiente oración consta de tres grupos fónicos, que se
separan con rayas verticales:
Desde tu llegada | siempre que estamos juntos | recordamos a María.
La extensión del grupo fónico es variable, desde grupos fónicos de una sílaba
hasta de veinte sílabas, que es el fragmento de cadena fónica considerado como
límite en una pronunciación normal no forzada. En español, el grupo fónico medio
consta de ocho sílabas, lo cual explica que el verso octosílabo sea el más antiguo
e importante de la poesía española.
o
Tonema: el tonema es la parte final de la curva melódica de cada uno de los
grupos fónicos en que se divide el discurso. Es la parte más significativa de la
entonación, lo realmente distintivo de la entonación, y se da frecuentemente a
partir de la última sílaba acentuada. En español, se pueden distinguir,
básicamente, tres tipos de tonemas:
El tonema horizontal: se produce sólo en suspensión. Es propio de las oraciones
entrecortadas e inacabadas:
Dime con quién andas...
El tonema descendente: puede ser de dos tipos, de cadencia y de semicadencia.
Encontramos su diferencia en que el descenso del segundo es menos
pronunciado que el del primero.
El tonema ascendente: como en el caso anterior, también éste puede ser de dos
tipos, de anticadencia y de semianticadencia. La diferencia entre ambos
estriba en que el segundo alcanza una altura menor que el primero.
o
Pausa: las pausas son las interrupciones que se hacen al final de la emisión de
cada grupo fónico. Están motivadas por razones fisiológicas -necesitamos respirar
y recuperar el aire para la fonación- y por razones lingüísticas –las pausas son
unidades significativas que marcan el final de una expresión con significación-.
o
Modalidad oracional: con las oraciones podemos manifestar contenidos objetivos
o representativos, pero podemos, asimismo, adoptar posturas subjetivas de duda,
mandato, extrañeza y otras. En las oraciones emitimos dos factores: por un lado
“lo que se dice”, o sea, el contenido objetivo, y por otro, la actitud subjetiva del que
Capítulo 3: Estudio de la Entonación
Página 30
MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES
NEURONALES PARA SÍNTESIS DE VOZ EN DOMINIO RESTRINGIDO
Carlos Martín Valle
habla. De esta forma, ante un mismo contenido, el hablante puede manifestar
actitudes diferentes tales como las de aseverar, negar, dudar, mandar, desear,
preguntar, exclamar, manifestar asombro, temor, etc.
Según este criterio, se tiende a clasificar las oraciones en enunciativas,
interrogativas, exclamativas o admirativas (con sus variantes de sorpresa, temor,
alegría, etc.), exhortativas (o de mandato), desiderativas (o de deseo), y
dubitativas (con sus grados de duda, posibilidad, probabilidad).
3.3 La entonación vista desde la prosodia
Una vez que ya están aclarados los términos fundamentales acerca de la entonación,
se pasa a su estudio, en el que se verá, en primer lugar, la prosodia.
3.3.1 Funciones de la entonación
Las funciones que realiza la entonación son varias:
o
Función distintiva: la entonación permite distinguir la modalidad oracional:
Saldrá ¿Saldrá? ¡Saldrá!
o
Función integradora: la entonación integra las palabras que forman la oración en
una unidad significativa:
El niño estudia la lección.
o
Función delimitadora: se pueden agrupar las palabras en unidades oracionales
menores de significación o relación sintáctica:
El niño / estudia / la lección.
3.3.2 La entonación como medio para transmitir la información
La entonación juega un papel fundamental en la naturalidad de la voz, entendida ésta
como elemento de información suprasegmental.
Los tonos agudos suelen asociarse con estados anímicos emocionales, y los graves
con situaciones depresivas. El ascenso del tono se utiliza para despertar el interés a
través del interlocutor, lo que explica que el ascenso tonal caracterice a los enunciados
no terminados, a las preguntas, a las expresiones afectivas. Por el contrario, el descenso
Capítulo 3: Estudio de la Entonación
Página 31
MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES
NEURONALES PARA SÍNTESIS DE VOZ EN DOMINIO RESTRINGIDO
Carlos Martín Valle
del tono marca el final del enunciado afirmativo (tonema descendente), al no ser
necesario mantener el interés y la atención del oyente.
Se podría decir que cada hablante tiene su propio tono; las características de
pronunciación de cada individuo varían según su estado de ánimo y hábitos de
pronunciación. El oído de las personas es muy sensible a las características tonales, de
tal manera que se puede identificar a las personas por sus características de
pronunciación. También la entonación tiene en cada región cierta fisonomía propia. Así,
se dan hábitos de pronunciación peculiares a los que llamamos acentos; por ejemplo, se
pueden distinguir los acentos de un aragonés, de un gallego, de un catalán, de un
argentino,...
Por lo tanto, el conjunto de tonos, que forman la línea melódica o entonación,
adquiere valores lingüísticos significativos. Se trata de una de las principales
características lingüísticas de la oración y hace posible que las palabras, que forman la
oración, adquieran valor como unidad de sentido expresivo.
La prosodia considera la independencia de varios niveles de descripción
suprasegmental y de sus respectivos efectos sobre la entonación. Estos niveles se
resumen en el acento de las palabras y la entonación de las oraciones. Para mayor
información al respecto, se puede consultar [Saiz-00].
3.3.3 El acento en las palabras
La entonación de la palabra aislada, que es la unidad lingüística más simple desde el
punto de vista gramatical, viene marcada por el acento. Así, el tono es mayor en la sílaba
tónica (acentuada) que en las sílabas átonas.
Por otro lado, mientras que la entonación se mantiene constante hasta la sílaba
acentuada, a partir de la subida experimentada en ésta, el tono decrece suavemente
hasta el final de la palabra. El primer efecto se hace notable cuanto mayor sea el número
de sílabas, mientras que el segundo destaca de forma especial en las palabras
esdrújulas.
Capítulo 3: Estudio de la Entonación
Página 32
MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES
NEURONALES PARA SÍNTESIS DE VOZ EN DOMINIO RESTRINGIDO
Carlos Martín Valle
3.3.4 La entonación en las oraciones
En el ámbito oracional, para cada grupo fónico, la entonación viene caracterizada por
una subida inicial, por un descenso suave en el medio, y por el tonema, que será
ascendente o descendente, dependiendo de la modalidad oracional y de la posición del
grupo fónico dentro de la oración.
Decíamos más arriba que ciertas modalidades oracionales se diferencian por la
función distintiva de la entonación. Nosotros veremos tres modalidades oracionales
diferentes por ser sus entonaciones respectivas también diferentes:
Se echó a llorar.
¿Se echó a llorar?
¡Se echó a llorar!
3.3.4.1 Entonación de las oraciones enunciativas
o
Si la oración enunciativa consta de un solo grupo fónico, su línea melódica termina
en cadencia. El tono decae a partir de la última sílaba acentuada.
o
Si la oración enunciativa consta de dos grupos fónicos, mientras que el primero
termina en anticadencia (o semianticadencia), el segundo lo hace en cadencia.
o
En el caso de que la oración enunciativa esté compuesta por más de dos grupos
fónicos, pueden darse distintas configuraciones de la curva melódica. Entre ellas,
destacamos el caso en que todos los grupos fónicos acaban en anticadencia. Otra
posibilidad surge cuando uno de los grupos fónicos es un inciso parentético, al
cual le corresponde un tonema de semicadencia, mientras que los anteriores
aparecen configurados con tonemas de semianticadencia (o suspensión), y el
último, como siempre, termina en cadencia.
3.3.4.2 Entonación de las oraciones interrogativas
o
En las interrogativas directas totales, la curva melódica se caracteriza por una
elevación de la voz por encima del tono normal desde la primera sílaba
acentuada, con un descenso posterior hasta la penúltima sílaba, para elevarse
luego en la última con un tonema de anticadencia. Esta conformación de la línea
Capítulo 3: Estudio de la Entonación
Página 33
MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES
NEURONALES PARA SÍNTESIS DE VOZ EN DOMINIO RESTRINGIDO
Carlos Martín Valle
melódica con ese ascenso inicial por encima del tono normal, justifica en español
el uso de los signos de interrogación no sólo al final, como en otras lenguas, sino
también al principio.
o
En las interrogativas directas parciales, el tonema desciende terminando en
cadencia. La no terminación en anticadencia, como en el caso anterior, se debe a
que el elemento tónico inicial (pronombre o adverbio interrogativo) indica por sí
solo la interrogación.
o
Si se trata de interrogativas disyuntivas, el primer miembro termina en
anticadencia, y el segundo en cadencia.
3.3.4.3 Entonación de las oraciones admirativas
Como se ha indicado anteriormente, este tipo de oraciones ofrece una gama muy
variada de estados anímicos en el hablante, lo que hace compleja la descripción de su
línea melódica. No obstante, en general, se caracterizan por ascensos tonales rápidos
seguidos de descensos bruscos; los descensos dependen de las palabras que se quieren
destacar.
3.4 La entonación vista desde la conversión texto-voz
Se va a estudiar, en este capítulo, la entonación desde otro punto de vista: el de la
conversión texto-voz. A partir de este momento, se va a hacer especial hincapié en los
aspectos físicos de la entonación, que se analizarán mediante modelos matemáticos.
3.4.1 Información y entonación en la conversión texto-voz
Como ya se sabe, la entonación es uno de los elementos más importantes para
conseguir mayor naturalidad en la conversión que aquí se trata. La causa de esto se
encuentra en que, en la mayoría de las lenguas, la entonación juega un papel
fundamental en la transmisión de la información, tanto lingüística (acento en las palabras,
estructura sintáctica, modalidad oracional, etc.) como no lingüística (naturalidad, emoción,
identidad del hablante, etc.). Por tanto, para generar una curva de frecuencia fundamental
de calidad lo más próxima posible a la natural, cabe desear partir de un modelo de
entonación por reglas que represente cuantitativamente las relaciones entre la entonación
y su información prosódica subyacente.
Capítulo 3: Estudio de la Entonación
Página 34
MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES
NEURONALES PARA SÍNTESIS DE VOZ EN DOMINIO RESTRINGIDO
Carlos Martín Valle
La característica acústica de la entonación más importante en la transmisión de la
información prosódica, es la evolución temporal de la frecuencia fundamental,
comúnmente denominada contorno de f0. Otros rasgos prosódicos, como la duración de
los sonidos que componen la frase, o la curva de energías de la señal acústica, son
menos importantes desde el punto de vista perceptivo [Saiz-00].
3.4.1.1 Análisis y síntesis de contornos de f0
Según lo expuesto anteriormente, para llegar a obtener un modelo de entonación que
sea capaz de reproducir lo mejor posible esta faceta del habla, a través de un conjunto de
reglas de control de la frecuencia fundamental, el contorno de f0 deberá relacionarse
adecuadamente con las características lingüísticas del texto. Sin embargo, a causa de las
dificultades que se dan tanto en la realización de análisis precisos, como en la obtención
de descripciones cuantitativas, estas relaciones no parecen estar del todo claras. Su
esclarecimiento requiere:
o
Seleccionar parámetros que sean capaces de describir los rasgos principales del
contorno de f0.
o
Generar un método para extraer estos parámetros a partir de un contorno de f0.
o
Extraer la información lingüística relevante del texto, a partir de conocimientos
lingüísticos y fonéticos sobre sus propiedades prosódicas.
o
Estudiar correlaciones entre los parámetros del contorno de f0 y las características
lingüísticas del texto a procesar.
3.4.1.2 Modelos de entonación
El modelado de la entonación se realizó sobre varios idiomas (entre otros, el alemán,
danés, francés, inglés, japonés y sueco), y con diferentes aproximaciones teóricas.
Algunos de los modelos más usados en lo que a prosodia y conversión texto-voz se
refiere son los siguientes:
o
Modelo de Aix, para inglés y francés.
o
Modelos de Fujisaki, para japonés, inglés británico, chino, alemán, español,
griego, francés, portugués y gallego.
Capítulo 3: Estudio de la Entonación
Página 35
MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES
NEURONALES PARA SÍNTESIS DE VOZ EN DOMINIO RESTRINGIDO
Carlos Martín Valle
o
Modelo IPO, para holandés, inglés británico, alemán, ruso, italiano, francés y
español.
o
Modelo de Kohler, para alemán.
o
Modelo de Ladd, para inglés británico.
o
Modelo de Lund, para sueco, chino, griego, francés y hausa.
o
Modelo de O’Shaughnessy y Allen, para inglés americano.
o
Modelo de Pierrehumbert, para inglés americano, japonés y español.
o
Modelo de Thorsen, para danés.
Como se puede observar, solamente en tres casos (Fujisaki, IPO y Pierrehumbert) se
ha intentado modelar la entonación del español. A continuación, se desarrollarán
brevemente aquellos que se han aplicado al español así como los desarrollados en el
GTH.
3.4.1.2.1
Clasificación
Como ya se dijo anteriormente, la prosodia considera la independencia de varios
niveles de descripción suprasegmental y de sus respectivos efectos sobre la entonación.
Así, se debe ver la principal función de los modelos de entonación en la capacidad de
determinar los efectos e interacciones de cada nivel individual. Desde este punto de vista,
lo que variará de unos modelos de entonación a otros será la forma de interpretar la
estructura de la entonación, entendiendo ésta como el modo en que se integran los
distintos componentes de la misma. De esta manera, cada modelo dispondrá de su
propia parametrización de las características de f0, que se relacionará de forma
adecuada con los rangos lingüísticos del texto.
Se clasifican los modelos entonativos en dos tipos según la interpretación que hagan
de la estructura de la entonación:
o
Modelos lineales: sostienen que los contornos de f0 se obtienen de una
secuencia de tonos fonológicamente distintos, asignados a cada sílaba, mediante
la aplicación de determinadas reglas. Los modelos de Ladd, Pierrehumbert y los
que se han desarrollado en el GTH se engloban dentro de este modelo.
Capítulo 3: Estudio de la Entonación
Página 36
MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES
NEURONALES PARA SÍNTESIS DE VOZ EN DOMINIO RESTRINGIDO
Carlos Martín Valle
o
Modelos jerárquicos: tienen una organización superposicional, e interpretan los
contornos de f0 como una estructura compleja resultante de la superposición de
estructuras de diferentes niveles (oración, palabra, sílaba, segmento, etc.).
Modelos de este tipo son los de Fujisaki, O’Shaughnessy y Allen, Lund y IPO.
La principal diferencia entre estos dos tipos de modelos se encuentra en el modo en
que definen la relación entre las variaciones locales y las tendencias globales del
contorno de la frecuencia fundamental. Es decir, se distinguen en la forma de ver la
relación del contorno de f0 con el acento en las palabras y la entonación en las oraciones.
El problema que surge de todo esto es que, en los aspectos prosódicos, tanto de las
palabras como de las oraciones, se expresan mediante la misma característica acústica:
la variación de la frecuencia fundamental en función del tiempo. No hay forma de decidir,
ya sea por medidas acústicas, o por criterios perceptivos, si las variaciones de f0 vienen
motivadas por la acentuación de las palabras o por la entonación de las oraciones.
Aunque estos efectos se pueden separar en un plano lingüístico (como ya se vio
anteriormente), aquí, los modelos que establecen las reglas que se pueden formular
predicen, o bien independencia entre el acento y la entonación, o bien interacción mutua
entre ambos.
3.4.1.2.2
Modelos lineales
Estos modelos suponen que los contornos de f0 se generan en un solo ciclo, de
izquierda a derecha, mediante la concatenación de movimientos de f0. Por lo tanto,
asumen que los contornos carecen de estructura jerárquica. Según este enfoque, las
curvas melódicas son el resultado de un proceso de interpolación entre valores de f0
sucesivos, que son la realización fonética de segmentos tonales. Además, consideran
que no hay diferentes niveles.
A continuación, y como ejemplos de estos modelos, se van a explicar brevemente los
modelos de Pierrehumbert, de picos y valles y el modelo neuronal.
3.4.1.2.2.1
Modelo de Pierrehumbert
Se trata de un modelo desarrollado inicialmente por Janet Pierrehumbert, el cual tuvo
aportaciones posteriores de Mark Liberman y de Mary Beckman. Es un modelo
multilingüe ya que para él, se han utilizado datos de diferentes lenguas, sobre todo inglés
Capítulo 3: Estudio de la Entonación
Página 37
MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES
NEURONALES PARA SÍNTESIS DE VOZ EN DOMINIO RESTRINGIDO
Carlos Martín Valle
americano y japonés; el cual ha demostrado su validez con su aplicación al sistema de
conversión texto-habla de Olive.
Los componentes especificados por el modelo son:
1. Una línea de base (baseline).
2. Una serie de tonos:
o Tonos de límite (boundary tones): aparecen en los límites de diferentes
constituyentes: H%, L%.
o Acentos de tono (pitch accents): pueden darse los siguientes casos:
Dos acentos de tono simples: H* (un acento de tono que primero crece y
después puede caer) y L* (un acento de tono que primero disminuye y luego
puede crecer), que aportan a la variación de la frecuencia fundamental una
dicotomía simple.
Cinco acentos de tono compuestos: H*+L, H+L*, L*+H, L+H*, H*+H, que
tratan de compensar la variación temporal en los lugares de los acentos
relacionados con el comienzo de la vocal silábica.
o Acentos de frase (phrase accents): H, L.
Los contornos de f0 se formarán mediante la concatenación sobre la línea base de
los siguientes elementos:
a) Un tono de límite inicial (que puede no aparecer).
b) Una serie de acentos de tono, que dependerá de la longitud de la frase.
c) Un acento de frase.
d) Un tono de límite final.
3.4.1.2.2.2
Modelo de picos y valles
Los picos se corresponden con aquellas sílabas que están acentuadas, a las que,
por tanto, se les asocia una mayor frecuencia fundamental. Los valles, por el contrario,
son las sílabas que preceden a los picos. La unidad de asignación de valores de
frecuencia fundamental es la sílaba.
Capítulo 3: Estudio de la Entonación
Página 38
MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES
NEURONALES PARA SÍNTESIS DE VOZ EN DOMINIO RESTRINGIDO
Carlos Martín Valle
La curva de tono se divide en tres tramos bien definidos:
o
Zona inicial: comprende el contorno de f0 desde el principio del grupo fónico
hasta la primera sílaba tónica. En ella, se asigna un valor de frecuencia
fundamental a la primera sílaba del grupo fónico en función del signo de
puntuación que se encuentra al final del grupo fónico (un punto, una coma, un
punto y coma, un signo de admiración o de interrogación, etc.).
o
Zona intermedia: abarca desde la primera sílaba tónica hasta la penúltima. En
esta zona se asignan valores de f0 a las sílabas tónicas, o picos, y a las sílabas
que se denominan valles, y a partir de estos valores se calcula la curva de
entonación para la zona intermedia:
Picos: el modelo se basa en aplicar una recta con dos puntos fijos, los valores de
la primera y la última tónica, e interpolar linealmente para calcular el valor de
frecuencia fundamental de la otras sílabas tónicas, hasta la penúltima.
Valles: se usa un algoritmo similar, aunque con valores de f0 más bajos y distinta
pendiente. Se aplica otra recta entre dos puntos fijos: el valor del primer valle y
el del último, variando la pendiente según el número de tónicas que haya
dentro del grupo fónico.
Al resto de las sílabas de la zona intermedia se les asigna un valor de f0 siguiendo
una interpolación lineal entre los valores de los picos y los valles.
o
Zona final: corresponde a la curva de frecuencia fundamental que va desde la
penúltima tónica hasta el final del grupo fónico. Esta es la zona más importante del
contorno de f0, ya que es la que realmente marca la entonación de la frase y da
sentido y significado al resto de la frase.
Se asigna un valor de f0 al último valle, a la última tónica y a la última sílaba, y se
hace una interpolación lineal para el resto de las sílabas pertenecientes a esta
zona. Estos valores varían no sólo en función del signo de puntuación del grupo
fónico, como en la zona inicial, sino también dependiendo de la posición de la
sílaba tónica en la última palabra del grupo fónico: se asignan valores de f0
diferentes según la terminación sea oxítona (palabras agudas) o no (palabras
llanas y esdrújulas).
Capítulo 3: Estudio de la Entonación
Página 39
MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES
NEURONALES PARA SÍNTESIS DE VOZ EN DOMINIO RESTRINGIDO
Carlos Martín Valle
A cada uno de los valores de tono de cada fonema obtenidos mediante el algoritmo,
se les suma un valor aleatorio (±5 hertzios) que permite una cierta variabilidad.
3.4.1.2.2.3
Modelo neuronal
Este modelo, realizado mediante una Red Neuronal, también toma la sílaba como
unidad básica para la asignación de valores de frecuencia fundamental. Por tanto, la
información con que se alimenta la Red Neuronal está basada en dicha unidad.
Conjuntamente, se realiza un enventanado de los parámetros de entrada, que consiste
en incluir, además de los parámetros del núcleo silábico de interés, también los de un
cierto número de sílabas anteriores y posteriores a la misma.
Los parámetros que recibe la Red Neuronal como entradas son los siguientes:
o
Un parámetro llamado “zscore”, que indica a la Red si se va a usar o no la
codificación correspondiente al mismo.
o
El modo de normalización (media y rango).
o
Indicación sobre si la sílaba es inicial o no. Será inicial si está comprendida entre
la primera sílaba de la frase y la primera acentuada, ambas inclusive.
o
Indicación sobre si la sílaba es final o no. Lo será si está comprendida entre la
anterior a la última tónica y la última sílaba, ambas inclusive.
o
Acento en la sílaba. Lo que indica si la sílaba es tónica o no.
o
Tipo de terminación del grupo fónico al que pertenece la sílaba.
o
Tipo de terminación más la posibilidad de añadir información sobre el comienzo
del grupo fónico.
o
Codificación de las sílabas.
o
Indicación sobre si la sílaba en cuestión forma parte de una palabra función o no.
o
Indicación del número de palabras que componen el grupo fónico.
o
Información acerca de si la sílaba pertenece a la última palabra o no.
o
Indicación de si la sílaba es final de palabra o no.
o
Tamaño del enventanado que se va a considerar.
Capítulo 3: Estudio de la Entonación
Página 40
MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES
NEURONALES PARA SÍNTESIS DE VOZ EN DOMINIO RESTRINGIDO
Carlos Martín Valle
o
Tamaño de la capa oculta de la Red Neuronal.
o
Información de la frecuencia anterior.
o
Información codificada acerca del número de frases totales que componen los
experimentos.
3.4.1.2.3
Modelos jerárquicos
En contraposición a los modelos lineales, los modelos jerárquicos, o de organización
superposicional, se prestan a una aproximación cuantitativa: los contornos de f0
generados por estos modelos resultan de una superposición aditiva de componentes que,
en principio, son independientes entre sí.
Un modelo de entonación que facilite componentes para la acentuación, por un lado,
y entonación de la frase, por otro, y que genere las reglas pertinentes en términos de
comandos parametrizados, se presenta bastante tentador. Como un modelo jerárquico
satisface el principio de superposición, se puede determinar el efecto de un componente
dado de la entonación mediante una unidad prosódica definida, tal como una frase o una
sílaba acentuada. De esta manera, los factores que contribuyen a la variabilidad de los
contornos de f0 se pueden investigar por separado, relacionándolos con las
características lingüísticas del texto, para establecer reglas que permitan calcular, en el
proceso de síntesis, el valor resultante de f0 para todos los instantes de tiempo en el
curso de la pronunciación sintetizada.
3.4.1.2.3.1
Modelo IPO
Toma el nombre del instituto en el que fue desarrollado: el Institute for Perception
Research (IPO) de Eindhoven (Holanda). Inicialmente sólo se aplicó al holandés, aunque,
más tarde, también se desarrolló para el inglés británico, alemán, ruso, italiano, francés y
español. Los componentes del modelo son los que se enumeran a continuación:
o
Unas líneas de declinación, que marcarían los hipotéticos límites inferior y
superior de los contornos de f0:
Línea de declinación alta.
Línea de declinación baja.
Capítulo 3: Estudio de la Entonación
Página 41
MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES
NEURONALES PARA SÍNTESIS DE VOZ EN DOMINIO RESTRINGIDO
Carlos Martín Valle
Línea de declinación intermedia.
o
Una serie de movimientos relevantes de tono, que se definen en función de
una serie de rasgos:
Dirección del cambio:
-
más incremento: ascendente.
-
menos incremento: descendente.
Número de sílabas que cubre:
-
más extensión: el movimiento está asociado con dos o más sílabas.
-
menos extensión: abarca una sola sílaba.
Final del movimiento con respecto al inicio de la parte sonora de la sílaba:
-
temprano: final del movimiento cerca del inicio de la parte sonora.
-
tardío: final del movimiento cerca del final de la parte sonora.
Rango del movimiento:
-
más amplio: cubre el rango entre las líneas superior e inferior de
declinación.
-
menos amplio: el movimiento cubre un rango menor.
Velocidad del cambio:
-
rápida.
-
lenta.
El modelo IPO proporciona una descripción y un modelado bastante completos de la
entonación de un lenguaje. Sin embargo, tiene el defecto de no relacionar las curvas
resultantes con la información lingüística y paralingüística de la entonación, tan
importantes en la consecución de naturalidad para la entonación.
3.4.1.2.3.2
Modelo de Fujisaki
Se trata de la única aproximación que saca provecho del principio de superposición
en un sentido estrictamente matemático. Como los componentes en que divide el
contorno de f0 se corresponden directamente con la acentuación y la entonación de las
Capítulo 3: Estudio de la Entonación
Página 42
MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES
NEURONALES PARA SÍNTESIS DE VOZ EN DOMINIO RESTRINGIDO
Carlos Martín Valle
oraciones, este modelo se presenta como una solución del problema que se planteaba
más arriba, sobre la necesidad de una integración entre las características lingüísticas y
las de los contornos de f0.
El modelo de Fujisaki tiene, junto con la cualidad que se acaba de mencionar, la
ventaja de que reduce grados de libertad por el uso de un número limitado de parámetros
para definir la frecuencia fundamental, lo que es importante para la construcción de un
módulo de análisis de contornos de f0 observados. Esta reducción de la cantidad de
datos constituye un importante aspecto para determinadas aplicaciones, y en concreto,
para la conversión texto-voz. El contorno suave resultante de la superposición de los
componentes del modelo es, asimismo, apropiado para aproximar los contornos de f0
producidos en el habla natural.
Estas características favorables hacen del modelo de Fujisaki una herramienta muy
útil para el análisis y síntesis de contornos de f0 en varios idiomas. Por ello, se ha
utilizado ampliamente tanto en la investigación como en el desarrollo de conversores
texto-voz.
La información de este capítulo está extraída de [Saiz-00], aquí se puede consultar
para obtener más información sobre la entonación.
Capítulo 3: Estudio de la Entonación
Página 43
Descargar