1.1 Marco Conceptual

Anuncio
1.1 Marco Conceptual
El habla humana es una señal de sonido usada para la comunicación de la lengua.
Superficialmente, la señal de habla es similar al sonido producido por un instrumento
musical, aunque es más flexible y variada, pues tenemos la capacidad de producir
sonidos “sonoros” y “sordos” con un solo instrumento, nuestro sistema del habla.
Nuestra flexibilidad más grande, sin embargo, viene de la capacidad natural de variar la
forma de nuestro instrumento, la zona vocal. La mayoría de los instrumentos musicales
son estructuras rígidas y así produzcen un sonido con un timbre único asociado a su
clase particular de instrumentos.
Esta facilidad humana para producir una variedad de sonidos es la base para nuestra
habilidad de hablar. Combinando una pequeña cantidad de sonidos para producir una
gran cantidad de palabras, podemos producir un número ilimitado de oraciones. A los
diversos sonidos que componen el habla los llamamos fonemas.
La señal del habla y sus fonemas constitutivos se pueden obtener en forma visual con
un espectrograma de los sonidos, conocido comúnmente como espectrograma de la
voz.
Aunque los espectrogramas sean extremadamente útiles para visualizar
acontecimientos de discurso, siguen siendo también complejo para que las
computadoras extraigan la información apropiada de ellas. Hoy, las computadoras
pueden realizar confiablemente la verificación de la voz, no usando un espectrograma
sino con las técnicas prestadas del reconocimiento de discurso automático.
La síntesis de habla o síntesis de voz es entendida de acuerdo con Jurafsky[2] como la
producción artificial de habla humana por medio de una señal acústica. Un sistema
usado con este propósito recibe el nombre de sintetizador de habla y puede llevarse a
cabo en softwareo en hardware. La síntesis de voz se llama a menudo en inglés text-tospeech (TTS), en referencia a su capacidad de convertir texto en habla. Sin embargo,
hay sistemas que en lugar de producir voz a partir de texto lo hacen a partir de
representación lingüística simbólica en habla.
Científicamente la síntesis de voz es una línea de investigación que forma parte del
Procesamiento de Lenguaje Natural (PLN), el que a la vez es un campo de la
inteligencia artificial y la lingüística computacional, que se dedica al estudio de los
problemas de generación automática de voz y el entendimiento del lenguaje humano.
Las dos características utilizadas para describir la calidad de un sintetizador de voz son
la naturalidad e inteligibilidad. La naturalidad de un sintetizador de voz se refiere a
hasta qué punto suena como la voz de una persona real. La inteligibilidad de un
sintetizador se refiere a la facilidad de la salida de poder ser entendida. El sintetizador
ideal debe de ser a la vez natural e inteligible, y cada tecnología intenta conseguir el
máximo de ambas. Algunas de las tecnologías son mejores en naturalidad o en
inteligibilidad y las metas de la síntesis determinan a menudo qué aproximación debe
seguirse.
Actualmente los sitemas que se ocupan de la producción de voz sintética se diiden
endos grandes grupos:

Sistemas de respuesta oral

Sistemas conversores de texto-a-voz
Los primeros se basan en la reproducción de segmentos de voz grabados
previamente. Por ejemplo, en el caso de información de telefónica. El problema es que
solo permiten sintetizar un número muy limitado de frases.
Son estos últimos los más complejos de implementar y de mayor uso de recursos, pero
a cambio proveen mayor flexibilidad pues son capaces de convertir cualquier cadena
de texto de entrada de un lenguaje a una señal de voz en dicho lenguaje, y por
consiguiente serán éstos objeto de investigación de este proyecto.
Hay dos tecnologías principales usadas para generar habla sintética: síntesis
concatenativa y síntesis de formantes.
La síntesis concatenativa
Se basa en la concatenación de segmentos de voz pregrabada. La voz es grabada
teniendo en cuenta la recolección de la mayor calidad y fidelidad en el resultado. Luego
los segmentos establecidos son concatenados en tiempo de ejecución para reconstruir
una expresión particular.
En la actualidad existen tres tipos fundamentales de síntesis concatenativa:

Síntesis por selección de unidades: la base de datos que contiene la voz
pregrabada pasa por un proceso de segmentación y marca de unidades o
elementos lingüísticos suprasegmentales, según Kominek, Bennett y Black
tales unidades pueden ser: oraciones, frases, palabras, sílabas y fonemas y
disílabas, con ellas se crea un índice o diccionario en el cual se identifica cada
elemento de acuerdo a características acústicas: el inicio y fin del sonidos
perteneciente al elemento, el pitch , la duración y los elementos vecinos.
Durante la producción de voz se sigue la mejor secuencia de elementos
candidatos de acuerdo a un árbol de decisión elaborado. O'shaughnessy[5]
sostuvo que la granularidad de la unidad de síntesis y las reglas para su
adecuado enlace diferencian a los sistemas de síntesis de voz de los que solo
dan respuestas monótonas en voz y no son capaces de mostrar interacción.

Síntesis por difonos: según Black y Lenzo [3] en este tipo de síntesis el
elemento suprasegmental a ser utilizado es el difono, un difono son dos
porciones de fonemas adyacentes que se cortan en la región más estable del
fonema, el centro, de modo que se pueden aminorar los problemas de la
transición de un fonema al otro, comunmente conocidos como co-articulación.
La base de datos en este tipo de síntesis es de menor tamaño que en la
selección de unidades, pues se concentra en almacenar todos los difonos que
pueden aparecer en un lenguaje en particular, el número de difonos varia de
acuerdo a la fonotáctica del lenguaje, en el caso del castellano son 800
difonos. En tiempo de ejecución la prosodia se debe aplicar sobre los difonos
para establecer la correcta entonación, fuerza, y duración de acuerdo al
contexto dentro del cual se encuentra el texto, esto se realiza a través de
Reglas de transición.

Síntesis limitada para un dominio: de acuerdo con Black y Lenzo[4] en este
tipo de síntesis el proceso entero se modela para un dominio específico, la
base de datos está constituida por palabras o frases que son usadas en ese
contexto y permite la producción de habla más completa. Su uso está orientado
a aplicaciones donde la variedad de los textos a producir se halle en contexto
fijo, permitiendo la recolección de palabras o frases y su frecuencia de uso.
La síntesis por formantes
La síntesis de formantes no usa muestras de habla humana en tiempo de ejecución. En
lugar de eso, la salida se crea utilizando un modelo acústico.Esta síntesis se apoya
sobre el análisis del sonido que constituye la voz En efecto, los especialistas en
acústica se dieron cuenta de que las resonancias del conducto vocal favorecían
algunas zonas de frecuencia específicas al fonema pronunciado. Los especialistas en
acústica llamaron estas zonas de frecuencia "formantes". Un formante está
caracterizado por su frecuencia (altura) y su energía (fuerza). Los parámetros como la
frecuencia fundamental y los niveles de ruido se varían durante el tiempo para crear
una forma de onda o habla artificia. Determinan el timbre particular de cada vocal y
definen las características individuales de las voces. Cada palabra emitida puede
definirse en términos de las frecuencias formantes propias de cada individuo.Los
sintetizadores por formantes, modelan la resonancia del tracto vocal aplicando filtros
para generar cada formante. Los filtros son ajustables y poseen parámetros definibles
mediante reglas. Éstas indican cómo modificar los parámetros entre un sonido y otro
sin perder la continuidad presente en los sistemas de generación de voz físicos.
Los sintetizadores por formantes involucran un procedimiento manipulable y flexible,
son capaces de generar diversas voces modificando parámetros de sus filtros. Sin
embargo, en la síntesis automática se necesita un número enorme de reglas, lo que
requiere compiladores cada vez más sofisticados, capaces de integrar todo el
conocimiento que se adquiere a base de experimentar con el sistema
Muchos sistemas basados en síntesis de formantes generan habla robótica y de
apariencia artificial, y la salida nunca se podría confundir con la voz humana. Sin
embargo, dado que los sistemas basados en formantes tienen un control total sobre
todos los aspectos del habla producida, pueden incorporar una amplia variedad de
tipos de entonaciones, que no sólo comprendan preguntas y enunciaciones.
Generalmente, la síntesis concatenativa produce los resultados más naturales. Sin
embargo, la variación natural del habla y las técnicas automatizadas de segmentación
de formas de onda resultan en defectos audibles, que conllevan una pérdida de
naturalidad.
Para lograr que un sintetizador genere enunciados completos son necesarios como
mínimo dos aspectos esenciales: en primer lugar, la información sobre el modo como
los sonidos del habla se enlazan unos con otros o, expresado en terminología de los
sistemas de síntesis, se concatenan; y en segundo lugar, la información sobre las
propiedades más globales del enunciado, agrupadas generalmente bajo la
denominación de prosodia o elementos suprasegmentales. A continuación haremos un
breve repaso a ambos aspectos.
Co-articulación
En cualquier representación acústica del habla puede observarse que los sonidos no se
producen de manera aislada, sino que se encadenan unos con otros, solapándose
muchas veces las propiedades de un sonido con las de otro lo que hace que se
influyan mutuamente y que sea difícil deslindarlos entre sí, así la forma acústica de un
fonema depende fuertemente del contexto acústico en el que sucede. Este fenómeno
se conoce en fonética como coarticulación y se relaciona con la velocidad y la
coordinación de los movimientos del tracto vocal. Es habitual que, por ejemplo, en una
vocal producida entre dos consonantes de las denominadas nasales (en las que como
en [m] el aire sale también por la cavidad nasal), se aprecie una cierta nasalización
como resultado de la influencia de las consonantes adyacentes.
De forma análoga, en el paso de una consonante oclusiva como [p], [t] o [k] –articulada
con una obstrucción de la salida del aire seguida de una liberación del aire acumulado
durante el cierre del tracto vocal– a una vocal, pueden observarse en un
espectrograma los cambios de configuración de la cavidad bucal en el cambio de un
sonido a otro, en forma de las llamadas transiciones de los formantes.
Unidades de la síntesis suprasegmentales
Conseguir habla sintetizada de calidad a base de concatenar sonidos aislados e
intentando imitar el resultado acústico de los movimientos del tracto vocal en las
transiciones entre sonidos es una operación muy difícil. Por ello, las unidades a partir
de las cuales se construye un sistema de síntesis no suelen ser sonidos aislados, sino
combinaciones de sonidos.
Son habituales los denominados difonemas, que consisten en una combinación entre la
mitad del primer sonido y la mitad del segundo, o las semisílabas, formadas por el
primer sonido completo y la mitad del segundo. Con ello se persigue que al concatenar
las unidades la unión se produzca por las partes en las que existe una menor variación
acústica (típicamente en el «centro» de un sonido) y no por aquellas en las que se
encuentra la transición de un sonido a otro. Para sintetizar la palabra casa mediante
difonemas se recurriría a juntar [ka] con [as] y [as] con [sa], de modo que la unión de
realizaría entre dos mitades de [a] y entre dos mitades de [s], zonas en las que la
cavidad bucal se mantiene en una posición relativamente estable en comparación con
el momento de cambio de [k] a [a] o de [s] a [a].
En un sistema de síntesis real, se dispondrá pues de la grabación de todos los
difonemas existentes en la lengua para la que se desarrolla el sistema (el conjunto que
constituye el diccionario de unidades de síntesis), y, para cada una de ellos se
guardará debidamente codificada la información correspondiente a las propiedades
acústicas que necesitan la fuente y el filtro del sintetizador para su reproducción.
Prosodia
Sin embargo, aún concatenando el conjunto de difonemas necesario para producir un
enunciado, es preciso abordar otro aspecto fundamental, la prosodia, para que el
enunciado se aproxime al máximo al habla natural. Los elementos que constituyen los
rasgos prosódicos de un enunciado son, esencialmente, la duración, la intensidad y la
melodía.
Por una parte, la duración de cada uno de los sonidos no es siempre la misma, pues se
ve influida por diversos factores, como la velocidad a la que se habla, los sonidos
anteriores o posteriores, el hecho de que aparezcan en una sílaba acentuada o no, la
realización de una pausa, etc. Por ello, los sistemas de síntesis disponen de reglas que
permiten alterar la duración de cada uno de los sonidos originalmente recogido en el
diccionario de unidades para adaptarla en propiedad al habla natural en un
determinado contexto o en un determinado tipo de frase.
Algo similar puede decirse respecto a la intensidad, responsable de que un sonido se
perciba con mayor fuerza que otro. Puede observarse fácilmente que un sonido no
posee la misma intensidad al principio de un enunciado que al final, por lo que es
preciso realizar algún ajuste si se desea una síntesis natural.
En tercer lugar, los enunciados que producimos poseen una melodía específica. La
melodía es responsable de la variación en la frecuencia de vibración de las cuerdas
vocales o, en términos acústicos, la variación a lo largo del tiempo de la frecuencia
fundamental, que puede ser importante, por ejemplo, para distinguir Ha llegado de ¿Ha
llegado? y de ¡Ha llegado!.
En la síntesis tiene que ser posible «imitar» los cambios melódicos que dotan de
diferente significado a los enunciados. Para ello es preciso aplicar lo que se denomina
un patrón melódico, obtenido a partir del análisis de la entonación en el habla natural,
estudiada a partir de representaciones acústicas conocidas como curvas melódicas.
El patrón se aplica a cada una de las oraciones, reproduciendo los cambios en la
melodía que se darían en ese mismo enunciado pronunciado por un hablante humano.
Ésta es uno de las áreas a los que actualmente se dedican más esfuerzos en el campo
de la síntesis. La melodía de un enunciado no sólo se relaciona con su modalidad
(enunciativa, interrogativa y exclamativa en el caso de los ejemplos anteriores), sino
también con otros aspectos de su significado, como la intención del hablante de
comunicar determinados matices o determinados estados de ánimo.
Alofonías
Un problema importante dentro de la síntesis de voz lo constituyen las alofonías: los
diversos sonidos similares que pertenecen a un mismo fonema, esto quiere decir que
un mismo fonema puede poseer varios sonidos distintos dependiendo del contexto en
el cual se encuentre. Tratar con la identificación adecuada del alófono que corresponde
a un fonema en un contexto dado es uno de los temas de mayor estudio en la
actualidad.
Reconstrucción de la máquina parlante de von Kempelen realizada por Wheatstone.
A finales del mismo año Alexander Graham Bell, inspirado por la máquina parlante de
Wheatstone y ayudado por su padre y hermano construye una “cabeza parlante”
recreando el cráneo, garganta y laringe de un ser humano, así mismo Bell realizó
experimentos en la manipulación de cuerdas vocales en seres vivos, con el terrier de la
familia,obteniendo sonidos parecidos al habla humana por medios de modificaciones al
tracto vical del perro mientras él gruñia.
Pronto los modelos mecánicos fueron dando paso a la síntesis mediantes modelos
electrónicos, así a fines del siglo diecinueve, antes de que las herramientas como el
espectrograma estuvieran disponibles para estudiar la señal de discurso, H.L.F. von
Helmholtz y otros científicos estudiaron la relación entre el espectro y el sonido
resultante. Postularon que los sonidos del discurso pueden ser producidos
cuidadosamente controlando la intensidad relativa de diversas regiones del espectro y
que, por lo tanto, podrían generar voz por medios eléctricos en vez mecánicamente.
Helmholtz también estudió la influencia de la forma de diversas cavidades en sus
frecuencias de la resonancia. En 1922 J.Q. Stewart presentó el primer dispositivo
eléctrico de sintesis. El sintetizador tenía un zumbador como excitación y dos circuitos
resonantes para modelar las resonancias acústicas de la zona vocal. La máquina podía
generar solos sonidos estáticos vocales con los dos armónicos más bajos, pero
ninguna consonante o elocuciones conectadas.
La misma clase de sintetizador fue hecha por Wagner. El dispositivo consistió en cuatro
resonadores eléctricos conectados paralelamente y fue excitado por a zumbido-como
fuente. Las salidas de los cuatro resonadores fueron combinadas en las amplitudes
apropiadas para producir espectros de la zona vocal. En 1932 investigadores
japoneses Obata y Teshima descubrieron el tercer armónico en las vocales (Schroeder
1993). Los tres primeros armónicos se consideran generalmente ser bastantes para el
discurso sintético inteligible.
El primer dispositivo de “Síntesis de Voz” fue el VODER(Voice Operating Demonstrator)
presentado por Homer Dudley en New York en 1939, este dispositivo se inspiraba en el
VOCODER(Voice Coder)un analizador y sintetizador del habla construído hacía
algunos años en los laboratorios Bell que era manipulado por teclado, pero con la
diferencia del control de la frecuencia fundamental mediante un pedal. La señal de la
fuente era encaminada a través de diez filtros sintonizados cuyos niveles de producción
eran controlados por los dedos. La calidad y la inteligibilidad de discurso estaban lejos
de buenos pero el potencial para producir discurso artificial fue demostrado.
Esquema del sintetizador de voz VODER
Después de la demostración del VODER el mundo científico se comenzó a interesar
mucho más por la síntesis de habla, el propósito principal era probar finalmente que el
discurso inteligible podía ser producido por medios artificiales, surgió entonces interés
por parte de la comunidad electrónica aportando métodos para analizar la fisiología y
acústica de la señal producida al hablar, poniendo especial interés en la natural
resonancia del sistema vocal y la importancia para la inteligibilidad de preservar los
tiempos cortos de la diversas amplitudes del espectro.Con estas metas se diseñaron
diversos modelos en las décadas siguientes, distinguiendo la fuente de la señal con
tonos armónicos, periodicos y no periódicos dependiendo de las características del
sonido a producir.
Por lo menos desde 1970, el desarrollo de la síntesis de discurso fue asociado de
cerca a informática en general. Ahora, los circuitos eléctricos no eran suficiente para
simular la producción de discurso natural, pero estos circuitos acaban de ser simulados
por programas informáticos. Las computadoras permitieron utilizar la síntesis de
discurso para los propósitos prácticos, y varios sistemas con la función de convertir el
texto al discurso fueron desarrollados.
En 1979, Allen Hunnicutt, y Klatt demostraron el sistema Texto-a-voz del laboratorio de
MITalk desarrollado en M.I.T. El sistema fue utilizado más adelante también en el
sistema comercial Telesensory Systems Inc. (TSI) TTS con algunas modificaciones .
Dos años más adelante Dennis Klatt introdujeo su sistema Klattalk, que utilizó una
nueva y sofisticada fuente de voz. La incorporación de un explorador óptico en los
sintetizadores fue introducida por Kurzweil en 1976. Las máquinas de lectura de
Kurzweil, eran capaces leer absolutamente bien el texto escrito de diferentes tipos de
caracteres. Sin embargo, el sistema era demasiado costoso lejano para los clientes
medios, pero fue utilizado en bibliotecas y centros de servicio para las personas con
deficiencias visuales
Entre 1970 y 1980 una considerable cantidad de productos comerciales de la síntesis
texto-a-voz y de discurso fueron introducidos.
Pronto se diseñaron e implementaron circuitos electrónicos integrados para dar soporte
a la síntesis de voz desarrollada mediante computadores.
Documentos relacionados
Descargar