1.1 Marco Conceptual El habla humana es una señal de sonido usada para la comunicación de la lengua. Superficialmente, la señal de habla es similar al sonido producido por un instrumento musical, aunque es más flexible y variada, pues tenemos la capacidad de producir sonidos “sonoros” y “sordos” con un solo instrumento, nuestro sistema del habla. Nuestra flexibilidad más grande, sin embargo, viene de la capacidad natural de variar la forma de nuestro instrumento, la zona vocal. La mayoría de los instrumentos musicales son estructuras rígidas y así produzcen un sonido con un timbre único asociado a su clase particular de instrumentos. Esta facilidad humana para producir una variedad de sonidos es la base para nuestra habilidad de hablar. Combinando una pequeña cantidad de sonidos para producir una gran cantidad de palabras, podemos producir un número ilimitado de oraciones. A los diversos sonidos que componen el habla los llamamos fonemas. La señal del habla y sus fonemas constitutivos se pueden obtener en forma visual con un espectrograma de los sonidos, conocido comúnmente como espectrograma de la voz. Aunque los espectrogramas sean extremadamente útiles para visualizar acontecimientos de discurso, siguen siendo también complejo para que las computadoras extraigan la información apropiada de ellas. Hoy, las computadoras pueden realizar confiablemente la verificación de la voz, no usando un espectrograma sino con las técnicas prestadas del reconocimiento de discurso automático. La síntesis de habla o síntesis de voz es entendida de acuerdo con Jurafsky[2] como la producción artificial de habla humana por medio de una señal acústica. Un sistema usado con este propósito recibe el nombre de sintetizador de habla y puede llevarse a cabo en softwareo en hardware. La síntesis de voz se llama a menudo en inglés text-tospeech (TTS), en referencia a su capacidad de convertir texto en habla. Sin embargo, hay sistemas que en lugar de producir voz a partir de texto lo hacen a partir de representación lingüística simbólica en habla. Científicamente la síntesis de voz es una línea de investigación que forma parte del Procesamiento de Lenguaje Natural (PLN), el que a la vez es un campo de la inteligencia artificial y la lingüística computacional, que se dedica al estudio de los problemas de generación automática de voz y el entendimiento del lenguaje humano. Las dos características utilizadas para describir la calidad de un sintetizador de voz son la naturalidad e inteligibilidad. La naturalidad de un sintetizador de voz se refiere a hasta qué punto suena como la voz de una persona real. La inteligibilidad de un sintetizador se refiere a la facilidad de la salida de poder ser entendida. El sintetizador ideal debe de ser a la vez natural e inteligible, y cada tecnología intenta conseguir el máximo de ambas. Algunas de las tecnologías son mejores en naturalidad o en inteligibilidad y las metas de la síntesis determinan a menudo qué aproximación debe seguirse. Actualmente los sitemas que se ocupan de la producción de voz sintética se diiden endos grandes grupos: Sistemas de respuesta oral Sistemas conversores de texto-a-voz Los primeros se basan en la reproducción de segmentos de voz grabados previamente. Por ejemplo, en el caso de información de telefónica. El problema es que solo permiten sintetizar un número muy limitado de frases. Son estos últimos los más complejos de implementar y de mayor uso de recursos, pero a cambio proveen mayor flexibilidad pues son capaces de convertir cualquier cadena de texto de entrada de un lenguaje a una señal de voz en dicho lenguaje, y por consiguiente serán éstos objeto de investigación de este proyecto. Hay dos tecnologías principales usadas para generar habla sintética: síntesis concatenativa y síntesis de formantes. La síntesis concatenativa Se basa en la concatenación de segmentos de voz pregrabada. La voz es grabada teniendo en cuenta la recolección de la mayor calidad y fidelidad en el resultado. Luego los segmentos establecidos son concatenados en tiempo de ejecución para reconstruir una expresión particular. En la actualidad existen tres tipos fundamentales de síntesis concatenativa: Síntesis por selección de unidades: la base de datos que contiene la voz pregrabada pasa por un proceso de segmentación y marca de unidades o elementos lingüísticos suprasegmentales, según Kominek, Bennett y Black tales unidades pueden ser: oraciones, frases, palabras, sílabas y fonemas y disílabas, con ellas se crea un índice o diccionario en el cual se identifica cada elemento de acuerdo a características acústicas: el inicio y fin del sonidos perteneciente al elemento, el pitch , la duración y los elementos vecinos. Durante la producción de voz se sigue la mejor secuencia de elementos candidatos de acuerdo a un árbol de decisión elaborado. O'shaughnessy[5] sostuvo que la granularidad de la unidad de síntesis y las reglas para su adecuado enlace diferencian a los sistemas de síntesis de voz de los que solo dan respuestas monótonas en voz y no son capaces de mostrar interacción. Síntesis por difonos: según Black y Lenzo [3] en este tipo de síntesis el elemento suprasegmental a ser utilizado es el difono, un difono son dos porciones de fonemas adyacentes que se cortan en la región más estable del fonema, el centro, de modo que se pueden aminorar los problemas de la transición de un fonema al otro, comunmente conocidos como co-articulación. La base de datos en este tipo de síntesis es de menor tamaño que en la selección de unidades, pues se concentra en almacenar todos los difonos que pueden aparecer en un lenguaje en particular, el número de difonos varia de acuerdo a la fonotáctica del lenguaje, en el caso del castellano son 800 difonos. En tiempo de ejecución la prosodia se debe aplicar sobre los difonos para establecer la correcta entonación, fuerza, y duración de acuerdo al contexto dentro del cual se encuentra el texto, esto se realiza a través de Reglas de transición. Síntesis limitada para un dominio: de acuerdo con Black y Lenzo[4] en este tipo de síntesis el proceso entero se modela para un dominio específico, la base de datos está constituida por palabras o frases que son usadas en ese contexto y permite la producción de habla más completa. Su uso está orientado a aplicaciones donde la variedad de los textos a producir se halle en contexto fijo, permitiendo la recolección de palabras o frases y su frecuencia de uso. La síntesis por formantes La síntesis de formantes no usa muestras de habla humana en tiempo de ejecución. En lugar de eso, la salida se crea utilizando un modelo acústico.Esta síntesis se apoya sobre el análisis del sonido que constituye la voz En efecto, los especialistas en acústica se dieron cuenta de que las resonancias del conducto vocal favorecían algunas zonas de frecuencia específicas al fonema pronunciado. Los especialistas en acústica llamaron estas zonas de frecuencia "formantes". Un formante está caracterizado por su frecuencia (altura) y su energía (fuerza). Los parámetros como la frecuencia fundamental y los niveles de ruido se varían durante el tiempo para crear una forma de onda o habla artificia. Determinan el timbre particular de cada vocal y definen las características individuales de las voces. Cada palabra emitida puede definirse en términos de las frecuencias formantes propias de cada individuo.Los sintetizadores por formantes, modelan la resonancia del tracto vocal aplicando filtros para generar cada formante. Los filtros son ajustables y poseen parámetros definibles mediante reglas. Éstas indican cómo modificar los parámetros entre un sonido y otro sin perder la continuidad presente en los sistemas de generación de voz físicos. Los sintetizadores por formantes involucran un procedimiento manipulable y flexible, son capaces de generar diversas voces modificando parámetros de sus filtros. Sin embargo, en la síntesis automática se necesita un número enorme de reglas, lo que requiere compiladores cada vez más sofisticados, capaces de integrar todo el conocimiento que se adquiere a base de experimentar con el sistema Muchos sistemas basados en síntesis de formantes generan habla robótica y de apariencia artificial, y la salida nunca se podría confundir con la voz humana. Sin embargo, dado que los sistemas basados en formantes tienen un control total sobre todos los aspectos del habla producida, pueden incorporar una amplia variedad de tipos de entonaciones, que no sólo comprendan preguntas y enunciaciones. Generalmente, la síntesis concatenativa produce los resultados más naturales. Sin embargo, la variación natural del habla y las técnicas automatizadas de segmentación de formas de onda resultan en defectos audibles, que conllevan una pérdida de naturalidad. Para lograr que un sintetizador genere enunciados completos son necesarios como mínimo dos aspectos esenciales: en primer lugar, la información sobre el modo como los sonidos del habla se enlazan unos con otros o, expresado en terminología de los sistemas de síntesis, se concatenan; y en segundo lugar, la información sobre las propiedades más globales del enunciado, agrupadas generalmente bajo la denominación de prosodia o elementos suprasegmentales. A continuación haremos un breve repaso a ambos aspectos. Co-articulación En cualquier representación acústica del habla puede observarse que los sonidos no se producen de manera aislada, sino que se encadenan unos con otros, solapándose muchas veces las propiedades de un sonido con las de otro lo que hace que se influyan mutuamente y que sea difícil deslindarlos entre sí, así la forma acústica de un fonema depende fuertemente del contexto acústico en el que sucede. Este fenómeno se conoce en fonética como coarticulación y se relaciona con la velocidad y la coordinación de los movimientos del tracto vocal. Es habitual que, por ejemplo, en una vocal producida entre dos consonantes de las denominadas nasales (en las que como en [m] el aire sale también por la cavidad nasal), se aprecie una cierta nasalización como resultado de la influencia de las consonantes adyacentes. De forma análoga, en el paso de una consonante oclusiva como [p], [t] o [k] –articulada con una obstrucción de la salida del aire seguida de una liberación del aire acumulado durante el cierre del tracto vocal– a una vocal, pueden observarse en un espectrograma los cambios de configuración de la cavidad bucal en el cambio de un sonido a otro, en forma de las llamadas transiciones de los formantes. Unidades de la síntesis suprasegmentales Conseguir habla sintetizada de calidad a base de concatenar sonidos aislados e intentando imitar el resultado acústico de los movimientos del tracto vocal en las transiciones entre sonidos es una operación muy difícil. Por ello, las unidades a partir de las cuales se construye un sistema de síntesis no suelen ser sonidos aislados, sino combinaciones de sonidos. Son habituales los denominados difonemas, que consisten en una combinación entre la mitad del primer sonido y la mitad del segundo, o las semisílabas, formadas por el primer sonido completo y la mitad del segundo. Con ello se persigue que al concatenar las unidades la unión se produzca por las partes en las que existe una menor variación acústica (típicamente en el «centro» de un sonido) y no por aquellas en las que se encuentra la transición de un sonido a otro. Para sintetizar la palabra casa mediante difonemas se recurriría a juntar [ka] con [as] y [as] con [sa], de modo que la unión de realizaría entre dos mitades de [a] y entre dos mitades de [s], zonas en las que la cavidad bucal se mantiene en una posición relativamente estable en comparación con el momento de cambio de [k] a [a] o de [s] a [a]. En un sistema de síntesis real, se dispondrá pues de la grabación de todos los difonemas existentes en la lengua para la que se desarrolla el sistema (el conjunto que constituye el diccionario de unidades de síntesis), y, para cada una de ellos se guardará debidamente codificada la información correspondiente a las propiedades acústicas que necesitan la fuente y el filtro del sintetizador para su reproducción. Prosodia Sin embargo, aún concatenando el conjunto de difonemas necesario para producir un enunciado, es preciso abordar otro aspecto fundamental, la prosodia, para que el enunciado se aproxime al máximo al habla natural. Los elementos que constituyen los rasgos prosódicos de un enunciado son, esencialmente, la duración, la intensidad y la melodía. Por una parte, la duración de cada uno de los sonidos no es siempre la misma, pues se ve influida por diversos factores, como la velocidad a la que se habla, los sonidos anteriores o posteriores, el hecho de que aparezcan en una sílaba acentuada o no, la realización de una pausa, etc. Por ello, los sistemas de síntesis disponen de reglas que permiten alterar la duración de cada uno de los sonidos originalmente recogido en el diccionario de unidades para adaptarla en propiedad al habla natural en un determinado contexto o en un determinado tipo de frase. Algo similar puede decirse respecto a la intensidad, responsable de que un sonido se perciba con mayor fuerza que otro. Puede observarse fácilmente que un sonido no posee la misma intensidad al principio de un enunciado que al final, por lo que es preciso realizar algún ajuste si se desea una síntesis natural. En tercer lugar, los enunciados que producimos poseen una melodía específica. La melodía es responsable de la variación en la frecuencia de vibración de las cuerdas vocales o, en términos acústicos, la variación a lo largo del tiempo de la frecuencia fundamental, que puede ser importante, por ejemplo, para distinguir Ha llegado de ¿Ha llegado? y de ¡Ha llegado!. En la síntesis tiene que ser posible «imitar» los cambios melódicos que dotan de diferente significado a los enunciados. Para ello es preciso aplicar lo que se denomina un patrón melódico, obtenido a partir del análisis de la entonación en el habla natural, estudiada a partir de representaciones acústicas conocidas como curvas melódicas. El patrón se aplica a cada una de las oraciones, reproduciendo los cambios en la melodía que se darían en ese mismo enunciado pronunciado por un hablante humano. Ésta es uno de las áreas a los que actualmente se dedican más esfuerzos en el campo de la síntesis. La melodía de un enunciado no sólo se relaciona con su modalidad (enunciativa, interrogativa y exclamativa en el caso de los ejemplos anteriores), sino también con otros aspectos de su significado, como la intención del hablante de comunicar determinados matices o determinados estados de ánimo. Alofonías Un problema importante dentro de la síntesis de voz lo constituyen las alofonías: los diversos sonidos similares que pertenecen a un mismo fonema, esto quiere decir que un mismo fonema puede poseer varios sonidos distintos dependiendo del contexto en el cual se encuentre. Tratar con la identificación adecuada del alófono que corresponde a un fonema en un contexto dado es uno de los temas de mayor estudio en la actualidad. Reconstrucción de la máquina parlante de von Kempelen realizada por Wheatstone. A finales del mismo año Alexander Graham Bell, inspirado por la máquina parlante de Wheatstone y ayudado por su padre y hermano construye una “cabeza parlante” recreando el cráneo, garganta y laringe de un ser humano, así mismo Bell realizó experimentos en la manipulación de cuerdas vocales en seres vivos, con el terrier de la familia,obteniendo sonidos parecidos al habla humana por medios de modificaciones al tracto vical del perro mientras él gruñia. Pronto los modelos mecánicos fueron dando paso a la síntesis mediantes modelos electrónicos, así a fines del siglo diecinueve, antes de que las herramientas como el espectrograma estuvieran disponibles para estudiar la señal de discurso, H.L.F. von Helmholtz y otros científicos estudiaron la relación entre el espectro y el sonido resultante. Postularon que los sonidos del discurso pueden ser producidos cuidadosamente controlando la intensidad relativa de diversas regiones del espectro y que, por lo tanto, podrían generar voz por medios eléctricos en vez mecánicamente. Helmholtz también estudió la influencia de la forma de diversas cavidades en sus frecuencias de la resonancia. En 1922 J.Q. Stewart presentó el primer dispositivo eléctrico de sintesis. El sintetizador tenía un zumbador como excitación y dos circuitos resonantes para modelar las resonancias acústicas de la zona vocal. La máquina podía generar solos sonidos estáticos vocales con los dos armónicos más bajos, pero ninguna consonante o elocuciones conectadas. La misma clase de sintetizador fue hecha por Wagner. El dispositivo consistió en cuatro resonadores eléctricos conectados paralelamente y fue excitado por a zumbido-como fuente. Las salidas de los cuatro resonadores fueron combinadas en las amplitudes apropiadas para producir espectros de la zona vocal. En 1932 investigadores japoneses Obata y Teshima descubrieron el tercer armónico en las vocales (Schroeder 1993). Los tres primeros armónicos se consideran generalmente ser bastantes para el discurso sintético inteligible. El primer dispositivo de “Síntesis de Voz” fue el VODER(Voice Operating Demonstrator) presentado por Homer Dudley en New York en 1939, este dispositivo se inspiraba en el VOCODER(Voice Coder)un analizador y sintetizador del habla construído hacía algunos años en los laboratorios Bell que era manipulado por teclado, pero con la diferencia del control de la frecuencia fundamental mediante un pedal. La señal de la fuente era encaminada a través de diez filtros sintonizados cuyos niveles de producción eran controlados por los dedos. La calidad y la inteligibilidad de discurso estaban lejos de buenos pero el potencial para producir discurso artificial fue demostrado. Esquema del sintetizador de voz VODER Después de la demostración del VODER el mundo científico se comenzó a interesar mucho más por la síntesis de habla, el propósito principal era probar finalmente que el discurso inteligible podía ser producido por medios artificiales, surgió entonces interés por parte de la comunidad electrónica aportando métodos para analizar la fisiología y acústica de la señal producida al hablar, poniendo especial interés en la natural resonancia del sistema vocal y la importancia para la inteligibilidad de preservar los tiempos cortos de la diversas amplitudes del espectro.Con estas metas se diseñaron diversos modelos en las décadas siguientes, distinguiendo la fuente de la señal con tonos armónicos, periodicos y no periódicos dependiendo de las características del sonido a producir. Por lo menos desde 1970, el desarrollo de la síntesis de discurso fue asociado de cerca a informática en general. Ahora, los circuitos eléctricos no eran suficiente para simular la producción de discurso natural, pero estos circuitos acaban de ser simulados por programas informáticos. Las computadoras permitieron utilizar la síntesis de discurso para los propósitos prácticos, y varios sistemas con la función de convertir el texto al discurso fueron desarrollados. En 1979, Allen Hunnicutt, y Klatt demostraron el sistema Texto-a-voz del laboratorio de MITalk desarrollado en M.I.T. El sistema fue utilizado más adelante también en el sistema comercial Telesensory Systems Inc. (TSI) TTS con algunas modificaciones . Dos años más adelante Dennis Klatt introdujeo su sistema Klattalk, que utilizó una nueva y sofisticada fuente de voz. La incorporación de un explorador óptico en los sintetizadores fue introducida por Kurzweil en 1976. Las máquinas de lectura de Kurzweil, eran capaces leer absolutamente bien el texto escrito de diferentes tipos de caracteres. Sin embargo, el sistema era demasiado costoso lejano para los clientes medios, pero fue utilizado en bibliotecas y centros de servicio para las personas con deficiencias visuales Entre 1970 y 1980 una considerable cantidad de productos comerciales de la síntesis texto-a-voz y de discurso fueron introducidos. Pronto se diseñaron e implementaron circuitos electrónicos integrados para dar soporte a la síntesis de voz desarrollada mediante computadores.