Materia: Síntesis de voz Maestro: Dr. Felipe Orduña Bustamante

Materia: Síntesis de voz Maestro: Dr. Felipe Orduña Bustamante Alumna: María Luisa Solórzano Marcial Capitulo 16 La voz humana en el canto y el discurso Thomas D. Rossing (Ed.) © Springer 2007 Springer Handbook of Acoustics En este capítulo se describen diversos aspectos de la voz humana como medio de comunicación en el discurso y el canto. Desde el punto de vista de su función, los sonidos vocales puede considerarse como el resultado final de un proceso de tres etapas: (1) la compresión de aire en el sistema respiratorio, que produce una exhalación de aire (2) la vibración vocal unos pliegues transforman este flujo de aire en una intermitente o pulsante corriente de aire, que es un tono complejo que procede de la fuente de voz (3), el filtrado de este tono complejo en el tracto vocal resonador. La función principal del sistema respiratorio es generar una sobrepresión de aire debajo de la glotis, o una presión subglotal. La Sección 16.1 describe los diferentes aspectos del sistema respiratorio, que son de importancia para el habla y el canto, incluyendo rangos de volumen pulmonar, presión subglotal, y cómo esta presión se ve afectada algunas veces por diferentes fuerzas de retroceso. El tono complejo generado, cuando la corriente de aire de los pulmones pasa por los pliegues de la vibración vocal puede variar en al menos tres dimensiones: frecuencia fundamental, la amplitud y el espectro. Sección 16.2 describe cómo estas propiedades de la fuente de voz, son afectados por la presión subglotal la longitud y la rigidez de las cuerdas vocales así como la firmeza de los pliegues vocales son aducidos?. La Sección 16.3 da cuenta del filtro del tracto vocal, ¿cómo se determina la forma de las frecuencias de sus resonancias y secciones. 16.4 da cuenta de cómo estas frecuencias resonantes o formantes se forman mediante la imposición de sonidos vocales. los picos del espectro separados de los valles del espectro y cómo la frecuencia de estos picos determinan las cualidades de la voz. El resto de las secciones del capítulo describen diversos aspectos de las señales acústicas utilizadas para la comunicación oral, en el habla y el canto. La estructura de la sílaba es discutido en la sección. 16.5. Aspectos estrechamente relacionados con la ritmicidad en el habla y el canto describen en la sección. 16,6, se Los aspectos de tono y ritmo en la sección 16.7. El impresionante control de todas estas características acústicas de las señales de voz es discutido en la sección. 16.8, mientras que la Sección. 16,9 considera aspectos expresivos de la comunicación oral. Durante la inspiración, el volumen de la cavidad torácica se expande y acumula aire en los pulmones. Esto ocurre principalmente debido a la contracción de los intercostales externos y el diafragma. los músculos intercostales externos elevan las costillas. el diafragma es en músculo en forma de cúpula situado por debajo de los pulmones, se aplana sobre la contracción y, por tanto, reduce el suelo de la cavidad torácica La estructura de las vías respiratorias es un elástico sistema mecánico que produce la presión en la espiración o inspiración subglotal, dependiendo del tamaño del volumen pulmonar. Fig. 16.2. Por lo tanto, la inhalación y la exhalación se producen siempre que se tenga el efecto de las fuerzas para mover las costillas y los pulmones vuelvan a su estado de reposo, a menudo referida como el nivel de reposo espiratorio (REL). (Resting expiratory level) La respiración profunda, es la mayor fuerza de este retroceso elástico. este componente juega una parte importante en empujar el aire fuera de los pulmones, tanto en el habla y el canto, y especialmente en grandes volúmenes de pulmón. La elasticidad de las fuerzas proceden tanto de la caja torácica y los pulmones. como se ilustra en la Fig. 16.2 la caja torácica produce una fuerza de exhalación en un alto volumen pulmonar y una fuerza de inhalación en un bajo volumen pulmonar y el pulmón siempre ejerce una fuerza exhalatoria. como consecuencia, se necesita la activación de los músculos inspiratorios para producir una baja presión subglotal, por ejemplo, para el canto de un tono en (Pianissimo) con alto volumen pulmonar. Por el contrario, se necesita la activación de los músculos de la espiración, para producir una alta presión subglotal , por ejemplo, para cantar un tono fuerte (Fortissimo), a bajo volumen pulmonar. Además de los factores mecánicos, la exhalación puede implicar la actividad de los intercostales internos y los músculos abdominales. La contracción primera tiene el efecto de la reducción de las costillas y, por tanto, la compresión de la cavidad torácica. La activación de los músculos abdominales hacia arriba genera fuerzas que también contribuirán a reducir el volumen de la caja torácica y los pulmones. La función de estos músculos es la espiración. Fig. 16,2 las presiones Subglotales producidas en diferentes volúmenes de pulmón en un sujeto por el retroceso de las fuerzas de la caja torácica y los pulmones. El nivel de reposo espiratorio (REL)(Resting expiratory level) es el volumen de pulmón en el que las fuerzas de la inhalación y el retroceso exhalatorio son iguales. La delgada y fuerte cadena de líneas de puntos representan presiones subglotales normalmente necesarios para una muy suave y fuerte fonación Fig. 16.3 Definición de los distintos términos para los volúmenes pulmonares. El gráfico ilustra los cambios de volumen pulmonar durante la respiración tranquila interrumpido por una inhalación máxima seguida de una espiración máxima. VC es la capacidad vital (vital capacity), TLC es la capacidad pulmonar total (total lung capacity), IRV y ERV son la inspiración y el volumen espiratorio de reserva (inspiratory reserve volume and expiratory reserve volume), REL es el nivel de reposo espiratorio resting expiratory level), FRC es la capacidad residual functional ( functional residual capacity). Otro factor significativo es la gravedad, cuya función depende de la postura corporal, en una posición vertical, el diafragma y las estructuras adyacentes tienden a ser derribadas, incrementando el volumen de la cavidad torácica. en esta situación, el efecto de la gravedad es inspiratorio. En contraste, en posición supina el diafragma tiende a subir la caja torácica, y se promueve la expiración (16,1). el total de volumen de aire que se encuentra en un máximo de la caja torácica se llama la capacidad pulmonar total / TLC Total lung capacity) en la Fig. 16,3). después de una máxima exhalación un pequeño volumen de aire, el volumen residual, sigue estando a la izquierda de las vías respiratorias. El mayor volumen de aire que puede ser exhalado después de una inhalación máxima se llama la capacidad vital (VC) y, por tanto, es igual a la diferencia entre el TLC y el volumen residual. El volumen pulmonar en el que la inhalación y el retroceso exhalatorio son fuerzas iguales, o REL, se alcanza después de un relajado suspiro, ver Fig. 16.2 y 16.3. Durante la marea de la respiración se inicia la inhalación de REL, de manera que la inhalación es activa como consecuencia de una activación de los músculos inspiratorios. y La exhalación es pasiva, producida por la fuerza en retroceso. en La marea de la respiración sólo alrededor del 10% de VC es inhalado, de modo que una gran parte de la VC, el volumen inspiratorio de reserva, esta a la izquierda. El volumen de aire entre el REL y el volumen residual es el volumen espiratorio de reserva. VC varía en función de la edad, la altura del cuerpo y el género. A la edad de unos 20 años, una mujer adulta tiene una capacidad vital de 3-3.61 en función de la altura corporal, y para los hombres los valores correspondientes son acerca de 4-5.51. Los datos experimentales (16,4) muestran que, durante las mareas de respiración, las variaciones de volumen pulmonar se caracterizan por un patrón sinusoidal cuasi aleatorios alternando con segmentos de inspiración y expiración de plazo de duración aproximadamente igual (Fig. 16,4).en el habla y el canto el patrón es transformado, la inspiración se vuelve cada vez más rápidas y la exhalación se produce en un ritmo constante relativamente lento el aumento de la sonoridad vocal plantea la amplitud de los registros de volumen pulmonar, pero deja su forma relativamente sin cambios Fig. 16,5 el volumen pulmonar promedio utilizado en el habla y el canto operístico, se expresa en porcentaje de la capacidad vital en relación con el nivel de reposo espiratorio REL. La zona sombreada representa la banda media de volumen pulmonar observada en voces de mujeres sin formación, después de un discurso sin guión Fig. 16,2). Los símbolos llenos y vacíos muestran las medidas correspondientes para cantantes de ópera profesional de las clasificaciones indicadas de acuerdo con arias de ópera de Thomasson (16,3). Las barras representan (+ -) una SD Figura 16-5 muestra el promedio de volumen pulmonar utilizado por los cantantes profesionales cantando canciones bien ensayadas. la banda más oscura representa el promedio de volumen pulmonar observado en el habla espontánea (16,2) los volúmenes pulmonares de la voz en conversación son similares a las de las mareas para respirar. Discursos en vivo muestran mayor consumo de aire y, por tanto, mayores volúmenes (Fig. 16,4). El discurso de grupos de aliento muestran normalmente una duración en la respiración de 3-5 segundos y se termina cuando los volúmenes pulmonares se acercan a la relajación espiratoria nivel REL, como se ilustra en la Fig. 16.5. por lo tanto, en la fonación, es mejor evitar los volúmenes pulmonares que están en su mayoría por debajo del REL. Figura 16.6 Los registros muestran el volumen pulmonar (en relación a medidas de nivel respiratorio), la presión subglotal del (esófago) y la estilizada actividad muscular de un orador cuenta de 1 a 32 en el esfuerzo de una conversación vocal. (después de Draper et. al. (16,5). A la izquierda de la línea vertical, las fuerzas de retroceso son fuertemente expiratorio, mientras que a la derecha es inspiratorio. unas flechas se han añadido al eje "x" para resumir el original EMG mediciones que indican que las fuerzas de retroceso se equilibran o balancean por la actividad muscular (EMG = electromiografía, la medición de la actividad eléctrica de los músculos). A la izquierda de la línea vertical (indicando con una flecha que apunta hacia la izquierda) la fuerza muscular inspiratoria, a la derecha es la espiración (flecha que apunta hacia la derecha). para mantener constante el volumen, el orador mantiene una presión subglotal estable y recluta los músculos de acuerdo con el valor actual del volumen pulmonar. Este comportamiento ilustra el fenómeno conocido como equivalencia de motor. En el canto, la respiración de los grupos de alientos tienden a ser aproximadamente del doble de tiempo o más, y el consumo de aire es generalmente mucho mayor que en la conversación de voz. La mayoría de ellos terminan cerca del nivel de la relajación espiratoria como en el discurso, pero a veces se extienden a el volumen espiratorio de reserva como se ilustra en la figura. 16.5 Esto implica que, en el canto, la respiración normalmente empiezan en grupos mucho más altos que en los volúmenes pulmonares del discurso. Este uso de volúmenes altos de pulmón implica que los cantantes tienen que hacer mucho mayor frente a las fuerzas de retroceso que en el habla. La Fig. 16,6 muestra la trama estilizada de un diagrama publicado por Ladefoged et. al. (16,7). En él se resumen las mediciones de volumen pulmonar y la presión subglotal, sobre la cual nos vamos a referir en adelante, Como (Ps), grabado de un orador al que se le pidió tomar una respiración profunda, para a continuación, iniciar el conteo. La intersección de la línea discontinua representa el registro de la Ps relajación de presión. Esta línea nos dice que las fuerzas de retroceso elástico espiratorio están fuertemente a la izquierda de la línea vertical. A la derecha se produce una presión inferior al tope de presión y, finalmente, una presión inspiratoria. La curva Ps sigue siendo bastante plana en todo el enunciado. Fig. 16.7 Ejemplo de variaciones de presión subglotal y “aspectos fonéticos” de la frase oral (después de Netsell (16,6). Dado que la glotis se abre y se cierra con los sonidos de voz, y el tracto vocal se abre y cierra al expresar vocales y consonantes, el aire espirado se opone por diversos grados de impedancia glotal y supraglotal. Tanto la exposición oral y la presión de los registros subglotales reflejan el efecto combinado de estas variaciones de resistencia surge la pregunta: ¿cómo puede esta relativa constancia lograrse a pesar de la continua evolución de la contribución de las fuerzas de la relajación? en una reciente réplica de esta obra clásica (16,8), diversas críticas al estudio original, tratan básicamente la respuesta a esta pregunta: el sistema motor se adapta a el mantenimiento externo de el tope de Ps bastante constante (Fig. 16.6) . inicialmente, cuando las fuerzas de retroceso son fuertes, la actividad muscular es predominantemente en los músculos inspiratorios como el diafragma y los intercostales externos. poco a poco, como las fuerzas de retroceso declinan, los músculos de la expiración (intercostales interiores, y el abdominal recto, entre otros) se encargan de que cada vez más, el otro grupo se relaje (véase flechas, Fig. 16,6). Lo cual según nuestra comprensión actual [16.8, 9], esta adaptación de la respiración en el discurso se logra mediante el constante equilibrio entre la actuación de los músculos agonistas y antagonistas, de conformidad con las condiciones actuales (volumen pulmonar, postura corporal, etc.) y con el objetivo de mantener la constante Ps. La contracción Muscular depende del volumen pulmonar. La Fig.16.7 presenta un ejemplo representativo de los registros de Ps orales La frase es "aspectos fonéticos" (después de Netsell [16,6]). El panel superior muestra un registro de los flujos de aire orales. Las líneas verticales indican el envolvente del segmento acústico. El diagrama de la parte inferior superpone las curvas de la presión oral y subglotal. El PS muestra un patrón de caída que se hace más pronunciada hacia el final de la frase y que recuerda la declinación de la frecuencia fundamental típica del contorno de las sentencias declarativas [16.10, p. 127]. Los valores más altos se producen en la mitad de los puntos de [ E] y [ ae], se hizo hincapié en la pronunciación de las vocales. Para las vocales orales, la presión está cerca de la presión atmosférica.(cerca de cero sobre el eje "y" cm escala H2O). La fonética de [K) y [P] muestran aspectos de huellas muy similares. Como la lengua hace que en el cierre de la [K], el flujo de aire es bloqueado y la traza se reduce a cero. Esto es paralela a la fase oral hasta que el aumento de la presión es igual a la Ps. Como el cierre de la [K] avanza, un ligero aumento se acumula entre las dos curvas. La relajación de la [K] es señalada por un pico en el flujo de aire y una rápida disminución en el PS. Un patrón casi idéntico es visto para [P]. En el análisis de los registros de Ps, el objetivo fonético tiene por objeto determinar las variaciones sobre la base de un control activo del sistema respiratorio y los fenómenos que se pueden atribuir al sistema de respuesta pasiva a otra actividad en curso en otros lugares, por ejemplo, en el tracto vocal y/o en el nivel de las pliegues vocales [16,11]. Para ejemplificar los efectos pasivos pensemos en la sucesos relacionados con [K] y [P] a los que se acaba de hacer referencia. Ya que sugerido por los datos de las Fig. 16,4 y 16,6, la respiración del habla en un producto relativamente estable del decremento del volumen pulmonar. Sin embargo, el estado abierto o cerrado de la glotis, o la presencia de una constricción/cierre del tracto vocal, es capaz de crear distintos grados de impedancia por el aire espirado. El registro de la presión oral refleja el efecto combinado de articulación glotal y variaciones de resistencia. Ps también se ve afectada por tales cambios de condiciones. Como se desprende de la Fig. 16,7, los trazos de Ps durante los segmentos en [K] y [P] primero se incrementa durante el limite de cierre, luego disminuye rápidamente durante la liberación y la fase de aspiración Estos efectos, son respuestas pasivas a la serie de sesiones a base de cambios en la Resistencia supraglotal y no es probable que se programe como activa [16,12, 13]. La Respiración no desempeña un papel activo en la producción de la acentuación de sílabas? En "aspectos fonéticos principalmente se acentúa en (E) y [ae]. En términos de Ps, estas vocales exponen los valores más altos. Están estos dos en una participación activa del sistema respiratorio en la señalización del acento?, o son fortuitos del producto de otros factores? Una primera contribución a la investigación sobre la respiración y el habla es la obra de Stetson [16,14]. Sobre la base de aerodinámica, y las mediciones del movimiento del pecho electromiográficas, Stetson propone el concepto de pulso del pecho como una parte de la actividad correspondiente a la espiración en la producción de una silaba individual. A finales de los años cincuenta, Ladefoged y sus colegas publicaron un estudio electromiográfico [16.7] donde ponen en duda la interpretación de Stetson. Se informó de una mayor actividad en los músculos espiratorios (interno intercostales) para las sílabas en inglés. Ladefoged [16,8] informa sobre los resultados de reproducción en un estudio de 1958 en que una mayor actividad en el interior de los intercostales, en silabas acentuadas se confirmo. Además, se observó que la reducción de actividad en los músculos inspiratorios (intercostales externos)se producía inmediatamente antes de cada acentuación de silaba. Las mediciones de Ps proporcionan una prueba más de un positivo papel en la respiración en la aplicación de presión. Ladefoged establece: “Acompañando cada sílaba acentuada hay siempre un incremento en la Ps”. El efecto de la Ps sobre la frecuencia fundamental ha sido investigado en numerosos estudios. De varias observaciones fonéticas se ha concluido que en la producción de variaciones de F0 en el habla, la Ps sólo juega un papel secundario. El control de F0 está basado primordialmente en la actividad laríngea. Sin embargo, la caída del contorno de F0 de frases con entonación declarativa tiende a tener los contornos de Ps también caídas. Existe una clara evidencia de que la Ps necesita ser cuidadosamente adaptada al objetivo de la frecuencia fundamental en el canto, especialmente en el rango alto. 16.2 La fuente de sonido glotal En discurso y canto el método general para generar sonido es hacer una constricción y dejar un fuerte flujo de aire pasar a través de él. El componente respiratorio sirve como fuente de alimentación proporcionando la energía necesaria para la producción de sonido. En la glotis el flujo constante de aire generado por el componente respiratorio se transforma cuasi periódico en una serie de pulsos glotales. En el tracto vocal , el flujo de aire glotal modificado sufre nuevas modificaciones en las características de la resonancia oral, en la faringe y en las cavidades nasales. Las constricciones se forman en la glotis - ajustando la separación de las cuerdas vocales y por encima de la glotis están posicionados los articuladores del tracto vocal. Como los pliegues se presentan juntos, ellos responden rápidamente a la atmósfera corriendo rápidamente una vibración a través del abrir y cerrar y, por tanto, se impone una modulación de flujo de aire casi periódica. la estructura glotal funciona como un dispositivo que impone una modulación (AC) sobre un flujo (DC). Esto es básicamente el camino como se expresan la fuente de sonido de las vocales y las consonantes y el portador de la entonación y la melodía. Un segundo mecanismo se encuentra en la producción de el ruido, la acústica de las materias primas para voz suena (por ejemplo, [f], [�S], [P], [K]). El término se refiere a las fluctuaciones irregulares en el turbulento flujo de aire que se producen cuando el aire entra a partir de una constricción a alta velocidad. Este proceso puede ocurrir en la glotis - por ejemplo, en el sonido [H] , Como cualidades de susurro o voz velada o en distintos lugares de la articulación del tracto vocal. El marco para describir tanto el canto y el discurso es el de la teoría de la producción en la fuente-filtro del habla [16,27, 28]. El objetivo de esta sección es poner el discurso y el canto de lado a lado dentro de ese marco de trabajo para describir la forma en que el orador y el cantante coordinan la respiración, la fonación y la articulación, de tal forma que el producto final: es la onda acústica que percibe el oyente. Figura 16-12 [16,29] es un intento de capturar unos pocos aspectos clave de las vibraciones vocales. En el centro un único ciclo de una onda glotal se ve. Son parcelas del flujo de aire a través de la glotis en función del tiempo. Alternativamente, el gráfico puede ser utilizado Como imagen de las variaciones del tiempo glotal y el flujo de aire en la zona donde presentan un patrón muy similar. La fila superior muestra estilizada secciones transversales de las cuerdas vocales en determinados momentos a lo largo del ciclo glotal. De izquierda a derecha se refieren a la apertura de los pliegues, el punto máximo de la zona y el punto de cierre. A continuación se muestra una vista de las cuerdas vocales desde arriba correspondientes a los perfiles en la parte superior del diagrama. Hay una serie de diferentes métodos de visualización de las vibraciones vocales. Al colocar un electrodo en cada lado del cartílago tiroides, un minuto actual puede ser transferido a través de la glotis. Esta corriente aumenta sustancialmente cuando se ponen en contacto los pliegues. Existe un electroglotograma resultante, denominado también laringograma, por lo tanto, el contacto es una variable con el tiempo. Es bastante eficiente en la medición de F0 y fase cancelada. Glotogramas ópticos se obtienen iluminando la tráquea de frente y hasta atrás, por medio de una fuente de luz potente y capturar la luz que viaja a través de la glotis por medio de un censor óptico en la señal, por lo tanto, la laringe refleja la zona glotal. pero sólo mientras la luz se encuentra exitosamente como censor. Una inclinación posterior de la epiglotis puede fácilmente alterar o eliminar la señal. Los glotogramas de flujo, muestran el flujo de aire transglotal contra el tiempo y se obtienen por el filtrado inverso de la señal de audio, a menudo es recogida como un flujo de señales por medio de una mascara neumotacografo [16,30]. Implica que el filtrado inverso de la señal pasa a través de un filtro con una función de transferencia que es igual a la invertida de la función de transferencia del tracto vocal. Por tanto el filtrado inverso correcto, requiere que los picos de resonancia invertidos del filtro inverso estén afinados a las frecuencias de los formantes de la vocal que se filtra. Como el flujo de aire transglotal es igual a cero cuando la glotis se cierra y distinto de cero cuando está abierto, el flujo del glotograma es fisiológicamente relevante. Al mismo tiempo Esto es la presentación del sonido de la fuente de voz. Un ejemplo típico de un flujo glotograma se da en la parte superior del gráfico de Fig.16.13. Los parámetros clásicos derivados del flujo glotograma son las duraciones del periodo y de la fase cerrada, de picos de pulsos a picos de amplitud, y fugas glotales. El gráfico inferior muestra los glotogramas diferenciados. El pico de amplitud negativo es a menudo referido como la tasa máximo de declinación (MFDR). como se ha visto esto es el estatus especial en el del proceso de producción de la voz. En un estudio del habla y el canto, los parámetros de la acústica relevantes son las variaciones en el tiempo de la presión sonora producida por el sistema de vocales y recibidos por los oídos del oyente. Teóricamente, esta señal es aproximadamente proporcional a la derivada de la salida del flujo de aire en los labios [16,28, 31] Esto se relaciona con la derivada de la forma de onda glotal a través de la transferencia de la función vocal. Formalmente, la señal de excitación de los sonidos de la voz se define en términos de esta señal diferenciada. Por consiguiente, la teoría del filtro de fuente, es la derivada del flujo glotal que representa la fuente y se aplica al filtro o al sistema de resonancia del tracto vocal. La excitación de la amplitud del tracto vocal, generalmente referida como la fuerza de excitación, se cuantifica por la máxima velocidad del decrecimiento o disminución del flujo durante el movimiento de las veces de cierre de vocales (el MFDR, Fig. 16,13) lo cual es un factor determinante del nivel del sonido radiado. En el momento de cierre glotal una modificación drástica del flujo de aire se lleva a cabo. Este cambio es lo que se genera para la expresión de una lengua tanto hablada como cantada y los sonidos Se producen con la energía en una amplia gama de frecuencias. El modelo Liljencrants-Fant (LF) [16,32, 33] es un intento de modelo de onda glotal utilizando parámetros como frecuencia fundamental, la fuerza de excitación, la fuga de la dinámica, cociente de la abertura y la frecuencia glotal. (definido por el período de tiempo de fase de apertura glotal). Otras propuestas sobre la base de parámetros de forma de onda ha sido hecha por Klatt y Klatt [16,34], Ljungqvist y Fujisaki [16,35], Rosenberg [16,36] y Rothenberg et al. [16,37]. Una segunda línea de investigación se inicia a partir de supuestos acerca de la mecánica de pliegue vocal y se aplica aerodinámica para simular las vibraciones glotales [16,38, 39]. Análisis profundos de este trabajo indican la importancia de parámetros tales como la Ps, la posición aducidos / secuestrados de los pliegues vocales y su rigidez [16,28]. Durante los primeros días de la síntesis de voz se hizo evidente que la simplificación de la asunción de una constante fuente de voz no era suficiente para la producción de alta calidad de sonidos naturales por la síntesis copia. La experimentación de la fuente de la voz y la síntesis de voz ha demostrado que, en el curso de una enunciación, los parámetros de la fuente se someten a una gran cantidad de variaciones. Los factores determinantes de esta dinámica, en parte, son prosódicos, en parte segmentarla. Fig. - 16.14 [16.32] presenta un diagrama de las variaciones del tiempo del parámetro de la fuerza de excitación (es decir, MFDR) Gobl recogió los datos de los flujos usando la máscara desarrollada por Rothenberg [16,30] y aplicó el filtrado inverso para obtener registros de flujo glotal que, después de diferenciarlos, le permitió hacer las mediciones de fuerza de excitación LF y otros parámetros. Figura 16.14 deja claro que la fuerza de excitación de ninguna manera es constante. Que varía en función de factores prosódicos y segmentarios. El efecto de los segmentos es visto cerca de los limites de la consonante. Dado que el tracto vocal es limitado, por ejemplo, en [d] y [t], por lo tanto la presión transglotal disminuye (véase el registro de la presión Fig. 16,7), se reduce la fuerza de excitación. En parte esto también produce variaciones para dar cabida a la expresión y la voz de la consonante [16,28]. Esta influencia de consonantes sobre la fuente de la voz se ha documentado en mayor detalle por Ni Chasaide y Gobl [16,40] para las lenguas Alemán, Inglés, sueco, francés, inglés e italiano. se observaron particularmente efectos sorprendentes en el contexto de las consonantes en la voz. Prosodicamente, observamos en la Fig. 16,14 mostrando la fuerza de excitación exhibiendo un pico en donde destacó una contrastante sílaba. en detta y el patrón general de la frase es similar a la caída de la declinación de anterior contorno de los estados declarativos mencionados. Ejemplos del hecho de que la Ps tiene una fuerte influencia en el glotograma de flujo se dan en la parte superior del conjunto de gráficos de Fig.16.15, que muestra un conjunto de glotogramas de flujo para fonaciones producidas en el mismo tono, pero con distintos grados de sonoridad vocal. Al examinar la serie de patrones de sonidos más suaves tomamos nota de que tanto el flujo máximo y la máxima pendiente del final del recorrido del pulso, es decir, MFDR, aumenta de forma significativa con el aumento de Ps. Estos cambios en la forma están legalmente relacionadas con las variaciones de Ps y están directamente reflejados en los niveles de presión sonora tal Como esta indicado por los números en la Table16.1. Holmberg y colaboradores [16,41] realizaron grabaciones acústicas y el flujo de aire de 25 hombres y 20 mujeres productoras de repeticiones de la silaba [PAE], a esfuerzos vocales suaves, normales y altos [16,42, p.136]. Las estimaciones de la Ps y el flujo de aire glotal se hicieron a partir de grabaciones orales de la presión y el flujo de aire oral. La Ps se obtuvo por interpolación entre las presiones de pico orales en sucesivas [p] y, a continuación, los segmentos a través de un promedio de repeticiones. Una medida del promedio se obtuvo filtrando mediante filtro paso bajo la señal de flujo de aire y los valores promedio de la muestra en puntos medios de la vocal. Una copia de la señal de flujo de aire fue filtrada por paso bajo y se filtró a la inversa para separar el efecto de la F1 y para otras formantes. La salida fue diferenciada para los fines de la determinación de la MFDR (Fig. 16,13). Figura 16.15 ilustra también cómo la fuente de voz puede ser variada continuamente entre los diferentes modos de fonación. Estos modos van desde hyperfuncional, o presionado, a un flujo más neutral hasta hipofuncional, o brillante. El correspondiente parámetro del control fisiológico puede ser postulado para ser glotal aducción, por ejemplo, la fuerza por la que los pliegues se prensa contra la otra, varía de un mínimo en hipofuncional a la extrema en hiperfuncional. El flujo de la fonación se produce con el grado más débil de aducción glotal compatible con un cierre glotal completo. La propiedad fisiológicamente relevante que se ve afectada es la amplitud de la vibración de las vocales, que es pequeño en la fonación de presión/hiperfuncional y en la fonación amplia y brillante. Como se ilustra en la figura. 16,15 el glotograma de flujo es fuertemente afectado por estas variaciones en los modos de fonación [16,43]. En la fonación presionada la amplitud del pulso es pequeña y larga en la fase cerrada. Es más grande en neutro y más aún en el flujo. En una brillante fonación suelen mostrar una forma de onda similar a una onda sinusoidal, el flujo de aire es considerable, principalmente a causa de una gran fuga, por lo que no hay cierre glotal. El modo de fonación afecta a la relación entre la Ps y el SPL del sonido producido. Como se muestra en la Tabla 16.1B la fonación presionada es menos rentable desde un punto de vista acústico: un Ps de 11,4 cm H2O produce un SPL de 0,3 m de sólo 83 dB, mientras que en la fonación de flujo una menor Ps produce un mayor SPL. La afinación, la sonoridad y el modo de fonación son la cualidad de la voz que puede variar continuamente. Por el contrario, los registros vocales, también son controlados por los parámetros glotales, aparecen como más activas, por lo menos en las voces sin entrenamiento. La voz está funcionando bien en uno u otro registro. Existen al menos tres registros vocales, fritura, modal y falsete. Cuando entre el desplazamiento de registros esta entre el modal y el falsete, se observa un F0 con discontinuidades de frecuencia [16,44]. La definición de los registros vocales es bastante vaga, una serie de tonos similares a lo largo de la F0 de sonido continuo que se considera que se produce de una manera similar. Como los registros dependerán de la función glotal, se producen diferentes características del glotograma de flujo. La Figura 16.16 muestra ejemplos típicos de glotogramas de flujo de falsete y modos de los registros producidos por cantantes profesionales barítono, tenor y contratenor. Los pulsos son más redondeados, la fase de cierre es más corto, y la fuga glotal es mayor en los modos de registro del falsete. Sin embargo, la forma de onda de un determinado registro a menudo varían considerablemente entre los individuos. En la formación clásica de sopranos, altos, y tenores aprenden a efectuar las transiciones entre los modos y los registros de falsete, evitando cambios bruscos en la timbre de la voz. La variación de la pendiente en la sonoridad vocal afecta el espectro, como se ilustra en la Fig.16.17, que muestra los espectros de la media a largo plazo (LTAS) de un hombre que inexperto con su voz. En la figura se especifica el volumen en términos de lo que se llama nivel sonoro equivalente de ruido. Esto es utilizado comúnmente como tiempo promedio de nivel de sonido, que se define Como: donde t es el tiempo y T el tamaño de la ventana de tiempo. P y P0 son los de presión sonora y la presión de referencia, respectivamente. Cuando se cambia la sonoridad vocal, los sobretonos mas altos tienen un cambio mucho mayor en el nivel de sonido que los sobretonos mas bajos. En la figura, un cambio de 14dB en el nivel cerca de 600Hz se asocia con un cambio de cerca de 22dB a 3000Hz, es decir, alrededor de 1,5 veces el cambio de nivel, cerca de 600Hz. Relaciones similares se han observado en los cantantes profesionales [16,47]. En otras palabras, la pendiente en la fuente de la voz del espectro disminuye al aumentar la sonoridad vocal. La variable fisiológica utilizada para la variación de la sonoridad vocal es Ps. Esto se ilustra en el gráfico superior de Fig.16.18, comparando los datos observados en el promedio de hombres y mujeres inexpertos y los datos obtenidos de un barítono cantante profesional [16.45,46]. La relación entre la Ps y MFDR es aproximadamente lineal. Se observa que el intervalo de la presión utilizada por el cantante es considerablemente más amplia que el utilizado por las voces inexpertas. El MFDR producido con una determinada Ps, por las voces de las mujeres y los varones inexpertos, se muestra en su mayoría cómo mas alta, que la producida por los barítonos con la misma presión. esto puede depender de diferentes características mecánicas de las cuerdas vocales. Como veremos más adelante, SPL depende de la fuerza de la excitación del tracto vocal, es decir, de MFDR. Esta variable a su vez depende de la Ps y de FO; Cuanto mayor sea la presión, mayor será el valor MFDR y cuanto más alto es el de FO, mayor es la MFDR. El gráfico superior de la Fig. 16,18 muestra con precisión el MFDR, cómo podría ser predicho el Ps y FO de los datos publicados anteriormente para cantantes hombres y mujeres inexpertos, y para cantante barítono profesional. [16,45, 46]. Ps y Fo son linealmente relacionados con MFDR. Sin embargo, los cantantes, mostraron una mayor variación de la F0 que las voces inexpertas. Esta diferencia refleja de hecho, que a diferencia de los sujetos inexpertos, los cantantes pueden cantar un alto F0 mucho más suave que los inexpertos. La habilidad para cantar notas altas también suavemente pertenecen a la expresión esencial de las competencias entre los cantantes. Recordando que un aumento de Ps aumenta el F0 por unos pocos Hz / cm H2O, nos damos cuenta de que cantar tonos agudos suavemente requiere más fuerza de la contracción de los músculos de la laringe, que en los tonos en voz alta. Tracto Vocal El Tracto Vocal es un tubo no uniforme de 17 a 20 cm de longitud, cuyos límites son las cuerdas vocales por un extremo y los labios por el otro. Por lo tanto, está formado por la faringe y la cavidad bucal. Posee una sección recta variable en función de la posición de los órganos articulatorios (labios, mandíbula, lengua y velo del paladar). Estos órganos permiten concentrar la energía en determinadas frecuencias actuando como resonadores. La teoría del filtro fuente describe la producción del sonido vocal como un proceso de tres pasos: (1) generación de un flujo de aire estable desde los pulmones (componente DC); (2) conversión de este flujo de aire en una pulsación pseudo periódica transglotal de flujo de aire (conversión DC a AC), referido como la fuente de voz; (3) la respuesta del tracto vocal a esta señal de excitación (modulación de la señal AC) que se caracteriza por la curva de frecuencia o función de transferencia del tracto vocal. La resonancia es el rasgo clave de la respuesta del filtro. Las cavidades oral, faríngea y nasal del tracto vocal forman un sistema de resonadores. Durante cada ciclo glotal el aire incluido en esta cavidades es puesto en movimiento por el pulso glotal, el principal momento de excitación ocurre durante el cierre de las cuerdas vocales, más precisamente en el tiempo de MFDR, medida máxima de declinación de flujo. El comportamiento de una resonancia del tracto vocal, o formante, es especificado en los dominios de tiempo y frecuencia. Por cualquier transitoria excitación, el tiempo de respuesta es un decaimiento exponencial coseno. La respuesta en frecuencia es un continuo espectro de amplitud-frecuencia con un solo pico. La forma de la función es determinada únicamente por dos números (en Hz): la frecuencia formante F y el ancho de banda B. En el dominio de frecuencia el ancho de banda es definido como el ancho 3dB de la formante debajo del pico. Una gran banda ancha produce un pico pequeño, mientras un valor pequeño hace el pico más alto y más pronunciado. En especificaciones acústicas fonéticas de vocales, es acostumbrado reportar no más de las primeras dos o tres frecuencias de las formantes. Experimentos en síntesis de habla han indicado que esta descripción compacta, basta para capturar la calidad del estado estable de las vocales razonablemente bien. Las bandas anchas pueden reflejar pérdidas acústicas, que dependen de factores como la radiación: transmisión de sonido por las paredes del tracto vocal; viscosidad: conducción de calor, tamaño de la constricción por el buen estado de la glotis. Por ejemplo, en una mayor apertura glotal, como en una voz de aliento, será muy marcado el incremento de la banda ancha de la primera formante. La formante del cantante está presente en todos los sonidos expresados como cantados por cantantes de ópera masculinos. Esto fue descubierto primero por Bartolomé. Esto se manifiesta como un alto pico marcado a largo plazo promedio en el espectro. (LTAS – Long Term Average Spectrum). La formante del cantante puede ser explicada como un fenómeno de resonancia. Es un producto de las mismas reglas que invocamos arriba para considerar las amplitudes formantes de vocales y para la intensidad intrínseca de las vocales. La estrategia de un cantante entrenado clásicamente debe formar su tracto vocal para hacer F3, F4 y F5 formen un clúster apretado en frecuencia. Como las separaciones de frecuencia entre estas formantes están disminuidas, sus niveles individuales se incrementan y de ahí un alto pico espectral es obtenido entre 2500 y 3000 Hz. Estos quiere decir que los cantantes de ópera masculinos producen un sonido que puede ser oído más fácilmente por un fuerte acompañamiento orquestal por sintonías de resonancias del tracto vocal más bien que por la producción de una excesiva Ps. La situación acústica produciendo el clustering de F3, F4 y F5 es obtenido por enarmonías acústicas de la apertura del tubo laríngeo, también llamado tubo epilaríngeo, con la faringe. Esto puede ser alcanzado por el estrechamiento de esta apertura. Entonces el tubo laríngeo actúa como un resonador con una resonancia que no es muy afectada por el resto del tracto vocal, sino más bien por la forma del tubo laríngeo. Además del tamaño de la apertura, el tamaño del ventrículo laríngeo influirá: el largo del ventrículo, lo bajo del tubo de resonancia laríngeo. Por lo visto, los cantantes templan el tubo de resonancia laríngeo a una frecuencia cerca de F3. Los medios articulatorios usados para establecer la cavidad a estas condiciones parecen principalmente ser un “bajamiento” de la laringe que desde esto tiende a ensanchar a ambos a la laringe y al ventrículo laríngeo. Muchos maestros de canto recomiendan a sus estudiantes cantar con una confortable posición baja de la laringe. El nivel de la formante del cantante es influenciado también por la cuesta del espectro fuente, la cual a su vez depende de la intensidad vocal, por ejemplo una presión subglotal, como hemos mencionado. Así, la formante del cantante tiende a incrementar alrededor de 15 dB por un cambio de 10 dB del total de SPL. La formante del cantante es una característica de cantantes entrenados masculinos. Esto no tiene fundamento en el canto no clásico, por ejemplo en el pop o en la música de teatro, donde la audibilidad es responsabilidad del ingeniero de audio más que del cantante. De la misma manera, cantantes de coro generalmente no tienen formante del cantante. Sílaba En todas las lenguas del mundo los sonidos tienden a agruparse dentro de la cadena en unidades mayores dotadas de una entidad propia y más fácilmente aislables que los propios segmentos: son las sílabas. Desde la antigüedad clásica hasta nuestros días han existido muchos y variados intentos de definición, que se han elaborado desde todos los enfoque posibles - fisiológico, articulatorio, auditivo o acústico - sin que ninguno de ellos haya alcanzado el respaldo unánime de los fonetistas. Cada autor ha tomado en consideración un aspecto determinado del fenómeno - sea éste la abertura, la perceptibilidad, la tensión muscular o cualquier otro - sin valorar el papel desempeñado por los restantes, lo que conduce inevitablemente a explicaciones parciales y a simplificaciones inexactas en mayor o menor medida. Por ello, la definición más completa que puede darse de sílaba es la resultante de unificar toda la pluralidad de enfoques que se le han dado en una formulación de validez general. La definición de sílaba debe abarcar la totalidad de los caracteres que la constituyen como tal (aspecto psicológico de la tendencia al ritmo, fuerza motriz proporcionada por los músculos intercostales, tensión articulatoria, fuerza espiratoria, presión muscular, sonoridad, perceptibilidad y abertura vocálica), tanto en su aspecto articulatorio como en el auditivo. Diremos entonces, con J. Chlumsky (1935), que la sílaba es una articulación o grupo de articulaciones de tensión fisiológica creciente al principio y decreciente al final, que responde a un solo impulso de energía muscular, y cuyo centro, formado por uno o más sonidos, posee mayor intensidad espiratoria, mayor abertura, mayor perceptibilidad y mayor tensión muscular que el resto de los sonidos que la integran. Así pues, la sílaba es a la vez una unidad de tipo articulatorio, acústico, auditivo y psicológico. En la mayoría de las lenguas, las palabras pueden dividirse en sílabas que constan de un núcleo silábico, un ataque que antecede al núcleo silábico y una coda que sigue al núcleo silábico. La estructura silábica es el conjunto de restricciones propias de cada lengua sobre qué fonemas o grupos de fonemas pueden ocupar estas posiciones. Los lenguajes varían con respecto a la forma cómo combinan consonantes y vocales dentro de la sílaba. La mayoría de ellos favorecen sólo un marco con dos ranuras: la sílaba CV. Otros permiten estructuras de sílabas más elaboradas con arriba de tres consonantes inicialmente y la imagen de espejo en la posición final de la sílaba. Si hay también una distinción de longitud en el sistema de vocal/consonante, el marco de sílaba puede hacerse bastante complejo. Un rico patrón con clústers de consonantes y longitud fonológica usualmente implica que el lenguaje tenga un fuerte contraste entre sílabas acentuadas y no acentuadas. En los lenguajes que permiten secuencias de consonantes existe una tendencia universal para que los segmentos sean serialmente ordenados en un continuo articulatorio con las consonantes compatibles con vocales de una mayor apertura mandibular ocurriendo después a la vocal, por ejemplo, [l] y [r]; mientras aquellos menos compatibles como la [s] son recluidos en los márgenes de la sílaba. Siguiendo esta observación, el inglés y otros lenguajes usan [spr] como inicial pero no final clúster. La secuencia al revés [rps] ocurre en la final más no inicial posición, sprawl y harps. Actual y Tradicionalmente esta tendencia es explicada en términos de un atributo auditivo de los sonidos del habla: la sonoridad. El principio de sonoridad establece que, como los segmentos más sonoros las vocales toman una posición central del núcleo de las sílabas y que la sonoridad de las consonantes que la rodean debe disminuirse de izquierda a derecha comenzando de la vocal. Recordando que el grado de apertura articulatoria afecta a F1 la cual a su vez afecta la intensidad sonora, comprendemos que estos términos articulatorios y auditivos son incompatibles. Sin embargo, la razón de las variaciones silábicas en sonoridad es articulatoria: la tendencia de las sílabas para alternar abierta o cerrada articulación es de manera cíclica. La sílaba es también iluminada por una perspectiva desarrollista. Un importante jalón de la adquisición normal del habla es el balbuceo canónico. Este tipo de vocalización surge entre los 6 – 10 meses. Consiste en secuencias de CV como eventos, por ejemplo. [daedae] [baba]. La salida fonética de los infantes sordos difiere del balbuceo canónico cualitativa y cuantitativamente, sugiriendo que la entrada auditiva del lenguaje ambiente es prerrequisito para el balbuceo canónico. Qué partes del balbuceo con el habla adulta es esta organización silábica, esto es, la alternancia del cierre y apertura articulatorias en la cual el movimiento mandibular es el mayor componente. Como se mencionó, la repetición regular de abrir-cerrar los estados del tracto vocal da lugar a una modulación de la amplitud de la forma de onda del habla. Las vocales tienden a mostrar las más altas amplitudes contrastando con las consonantes que las rodean las cuales tienen varios grados de constricción y de ahí más reducidas amplitudes. En el límite acústico entre una consonante y una vocal hay a menudo una abrupta subida en la envolvente de amplitud de la forma de onda. Cuando un análisis de Fourier es realizado en la envolvente de la forma de onda, un espectro con primariamente baja, componentes de sub-audio frecuencias son obtenidos. Esto debe ser esperado de hecho dado que los envolventes de amplitud varían lentamente en una función de tiempo. Esta representación es conocida como el espectro de modulación. Refleja eventos recurrentes como los cambios de amplitud en los límites consonante-vocal. Provee un registro aproximado de la corriente pulsación rítmica de sílabas acentuadas y no acentuadas. La envolvente de tiempo al principio parece ser un atributo bastante ordinario de la señal. Sin embargo, esta importancia perceptual no debe ser subestimada. Acústica de salas y distorsión del habla por ruido por modificación y destrucción son modulaciones de espectro. La función de transferencia de modulación fue propuesta por Houtgast y Steeneken como una medida del efecto de la audición de la señal del habla y como una base para un índice, el índice de transmisión del habla (STI, speech transmission index) usado para predecir la inteligibilidad del habla bajo diferentes tipos de reverberación y ruido. El suceso de este acercamiento nos dice que el espectro de modulación, y de ahí la envolvente de la forma de onda, contiene información que es crucial para la percepción robusta del habla. Manipulación experimental de la envolvente de tiempo ha sido realizada por Drullman y compañeros cuyo trabajo refuerza las conclusiones alcanzadas por Houtgast y Steeneken. parece ser alguna cosa especial acerca de los finales delanteros de las sílabas. Primero, los lenguajes prefieren CVs a VCs, Segundo, que los niños comienzan con estas cuerdas como de CV pseudosílabas que emulan los inicios de sílabas del habla de los adultos. Tercero, hay perceptivamente información significativa para el oyente en la dinámica inicial de la sílaba. Vamos a agregar otro fenómeno a esta lista: el pulso? de sílaba o el Pcentro de las sílabas. En la poesía leída o en el canto tenemos un fuerte sentido que las sílabas son habladas/cantadas en concordancia con el patrón rítmico de la medida. Hablantes nativos están de acuerdo más o menos en cuántas sílabas hay en una palabra o frase. En la fabricación de tales juicios ellos parecen experimentar las sílabas como eventos unitarios. Aunque esto puede tomar varios cientos de milisegundos para pronunciar, subjetivamente la sílaba parece ocurrir en un específico momento en el tiempo. Esto es esta impresión por la cual el término fonético “pulso de silaba” (Syllable beat) se refiere y que ha sido estudiado experimentalmente en un importante número de publicaciones. Rapp pregunto a tres hablantes nativos de sueco para producir grupos aleatorios de palabras de pruebas construidas de [aC’a:d] donde la consonante C fue seleccionada de [s,t,d,l,n,st,str]. La instrucción fue sincronizar la sílaba acentuada con el beat del metrónomo presentado sobre audífonos. El resultado está resumido en la Fig. 16.37. El eje de las x representa la distancia en milisegundos desde el punto de referencia, el beat del metrónomo. El diagrama de arriba presenta la distribución total de cerca de 2000 marcas de tiempo. El diagrama de abajo indica la relativa localización de las fronteras del mayor segmento acústico. Varias correlaciones fonéticas han sido propuestas para el beat de la sílaba: algunas acústicas/auditivas y otras articulatorias. Todas se ciernen alrededor del inicio de la vocal, por ejemplo, la envolvente de amplitud de una señal aumenta rápido en energía en bandas espectrales o el comienzo del movimiento articulatorio hacia la vocal. Los datos de Rapp en la Fig. 16.37 indican que el tiempo del beat tiende a caer cerca de la liberación o apertura articulatoria en [t,d,l,n] pero que esto significativamente precede los comienzos acústicos de vocal de [str-], [st-] y [s-]. Sin embargo cuando los límites de los segmentos son arreglados en relación a una señal fija en el contorno de F0 y los comienzos de vocal fueron medidas relativas a esta señal, el rango de los comienzos de vocal fue reducido. Es posible que el beat de sílaba tenga su origen, no en la superficie acústica, no en algún nivel cinemática, sino en un más profundo proceso de control motor que coordina e impone coherencia en la respiración y la actividad fonatoria y articulatoria necesaria para producir una sílaba. Independientemente de la definitiva explicación del momento de ocurrencia psicológico en que la sílaba sea, el beat de sílaba provee un útil punto de entrada de tentativas para comprender el cómo en trabajos del control y el pitch en el habla y el canto. La Fig. 16.38 compara espectogramas de las primeras pocas barras de “Sobre el arcoiris” hablado (izq.) y cantado (der.). Las líneas verticales han sido dibujadas en comienzos de vocal y puntos donde la articulación comienza a moverse hacia una configuración más abierta. Las líneas forman un patrón asíncrono temporal en la versión del canto la cual fue desarrollada en un ritmo regular. En el ejemplo de habla ello ocurre en intervalos que parecen mas determinados por el grado de prominencia de la sílaba. Los alcances substanciales, objetivos de F0 en puntos cerca de los beats (líneas verticales). De estas frecuencias objetivo son mantenidas hasta cortamente antes de este tiempo hasta el del próximo pitch. Así, la curva de F0 se parece a un paso de función con algún allanamiento aplicado a los pasos. Por otra parte, el contorno de F0 para la muestra del habla no muestra ningún estado estable tal. Hace pocos movimientos dramáticos como flujos gradualmente hacia abajo en la frecuencia (el efecto de declinación). La Fig. 16.39 muestra un típico ejemplo de canto clásico, un espectrograma de una grabación comercial de la interpretación de Dietrich Fisher- Dieskau de “Die Rose, die Lilie” de Robert Schumman (Dichterliebe op. 48.). Las líneas punteadas verticales muestran los comienzos del acompañamiento de piano. Los patrones ondulados que ocurren algo después del comienzo vocal, reflejan el vibrato. Aparte de la ondulación del vibrato de los parciales, los huecos en el patrón de armónicos son bastante evidentes. En estos puntos podemos ver el efecto de la mayor constricción de la articulación de consonantes. Notar la rápida y resueltamente subida de amplitud síncrona en todos los parciales al final de los segmentos de consonante. También después de las consonantes sordas, por ejemplo la /t/ en Taube. Estas subidas son sincronizadas con el comienzo de los tonos del acompañamiento del piano, demostrando así que en el canto un beat es marcado por la vocal. La simultánea aparición de bajos y altos parciales parece pertenecer a las características del canto clásico como opuesto al habla en donde los más altos parciales a menudo llegan con un leve delay después de las consonantes sordas. Como mencionamos antes estas consonantes son producidas con abducción de los pliegues vocales. Para generar también altos parciales en este contexto los pliegues vocales necesitan cerrar la glotis en el primer ciclo vibratorio del comienzo de vocal. Un beneficio potencial de esto podía ser que estos realces de las más altas formantes son importantes para la inteligibilidad del texto. Varios trabajos cuantitativos han sido propuestos para generar contornos de F0 de habla por reglas. Un subgrupo de esto han sido llamados Modelos de superposición. Una característica de estos modelos es que descomponen la curva de F0 en frase separada y componentes de acento. Los comandos de acento son pasos de F0 o funciones de impulso temporalmente ligadas a las sílabas que llevan acento. Los pulsos de acento son superimpuestas en los componentes de la frase. Para una sentencia declarativa, el componente de frase es una caída del contorno de F0 producida por una función de paso rectangular “modelo de sombrero”. Los comandos frase y acento son pasados por filtros humedecidos para convertir su suma en una suave variación de salida del contorno de F0. Un ejemplo de este acercamiento se muestra en la Fig. 16.40. Las pocas figuras pasadas sugieren que los patrones de F0 del canto y el habla pueden ser más bien diferentes si los comparamos en términos de curvas de F0. sin embargo, los modelos de superposición sugieren que contornos de habla de F0 tienen características en parte atribuibles a las características de respuesta pasiva del sistema neuro-mecánico que lo produce, y en parte debido a señales de control activas. Estos comandos de control toman la forma de cambios graduales, algunos de corta, otros de larga duración. Esta representación no es diferente de la secuencia de objetivos de F0 en una melodía. La implicación de este análisis es que F0 es controlada en formas similares en el habla y en el canto en el sentido que ambos son basados en secuencias de objetivos de estados estables subyacentes. Por otra parte, una diferencia significativa es que en el canto alta exactitud en el logro de objetivos acústicos de frecuencia es requerido mientras que en habla tales demandas son relajadas y el allanamiento es más fuerte. Control de sonido Cuando desarrollamos una acción – caminar, correr o alcanzar y manipular objetos-, nuestro sistema motor se enfrenta con el hecho de que los contextos bajo los cuales son hechos los movimientos nunca son exactamente los mismos. Cambian significativamente de una situación a otra. Sin embargo los sistemas motores se adaptan sin esfuerzo a las continuas condiciones de cambio, presumiblemente porque durante la evolución ellos fueron formados por la necesidad de enfrentarse con acontecimientos imprevistos y obstáculos. Su modo de operación por defecto es compensatorio. Escribir a mano provee una buena ilustración de esta habilidad. Un hecho familiar es que esto no importa si algo es escrito sobre la pizarra o sobre una hoja de papel. Los rasgos característicos de letra de alguien sin embargo fácilmente son reconocidos. Diferentes grupos de músculos son reclutados y el tamaño de las letras es diferente pero sus formas permanecen básicamente similares. Lo que esta observación nos dice es que los movimientos no son especificados en términos de grupo fijo de músculos y patrones de contracción constante. Ellos son reclutados en grupos definidos funcionalmente, estructuras coordinativas. Ellos son planificados y ejecutados en un espacio de coordenada externo, en otras palabras en relación con el mundo de 3-D en el cual ellos ocurren para lograr objetivos definidos fuera del sistema mismo de motor. La literatura sobre sistemas motores nos enseña que los movimientos voluntarios son organizados en prospectiva o futuro-orientados. El habla y el canto proporcionan numerosos ejemplos de este modo de salida orientada del control motor. Antes en el capítulo indicamos que, en posición erguida, el diafragma y las estructuras adyacentes están bajo influencia de la gravedad y tienden a ser empujados hacia abajo, así causando el aumento de volumen de la caja torácica. En esta posición, la gravedad contribuye a las fuerzas inspiratorias. Por el contraste, en la posición supina, el diafragma tiende a subir en la caja torácica, que promueve la espiración. Sundberg y otros, investigaron el efecto de las posiciones erguida y supina en dos cantantes barítonos usando medidas síncronas de la presión esofágea y gástrica, EMG para los músculos inspiratorios y espiratorios, volumen de pulmón y sonido. Reorganización de la actividad respiratoria fue encontrada y fue interpretada como la compensación para las situaciones diferentes mecánicas que provienen de las condiciones erguida y supina. Este encuentro estrechamente es relacionado con lo que sabemos de la respiración durante el habla. Como mencionamos anteriormente, la Ps tiende a quedarse limpiamente constante para cualquier esfuerzo vocal dado. Se sabe que este resultado es alcanzado para ajustar el balance entre los músculos inspiratorios y espiratorios. Cuando los pulmones son expandidos de modo que el efecto de retroceso elástico crea una fuerza de espiración significativa, los músculos inspiratorios predominan para poner un freno sobre aquella fuerza. Para volúmenes pulmonares reducidos la situación es la opuesta. El efecto de retroceso elástico debe más bien aumentar el volumen pulmonar. En consecuencia el reclutamiento de músculo necesario para mantener la Ps se espera que sea principalmente espiratorio. Que es lo que verdaderamente muestran los datos. El paradigma del bloque de mordedura ofrece otro ejemplo del habla. En un conjunto de experimentos sujetos fueron instruidos para pronunciar sílabas que consisten sólo en una vocal larga en dos condiciones: primero normalmente, luego con un bloque de mordedura (BB) entre los dientes. Los sujetos, todo lo no-fonético que dijeron trataron de parecer lo más normal posible a pesar del BB. No se permitió ninguna práctica (ensayo). El objetivo del BB era crear una apertura de mandíbula grande de modo anormal para vocales cerradas como [i] y [u]. Fue argumentado que, si ninguna compensación de lengua ocurría, esta apertura drásticamente grande cambiaría la función de área de las vocales cercanas e interrumpiría su modelo de formante. En otras palabras, la pregunta investigada era si el sujeto fue capaz de parecer normal a pesar del BB. Grabaciones acústicas fueron hechas y los datos de patrones de formantes fueron recogidos para comparaciones entre condiciones, vocales y sujetos. Los análisis demostraron claramente que los sujetos fueron de verdad capaces de producir sonidos vocales normales a pesar del BB. En el momento del primer pulso glotal, los patrones de formante estaban bien dentro de los rangos normales de variación. En una investigación siguiente de rayos X fue encontrado que las producciones compensatorias de [i] y [u] fueron hechas con formas de lengua superpalatales y supervelares. En otras palabras, los cuerpos de lengua fueron levantados alto, posiciones por encima de lo normal para acercarse a las funciones normales de área cruzada de las vocales de prueba. El habla y el canto comparten muchos rasgos, pero diferencias significativas son traídos a la luz cuando consideramos cuáles son los objetivos de los dos comportamientos. Son más de 50 años desde que el espectrógrafo de sonido se hizo disponible en el comercio. En este tiempo hemos aprendido de demostraciones de habla visibles y otros registros que la relación entre las unidades fonéticas y la señal acústica es sumamente compleja. La lección enseñada es que la invariante correlación de categorías lingüísticas no es fácilmente evidente en la onda del habla. En la discusión precedente mencionamos algunas fuentes de esta variabilidad: coarticulación, reducción y elaboración, modulación prosódica, características estilísticas, circunstanciales y específicas del hablante. De esta posición ventajosa es asombroso notar que, aún en condiciones ruidosas, la comunicación de discurso es un proceso confiable y robusto. ¿Cómo debe considerarse este hecho notable? En respuesta a este problema se han propuesto un número de ideas y marcos explicativos. Por ejemplo, se ha sugerido que invariantes acústicas son relacionales más bien que absolutas (a los intervalos de tono definidos como proporciones de frecuencia). El habla es más bien un conjunto de movimientos hechos audibles que un conjunto de sonidos producidos por movimientos. De acuerdo con esta declaración clásica, muchos investigadores han argumentado que las entidades del habla deben ser encontradas en niveles altos de producción del habla y deberían ser definidos como gestos. Como oponente final, encontramos a investigadores (p.ej., Perkell) quien aprueba la opinión de Roman Jakobson en la búsqueda de unidades da la primacía a la representación perceptual de fonemas. Para Jakobson las etapas de la cadena del habla forman una " ... jerarquía operacional de los niveles de disminución pertinente: perceptual, auditivo, acústico y articulatorio (éste no lleva ninguna información directa al receptor). " Estos puntos de vista parecen estar en desacuerdo y de verdad dividen el campo sobre los que ven el habla como un código motórico (el campo gesturalista) y los que mantienen que principalmente es formado por procesos perceptivos (la escuela orientada por oyente). Hay mucha pruebas experimentales para ambos lados, sugiriendo que este dilema no sea uno u otro en cuestión, pero que ambas partes ofrecen perspectivas valiosas complementarias. Un acercamiento diferente es tomado por la teoría de H y H (Hyper y Hypo). Esta cuenta es desarrollada de las observaciones clave siguientes sobre la interacción de hablanteoyente: 1. La percepción de discurso es siempre un producto de la información de señal y el conocimiento del oyente; 2. La producción de discurso es adaptablemente organizada. Aquí está un experimento que ilustra la primera reclamación sobre el proceso de la percepción. Dos grupos de sujetos escuchan una secuencia de dos frases: una pregunta seguida de una respuesta. Los grupos de sujetos oyen preguntas diferentes, pero una sola respuesta físicamente idéntica. La tarea de los sujetos es decir cuantas palabras contiene la respuesta. El punto aquí es que el grupo 1 de sujetos que escucha como “less than five” (menos de cinco) Aquellos en el grupo 2 lo interpretan como “la lección cinco”. La respuesta del primer grupo es " tres palabras", y la respuesta de los segundos es " dos palabras ". Esto es a pesar del hecho que físicamente el estímulo es exactamente el mismo. El silábico [n] señala la palabra en un caso y la sílaba sobre el otro. La busca de las correlaciones invariantes de la consonante inicial es condenado al fracaso debido al grado severo de reducción. Para los defensores de la teoría H y H esto no es un caso aislado. Esta es la manera en que la percepción trabaja en general. Lo percibido del habla nunca pueden ser los registros crudos de la señal porque el conocimiento de oyente inevitablemente actuará recíprocamente con el estímulo y contribuirá a la formación de lo percibido. Además, la teoría de H y H destaca el hecho de que los mensajes hablados muestran una distribución no uniforme de información en la que la previsibilidad varía de situación en situación, de palabra a palabra y de sílaba a sílaba. Compárese (a) y (b) debajo. ¿Qué palabra probablemente es representada por el hueco? 1. “The next word is_______ .” 2. “A bird in the hand is worth two in the ______ .” Pueden esperar cualquier palabra en (1) mientras que en (2) la previsibilidad de la palabra "arbusto" es alta. La teoría de H y H asume que, aprendiendo y usando su lengua materna, los hablantes desarrollan el sentido de esta dinámica informativa. Introduciendo la abstracción de un hablante ideal, propone que el hablador estime la contribución corriendo que la información complementaria de señal (el conocimiento de oyente) hará durante el curso de la expresión y luego templa su funcionamiento articulatorio a las necesidades de oyente supuestas a corto plazo. Estadísticamente, este tipo de comportamiento tiene la consecuencia de largo plazo de distribuir formas de salida fonéticas a lo largo de un continuo con formas claras y elaboradas (el hiperdiscurso) a un final y pronunciaciones ocasionales y reducidas (hipodiscurso) en el otro. La implicación para la cuestión de invariabilidad es que la tarea del hablante no es codificar unidades lingüísticas como invariantes físicos, pero asegurarse que los atributos de señal (de fonemas, sílabas, palabras y frases) llevan el poder discriminatorio suficiente para el acceso al léxico acertado. Para hacer el mismo punto en términos ligeramente diferentes, la tarea de la señal no es incorporar patrones fonéticos de constancia, sino proporcionar la información faltante. Es interesante poner esta cuenta de procesos de discurso al lado de lo que sabemos del canto. Observaciones experimentales indican que la melodía en el canto no es simplemente sobre objetivos invariantes de F0. F0 es afectado por el funcionamiento expresivo del cantante y por el contexto tonal en el cual una nota dada es integrada. Ciertas desviaciones de frecuencias nominales no son diferentes de la coarticulación y los efectos de undershoot por todas partes presentados en el habla. En consecuencia en lo que concierne al control de frecuencia, hablando y cantando son cualitativamente similares. Sin embargo, cuantitativamente, ellos se diferencian drásticamente. Recuerde que en la descripción de la dinámica de reducción de vocal notamos que las frecuencias formantes pueden ser desplazadas por tanto como el 50% de los valores objetivos. Claramente, a un músico o cantante con un registro comparable de under/overshoot se le recomendaría emprender una carrera alternativa, los márgenes de tolerancia perceptual son mucho más estrechos para el canto. ¿Qué representa esta discrepancia en el logro objetivo? Nuestra respuesta corta es que cantar o tocar una melodía fuera de tono es una cosa mala. ¿De dónde viene esta prohibición (tabú)? De la consonancia y coacciones de armonía. En términos simplificados, una muestra arbitraria de música tonal puede ser analizada en una secuencia de acordes. Su línea melódica es una elaboración rítmica y tonal de esta estructura armónica. Estadísticamente, tonos de melodía mucho tiempo prominentes tienden a atraer notas de acorde. Las notas de menor prominencia típicamente interpolan a lo largo de las escalas en más pequeños intervalos entre las notas de acorde métricamente más pesados. La noción de consonancia lleva un camino largo explicando por qué cantar o tocar una melodía fuera de tono es prohibido en la música: darle al tono exacto es requerido por la consonancia y coacciones de armonía esperadas por el oyente e históricamente por lo visto unido con una combinación de la polifonía en nuestra tradición Occidental de composición musical y el hecho que la mayor parte de nuestros productos de instrumentos de música entonan con espectros armónicos. Esto implica que los intervalos que se alejan demasiado de la justa entonación generarán golpes entre sonidos simultáneos y sólo casi la coincidencia de parciales, en particular si las frecuencias fundamentales son constantes, careciendo de vibrato y fluctuación. Expresividad El poder expresivo de la voz humana. La voz humana es un instrumento sumamente expresivo tanto cuando es usado para el habla como para el canto. Por medio de sutiles variaciones de engranaje y contornos de tono los hablantes y cantantes añaden una cantidad sustancial de expresivo al contenido lingüístico o musical y somos bastante expertos en descifrar esta información. En verdad un buen trato del arte vocal parece estar en la habilidad del artista. nada más que tales cambios de tono, timbre, intensidad y engranaje de distribución que un oyente puede percibir como llevando algún significado. Percibimos la información extra-lingüística o expresiva en el habla y el canto en varias formas. Por ejemplo, podemos interpretar las ciertas combinaciones de características acústicas en el habla en términos de una risa o una formación particular de los labios sobre la cara del hablante. Por ejemplo Fónagy encontró que los oyentes fueron capaces de reproducir con exactitud la expresión de la cara de hablantes sólo por escuchar sus voces. La transformación emotiva en el habla y el canto parece en parte similar y a veces idéntico. El alargamiento del final, mencionado anteriormente, usa el mismo código para marcar el final de un elemento estructural, como una oración en el habla o una frase en el desarrollo musical cantado y tocado. El énfasis por la llegada del delay es otro ejemplo, es decir, (delayando) una enfasada sílaba acentuada o nota por alargamiento de la sílaba/nota inacentuada que la precede. El potencial expresivo de la voz humana es de verdad enorme, y transpiraría del empleo ubicuo de la voz para el objetivo de comunicación. La interpretación correcta del contenido extra-lingüístico de una expresión hablada es seguramente importante en nuestra vida diaria, entonces somos expertos en descifrar señales vocales también a lo largo de aquellas dimensiones. La importancia de codificación correcta de los extralingüísticos implica que los hablantes adquieren una gran habilidad en cuanto a esto. Esta habilidad sería la exigencia básica para el arte vocal, en el canto así como en la actuación.

Materia: Síntesis de voz Maestro: Dr. Felipe Orduña Bustamante

Productos

Apoyo

Materia: Síntesis de voz Maestro: Dr. Felipe Orduña Bustamante

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib