Materia: Síntesis de voz Maestro: Dr. Felipe Orduña Bustamante

advertisement
Materia: Síntesis de voz
Maestro: Dr. Felipe Orduña Bustamante
Alumna: María Luisa Solórzano Marcial
Capitulo 16
La voz humana en el canto y el discurso
Thomas D. Rossing (Ed.) © Springer 2007
Springer Handbook of Acoustics
En este capítulo se describen diversos aspectos de la voz humana como medio de
comunicación en el discurso y el canto.
Desde el punto de vista de su función, los sonidos vocales puede considerarse como el
resultado final de un proceso de tres etapas:
(1) la compresión de aire en el sistema respiratorio, que produce una exhalación de aire
(2) la vibración vocal
unos pliegues transforman este flujo de aire en una intermitente o pulsante corriente de
aire, que es un tono complejo que procede de la fuente de voz
(3), el filtrado de este tono complejo en
el tracto vocal resonador.
La función principal del sistema respiratorio es generar una sobrepresión de aire debajo
de la glotis, o una presión subglotal.
La Sección 16.1 describe los diferentes aspectos del sistema respiratorio, que son de
importancia para el habla y el canto, incluyendo rangos de volumen pulmonar, presión
subglotal, y cómo esta presión se ve afectada algunas veces por diferentes fuerzas de
retroceso.
El tono complejo generado, cuando la corriente de aire de los pulmones
pasa por los pliegues de la vibración vocal puede variar en al menos tres dimensiones:
frecuencia fundamental, la amplitud y el espectro.
Sección 16.2 describe
cómo estas propiedades de la fuente de voz, son afectados por la presión subglotal la
longitud y la rigidez de las cuerdas vocales así como la firmeza de los pliegues vocales
son aducidos?.
La Sección 16.3 da cuenta del filtro del tracto vocal, ¿cómo se determina la forma de las
frecuencias de sus resonancias y secciones.
16.4 da cuenta de cómo estas frecuencias resonantes o formantes se forman mediante la
imposición de sonidos vocales.
los picos del espectro separados de los valles del espectro y cómo la frecuencia de estos
picos determinan las cualidades de la voz.
El resto de las secciones del capítulo describen diversos aspectos de las
señales acústicas utilizadas para la comunicación oral, en el habla y el canto.
La estructura de la sílaba es discutido en la sección. 16.5.
Aspectos estrechamente relacionados con la ritmicidad en el habla y el canto
describen en la sección. 16,6,
se
Los aspectos de tono y ritmo en la sección 16.7.
El impresionante control de todas
estas características acústicas de las señales de voz es discutido en la sección. 16.8,
mientras que la Sección. 16,9 considera
aspectos expresivos de la comunicación oral.
Durante la inspiración, el volumen de la cavidad torácica se expande y acumula aire en
los pulmones. Esto ocurre principalmente debido a la contracción de los intercostales
externos y el diafragma. los músculos intercostales externos elevan las costillas. el
diafragma es en músculo en forma de cúpula situado por debajo de los pulmones, se
aplana sobre la contracción y, por tanto, reduce el suelo de la cavidad torácica
La estructura de las vías respiratorias es un elástico sistema mecánico que produce la
presión en la espiración o inspiración subglotal, dependiendo del tamaño del volumen
pulmonar. Fig. 16.2. Por lo tanto, la inhalación y la exhalación se producen siempre que
se tenga el efecto de las fuerzas para mover las costillas y los pulmones vuelvan a su
estado de reposo, a menudo referida como el nivel de reposo espiratorio (REL). (Resting
expiratory level)
La respiración profunda, es la mayor fuerza de este retroceso elástico. este componente
juega una parte importante en empujar el aire fuera de los pulmones, tanto en el habla y el
canto, y especialmente en grandes volúmenes de pulmón.
La elasticidad de las fuerzas proceden tanto de la caja torácica y los pulmones. como se
ilustra en la Fig. 16.2
la caja torácica produce una fuerza de exhalación en un alto volumen pulmonar y una
fuerza de inhalación en un bajo volumen pulmonar y el pulmón siempre ejerce una fuerza
exhalatoria. como consecuencia, se necesita la activación de los músculos inspiratorios
para producir una baja presión subglotal, por ejemplo, para el canto de un tono en
(Pianissimo) con alto volumen pulmonar.
Por el contrario, se necesita la activación de los músculos de la espiración, para producir
una alta presión subglotal , por ejemplo, para cantar un tono fuerte (Fortissimo), a bajo
volumen pulmonar.
Además de los factores mecánicos, la exhalación puede implicar la actividad de los
intercostales
internos
y
los
músculos
abdominales. La contracción primera tiene el efecto de la reducción de las costillas y, por
tanto, la compresión de la cavidad torácica. La activación de los músculos abdominales
hacia arriba genera fuerzas que también contribuirán a reducir el volumen de la caja
torácica y los pulmones. La función de estos músculos es la espiración.
Fig. 16,2 las presiones Subglotales producidas en diferentes volúmenes de pulmón en un
sujeto por el retroceso de las fuerzas de la caja torácica y los pulmones. El nivel de
reposo espiratorio (REL)(Resting expiratory level)
es el volumen de pulmón en el que las fuerzas de la inhalación y el retroceso exhalatorio
son iguales. La delgada y fuerte cadena de líneas de puntos representan presiones
subglotales normalmente necesarios para una muy suave y fuerte fonación
Fig. 16.3 Definición de los distintos términos para los volúmenes pulmonares. El gráfico
ilustra los cambios de volumen pulmonar durante la respiración tranquila interrumpido
por una inhalación máxima seguida de una espiración máxima. VC es la capacidad vital
(vital capacity), TLC es la capacidad pulmonar total (total lung capacity), IRV y
ERV son la inspiración y el volumen espiratorio de reserva (inspiratory reserve
volume and expiratory reserve volume), REL es el nivel de reposo espiratorio
resting expiratory level), FRC es la capacidad residual functional ( functional
residual capacity).
Otro factor significativo es la gravedad, cuya función depende de la postura corporal, en
una posición vertical, el diafragma y las estructuras adyacentes tienden a ser derribadas,
incrementando el volumen de la cavidad torácica. en esta situación, el efecto de la
gravedad es inspiratorio. En contraste, en posición supina el diafragma tiende a subir la
caja torácica, y se promueve la expiración (16,1).
el total de volumen de aire que se encuentra en un máximo de la caja torácica se llama la
capacidad pulmonar total / TLC Total lung capacity) en la Fig. 16,3). después de una
máxima exhalación un pequeño volumen de aire, el volumen residual, sigue estando a la
izquierda de las vías respiratorias. El mayor volumen de aire que puede ser exhalado
después de una inhalación máxima se llama la capacidad vital (VC) y, por tanto, es igual
a la diferencia entre el TLC y el volumen residual. El volumen pulmonar en el que la
inhalación y el retroceso exhalatorio son fuerzas iguales, o REL, se alcanza después de un
relajado suspiro, ver Fig. 16.2 y 16.3. Durante la marea de la respiración se inicia la
inhalación de REL, de manera que la inhalación es activa como consecuencia de una
activación de los músculos inspiratorios. y La exhalación es pasiva, producida por la
fuerza en retroceso. en La marea de la respiración sólo alrededor del 10% de VC es
inhalado, de modo que una gran parte de la VC, el volumen inspiratorio de reserva, esta a
la izquierda. El volumen de aire entre el REL y el volumen residual es el volumen
espiratorio de reserva.
VC varía en función de la edad, la altura del cuerpo y el género. A la edad de unos 20
años, una mujer adulta tiene una capacidad vital de 3-3.61 en función de la altura
corporal, y para los hombres los valores correspondientes son acerca de 4-5.51.
Los datos experimentales (16,4) muestran que, durante las mareas de respiración, las
variaciones de volumen pulmonar se caracterizan por un patrón sinusoidal cuasi
aleatorios alternando con segmentos de inspiración y expiración de plazo de duración
aproximadamente igual (Fig. 16,4).en el habla y el canto el patrón es transformado, la
inspiración se vuelve cada vez más rápidas y la exhalación se produce en un ritmo
constante relativamente lento
el aumento de la sonoridad vocal plantea la amplitud de los registros de volumen
pulmonar, pero deja su forma relativamente sin cambios
Fig. 16,5 el volumen pulmonar promedio utilizado en el habla y el canto operístico, se
expresa en porcentaje de la capacidad vital en relación con el nivel de reposo
espiratorio REL. La zona sombreada representa la banda media de volumen
pulmonar observada en voces de mujeres sin formación, después de un discurso sin
guión Fig. 16,2). Los símbolos llenos y vacíos muestran las medidas
correspondientes para cantantes de ópera profesional de las clasificaciones
indicadas de acuerdo con arias de ópera de Thomasson (16,3). Las barras representan
(+ -) una SD
Figura 16-5 muestra el promedio de volumen pulmonar utilizado por los cantantes
profesionales cantando canciones bien ensayadas. la banda más oscura representa el
promedio de volumen pulmonar observado en el habla espontánea (16,2) los volúmenes
pulmonares de la voz en conversación son similares a las de las mareas para respirar.
Discursos en vivo muestran mayor consumo de aire y, por tanto, mayores volúmenes
(Fig. 16,4). El discurso de grupos de aliento muestran normalmente una duración en la
respiración de 3-5 segundos y se termina cuando los volúmenes pulmonares se acercan a
la relajación espiratoria nivel REL, como se ilustra en la Fig. 16.5. por lo tanto, en la
fonación, es mejor evitar los volúmenes pulmonares que están en su mayoría por debajo
del REL.
Figura 16.6 Los registros muestran el volumen pulmonar (en relación a medidas de nivel
respiratorio), la presión subglotal del (esófago) y la estilizada actividad muscular de un
orador cuenta de 1 a 32 en el esfuerzo de una conversación vocal.
(después de Draper et. al. (16,5). A la izquierda de la línea vertical, las fuerzas de
retroceso son fuertemente expiratorio, mientras que a la derecha es inspiratorio.
unas flechas se han añadido al eje "x" para resumir el original EMG mediciones
que indican que las fuerzas de retroceso se equilibran o balancean por la actividad
muscular (EMG = electromiografía, la medición de la actividad eléctrica de los
músculos). A la izquierda de la línea vertical (indicando con una flecha que apunta
hacia la izquierda) la fuerza muscular inspiratoria, a la derecha es la espiración
(flecha que apunta hacia la derecha).
para mantener constante el volumen, el orador mantiene una presión subglotal
estable y recluta los músculos de acuerdo con el valor actual del volumen pulmonar.
Este comportamiento ilustra el fenómeno conocido como equivalencia de motor.
En el canto, la respiración de los grupos de alientos tienden a ser aproximadamente del
doble de tiempo o más, y el consumo de aire es generalmente mucho mayor que en la
conversación de voz. La mayoría de ellos terminan cerca del nivel de la relajación
espiratoria como en el discurso, pero a veces se extienden a el volumen espiratorio de
reserva como se ilustra en la figura. 16.5 Esto implica que, en el canto, la respiración
normalmente empiezan en grupos mucho más altos que en los volúmenes pulmonares del
discurso. Este uso de volúmenes altos de pulmón implica que los cantantes tienen que
hacer mucho mayor frente a las fuerzas de retroceso que en el habla.
La Fig. 16,6 muestra la trama estilizada de un diagrama publicado por Ladefoged et. al.
(16,7). En él se resumen las mediciones de volumen pulmonar y la presión subglotal,
sobre la cual nos vamos a referir en adelante, Como (Ps), grabado de un orador al que
se le pidió tomar una respiración profunda, para a continuación, iniciar el conteo.
La intersección de la línea discontinua representa el registro de la Ps relajación de
presión. Esta línea nos dice que las fuerzas de retroceso elástico espiratorio están
fuertemente a la izquierda de la línea vertical. A la derecha se produce una presión
inferior al tope de presión y, finalmente, una presión inspiratoria. La curva Ps sigue
siendo bastante plana en todo el enunciado.
Fig. 16.7 Ejemplo de variaciones de presión subglotal y “aspectos fonéticos” de la frase
oral (después de Netsell (16,6). Dado que la glotis se abre y se cierra con los sonidos de
voz, y el tracto vocal se abre y cierra al expresar vocales y consonantes, el aire espirado
se opone por diversos grados de impedancia glotal y supraglotal. Tanto la exposición oral
y la presión de los registros subglotales reflejan el efecto combinado de estas variaciones
de resistencia
surge la pregunta: ¿cómo puede esta relativa constancia lograrse a pesar de la continua
evolución de la contribución de las fuerzas de la relajación? en una reciente réplica de
esta obra clásica (16,8), diversas críticas al estudio original, tratan básicamente la
respuesta a esta pregunta: el sistema motor se adapta a el mantenimiento externo de el
tope de Ps bastante constante (Fig. 16.6) . inicialmente, cuando las fuerzas de retroceso
son fuertes, la actividad muscular es predominantemente en los músculos inspiratorios
como el diafragma y los intercostales externos. poco a poco, como las fuerzas de
retroceso declinan, los músculos de la expiración (intercostales interiores, y el abdominal
recto, entre otros) se encargan de que cada vez más, el otro grupo se relaje (véase flechas,
Fig. 16,6). Lo cual según nuestra comprensión actual [16.8, 9], esta adaptación de la
respiración en el discurso se logra mediante el constante equilibrio entre la actuación de
los músculos agonistas y antagonistas, de conformidad con las condiciones actuales
(volumen pulmonar, postura corporal, etc.) y con el objetivo de mantener la constante Ps.
La contracción Muscular depende del volumen pulmonar.
La Fig.16.7 presenta un ejemplo representativo de los registros de Ps orales
La frase es "aspectos fonéticos" (después de Netsell [16,6]). El panel superior muestra un
registro de los flujos de aire orales. Las líneas verticales indican el envolvente del
segmento acústico.
El diagrama de la parte inferior superpone las curvas de la presión oral y subglotal.
El PS muestra un patrón de caída que se hace más pronunciada hacia el final de la frase y
que recuerda la declinación de la frecuencia fundamental típica del contorno de las
sentencias declarativas
[16.10, p. 127]. Los valores más altos se producen en la mitad de los puntos de [ E] y [
ae], se hizo hincapié en la pronunciación de las vocales.
Para las vocales orales, la presión está cerca de la presión atmosférica.(cerca de cero
sobre el eje "y" cm escala H2O). La fonética de [K) y [P] muestran aspectos de huellas
muy similares. Como la lengua hace que en el cierre de la [K], el flujo de aire es
bloqueado y la traza se reduce a cero. Esto es paralela a la fase oral hasta que el aumento
de la presión es igual a la Ps. Como el cierre de la [K] avanza, un ligero aumento se
acumula entre las dos curvas.
La relajación de la [K] es señalada por un pico en el flujo de aire y una rápida
disminución en el PS. Un patrón casi idéntico es visto para [P].
En el análisis de los registros de Ps, el objetivo fonético tiene por objeto determinar las
variaciones sobre la base de un control activo del sistema respiratorio y los fenómenos
que se pueden atribuir al sistema de respuesta pasiva a otra actividad en curso en otros
lugares, por ejemplo, en el tracto vocal y/o en el nivel de las pliegues vocales [16,11].
Para ejemplificar los efectos pasivos pensemos en la sucesos relacionados con [K] y [P] a
los que se acaba de hacer referencia. Ya que sugerido por los datos de las Fig. 16,4 y
16,6, la respiración del habla en un producto relativamente estable del decremento
del volumen pulmonar.
Sin embargo, el estado abierto o cerrado de la glotis, o la presencia de una
constricción/cierre del tracto vocal, es capaz de crear distintos grados de impedancia
por el aire espirado. El registro de la presión oral refleja el efecto combinado de
articulación glotal y
variaciones de resistencia.
Ps también se ve afectada por tales cambios de condiciones.
Como se desprende de la Fig. 16,7, los trazos de Ps durante los segmentos en [K] y [P]
primero se incrementa durante el limite de cierre, luego disminuye rápidamente durante
la liberación y la fase de aspiración
Estos efectos, son respuestas pasivas a la serie de sesiones a base de cambios en la
Resistencia supraglotal y no es probable que se programe como activa [16,12, 13].
La Respiración no desempeña un papel activo en la producción de la acentuación de
sílabas? En "aspectos fonéticos principalmente se acentúa en (E) y [ae]. En términos de
Ps, estas vocales exponen
los valores más altos. Están estos dos en una participación activa del sistema respiratorio
en la señalización del acento?, o son fortuitos del producto de otros factores?
Una primera contribución a la investigación sobre la respiración y el habla es la
obra de Stetson [16,14]. Sobre la base de aerodinámica, y las mediciones del
movimiento del pecho electromiográficas, Stetson propone el concepto de pulso del
pecho como una parte de la actividad correspondiente a la espiración en la
producción de una silaba individual.
A finales de los años cincuenta, Ladefoged y sus colegas publicaron un estudio
electromiográfico [16.7] donde ponen en
duda la interpretación de Stetson.
Se informó de una mayor actividad en los músculos espiratorios (interno
intercostales) para las sílabas en inglés.
Ladefoged [16,8] informa sobre los resultados de reproducción en un estudio
de 1958 en que una mayor actividad en el interior de los intercostales, en silabas
acentuadas se confirmo.
Además, se observó que la reducción de actividad en los músculos inspiratorios
(intercostales externos)se producía inmediatamente antes de cada acentuación de silaba.
Las mediciones de Ps proporcionan una prueba más de un positivo papel en la respiración
en la aplicación de presión.
Ladefoged establece: “Acompañando cada sílaba acentuada hay siempre un
incremento en la Ps”. El efecto de la Ps sobre la frecuencia fundamental ha sido
investigado en numerosos estudios. De varias observaciones fonéticas se ha concluido
que en la producción de variaciones de F0 en el habla, la Ps sólo juega un papel
secundario. El control de F0 está basado primordialmente en la actividad laríngea. Sin
embargo, la caída del contorno de F0 de frases con entonación declarativa tiende a tener
los contornos de Ps también caídas.
Existe una clara evidencia de que la Ps necesita ser cuidadosamente adaptada al
objetivo de la frecuencia fundamental en el canto, especialmente en el rango alto.
16.2 La fuente de sonido glotal
En discurso y canto el método general para generar sonido es hacer una
constricción y dejar un fuerte flujo de aire pasar a través de él. El componente
respiratorio sirve como fuente de alimentación proporcionando la energía necesaria para
la producción de sonido. En la glotis el flujo constante de aire generado por el
componente respiratorio se transforma cuasi periódico en una serie de pulsos glotales. En
el tracto vocal , el flujo de aire glotal modificado sufre nuevas modificaciones en las
características de la resonancia oral, en la faringe y en las cavidades nasales.
Las constricciones se forman en la glotis - ajustando la separación de las cuerdas vocales
y por encima de la glotis están posicionados los articuladores del tracto vocal. Como los
pliegues se presentan juntos, ellos responden rápidamente a la atmósfera corriendo
rápidamente una vibración a través del abrir y cerrar y, por tanto, se impone una
modulación de flujo de aire casi periódica.
la estructura glotal funciona como un dispositivo que impone una modulación (AC)
sobre un flujo (DC). Esto es básicamente el camino como se expresan la fuente de
sonido de las vocales y las consonantes y el portador de la entonación y la melodía.
Un segundo mecanismo se encuentra en la producción de el ruido, la acústica de las
materias primas para voz suena (por ejemplo, [f], [�S], [P], [K]). El término se refiere a
las fluctuaciones irregulares en el turbulento flujo de aire que se producen cuando el aire
entra a partir de una constricción a alta velocidad. Este proceso puede ocurrir en la glotis
- por ejemplo, en el sonido [H] , Como cualidades de susurro o voz velada o en distintos
lugares de la articulación del tracto vocal.
El marco para describir tanto el canto y el discurso es el de la teoría de la
producción en la fuente-filtro del habla [16,27, 28]. El objetivo de esta sección es
poner el discurso y el canto de lado a lado dentro de ese marco de trabajo para describir la
forma en que el orador y el cantante coordinan la respiración, la fonación y la
articulación, de tal forma que el producto final: es la onda acústica que percibe el
oyente.
Figura 16-12 [16,29] es un intento de capturar unos pocos aspectos clave de las
vibraciones vocales. En el centro un único ciclo de una onda glotal se ve. Son parcelas
del flujo de aire a través de la glotis en función del tiempo. Alternativamente, el gráfico
puede ser utilizado Como imagen de las variaciones del tiempo glotal y el flujo de aire
en la zona donde presentan un patrón muy similar.
La fila superior muestra estilizada secciones transversales de las cuerdas vocales en
determinados momentos a lo largo del ciclo glotal. De izquierda a derecha se refieren a la
apertura de los pliegues, el punto máximo de la zona y el punto de cierre. A continuación
se muestra una vista de las cuerdas vocales desde arriba correspondientes a los perfiles en
la parte superior del diagrama.
Hay una serie de diferentes métodos de visualización de las vibraciones vocales. Al
colocar un electrodo en cada lado del cartílago tiroides, un minuto actual puede ser
transferido a través de la glotis. Esta corriente aumenta sustancialmente cuando se ponen
en contacto los pliegues. Existe un electroglotograma resultante, denominado también
laringograma, por lo tanto, el contacto es una variable con el tiempo. Es bastante eficiente
en la medición de F0 y fase cancelada. Glotogramas ópticos se obtienen iluminando la
tráquea de frente y hasta atrás, por medio de una fuente de luz potente y capturar la luz
que viaja a través de la glotis por medio de un censor óptico en la señal, por lo tanto, la
laringe
refleja la zona glotal. pero sólo mientras la luz se encuentra exitosamente como censor.
Una inclinación posterior de la epiglotis puede fácilmente alterar o eliminar la señal.
Los glotogramas de flujo, muestran el flujo de aire transglotal contra el tiempo y se
obtienen por el filtrado inverso de la señal de audio, a menudo es recogida como un flujo
de señales por medio de una mascara neumotacografo [16,30]. Implica que el filtrado
inverso de la señal pasa a través de un filtro con una función de transferencia que es igual
a la invertida de la función de transferencia del tracto vocal. Por tanto el filtrado inverso
correcto, requiere que los picos de resonancia invertidos del filtro inverso estén afinados
a las frecuencias de los formantes de la vocal que se filtra.
Como el flujo de aire transglotal es igual a cero cuando la glotis se cierra y distinto de
cero cuando está abierto, el flujo del glotograma es fisiológicamente relevante. Al mismo
tiempo Esto es la presentación del sonido de la fuente de voz.
Un ejemplo típico de un flujo glotograma se da en la parte superior del gráfico de
Fig.16.13. Los parámetros clásicos derivados del flujo glotograma son las duraciones del
periodo y de la fase cerrada, de picos de pulsos a picos de amplitud, y fugas glotales. El
gráfico inferior muestra los glotogramas diferenciados. El pico de amplitud negativo es a
menudo referido como la tasa máximo de declinación (MFDR). como se ha visto esto es
el estatus especial en el del proceso de producción de la voz.
En un estudio del habla y el canto, los parámetros de la acústica relevantes son las
variaciones en el tiempo de la presión sonora producida por el sistema de vocales y
recibidos por los oídos del oyente. Teóricamente, esta señal es aproximadamente
proporcional a la derivada de la salida del flujo de aire en los labios [16,28, 31]
Esto se relaciona con la derivada de la forma de onda glotal a través de la transferencia de
la función vocal. Formalmente, la señal de excitación de los sonidos de la voz se define
en términos de esta señal diferenciada. Por consiguiente, la teoría del filtro de fuente, es
la derivada del flujo glotal que representa la fuente y se aplica al filtro o al sistema de
resonancia del tracto vocal. La excitación de la amplitud del tracto vocal, generalmente
referida como la fuerza de excitación, se cuantifica por la máxima velocidad del
decrecimiento o disminución del flujo durante el movimiento de las veces de cierre de
vocales (el MFDR, Fig. 16,13) lo cual es un factor determinante del nivel del sonido
radiado.
En el momento de cierre glotal una modificación drástica del flujo de aire se lleva a cabo.
Este cambio es lo que se genera para la expresión de una lengua tanto hablada como
cantada y los sonidos
Se producen con la energía en una amplia gama de frecuencias.
El modelo Liljencrants-Fant (LF) [16,32, 33] es un intento de modelo de onda glotal
utilizando parámetros como frecuencia fundamental, la fuerza de excitación, la fuga de la
dinámica, cociente de la abertura y la frecuencia glotal. (definido por el período de
tiempo de fase de apertura glotal).
Otras propuestas sobre la base de parámetros de forma de onda ha
sido hecha por Klatt y Klatt [16,34], Ljungqvist y Fujisaki [16,35], Rosenberg [16,36] y
Rothenberg et al. [16,37].
Una segunda línea de investigación se inicia a partir de supuestos acerca de la mecánica
de pliegue vocal y se aplica aerodinámica para simular las vibraciones glotales [16,38,
39]. Análisis profundos de este trabajo indican la importancia de parámetros tales como
la Ps, la posición aducidos / secuestrados de los pliegues vocales y su rigidez [16,28].
Durante los primeros días de la síntesis de voz se hizo evidente que la simplificación de
la asunción de una constante fuente de voz no era suficiente para la producción de alta
calidad de sonidos naturales por la síntesis copia. La experimentación de la fuente de la
voz y la síntesis de voz ha demostrado que, en el curso de una enunciación, los
parámetros de la fuente se someten a una gran cantidad de variaciones. Los factores
determinantes de esta
dinámica, en parte, son prosódicos, en parte segmentarla. Fig. - 16.14 [16.32] presenta un
diagrama de las variaciones del tiempo
del parámetro de la fuerza de excitación (es decir, MFDR)
Gobl recogió los datos de los flujos usando la máscara desarrollada
por Rothenberg [16,30] y aplicó el filtrado inverso para obtener registros de flujo glotal
que, después de diferenciarlos, le permitió hacer las mediciones de fuerza de excitación
LF y otros parámetros.
Figura 16.14 deja claro que la fuerza de excitación de ninguna manera es constante. Que
varía en función de factores prosódicos
y segmentarios. El efecto de los segmentos es visto cerca de los limites de la consonante.
Dado que el tracto vocal es limitado, por ejemplo, en [d] y [t], por lo tanto la presión
transglotal disminuye (véase el registro de la presión Fig. 16,7), se reduce la fuerza de
excitación. En parte esto también produce variaciones para dar cabida a la expresión y la
voz de la consonante [16,28].
Esta influencia de consonantes sobre la fuente de la voz se ha documentado en mayor
detalle por Ni Chasaide y Gobl [16,40] para las lenguas Alemán, Inglés, sueco, francés,
inglés e italiano.
se observaron particularmente efectos sorprendentes en el contexto de las consonantes en
la voz.
Prosodicamente, observamos en la Fig. 16,14 mostrando la fuerza de excitación
exhibiendo un pico en donde destacó una contrastante sílaba. en detta y el patrón general
de la frase es similar a la caída de la declinación de anterior contorno de los estados
declarativos mencionados.
Ejemplos del hecho de que la Ps tiene una fuerte influencia en el glotograma de flujo se
dan en la parte superior del conjunto de gráficos de Fig.16.15, que muestra un conjunto
de glotogramas de flujo para fonaciones producidas en el mismo tono, pero
con distintos grados de sonoridad vocal. Al examinar la serie de patrones de sonidos más
suaves tomamos nota de que tanto el flujo máximo y la máxima pendiente del final del
recorrido del pulso, es decir, MFDR, aumenta de forma significativa con el aumento de
Ps. Estos cambios en la forma están legalmente relacionadas con las variaciones de Ps y
están directamente reflejados en los niveles de presión sonora tal Como esta indicado por
los números en la Table16.1.
Holmberg y colaboradores [16,41] realizaron grabaciones acústicas y el flujo de aire de
25 hombres y 20 mujeres productoras de repeticiones de la silaba [PAE], a esfuerzos
vocales suaves, normales y altos [16,42, p.136]. Las estimaciones de la Ps y el flujo de
aire glotal se hicieron a partir de grabaciones orales de la presión y el flujo de aire oral.
La Ps se obtuvo por interpolación entre las presiones de pico orales en sucesivas [p] y, a
continuación, los segmentos a través de un promedio de repeticiones. Una medida del
promedio se obtuvo filtrando mediante filtro paso bajo la señal de flujo de aire y los
valores promedio de la muestra en puntos medios de la vocal.
Una copia de la señal de flujo de aire fue filtrada por paso bajo y se filtró a la inversa
para separar el efecto de la F1 y para otras formantes. La salida fue diferenciada para los
fines de la determinación de la MFDR (Fig. 16,13).
Figura 16.15 ilustra también cómo la fuente de voz puede ser variada continuamente
entre los diferentes modos de fonación. Estos modos van desde hyperfuncional, o
presionado, a un flujo más neutral hasta hipofuncional, o brillante. El correspondiente
parámetro del control fisiológico puede ser postulado para ser glotal aducción, por
ejemplo, la fuerza por la que los pliegues se prensa contra la otra, varía de un mínimo en
hipofuncional a la extrema en hiperfuncional. El flujo de la fonación se produce con el
grado más débil de aducción glotal compatible con un cierre glotal completo. La
propiedad fisiológicamente relevante que se ve afectada es la amplitud de la vibración de
las vocales, que es pequeño en la fonación de presión/hiperfuncional y en la fonación
amplia y brillante.
Como se ilustra en la figura. 16,15 el glotograma de flujo es fuertemente afectado por
estas variaciones en los modos de fonación [16,43]. En la fonación presionada la
amplitud del pulso es pequeña y larga en la fase cerrada. Es más grande en neutro y más
aún en el flujo. En una brillante fonación suelen mostrar una forma de onda similar a una
onda sinusoidal, el flujo de aire es considerable, principalmente a causa de una gran fuga,
por lo que no hay cierre glotal.
El modo de fonación afecta a la relación entre la Ps y el SPL del sonido producido. Como
se muestra en la Tabla 16.1B la fonación presionada es menos rentable desde un punto de
vista acústico: un Ps de 11,4 cm H2O produce un SPL de 0,3 m de sólo 83 dB, mientras
que en la fonación de flujo una menor Ps produce un mayor SPL.
La afinación, la sonoridad y el modo de fonación son la cualidad de la voz que puede
variar continuamente. Por el contrario, los registros vocales, también son controlados por
los parámetros glotales, aparecen como más activas, por lo menos en las voces sin
entrenamiento. La voz está funcionando bien en uno u otro registro. Existen al menos tres
registros vocales, fritura, modal y falsete. Cuando entre el desplazamiento de registros
esta entre el modal y el falsete, se observa un F0 con discontinuidades de frecuencia
[16,44].
La definición de los registros vocales es bastante vaga, una serie de tonos similares a lo
largo de la F0 de sonido continuo que se considera que se produce de una manera similar.
Como los registros dependerán de la función glotal, se producen diferentes características
del glotograma de flujo.
La Figura 16.16
muestra ejemplos típicos de glotogramas de flujo de falsete y modos de los registros
producidos por cantantes profesionales barítono, tenor y contratenor. Los pulsos son más
redondeados, la fase de cierre es más corto, y la fuga glotal es mayor en los modos de
registro del falsete. Sin embargo, la forma de onda de un determinado registro a menudo
varían considerablemente entre los individuos.
En la formación clásica de sopranos, altos, y tenores aprenden a efectuar las transiciones
entre los modos y los registros de falsete, evitando cambios bruscos en la timbre de la
voz.
La variación de la pendiente en la sonoridad vocal afecta el espectro, como se ilustra en
la Fig.16.17, que muestra los espectros de la media a largo plazo (LTAS) de un hombre
que inexperto con su voz. En la figura se especifica el volumen en términos de lo que se
llama nivel sonoro equivalente de ruido. Esto es utilizado comúnmente como tiempo
promedio de nivel de sonido, que se define Como:
donde t es el tiempo y T el tamaño de la ventana de tiempo. P y P0 son los de presión
sonora y la presión de referencia, respectivamente.
Cuando se cambia la sonoridad vocal, los sobretonos mas altos tienen un cambio mucho
mayor en el nivel de sonido que los sobretonos mas bajos. En la figura, un cambio de
14dB en el nivel cerca de 600Hz se asocia con un cambio de cerca de 22dB a 3000Hz, es
decir, alrededor de 1,5 veces el cambio de nivel, cerca de 600Hz.
Relaciones similares se han observado en los cantantes profesionales [16,47]. En otras
palabras, la pendiente en la fuente de la voz del espectro disminuye al aumentar la
sonoridad vocal.
La variable fisiológica utilizada para la variación de la sonoridad vocal es Ps. Esto se
ilustra en el gráfico superior de Fig.16.18, comparando los datos observados en el
promedio de hombres y mujeres inexpertos y los datos obtenidos de un barítono cantante
profesional [16.45,46]. La relación entre la Ps y MFDR es aproximadamente lineal. Se
observa que el intervalo de la presión utilizada por el cantante es considerablemente más
amplia que el utilizado por las voces inexpertas.
El MFDR producido con una determinada Ps, por las voces de las mujeres y los varones
inexpertos, se muestra en su mayoría cómo mas alta, que la producida por los barítonos
con la misma presión.
esto puede depender de diferentes características mecánicas de las cuerdas vocales.
Como veremos más adelante, SPL depende de la fuerza de la excitación del tracto vocal,
es decir, de MFDR. Esta variable a su vez depende de la Ps y de FO; Cuanto mayor sea la
presión, mayor será el valor MFDR y cuanto más alto es el de FO, mayor es la MFDR.
El gráfico superior de la Fig. 16,18 muestra con precisión el MFDR, cómo podría ser
predicho el Ps y FO de los datos publicados anteriormente para cantantes hombres y
mujeres inexpertos, y para cantante barítono profesional. [16,45, 46].
Ps y Fo son linealmente relacionados con MFDR. Sin embargo, los cantantes, mostraron
una mayor variación de la F0 que las voces inexpertas. Esta diferencia refleja de hecho,
que a diferencia de los sujetos inexpertos, los cantantes pueden cantar un alto F0 mucho
más suave que los inexpertos. La habilidad para cantar notas altas también suavemente
pertenecen a la expresión esencial de las competencias entre los cantantes.
Recordando que un aumento de Ps aumenta el F0 por unos pocos Hz / cm H2O, nos
damos cuenta de que cantar tonos agudos
suavemente requiere más fuerza de la contracción de los músculos de la laringe, que en
los tonos en voz alta.
Tracto Vocal
El Tracto Vocal es un tubo no uniforme de 17 a 20 cm de longitud, cuyos límites son las
cuerdas vocales por un extremo y los labios por el otro. Por lo tanto, está formado por la
faringe y la cavidad bucal. Posee una sección recta variable en función de la posición de
los órganos articulatorios (labios, mandíbula, lengua y velo del paladar). Estos órganos
permiten concentrar la energía en determinadas frecuencias actuando como resonadores.
La teoría del filtro fuente describe la producción del sonido vocal como un
proceso de tres pasos:
(1) generación de un flujo de aire estable desde los pulmones (componente DC);
(2) conversión de este flujo de aire en una pulsación pseudo periódica transglotal de flujo
de aire (conversión DC a AC), referido como la fuente de voz;
(3) la respuesta del tracto vocal a esta señal de excitación (modulación de la señal AC)
que se caracteriza por la curva de frecuencia o función de transferencia del tracto vocal.
La resonancia es el rasgo clave de la respuesta del filtro. Las cavidades oral, faríngea y
nasal del tracto vocal forman un sistema de resonadores. Durante cada ciclo glotal el aire
incluido en esta cavidades es puesto en movimiento por el pulso glotal, el principal
momento de excitación ocurre durante el cierre de las cuerdas vocales, más precisamente
en el tiempo de MFDR, medida máxima de declinación de flujo.
El comportamiento de una resonancia del tracto vocal, o formante, es especificado en los
dominios de tiempo y frecuencia. Por cualquier transitoria excitación, el tiempo de
respuesta es un decaimiento exponencial coseno. La respuesta en frecuencia es un
continuo espectro de amplitud-frecuencia con un solo pico. La forma de la función es
determinada únicamente por dos números (en Hz): la frecuencia formante F y el ancho de
banda B. En el dominio de frecuencia el ancho de banda es definido como el ancho 3dB
de la formante debajo del pico. Una gran banda ancha produce un pico pequeño, mientras
un valor pequeño hace el pico más alto y más pronunciado.
En especificaciones acústicas fonéticas de vocales, es acostumbrado reportar no más de
las primeras dos o tres frecuencias de las formantes. Experimentos en síntesis de habla
han indicado que esta descripción compacta, basta para capturar la calidad del estado
estable de las vocales razonablemente bien.
Las bandas anchas pueden reflejar pérdidas acústicas, que dependen de factores como la
radiación: transmisión de sonido por las paredes del tracto vocal; viscosidad: conducción
de calor, tamaño de la constricción por el buen estado de la glotis. Por ejemplo, en una
mayor apertura glotal, como en una voz de aliento, será muy marcado el incremento de la
banda ancha de la primera formante.
La formante del cantante está presente en todos los sonidos expresados como cantados
por cantantes de ópera masculinos. Esto fue descubierto primero por Bartolomé. Esto se
manifiesta como un alto pico marcado a largo plazo promedio en el espectro. (LTAS –
Long Term Average Spectrum).
La formante del cantante puede ser explicada como un fenómeno de resonancia. Es un
producto de las mismas reglas que invocamos arriba para considerar las amplitudes
formantes de vocales y para la intensidad intrínseca de las vocales. La estrategia de un
cantante entrenado clásicamente debe formar su tracto vocal para hacer F3, F4 y F5
formen un clúster apretado en frecuencia. Como las separaciones de frecuencia entre
estas formantes están disminuidas, sus niveles individuales se incrementan y de ahí un
alto pico espectral es obtenido entre 2500 y 3000 Hz.
Estos quiere decir que los cantantes de ópera masculinos producen un sonido que puede
ser oído más fácilmente por un fuerte acompañamiento orquestal por sintonías de
resonancias del tracto vocal más bien que por la producción de una excesiva Ps.
La situación acústica produciendo el clustering de F3, F4 y F5 es obtenido por
enarmonías acústicas de la apertura del tubo laríngeo, también llamado tubo epilaríngeo,
con la faringe. Esto puede ser alcanzado por el estrechamiento de esta apertura. Entonces
el tubo laríngeo actúa como un resonador con una resonancia que no es muy afectada por
el resto del tracto vocal, sino más bien por la forma del tubo laríngeo. Además del tamaño
de la apertura, el tamaño del ventrículo laríngeo influirá: el largo del ventrículo, lo bajo
del tubo de resonancia laríngeo. Por lo visto, los cantantes templan el tubo de resonancia
laríngeo a una frecuencia cerca de F3. Los medios articulatorios usados para establecer
la cavidad a estas condiciones parecen principalmente ser un “bajamiento” de la laringe
que desde esto tiende a ensanchar a ambos a la laringe y al ventrículo laríngeo. Muchos
maestros de canto recomiendan a sus estudiantes cantar con una confortable posición baja
de la laringe.
El nivel de la formante del cantante es influenciado también por la cuesta del espectro
fuente, la cual a su vez depende de la intensidad vocal, por ejemplo una presión subglotal,
como hemos mencionado. Así, la formante del cantante tiende a incrementar alrededor de
15 dB por un cambio de 10 dB del total de SPL.
La formante del cantante es una característica de cantantes entrenados masculinos. Esto
no tiene fundamento en el canto no clásico, por ejemplo en el pop o en la música de
teatro, donde la audibilidad es responsabilidad del ingeniero de audio más que del
cantante. De la misma manera, cantantes de coro generalmente no tienen formante del
cantante.
Sílaba
En todas las lenguas del mundo los sonidos tienden a agruparse dentro de la cadena en
unidades mayores dotadas de una entidad propia y más fácilmente aislables que los
propios segmentos: son las sílabas.
Desde la antigüedad clásica hasta nuestros días han existido muchos y variados intentos
de definición, que se han elaborado desde todos los enfoque posibles - fisiológico,
articulatorio, auditivo o acústico - sin que ninguno de ellos haya alcanzado el respaldo
unánime de los fonetistas. Cada autor ha tomado en consideración un aspecto
determinado del fenómeno - sea éste la abertura, la perceptibilidad, la tensión muscular o
cualquier otro - sin valorar el papel desempeñado por los restantes, lo que conduce
inevitablemente a explicaciones parciales y a simplificaciones inexactas en mayor o
menor medida. Por ello, la definición más completa que puede darse de sílaba es la
resultante de unificar toda la pluralidad de enfoques que se le han dado en una
formulación de validez general.
La definición de sílaba debe abarcar la totalidad de los caracteres que la constituyen
como tal (aspecto psicológico de la tendencia al ritmo, fuerza motriz proporcionada por
los músculos intercostales, tensión articulatoria, fuerza espiratoria, presión muscular,
sonoridad, perceptibilidad y abertura vocálica), tanto en su aspecto articulatorio como en
el auditivo. Diremos entonces, con J. Chlumsky (1935), que la sílaba es una articulación
o grupo de articulaciones de tensión fisiológica creciente al principio y decreciente al
final, que responde a un solo impulso de energía muscular, y cuyo centro, formado por
uno o más sonidos, posee mayor intensidad espiratoria, mayor abertura, mayor
perceptibilidad y mayor tensión muscular que el resto de los sonidos que la integran. Así
pues, la sílaba es a la vez una unidad de tipo articulatorio, acústico, auditivo y
psicológico.
En la mayoría de las lenguas, las palabras pueden dividirse en sílabas que constan de un
núcleo silábico, un ataque que antecede al núcleo silábico y una coda que sigue al núcleo
silábico. La estructura silábica es el conjunto de restricciones propias de cada lengua
sobre qué fonemas o grupos de fonemas pueden ocupar estas posiciones.
Los lenguajes varían con respecto a la forma cómo combinan consonantes y vocales
dentro de la sílaba. La mayoría de ellos favorecen sólo un marco con dos ranuras: la
sílaba CV. Otros permiten estructuras de sílabas más elaboradas con arriba de tres
consonantes inicialmente y la imagen de espejo en la posición final de la sílaba. Si hay
también una distinción de longitud en el sistema de vocal/consonante, el marco de sílaba
puede hacerse bastante complejo. Un rico patrón con clústers de consonantes y longitud
fonológica usualmente implica que el lenguaje tenga un fuerte contraste entre sílabas
acentuadas y no acentuadas.
En los lenguajes que permiten secuencias de consonantes existe una tendencia universal
para que los segmentos sean serialmente ordenados en un continuo articulatorio con las
consonantes compatibles con vocales de una mayor apertura mandibular ocurriendo
después a la vocal, por ejemplo, [l] y [r]; mientras aquellos menos compatibles como la
[s] son recluidos en los márgenes de la sílaba. Siguiendo esta observación, el inglés y
otros lenguajes usan [spr] como inicial pero no final clúster. La secuencia al revés [rps]
ocurre en la final más no inicial posición, sprawl y harps. Actual y Tradicionalmente esta
tendencia es explicada en términos de un atributo auditivo de los sonidos del habla: la
sonoridad. El principio de sonoridad establece que, como los segmentos más sonoros las
vocales toman una posición central del núcleo de las sílabas y que la sonoridad de las
consonantes que la rodean debe disminuirse de izquierda a derecha comenzando de la
vocal. Recordando que el grado de apertura articulatoria afecta a F1 la cual a su vez
afecta la intensidad sonora, comprendemos que estos términos articulatorios y auditivos
son incompatibles. Sin embargo, la razón de las variaciones silábicas en sonoridad es
articulatoria: la tendencia de las sílabas para alternar abierta o cerrada articulación es de
manera cíclica.
La sílaba es también iluminada por una perspectiva desarrollista. Un importante jalón de
la adquisición normal del habla es el balbuceo canónico. Este tipo de vocalización surge
entre los 6 – 10 meses. Consiste en secuencias de CV como eventos, por ejemplo.
[daedae] [baba]. La salida fonética de los infantes sordos difiere del balbuceo canónico
cualitativa y cuantitativamente, sugiriendo que la entrada auditiva del lenguaje ambiente
es prerrequisito para el balbuceo canónico. Qué partes del balbuceo con el habla adulta es
esta organización silábica, esto es, la alternancia del cierre y apertura articulatorias en la
cual el movimiento mandibular es el mayor componente.
Como se mencionó, la repetición regular de abrir-cerrar los estados del tracto vocal
da lugar a una modulación de la amplitud de la forma de onda del habla. Las
vocales tienden a mostrar las más altas amplitudes contrastando con las consonantes
que las rodean las cuales tienen varios grados de constricción y de ahí más
reducidas amplitudes. En el límite acústico entre una consonante y una vocal hay a
menudo una abrupta subida en la envolvente de amplitud de la forma de onda.
Cuando un análisis de Fourier es realizado en la envolvente de la forma de onda, un
espectro con primariamente baja, componentes de sub-audio frecuencias son
obtenidos. Esto debe ser esperado de hecho dado que los envolventes de amplitud
varían lentamente en una función de tiempo. Esta representación es conocida como
el espectro de modulación. Refleja eventos recurrentes como los cambios de
amplitud en los límites consonante-vocal. Provee un registro aproximado de la
corriente pulsación rítmica de sílabas acentuadas y no acentuadas.
La envolvente de tiempo al principio parece ser un atributo bastante ordinario de la señal.
Sin embargo, esta importancia perceptual no debe ser subestimada. Acústica de salas y
distorsión del habla por ruido por modificación y destrucción son modulaciones de
espectro. La función de transferencia de modulación fue propuesta por Houtgast y
Steeneken como una medida del efecto de la audición de la señal del habla y como
una base para un índice, el índice de transmisión del habla (STI, speech
transmission index) usado para predecir la inteligibilidad del habla bajo diferentes
tipos de reverberación y ruido. El suceso de este acercamiento nos dice que el
espectro de modulación, y de ahí la envolvente de la forma de onda, contiene
información que es crucial para la percepción robusta del habla. Manipulación
experimental de la envolvente de tiempo ha sido realizada por Drullman y
compañeros cuyo trabajo refuerza las conclusiones alcanzadas por Houtgast y
Steeneken.
parece ser alguna cosa especial acerca de los finales delanteros de las sílabas. Primero,
los lenguajes prefieren CVs a VCs, Segundo, que los niños comienzan con estas cuerdas
como de CV pseudosílabas que emulan los inicios de sílabas del habla de los adultos.
Tercero, hay perceptivamente información significativa para el oyente en la dinámica
inicial de la sílaba. Vamos a agregar otro fenómeno a esta lista: el pulso? de sílaba o el Pcentro de las sílabas.
En la poesía leída o en el canto tenemos un fuerte sentido que las sílabas son
habladas/cantadas en concordancia con el patrón rítmico de la medida. Hablantes nativos
están de acuerdo más o menos en cuántas sílabas hay en una palabra o frase. En la
fabricación de tales juicios ellos parecen experimentar las sílabas como eventos unitarios.
Aunque esto puede tomar varios cientos de milisegundos para pronunciar, subjetivamente
la sílaba parece ocurrir en un específico momento en el tiempo. Esto es esta impresión
por la cual el término fonético “pulso de silaba” (Syllable beat) se refiere y que ha sido
estudiado experimentalmente en un importante número de publicaciones.
Rapp pregunto a tres hablantes nativos de sueco para producir grupos aleatorios de
palabras de pruebas construidas de [aC’a:d] donde la consonante C fue seleccionada de
[s,t,d,l,n,st,str]. La instrucción fue sincronizar la sílaba acentuada con el beat del
metrónomo presentado sobre audífonos.
El resultado está resumido en la Fig. 16.37. El eje de las x representa la distancia en
milisegundos desde el punto de referencia, el beat del metrónomo. El diagrama de arriba
presenta la distribución total de cerca de 2000 marcas de tiempo. El diagrama de abajo
indica la relativa localización de las fronteras del mayor segmento acústico.
Varias correlaciones fonéticas han sido propuestas para el beat de la sílaba: algunas
acústicas/auditivas y otras articulatorias. Todas se ciernen alrededor del inicio de la vocal,
por ejemplo, la envolvente de amplitud de una señal aumenta rápido en energía en bandas
espectrales o el comienzo del movimiento articulatorio hacia la vocal.
Los datos de Rapp en la Fig. 16.37 indican que el tiempo del beat tiende a caer cerca de
la liberación o apertura articulatoria en [t,d,l,n] pero que esto significativamente precede
los comienzos acústicos de vocal de [str-], [st-] y [s-]. Sin embargo cuando los límites de
los segmentos son arreglados en relación a una señal fija en el contorno de F0 y los
comienzos de vocal fueron medidas relativas a esta señal, el rango de los comienzos de
vocal fue reducido. Es posible que el beat de sílaba tenga su origen, no en la superficie
acústica, no en algún nivel cinemática, sino en un más profundo proceso de control motor
que coordina e impone coherencia en la respiración y la actividad fonatoria y articulatoria
necesaria para producir una sílaba.
Independientemente de la definitiva explicación del momento de ocurrencia psicológico
en que la sílaba sea, el beat de sílaba provee un útil punto de entrada de tentativas para
comprender el cómo en trabajos del control y el pitch en el habla y el canto.
La Fig. 16.38 compara espectogramas de las primeras pocas barras de “Sobre el arcoiris”
hablado (izq.) y cantado (der.).
Las líneas verticales han sido dibujadas en comienzos de vocal y puntos donde la
articulación comienza a moverse hacia una configuración más abierta. Las líneas forman
un patrón asíncrono temporal en la versión del canto la cual fue desarrollada en un ritmo
regular. En el ejemplo de habla ello ocurre en intervalos que parecen mas determinados
por el grado de prominencia de la sílaba.
Los alcances substanciales, objetivos de F0 en puntos cerca de los beats (líneas
verticales). De estas frecuencias objetivo son mantenidas hasta cortamente antes de este
tiempo hasta el del próximo pitch. Así, la curva de F0 se parece a un paso de función con
algún allanamiento aplicado a los pasos.
Por otra parte, el contorno de F0 para la muestra del habla no muestra ningún estado
estable tal. Hace pocos movimientos dramáticos como flujos gradualmente hacia abajo
en la frecuencia (el efecto de declinación).
La Fig. 16.39 muestra un típico ejemplo de canto clásico, un espectrograma de una
grabación comercial de la interpretación de Dietrich Fisher- Dieskau de “Die Rose, die
Lilie” de Robert Schumman (Dichterliebe op. 48.). Las líneas punteadas verticales
muestran los comienzos del acompañamiento de piano. Los patrones ondulados que
ocurren algo después del comienzo vocal, reflejan el vibrato. Aparte de la ondulación del
vibrato de los parciales, los huecos en el patrón de armónicos son bastante evidentes. En
estos puntos podemos ver el efecto de la mayor constricción de la articulación de
consonantes. Notar la rápida y resueltamente subida de amplitud síncrona en todos los
parciales al final de los segmentos de consonante. También después de las consonantes
sordas, por ejemplo la /t/ en Taube. Estas subidas son sincronizadas con el comienzo de
los tonos del acompañamiento del piano, demostrando así que en el canto un beat es
marcado por la vocal. La simultánea aparición de bajos y altos parciales parece
pertenecer a las características del canto clásico como opuesto al habla en donde los más
altos parciales a menudo llegan con un leve delay después de las consonantes sordas.
Como mencionamos antes estas consonantes son producidas con abducción de los
pliegues vocales. Para generar también altos parciales en este contexto los pliegues
vocales necesitan cerrar la glotis en el primer ciclo vibratorio del comienzo de vocal. Un
beneficio potencial de esto podía ser que estos realces de las más altas formantes son
importantes para la inteligibilidad del texto.
Varios trabajos cuantitativos han sido propuestos para generar contornos de F0 de habla
por reglas. Un subgrupo de esto han sido llamados Modelos de superposición. Una
característica de estos modelos es que descomponen la curva de F0 en frase separada y
componentes de acento. Los comandos de acento son pasos de F0 o funciones de impulso
temporalmente ligadas a las sílabas que llevan acento. Los pulsos de acento son
superimpuestas en los componentes de la frase. Para una sentencia declarativa, el
componente de frase es una caída del contorno de F0 producida por una función de paso
rectangular “modelo de sombrero”. Los comandos frase y acento son pasados por filtros
humedecidos para convertir su suma en una suave variación de salida del contorno de F0.
Un ejemplo de este acercamiento se muestra en la Fig. 16.40.
Las pocas figuras pasadas sugieren que los patrones de F0 del canto y el habla pueden ser
más bien diferentes si los comparamos en términos de curvas de F0. sin embargo, los
modelos de superposición sugieren que contornos de habla de F0 tienen características en
parte atribuibles a las características de respuesta pasiva del sistema neuro-mecánico que
lo produce, y en parte debido a señales de control activas. Estos comandos de control
toman la forma de cambios graduales, algunos de corta, otros de larga duración. Esta
representación no es diferente de la secuencia de objetivos de F0 en una melodía.
La implicación de este análisis es que F0 es controlada en formas similares en el habla y
en el canto en el sentido que ambos son basados en secuencias de objetivos de estados
estables subyacentes. Por otra parte, una diferencia significativa es que en el canto alta
exactitud en el logro de objetivos acústicos de frecuencia es requerido mientras que en
habla tales demandas son relajadas y el allanamiento es más fuerte.
Control de sonido
Cuando desarrollamos una acción – caminar, correr o alcanzar y manipular objetos-,
nuestro sistema motor se enfrenta con el hecho de que los contextos bajo los cuales son
hechos los movimientos nunca son exactamente los mismos. Cambian significativamente
de una situación a otra. Sin embargo los sistemas motores se adaptan sin esfuerzo a las
continuas condiciones de cambio, presumiblemente porque durante la evolución ellos
fueron formados por la necesidad de enfrentarse con acontecimientos imprevistos y
obstáculos. Su modo de operación por defecto es compensatorio.
Escribir a mano provee una buena ilustración de esta habilidad. Un hecho familiar es que
esto no importa si algo es escrito sobre la pizarra o sobre una hoja de papel. Los rasgos
característicos de letra de alguien sin embargo fácilmente son reconocidos. Diferentes
grupos de músculos son reclutados y el tamaño de las letras es diferente pero sus formas
permanecen básicamente similares. Lo que esta observación nos dice es que los
movimientos no son especificados en términos de grupo fijo de músculos y patrones de
contracción constante. Ellos son reclutados en grupos definidos funcionalmente,
estructuras coordinativas. Ellos son planificados y ejecutados en un espacio de
coordenada externo, en otras palabras en relación con el mundo de 3-D en el cual ellos
ocurren para lograr objetivos definidos fuera del sistema mismo de motor. La literatura
sobre sistemas motores nos enseña que los movimientos voluntarios son organizados en
prospectiva o futuro-orientados.
El habla y el canto proporcionan numerosos ejemplos de este modo de salida orientada
del control motor. Antes en el capítulo indicamos que, en posición erguida, el diafragma
y las estructuras adyacentes están bajo influencia de la gravedad y tienden a ser
empujados hacia abajo, así causando el aumento de volumen de la caja torácica. En esta
posición, la gravedad contribuye a las fuerzas inspiratorias. Por el contraste, en la
posición supina, el diafragma tiende a subir en la caja torácica, que promueve la
espiración.
Sundberg y otros, investigaron el efecto de las posiciones erguida y supina en dos
cantantes barítonos usando medidas síncronas de la presión esofágea y gástrica, EMG
para los músculos inspiratorios y espiratorios, volumen de pulmón y sonido.
Reorganización de la actividad respiratoria fue encontrada y fue interpretada como la
compensación para las situaciones diferentes mecánicas que provienen de las condiciones
erguida y supina.
Este encuentro estrechamente es relacionado con lo que sabemos de la respiración
durante el habla. Como mencionamos anteriormente, la Ps tiende a quedarse limpiamente
constante para cualquier esfuerzo vocal dado. Se sabe que este resultado es alcanzado
para ajustar el balance entre los músculos inspiratorios y espiratorios. Cuando los
pulmones son expandidos de modo que el efecto de retroceso elástico crea una fuerza de
espiración significativa, los músculos inspiratorios predominan para poner un freno sobre
aquella fuerza. Para volúmenes pulmonares reducidos la situación es la opuesta. El
efecto de retroceso elástico debe más bien aumentar el volumen pulmonar. En
consecuencia el reclutamiento de músculo necesario para mantener la Ps se espera que
sea principalmente espiratorio. Que es lo que verdaderamente muestran los datos.
El paradigma del bloque de mordedura ofrece otro ejemplo del habla. En un conjunto de
experimentos sujetos fueron instruidos para pronunciar sílabas que consisten sólo en una
vocal larga en dos condiciones: primero normalmente, luego con un bloque de mordedura
(BB) entre los dientes. Los sujetos, todo lo no-fonético que dijeron trataron de parecer lo
más normal posible a pesar del BB. No se permitió ninguna práctica (ensayo). El objetivo
del BB era crear una apertura de mandíbula grande de modo anormal para vocales
cerradas como [i] y [u]. Fue argumentado que, si ninguna compensación de lengua
ocurría, esta apertura drásticamente grande cambiaría la función de área de las vocales
cercanas e interrumpiría su modelo de formante. En otras palabras, la pregunta
investigada era si el sujeto fue capaz de parecer normal a pesar del BB.
Grabaciones acústicas fueron hechas y los datos de patrones de formantes fueron
recogidos para comparaciones entre condiciones, vocales y sujetos. Los análisis
demostraron claramente que los sujetos fueron de verdad capaces de producir sonidos
vocales normales a pesar del BB. En el momento del primer pulso glotal, los patrones de
formante estaban bien dentro de los rangos normales de variación.
En una investigación siguiente de rayos X fue encontrado que las producciones
compensatorias de [i] y [u] fueron hechas con formas de lengua superpalatales y supervelares. En otras palabras, los cuerpos de lengua fueron levantados alto, posiciones por
encima de lo normal para acercarse a las funciones normales de área cruzada de las
vocales de prueba.
El habla y el canto comparten muchos rasgos, pero diferencias significativas son traídos a
la luz cuando consideramos cuáles son los objetivos de los dos comportamientos.
Son más de 50 años desde que el espectrógrafo de sonido se hizo disponible en el
comercio. En este tiempo hemos aprendido de demostraciones de habla visibles y otros
registros que la relación entre las unidades fonéticas y la señal acústica es sumamente
compleja. La lección enseñada es que la invariante correlación de categorías lingüísticas
no es fácilmente evidente en la onda del habla. En la discusión precedente mencionamos
algunas fuentes de esta variabilidad: coarticulación, reducción y elaboración, modulación
prosódica, características estilísticas, circunstanciales y específicas del hablante. De esta
posición ventajosa es asombroso notar que, aún en condiciones ruidosas, la comunicación
de discurso es un proceso confiable y robusto. ¿Cómo debe considerarse este hecho
notable?
En respuesta a este problema se han propuesto un número de ideas y marcos explicativos.
Por ejemplo, se ha sugerido que invariantes acústicas son relacionales más bien que
absolutas (a los intervalos de tono definidos como proporciones de frecuencia).
El habla es más bien un conjunto de movimientos hechos audibles que un conjunto de
sonidos producidos por movimientos.
De acuerdo con esta declaración clásica, muchos investigadores han argumentado que las
entidades del habla deben ser encontradas en niveles altos de producción del habla y
deberían ser definidos como gestos.
Como oponente final, encontramos a investigadores (p.ej., Perkell) quien aprueba la
opinión de Roman Jakobson en la búsqueda de unidades da la primacía a la
representación perceptual de fonemas. Para Jakobson las etapas de la cadena del habla
forman una " ... jerarquía operacional de los niveles de disminución pertinente:
perceptual, auditivo, acústico y articulatorio (éste no lleva ninguna información directa al
receptor). "
Estos puntos de vista parecen estar en desacuerdo y de verdad dividen el campo sobre los
que ven el habla como un código motórico (el campo gesturalista) y los que mantienen
que principalmente es formado por procesos perceptivos (la escuela orientada por
oyente).
Hay mucha pruebas experimentales para ambos lados, sugiriendo que este dilema no sea
uno u otro en cuestión, pero que ambas partes ofrecen perspectivas valiosas
complementarias.
Un acercamiento diferente es tomado por la teoría de H y H (Hyper y Hypo). Esta cuenta
es desarrollada de las observaciones clave siguientes sobre la interacción de hablanteoyente:
1. La percepción de discurso es siempre un producto de la información de señal y el
conocimiento del oyente;
2. La producción de discurso es adaptablemente organizada.
Aquí está un experimento que ilustra la primera reclamación sobre el proceso de la
percepción. Dos grupos de sujetos escuchan una secuencia de dos frases: una pregunta
seguida de una respuesta. Los grupos de sujetos oyen preguntas diferentes, pero una sola
respuesta físicamente idéntica. La tarea de los sujetos es decir cuantas palabras contiene
la respuesta.
El punto aquí es que el grupo 1 de sujetos que escucha como “less than five” (menos de
cinco) Aquellos en el grupo 2 lo interpretan como “la lección cinco”. La respuesta del
primer grupo es " tres palabras", y la respuesta de los segundos es " dos palabras ". Esto
es a pesar del hecho que físicamente el estímulo es exactamente el mismo. El silábico [n]
señala la palabra en un caso y la sílaba sobre el otro. La busca de las correlaciones
invariantes de la consonante inicial es condenado al fracaso debido al grado severo de
reducción.
Para los defensores de la teoría H y H esto no es un caso aislado. Esta es la manera en
que la percepción trabaja en general. Lo percibido del habla nunca pueden ser los
registros crudos de la señal porque el conocimiento de oyente inevitablemente actuará
recíprocamente con el estímulo y contribuirá a la formación de lo percibido.
Además, la teoría de H y H destaca el hecho de que los mensajes hablados muestran una
distribución no uniforme de información en la que la previsibilidad varía de situación en
situación, de palabra a palabra y de sílaba a sílaba. Compárese (a) y (b) debajo. ¿Qué
palabra probablemente es representada por el hueco?
1. “The next word is_______ .”
2. “A bird in the hand is worth two in the ______ .”
Pueden esperar cualquier palabra en (1) mientras que en (2) la previsibilidad de la palabra
"arbusto" es alta.
La teoría de H y H asume que, aprendiendo y usando su lengua materna, los hablantes
desarrollan el sentido de esta dinámica informativa. Introduciendo la abstracción de un
hablante ideal, propone que el hablador estime la contribución corriendo que la
información complementaria de señal (el conocimiento de oyente) hará durante el curso
de la expresión y luego templa su funcionamiento articulatorio a las necesidades de
oyente supuestas a corto plazo. Estadísticamente, este tipo de comportamiento tiene la
consecuencia de largo plazo de distribuir formas de salida fonéticas a lo largo de un
continuo con formas claras y elaboradas (el hiperdiscurso) a un final y pronunciaciones
ocasionales y reducidas (hipodiscurso) en el otro.
La implicación para la cuestión de invariabilidad es que la tarea del hablante no es
codificar unidades lingüísticas como invariantes físicos, pero asegurarse que los atributos
de señal (de fonemas, sílabas, palabras y frases) llevan el poder discriminatorio suficiente
para el acceso al léxico acertado. Para hacer el mismo punto en términos ligeramente
diferentes, la tarea de la señal no es incorporar patrones fonéticos de constancia, sino
proporcionar la información faltante.
Es interesante poner esta cuenta de procesos de discurso al lado de lo que sabemos del
canto. Observaciones experimentales indican que la melodía en el canto no es
simplemente sobre objetivos invariantes de F0. F0 es afectado por el funcionamiento
expresivo del cantante y por el contexto tonal en el cual una nota dada es integrada.
Ciertas desviaciones de frecuencias nominales no son diferentes de la coarticulación y los
efectos de undershoot por todas partes presentados en el habla. En consecuencia en lo que
concierne al control de frecuencia, hablando y cantando son cualitativamente similares.
Sin embargo, cuantitativamente, ellos se diferencian drásticamente.
Recuerde que en la descripción de la dinámica de reducción de vocal notamos que las
frecuencias formantes pueden ser desplazadas por tanto como el 50% de los valores
objetivos. Claramente, a un músico o cantante con un registro comparable de under/overshoot se le recomendaría emprender una carrera alternativa, los márgenes de
tolerancia perceptual son mucho más estrechos para el canto.
¿Qué representa esta discrepancia en el logro objetivo? Nuestra respuesta corta es que
cantar o tocar una melodía fuera de tono es una cosa mala. ¿De dónde viene esta
prohibición (tabú)? De la consonancia y coacciones de armonía. En términos
simplificados, una muestra arbitraria de música tonal puede ser analizada en una
secuencia de acordes. Su línea melódica es una elaboración rítmica y tonal de esta
estructura armónica. Estadísticamente, tonos de melodía mucho tiempo prominentes
tienden a atraer notas de acorde.
Las notas de menor prominencia típicamente interpolan a lo largo de las escalas en más
pequeños intervalos entre las notas de acorde métricamente más pesados. La noción de
consonancia lleva un camino largo explicando por qué cantar o tocar una melodía fuera
de tono es prohibido en la música: darle al tono exacto es requerido por la consonancia y
coacciones de armonía esperadas por el oyente e históricamente por lo visto unido con
una combinación de la polifonía en nuestra tradición Occidental de composición musical
y el hecho que la mayor parte de nuestros productos de instrumentos de música entonan
con espectros armónicos. Esto implica que los intervalos que se alejan demasiado de la
justa entonación generarán golpes entre sonidos simultáneos y sólo casi la coincidencia
de parciales, en particular si las frecuencias fundamentales son constantes, careciendo de
vibrato y fluctuación.
Expresividad
El poder expresivo de la voz humana.
La voz humana es un instrumento sumamente expresivo tanto cuando es usado para el
habla como para el canto. Por medio de sutiles variaciones de engranaje y contornos de
tono los hablantes y cantantes añaden una cantidad sustancial de expresivo al contenido
lingüístico o musical y somos bastante expertos en descifrar esta información. En verdad
un buen trato del arte vocal parece estar en la habilidad del artista. nada más que tales
cambios de tono, timbre, intensidad y engranaje de distribución que un oyente puede
percibir como llevando algún significado.
Percibimos la información extra-lingüística o expresiva en el habla y el canto en varias
formas. Por ejemplo, podemos interpretar las ciertas combinaciones de características
acústicas en el habla en términos de una risa o una formación particular de los labios
sobre la cara del hablante. Por ejemplo Fónagy encontró que los oyentes fueron capaces
de reproducir con exactitud la expresión de la cara de hablantes sólo por escuchar sus
voces.
La transformación emotiva en el habla y el canto parece en parte similar y a veces
idéntico. El alargamiento del final, mencionado anteriormente, usa el mismo código para
marcar el final de un elemento estructural, como una oración en el habla o una frase en el
desarrollo musical cantado y tocado. El énfasis por la llegada del delay es otro ejemplo,
es decir, (delayando) una enfasada sílaba acentuada o nota por alargamiento de la
sílaba/nota inacentuada que la precede.
El potencial expresivo de la voz humana es de verdad enorme, y transpiraría del empleo
ubicuo de la voz para el objetivo de comunicación. La interpretación correcta del
contenido extra-lingüístico de una expresión hablada es seguramente importante en
nuestra vida diaria, entonces somos expertos en descifrar señales vocales también a lo
largo de aquellas dimensiones. La importancia de codificación correcta de los extralingüísticos implica que los hablantes adquieren una gran habilidad en cuanto a esto. Esta
habilidad sería la exigencia básica para el arte vocal, en el canto así como en la actuación.
Descargar