3. el habla con emociones - Grupo de Tecnología del Habla

Anuncio
Desarrollo de un segmentador fonético
automático para habla expresiva
basado en modelos ocultos de Markov
Juan Carmona Mariscal
3. EL HABLA CON EMOCIONES
Como se ha comentado en la introducción, las emociones alteran las
principales características de la voz, por lo que pueden tener una cierta
influencia en el proceso de segmentación del habla expresiva. En este
capítulo se estudiará el concepto de emoción, cuáles son los efectos que
las emociones pueden tener sobre las características de la voz, y los
rasgos distintivos de las distintas emociones, prestando especial
atención a aquellas que están presentes en las muestras de locuciones
de las bases de datos con las que trabajaremos.
3.1 El concepto de emoción y sus funciones
Existen numerosas maneras de definir y explicar el concepto de
emoción según los diferentes estudios que se han realizado sobre este
tema, pero en general la definición más ampliamente aceptada es la que
considera la emoción como un estado complejo del organismo que se
origina como respuesta a las informaciones que se reciben del entorno y
que predispone a una respuesta organizada.
Esta primera definición podría hacernos confundir el concepto de
emoción con el de estado de ánimo; no obstante, la diferencia entre
ambos es que mientras que las emociones surgen de forma repentina
3. El habla con emociones
27
Desarrollo de un segmentador fonético
automático para habla expresiva
basado en modelos ocultos de Markov
Juan Carmona Mariscal
en respuesta a un determinado estímulo y duran unos segundos o
minutos, los estados de ánimo son más ambiguos en su naturaleza,
perdurando durante horas o días. Por otro lado, más allá de emociones
y estados de ánimo, está el rasgo a largo plazo de la personalidad, que
puede definirse como el tono emocional característico de una persona a
lo largo del tiempo.
La emoción no es un fenómeno simple ya que depende de múltiples
factores. Según Izard una definición completa de emoción debe tener
en cuenta el sentimiento consciente de la emoción, los procesos que
ocurren en el sistema nervioso y en el cerebro y los modelos expresivos
observables de la emoción [Izard 1971].
Scherer afirma [Scherer 2001] que la emoción puede describirse
también como la interfaz del organismo con el mundo exterior,
señalando tres funciones principales de las emociones:

Reflejan la evaluación de la importancia de un estímulo en
particular en términos de las necesidades del organismo,
preferencias, intenciones…

Preparan fisiológica y físicamente al organismo para la acción
apropiada.

Comunican el estado del organismo y sus intenciones de
comportamiento a otros organismos que lo rodean.
Reeve por su parte le da a estas tres funciones los nombres de
adaptativa, social y motivacional [Reeve 1994]:

Función adaptativa: La emoción se encarga de preparar al
organismo para la acción, facilitando la conducta apropiada a
3. El habla con emociones
28
Desarrollo de un segmentador fonético
automático para habla expresiva
basado en modelos ocultos de Markov
Juan Carmona Mariscal
cada situación. Por tanto, las emociones desarrollan un papel
fundamental en lo que a la adaptación del organismo al entorno
se refiere.

Función social: Las emociones sirven para comunicar el estado
de ánimo de la persona. La expresión de las emociones permite a
los que nos rodean predecir el comportamiento asociado con las
mismas, de aquí el enorme valor que la emoción ostenta en los
procesos de relación interpersonal. Así, emociones como la
felicidad
favorecen
los
vínculos
sociales
y
las
relaciones
interpersonales, mientras que otras como el enfado pueden
generar situaciones de confrontación. Por otro lado, la propia
represión de las emociones también tiene en ocasiones una
evidente función social, por cuanto que es socialmente necesaria
la inhibición de ciertas reacciones emocionales que podrían
alterar las relaciones sociales y afectar incluso a la propia
estructura y funcionamiento de grupos u otros sistemas de
organización social.

Función motivacional: La emoción dota de energía a la conducta
motivada. Una conducta "cargada" emocionalmente se realiza de
forma más vigorosa.
3. El habla con emociones
29
Desarrollo de un segmentador fonético
automático para habla expresiva
basado en modelos ocultos de Markov
Juan Carmona Mariscal
3.2 Componentes de la emoción
Como ya hemos comentado, la emoción es un fenómeno complejo, y
esto implica que haya que tener en cuenta un gran número de factores
a la hora de su caracterización. Los principales componentes que debe
incorporar el estudio de una emoción son los siguientes [Fernández
2003]:

El componente fisiológico
Está relacionado con las respuestas psico-fisiológicas que tienen lugar
como resultado del fenómeno emocional. Son respuestas involuntarias.
Algunas de ellas pueden ser taquicardia, rubor, sudoración, sequedad
en la boca, variación en el tono muscular, etc.

El componente conductual-expresivo
Mediante la observación del comportamiento de un individuo se puede
deducir qué tipo de emociones está experimentando. Esto es debido a
que toda emoción lleva implícito un lenguaje no verbal que aporta
señales bastante precisas y que facilitan su identificación. Este lenguaje
no verbal viene dado en gran parte por las expresiones del rostro y el
tono de voz empleado. Esta componente de la emoción es en cierta
medida controlable y está muy influida por factores socioculturales.
3. El habla con emociones
30
Desarrollo de un segmentador fonético
automático para habla expresiva
basado en modelos ocultos de Markov

Juan Carmona Mariscal
El componente experiencial - cognitivo
Este componente está relacionado con la vivencia afectiva, con el hecho
de sentir y de experimentar propiamente la emoción. Así, la experiencia
emocional puede variar en intensidad dependiendo de diversos factores,
como pueden ser la importancia que se le dé a la situación que genera
la emoción o su proximidad temporal.
3.3 La emoción y su efecto en el habla
Más allá de las componentes de la emoción, lo cierto es, como
afirmábamos al principio, que las emociones afectan al habla, como
apuntó por primera vez Darwin a finales del siglo XIX en su libro “La
Expresión de las emociones en el hombre y en los animales”, donde
describe las primeras investigaciones sobre cómo afectaban las
emociones al comportamiento y al lenguaje de los animales. A lo largo
de los años se ha avanzado en el estudio de los efectos de las emociones
en el habla, que han sido estudiados por investigadores acústicos que
han analizado la señal de voz, por lingüístas que han estudiado los
efectos léxicos y prosódicos, y por psicólogos. Gracias a estos esfuerzos
se ha conseguido identificar muchos de los componentes del habla que
se utilizan para expresar emociones, entre los que destacan el pitch o
frecuencia fundamental, la duración y la calidad de voz [Scherer 1979].
3. El habla con emociones
31
Desarrollo de un segmentador fonético
automático para habla expresiva
basado en modelos ocultos de Markov
Juan Carmona Mariscal
3.3.1 El Pitch
El pitch o frecuencia fundamental (f0) es la frecuencia fundamental a la
que las cuerdas vocales vibran. Las características de la frecuencia
fundamental están consideradas una de las principales portadoras de la
información sobre las emociones:

El valor medio del pitch refleja el nivel de excitación del locutor.
Una media elevada de f0 indica un mayor grado de excitación.

El rango del pitch es la distancia entre el valor máximo y mínimo
de la frecuencia fundamental. Indica también el grado de
exaltación del locutor. Un rango más extenso que el normal refleja
una excitación emocional o psicológica.

Las fluctuaciones en el pitch descritas como la velocidad de las
fluctuaciones entre valores altos y bajos y si son abruptas o
suaves son producidas psicológicamente. En general, la curva de
tono es discontinua para las emociones consideradas como
negativas (miedo, enfado) y es suave para las emociones positivas
(como la alegría).
3.3.2 La duración
La duración es la componente prosódica descrita por la velocidad del
habla y la situación de los acentos, y cuyos efectos son el ritmo y la
velocidad. El ritmo en el habla deriva de la situación de los acentos y de
la combinación de las duraciones de las pausas y de los fonemas. Las
3. El habla con emociones
32
Desarrollo de un segmentador fonético
automático para habla expresiva
basado en modelos ocultos de Markov
Juan Carmona Mariscal
emociones pueden distinguirse por una serie de parámetros que
conciernen a la duración, como son:

Velocidad de locución: generalmente un locutor en estado de
excitación acortará la duración de las sílabas, con lo que la
velocidad de locución medida en sílabas por segundo o en
palabras por minuto se incrementará.

Número de pausas y su duración: un locutor exaltado tenderá a
hablar rápidamente con menos pausas y más cortas, mientras
que un locutor deprimido hablará más lentamente, introduciendo
pausas más largas.

Cociente entre el tiempo de locución y el de pausas, como
medida que relaciona las dos variables anteriores.
3.3.3 La calidad de voz
La intensidad, las irregularidades en la voz, el cociente entre energías a
baja y alta frecuencia, el breathiness y la laringerización son algunas de
las características que diferencian la calidad de la voz.

Intensidad: Está relacionada con la percepción del volumen y se
refleja en la amplitud de la forma de onda.

Irregularidades
vocales:
Abarcan
un
gran
rango
de
características vocales. El jitter vocal refleja las fluctuaciones de
un pulso glotal al siguiente (como se observa en el enfado) o la
3. El habla con emociones
33
Desarrollo de un segmentador fonético
automático para habla expresiva
basado en modelos ocultos de Markov
Juan Carmona Mariscal
desaparición de voz en algunas emociones como la pena, en la
que el habla se convierte en un simple susurro.

El cociente entre energía de alta y baja frecuencia: Gran
cantidad de energía en las frecuencias altas se asocia con
agitación (enfado), mientras que baja concentración de energía en
las frecuencias altas se relaciona con depresión o calma (pena).

Breathiness y laringerización: reflejan las características del
tracto vocal y están más relacionados con la personalización de
cada voz. El Breathiness describe la generación de ruido
respiratorio de forma que la componente fundamental tiende a ser
más fuerte, mientras que las frecuencias altas son reemplazadas
por ruido aspiratorio. La laringerización se caracteriza por una
vibración aperiódica de las cuerdas vocales, con un pulso glotal
estrecho y pitch bajo, lo que se traduce en una voz chirriante.
3.4 La clasificación de las emociones
Según los autores Larsen, McGraw y Cacioppo, la clasificación de las
distintas emociones existentes se puede realizar en base a dos enfoques
diferentes, el que considera las emociones de forma individual, y el que
las considera de forma dimensional:

Estudio discreto o específico de las emociones
3. El habla con emociones
34
Desarrollo de un segmentador fonético
automático para habla expresiva
basado en modelos ocultos de Markov
Juan Carmona Mariscal
Este enfoque se basa en el hecho de que algunas emociones poseen
unas características que las hace únicas y diferenciables del resto.
Siguiendo este criterio muchos analistas de las emociones han
distinguido entre emociones primarias y emociones secundarias.
Las emociones primarias vendrían determinadas por una expresión
facial característica y por una disposición típica de afrontamiento de las
situaciones. La mayoría de los analistas consideran sólo 6 emociones
primarias: alegría, tristeza, enfado (ira), sorpresa, miedo y asco.
Por su parte, las emociones secundarias no presentarían rasgos faciales
distintivos ni una tendencia específica a la acción, y derivarían de las
primarias, obteniéndose a veces como combinación de las mismas. Al
contrario que en el caso de las primarias, puede encontrarse un amplio
abanico
de
emociones
secundarias
como
el
aburrimiento,
la
impaciencia, la ternura, la ironía, la queja, el anhelo, la satisfacción, el
ensueño, la coquetería…

Estudio dimensional de las emociones
Frente al enfoque anterior, este modo de clasificación tiene su
fundamento en la existencia de importantes diferencias individuales en
el modo en el que las personas pueden desarrollar una emoción, por lo
que se considera que el empleo de categorías discretas no es la mejor
forma de describir la realidad. En su lugar se utilizan unas dimensiones
generales que definen un mapa donde se sitúan todas las posibles
emociones que pueden tener lugar, incluidas las definidas en el método
anterior como primarias y secundarias.
3. El habla con emociones
35
Desarrollo de un segmentador fonético
automático para habla expresiva
basado en modelos ocultos de Markov
Juan Carmona Mariscal
Entre las técnicas empleadas para la clasificación de las emociones
mediante este enfoque, la más utilizada es la desarrollada por Russell
[Russell 1980],
que sugiere que todas las emociones pueden ser
ubicadas en el interior de un círculo definido en un espacio
bidimensional, siendo estas dimensiones:
 La valencia afectiva: Permite diferenciar las emociones en función
de lo placenteras o agradables que sean (positivas versus
negativas). Así, un suceso desencadenará una emoción positiva
cuando favorezca el logro de determinados objetivos, mientras
que si el suceso aleja esos objetivos, la emoción que se
desencadenará tendrá valencia negativa. Así, podemos encontrar
la alegría y el enfado en los dos extremos del eje que representa la
valencia.
 La actividad: Permite diferenciar las emociones por la presencia o
ausencia de energía y tensión.
Según este enfoque, la representación de las distintas emociones en
este plano bidimensional sería la siguiente:
3. El habla con emociones
36
Desarrollo de un segmentador fonético
automático para habla expresiva
basado en modelos ocultos de Markov
Juan Carmona Mariscal
Figura 3.1: Representación bidimensional de las emociones
[Alcázar 2007]
En distintos estudios se ha demostrado que se confunden más entre sí
las emociones con un nivel similar de actividad (como por ejemplo
alegría y enfado) que las que presentan similitudes en el nivel de
valencia. Esto lleva a la conclusión de que la actividad como dimensión
está más correlacionada con las variables auditivas relativamente más
simples de la voz, como pueden ser el tono y la intensidad, mientras
que la valencia está probablemente relacionada con factores más sutiles
y complejos.
3. El habla con emociones
37
Desarrollo de un segmentador fonético
automático para habla expresiva
basado en modelos ocultos de Markov
3.5
Las
emociones
Juan Carmona Mariscal
estudiadas
con
nuestro
segmentador fonético automático
Para el desarrollo de nuestro segmentador fonético automático se han
empleado dos bases de datos (se estudiarán en los capítulos La base de
datos SES y La base de datos SEV), que contienen locuciones con voz
neutra y con seis emociones primarias: alegría, tristeza, enfado,
sorpresa, asco y miedo. Las principales características de estas seis
emociones se enuncian a continuación.

El habla neutra suele caracterizarse por un tono con un rango de
variación estrecho y unas transiciones de f0 suaves, además de
una velocidad de locución alta.

La alegría se manifiesta en un incremento en el tono medio y en
su rango, así como un incremento en la velocidad de locución y
en la intensidad.

El habla triste exhibe un tono medio más bajo que el normal, un
estrecho rango y una velocidad de locución lenta.

El enfado se caracteriza por un tono medio alto (229 Hz), un
amplio rango de tono y una velocidad de locución rápida (190
palabras por minuto), con un 32% de pausas.

La sorpresa se caracteriza por un tono medio mayor que la voz
normal, una velocidad igual a la normal y un rango amplio.
3. El habla con emociones
38
Desarrollo de un segmentador fonético
automático para habla expresiva
basado en modelos ocultos de Markov

Juan Carmona Mariscal
El miedo se caracteriza por un tono medio más elevado que la voz
neutral (254 Hz), un rango mayor, un gran número de cambios en
la curva de tono y una velocidad de locución rápida (202 palabras
por minuto).

El asco es la emoción que más difícilmente se puede caracterizar,
según los estudios realizados al respecto, aunque en la mayoría
de los casos suele presentar un tono medio más alto que la voz
neutral y una velocidad de locución más lenta.
3. El habla con emociones
39
Descargar