Detección de emociones - Grupo de Procesamiento del Habla

Anuncio
Classifying Subject Ratings of Emotional Speech
Using Acoustic Features.
Jackson Liscombe, Jennifer Venditti, Julia Hirschberg
Ramiro Camino
Universidad de Buenos Aires
Noviembre 2014
Introducción
I
El habla nos puede brindar mucha información, por ejemplo:
I
I
I
I
qué quiere comunicar el hablante,
la actitud del hablante hacia el oyente,
la postura del hablante respecto al tema,
el estado de ánimo del hablante.
Introducción
I
El habla nos puede brindar mucha información, por ejemplo:
I
I
I
I
I
qué quiere comunicar el hablante,
la actitud del hablante hacia el oyente,
la postura del hablante respecto al tema,
el estado de ánimo del hablante.
El primer punto es el caso comúnmente estudiado.
Introducción
I
El habla nos puede brindar mucha información, por ejemplo:
I
I
I
I
qué quiere comunicar el hablante,
la actitud del hablante hacia el oyente,
la postura del hablante respecto al tema,
el estado de ánimo del hablante.
I
El primer punto es el caso comúnmente estudiado.
I
En esta investigación se intenta analizar qué más infiere un
humano al escuchar hablar a otro humano.
Estudios anteriores
I
Personas
I
Escucharon grabaciones
I
I
I
Llamados de urgencia
Interacciones con sistemas de diálogo
Detectaron
I
I
Enojo
Frustración
Estudios anteriores
I
Personas
I
Escucharon grabaciones
I
I
I
Detectaron
I
I
I
Llamados de urgencia
Interacciones con sistemas de diálogo
Enojo
Frustración
Machine Learning
I
Obtuvieron atributos
I
I
I
I
I
Duration
Pitch
Energy
Lexical cues
Construyeron modelos predictivos
Resultados anteriores
I
Detección de frustración y enojo:
I
I
Alemán: 60 % accuracy.
Inglés: 60 % - 80 % accuracy.
Resultados anteriores
I
Detección de frustración y enojo:
I
I
I
Alemán: 60 % accuracy.
Inglés: 60 % - 80 % accuracy.
Las emociones con activación positiva suelen tener
I
I
I
media de F0 alta
amplitud media alta
mayor velocidad de habla
Problemas
I
Es difı́cil definir cada emoción
I
A los humanos a veces les cuesta percibir emociones claras
I
También les cuesta etiquetarlas
I
Puede ser que se perciba mas de una emoción
I
Se pueden percibir con distintas intensidades
Modelo elegido
I
No medir las emociones de manera discreta
Modelo elegido
I
No medir las emociones de manera discreta
I
Permitir mas de una emoción por diálogo
Modelo elegido
I
No medir las emociones de manera discreta
I
Permitir mas de una emoción por diálogo
Utilizar dos dimensiones
I
I
Valencia: describe en términos de positividad o negatividad
I
I
I
Positivas: felicidad, coraje
Negativas: enojo, tristeza
Activación: indica niveles de excitación
I
I
Activas: felicidad, enojo
Pasivas: tristeza, aburrimiento
Experimento
I
Categorı́as: frustración, confianza, interés, tristeza, felicidad,
amabilidad, enojo, ansiedad, aburrimiento, coraje
Experimento
I
I
Categorı́as: frustración, confianza, interés, tristeza, felicidad,
amabilidad, enojo, ansiedad, aburrimiento, coraje
DC Emotional Prosody Speech and Transcripts corpus
I
I
I
4 grabaciones de cada categorı́a
4 grabaciones neutrales
2 actores y 2 actrices
Experimento
I
I
Categorı́as: frustración, confianza, interés, tristeza, felicidad,
amabilidad, enojo, ansiedad, aburrimiento, coraje
DC Emotional Prosody Speech and Transcripts corpus
I
I
I
I
4 grabaciones de cada categorı́a
4 grabaciones neutrales
2 actores y 2 actrices
Encuesta mediante internet
Encuesta
I
Participaron 40 sujetos
I
I
I
I
I
Hablantes nativos de inglés americano
17 mujeres y 23 hombres
Sin impedimentos de auditivos
Mayores de 18 años
Distribución uniforme entre grupos de edades
Encuesta
I
Participaron 40 sujetos
I
I
I
I
I
I
Hablantes nativos de inglés americano
17 mujeres y 23 hombres
Sin impedimentos de auditivos
Mayores de 18 años
Distribución uniforme entre grupos de edades
Las 44 grabaciones se presentaron en un orden al azar
Encuesta
I
Participaron 40 sujetos
I
I
I
I
I
Hablantes nativos de inglés americano
17 mujeres y 23 hombres
Sin impedimentos de auditivos
Mayores de 18 años
Distribución uniforme entre grupos de edades
I
Las 44 grabaciones se presentaron en un orden al azar
I
Por cada una se hacı́a una pregunta para cada categorı́a
Encuesta
I
Participaron 40 sujetos
I
I
I
I
I
Hablantes nativos de inglés americano
17 mujeres y 23 hombres
Sin impedimentos de auditivos
Mayores de 18 años
Distribución uniforme entre grupos de edades
I
Las 44 grabaciones se presentaron en un orden al azar
I
Por cada una se hacı́a una pregunta para cada categorı́a
I
Cada pregunta se podı́a responder con una escala de 5 valores
Encuesta: tabla para una grabación
Correlación entre juicios de emociones
I
frustración
I
I
I
amabilidad
I
I
positiva: enojo
negativa: coraje, felicidad y amabilidad
positiva: coraje, felicidad, interés y confianza
aburrimiento
I
I
positiva: tristeza
negativa: felicidad
Correlación entre juicios de emociones
Distribución de respuestas
I
Felicidad y tristeza aparecen mas que el resto
I
Confianza e interés no aparecen casi nunca
I
El resto tiene una distribución mas uniforme
I
Hipótesis: distintas dificultades para percibir sentimientos
Extracción de atributos
I
Extracción automática:
I
I
I
F0: mı́nimo, máximo, promedio, rango, desviación estándar,
proporción entre muestras por encima y por debajo rango
RMS: mı́nimo, máximo, promedio, rango, desviación estándar
VCD: proporción entre muestras y segmentos
Extracción de atributos
I
Extracción automática:
I
I
I
I
F0: mı́nimo, máximo, promedio, rango, desviación estándar,
proporción entre muestras por encima y por debajo rango
RMS: mı́nimo, máximo, promedio, rango, desviación estándar
VCD: proporción entre muestras y segmentos
Etiquetado manual:
I
I
longitud media de sı́labas
prosodia
Correlación entre juicios de emociones y atributos acústicos
I
Confirmaron lo que mencionaban los estudios anteriores: la
F0, la amplitud y la velocidad de habla son buenos indicadores
en la dimensión de activación
Correlación entre juicios de emociones y atributos acústicos
I
Confirmaron lo que mencionaban los estudios anteriores: la
F0, la amplitud y la velocidad de habla son buenos indicadores
en la dimensión de activación
I
Descubrieron que otros atributos acústicos son útiles en la
dimensión de valencia
Correlación entre juicios de emociones y atributos acústicos
I
Confirmaron lo que mencionaban los estudios anteriores: la
F0, la amplitud y la velocidad de habla son buenos indicadores
en la dimensión de activación
I
Descubrieron que otros atributos acústicos son útiles en la
dimensión de valencia
Prosodia:
I
I
plateau (H-L %)
I
I
I
positiva: emociones negativas
negativa: emociones positivas
standard declarative (L-L %)
I
positiva: emociones positivas
Correlación entre juicios de emociones y atributos acústicos
Clasificación automática de emociones
I
Separaron los 1760 tokens
I
I
I
Modelo de clasificación binaria para cada sentimiento
I
I
I
no presente (not at all)
presente (el resto)
Usaron el software RIPPER
I
I
I
90 % entrenamiento
10 % evaluación
modelo: greedy search
métrica: information gain
Resultado
I
I
accuracy: 75 %
mejora sobre la baseline: 22 %
Mejor atributo por emoción
Conclusiones
I
Este estudio refuerza la idea de que las emociones pueden ser
distinguidas en términos de activación por medio de atributos
fácilmente obtenibles.
I
También se sugiere que otros atributos pueden discriminar
valencias de emociones. Esto puede ser crucial para determinar
la satisfacción de un usuario que utiliza sistemas de diálogo.
I
Por último, la metodologı́a utilizada etiquetar emociones en el
habla permite una mejor representación de las mismas.
Descargar