Classifying Subject Ratings of Emotional Speech Using Acoustic Features. Jackson Liscombe, Jennifer Venditti, Julia Hirschberg Ramiro Camino Universidad de Buenos Aires Noviembre 2014 Introducción I El habla nos puede brindar mucha información, por ejemplo: I I I I qué quiere comunicar el hablante, la actitud del hablante hacia el oyente, la postura del hablante respecto al tema, el estado de ánimo del hablante. Introducción I El habla nos puede brindar mucha información, por ejemplo: I I I I I qué quiere comunicar el hablante, la actitud del hablante hacia el oyente, la postura del hablante respecto al tema, el estado de ánimo del hablante. El primer punto es el caso comúnmente estudiado. Introducción I El habla nos puede brindar mucha información, por ejemplo: I I I I qué quiere comunicar el hablante, la actitud del hablante hacia el oyente, la postura del hablante respecto al tema, el estado de ánimo del hablante. I El primer punto es el caso comúnmente estudiado. I En esta investigación se intenta analizar qué más infiere un humano al escuchar hablar a otro humano. Estudios anteriores I Personas I Escucharon grabaciones I I I Llamados de urgencia Interacciones con sistemas de diálogo Detectaron I I Enojo Frustración Estudios anteriores I Personas I Escucharon grabaciones I I I Detectaron I I I Llamados de urgencia Interacciones con sistemas de diálogo Enojo Frustración Machine Learning I Obtuvieron atributos I I I I I Duration Pitch Energy Lexical cues Construyeron modelos predictivos Resultados anteriores I Detección de frustración y enojo: I I Alemán: 60 % accuracy. Inglés: 60 % - 80 % accuracy. Resultados anteriores I Detección de frustración y enojo: I I I Alemán: 60 % accuracy. Inglés: 60 % - 80 % accuracy. Las emociones con activación positiva suelen tener I I I media de F0 alta amplitud media alta mayor velocidad de habla Problemas I Es difı́cil definir cada emoción I A los humanos a veces les cuesta percibir emociones claras I También les cuesta etiquetarlas I Puede ser que se perciba mas de una emoción I Se pueden percibir con distintas intensidades Modelo elegido I No medir las emociones de manera discreta Modelo elegido I No medir las emociones de manera discreta I Permitir mas de una emoción por diálogo Modelo elegido I No medir las emociones de manera discreta I Permitir mas de una emoción por diálogo Utilizar dos dimensiones I I Valencia: describe en términos de positividad o negatividad I I I Positivas: felicidad, coraje Negativas: enojo, tristeza Activación: indica niveles de excitación I I Activas: felicidad, enojo Pasivas: tristeza, aburrimiento Experimento I Categorı́as: frustración, confianza, interés, tristeza, felicidad, amabilidad, enojo, ansiedad, aburrimiento, coraje Experimento I I Categorı́as: frustración, confianza, interés, tristeza, felicidad, amabilidad, enojo, ansiedad, aburrimiento, coraje DC Emotional Prosody Speech and Transcripts corpus I I I 4 grabaciones de cada categorı́a 4 grabaciones neutrales 2 actores y 2 actrices Experimento I I Categorı́as: frustración, confianza, interés, tristeza, felicidad, amabilidad, enojo, ansiedad, aburrimiento, coraje DC Emotional Prosody Speech and Transcripts corpus I I I I 4 grabaciones de cada categorı́a 4 grabaciones neutrales 2 actores y 2 actrices Encuesta mediante internet Encuesta I Participaron 40 sujetos I I I I I Hablantes nativos de inglés americano 17 mujeres y 23 hombres Sin impedimentos de auditivos Mayores de 18 años Distribución uniforme entre grupos de edades Encuesta I Participaron 40 sujetos I I I I I I Hablantes nativos de inglés americano 17 mujeres y 23 hombres Sin impedimentos de auditivos Mayores de 18 años Distribución uniforme entre grupos de edades Las 44 grabaciones se presentaron en un orden al azar Encuesta I Participaron 40 sujetos I I I I I Hablantes nativos de inglés americano 17 mujeres y 23 hombres Sin impedimentos de auditivos Mayores de 18 años Distribución uniforme entre grupos de edades I Las 44 grabaciones se presentaron en un orden al azar I Por cada una se hacı́a una pregunta para cada categorı́a Encuesta I Participaron 40 sujetos I I I I I Hablantes nativos de inglés americano 17 mujeres y 23 hombres Sin impedimentos de auditivos Mayores de 18 años Distribución uniforme entre grupos de edades I Las 44 grabaciones se presentaron en un orden al azar I Por cada una se hacı́a una pregunta para cada categorı́a I Cada pregunta se podı́a responder con una escala de 5 valores Encuesta: tabla para una grabación Correlación entre juicios de emociones I frustración I I I amabilidad I I positiva: enojo negativa: coraje, felicidad y amabilidad positiva: coraje, felicidad, interés y confianza aburrimiento I I positiva: tristeza negativa: felicidad Correlación entre juicios de emociones Distribución de respuestas I Felicidad y tristeza aparecen mas que el resto I Confianza e interés no aparecen casi nunca I El resto tiene una distribución mas uniforme I Hipótesis: distintas dificultades para percibir sentimientos Extracción de atributos I Extracción automática: I I I F0: mı́nimo, máximo, promedio, rango, desviación estándar, proporción entre muestras por encima y por debajo rango RMS: mı́nimo, máximo, promedio, rango, desviación estándar VCD: proporción entre muestras y segmentos Extracción de atributos I Extracción automática: I I I I F0: mı́nimo, máximo, promedio, rango, desviación estándar, proporción entre muestras por encima y por debajo rango RMS: mı́nimo, máximo, promedio, rango, desviación estándar VCD: proporción entre muestras y segmentos Etiquetado manual: I I longitud media de sı́labas prosodia Correlación entre juicios de emociones y atributos acústicos I Confirmaron lo que mencionaban los estudios anteriores: la F0, la amplitud y la velocidad de habla son buenos indicadores en la dimensión de activación Correlación entre juicios de emociones y atributos acústicos I Confirmaron lo que mencionaban los estudios anteriores: la F0, la amplitud y la velocidad de habla son buenos indicadores en la dimensión de activación I Descubrieron que otros atributos acústicos son útiles en la dimensión de valencia Correlación entre juicios de emociones y atributos acústicos I Confirmaron lo que mencionaban los estudios anteriores: la F0, la amplitud y la velocidad de habla son buenos indicadores en la dimensión de activación I Descubrieron que otros atributos acústicos son útiles en la dimensión de valencia Prosodia: I I plateau (H-L %) I I I positiva: emociones negativas negativa: emociones positivas standard declarative (L-L %) I positiva: emociones positivas Correlación entre juicios de emociones y atributos acústicos Clasificación automática de emociones I Separaron los 1760 tokens I I I Modelo de clasificación binaria para cada sentimiento I I I no presente (not at all) presente (el resto) Usaron el software RIPPER I I I 90 % entrenamiento 10 % evaluación modelo: greedy search métrica: information gain Resultado I I accuracy: 75 % mejora sobre la baseline: 22 % Mejor atributo por emoción Conclusiones I Este estudio refuerza la idea de que las emociones pueden ser distinguidas en términos de activación por medio de atributos fácilmente obtenibles. I También se sugiere que otros atributos pueden discriminar valencias de emociones. Esto puede ser crucial para determinar la satisfacción de un usuario que utiliza sistemas de diálogo. I Por último, la metodologı́a utilizada etiquetar emociones en el habla permite una mejor representación de las mismas.