Aprendizaje Supervisado para múltiples anotadores

Comparación de técnicas de clasificación de múltiples anotadores para la valoración automática de la calidad de voz Tomas Echeverri Valencia Julián Gil González Programa de Ingenierı́a Electrónica Facultad de Ingenierı́as. Univesidad Tecnológica de Pereira 30 de enero de 2014 1 / 19 Introducción (I) Valoración siguiendo un protocolo Valoración Patrones 2 / 19 Introducción (II) Anotaciones Prueba Calidad de voz GRBAS Entrenamiento Clasificador Múltiples Anotadores Extracción de Parámetros Muestras de prueba 3 / 19 Objetivos Objetivo General I Comparar técnicas de clasificación multiclase con múltiples anotadores para la valoración de la calidad de voz bajo el protocolo GRBAS. Objetivos Especı́ficos I Implementar un algoritmo de clasificación de múltiples anotadores, usando regresión logı́stica multiclase con sensibilidades y especificidades por cada anotador. I Implementar un algoritmo de clasificación de múltiples anotadores usando Procesos Gaussianos para regresión. I Comparar el desempeño de los algoritmos implementados sobre una base de datos de voz etiquetada por múltiples anotadores bajo el protocolo GRBAS. 4 / 19 Contenido Aprendizaje Supervisado para múltiples anotadores Materiales y Métodos Resultados Conclusiones Bibliografı́a Agradecimientos 5 / 19 Técnicas de Aprendizaje Automático Supervisado para Múltiples Anotadores Características Etiqueta Verdadera (Gold standard) Características Anotaciones C T C C C T C Aprendizaje supervisado Típico Aprendizaje supervisado Múltiples anotadores 6 / 19 Procesos Gaussianos regresión múltiples anotadores (I) Regresión usando Procesos Gaussianos (PG) I Un PG es una colección de variables aleatorias (f), sobre un conjunto de indexación (X). I Se asume que y = f (X) + . I Un PG define una distribución prior sobre las funciones f . f ∼ PG(m, K). I K tiene asociados parámetros que se deben estimar a partir de la minimización del logaritmo negativo verosimilitud − log p(Y|X). I Usando el teorema de Bayes se determina el posterior ante una nueva entrada p(f (x∗ )|y) = PG(f (x∗ )|f¯(x∗ ), k(x∗ , x∗0 )). 7 / 19 Procesos Gaussianos regresión múltiples anotadores (II) Regresión para múltiples anotadores I El modelo asumido para las anotaciones es yij = fi + j , donde j = N (0, σj2 ). I se asume un proceso Gaussiano prior sobre f, dado por p(f) ∼ PG(f|m, K) I se define ŷi = σ̂i2 I Asumiendo que los anotadores proveen de manera independiente las anotaciones, la verosimilitud se calcula como YY p(y|f) = PG(yij |fi , σj2 ). j I X yj i 2. σ j j∼i i∼j Usando el teorema de Bayes se determina el posterior ante una nueva entrada p(f (x∗ )|y) = PG(f (x∗ )|f¯(x∗ ), k(x∗ , x∗0 )). 8 / 19 Regresión logı́stica multiclase múltiples anotadores (I) clasificación binaria I Se mide el rendimiento de los anotadores en términos de la sensibilidad y especificidad. αj = p(yij = 1|yi = 1), β j = p(yij = 0|yi = 0). I Se asume que las anotaciones siguen el modelo de las dos monedas sesgadas (distribución binomial). I La probabilidad para la clase positiva está dada por p(yi = 1|xi , w) = σ(wT xi ), donde σ(z), se conoce como Logistic Sigmoid. Se estiman los parámetros θ = {w, αj , β j } al maximizar el logaritmo de la verosimilitud p(X, y|θ). I Para el problema de estimación, se usa el algoritmo de máxima esperanza (EM). I 9 / 19 Regresión logı́stica multiclase múltiples anotadores (II) clasificación multiclase I Se extiende el modelo anterior considerando un vector de parámetros multinomiales. j αck = p(yij = k|yi = c), K X j αck = 1. k=1 I Se asume que las anotaciones siguen una distribución de probabilidad multinomial. I La probabilidad posterior está dada por exp(bic ) , pic = PK exp(bim ) m=1 bic = wcT xi j I Se estiman los parámetros θ = {wc , αck } al maximizar el logaritmo de la verosimilitud p(X, y|θ). I Para el problema de estimación, se usa el algoritmo de máxima esperanza (EM). 10 / 19 Materiales y Métodos (I) Escala GRBAS I Técnica más usada en análisis perceptivo. I Comprende cinco caracterı́sticas cualitativas: G (Grado de disfonı́a), R (Aspereza), B (Respiración dificultosa), A (fatiga vocal), S (voz forzada). I A cada caracterı́stica, se le asigna una valor en el rango [0 − 3]. Base de datos de voz I Fue facilitada por los profesores Julián David Arias, de la Universidad de Antioquia y Juan Ignacio Godino de la Universidad Politécnica de Madrid. I Consta de 218 muestras de voz. I Las muestras fueron valoradas siguiendo el protocolo GRBAS. 11 / 19 Materiales y Métodos (II) Caracterización señales de voz I Se usaron los coeficientes cepstrales en la escala de frecuencias Mel (MFCC). I Los MFCC tienen la capacidad de modelar movimientos irregulares en las cuerdas vocales y anomalı́as en el cierre debido a masas. I Se añaden caracterı́sticas dinámicas Sintonización de algoritmos I Para la sintonización se usa la base de datos “Iris Plant”. I No es una base de datos de voz. I No es una base de datos con múltiples anotadores. I Se añade ruido Gaussiano a la etiqueta verdadera. I Se considera una distribución de probabilidad multinomial. 12 / 19 Materiales y Métodos (III) Validación I “Leave one out” Dato de prueba Datos de entrenamiento Iteración 1 Iteración 2 Iteración 3 Dato N Iteración N Total de datos Medidas de desempeño I Se mide el desempeño en términos de la precisión y el área bajo la curva ROC (AUC). 13 / 19 Resultados sobre base de datos “Iris Plant” I 1 Regresión logı́stica multiclase para múltiples anotadores (RL) α = I 0,9 0,05 0,05 0,05 0,9 0,05 ! 0,05 0,05 0,9 2 ,α = 0,8 0,1 0,1 0,1 0,8 0,1 ! 0,1 0,1 0,8 3 ,α = 0,3 0,4 0,3 0,3 0,3 0,4 ! 0,4 0,3 0,3 . Procesos Gaussianos para regresión con múltiples anotadores (PG) σ 2 = (0,9 1,1 6,5). Regresión Logı́stica Procesos Gaussianos Precisión 0,9667 0,9533 AUC 0,9863 0,9722 14 / 19 Resultados sobre base de datos de voz (I) Problema biclase I Convertir problema multiclase en problema binario. Anotaciónnueva = Parámetros MFCC-3 MFCC-6 MFCC-12 RL 0,70 0,69 0,71 G Precisión PG 0,70 0,71 0,70 CO 0,68 0,68 0,66 RL 0,66 0,62 0,65 R Precisión PG 0,65 0,67 0,62 CO 0,66 0,64 0,64 0 1 Si Si Anotación ≤ 1 Anotación > 1 Caracterı́sticas B Precisión RL PG CO 0,75 0,77 0,75 0,75 0,77 0,72 0,72 0,77 0,71 RL 0,96 0,95 0,91 A Precisión PG 0,96 0,96 0,96 CO 0,95 0,91 0,89 RL 0,92 0,88 0,79 S Precisión PG 0,90 0,92 0,91 CO 0,91 0,89 0,83 CO 0,43 0,32 0,62 RL 0,44 0,62 0,54 S AUC PG 0,65 0,58 0,60 CO 0,58 0,60 0,45 Tabla : Reporte de precisión Parámetros MFCC-3 MFCC-6 MFCC-12 RL 0,75 0,74 0,69 G AUC PG 0,77 0,77 0,76 CO 0,75 0,73 0,70 RL 0,66 0,65 0,65 R AUC PG 0,68 0,68 0,49 CO 0,65 0,63 0,62 Caracterı́sticas B AUC RL PG CO 0,70 0,72 0,70 0,67 0,71 0,70 0,66 0,70 0,67 RL 0,39 0,41 0,54 A AUC PG 0,48 0,55 0,48 Tabla : Reporte de AUC 15 / 19 Resultados sobre base de datos de voz (II) Problema multiclase Parámetros MFCC-3 MFCC-6 MFCC-12 G Precisión RL PG CO 0,50 0,22 0,40 0,44 0,25 0,40 0,45 0,25 0,35 R Precisión RL PG CO 0,41 0,27 0,49 0,42 0,25 0,45 0,39 0,91 0,41 Caracterı́sticas B Precisión RL PG CO 0,57 0,32 0,67 0,55 0,32 0,61 0,45 0,94 0,55 A Precisión RL PG CO 0,96 0,96 0,87 0,85 0,96 0,86 0,85 0,97 0,89 S Precisión RL PG CO 0,87 0,80 0,90 0,78 0,80 0,83 0,70 0,82 0,77 Tabla : Reporte de precisión Parámetros MFCC-3 MFCC-6 MFCC-12 RL 0,58 0,59 0,58 G AUC PG CO 0,57 0,58 0,58 0,60 0,55 0,59 RL 0,56 0,57 0,54 R AUC PG 0,56 0,55 0,50 CO 0,56 0,55 0,57 Caracterı́sticas B AUC RL PG CO 0,50 0,59 0,59 0,53 0,58 0,56 0,53 0,47 0,57 A AUC RL PG 0,57 0,50 0,38 0,56 0,37 0,38 CO 0,41 0,41 0,43 RL 0,52 0,46 0,54 S AUC PG 0,52 0,67 0,57 CO 0,60 0,50 0,50 Tabla : Reporte de AUC 16 / 19 Conclusiones I Los esquemas de clasificación para múltiples anotadores tienen un mejor desempeño que las técnicas de clasificación tı́picas que usan Majority Voting para realizar tareas de clasificación ante la ausencia de las etiquetas verdaderas. I Para las caracterı́sticas R, B, A, el clasificador con mejor rendimiento es el basado en Procesos Gaussianos. Por su parte para las caracterı́sticas G y S, el mejor clasificador fue el basado en regresión logı́stica multiclase para múltiples anotadores. Trabajo futuro I Desarrollar un sistema de clasficación para múltiples anotadores usando técnicas de aprendizaje automático multitarea. 17 / 19 Bibliografı́a V.C. Raykar, S. Yu, L.H. Zhao , G. Hermosillo-Valadez, C. Florin , L. Bogoni, y L. Moy : Learning from crowds. JMLR, 11, 12971322, 2010. P. Groot, A. Birlutiu, y T.Heskes: Learning from multiple annotators with Gaussian Processes. In Proc. of the 21st International Conference on Artificial Neural Networks, páginas 159-164, 2011. J. D. Arias-Londoño, J. I. Godino-Llorente, N. Sáenz-LechÃşn, V. Osma-Ruiz, y J.Ma Gutiérrez-Arriola: Automatic GRBAS Assessment Using Complexity Measures and a Multiclass GMM-BASED Detector, 2011. 18 / 19 Agradecimientos 19 / 19

Aprendizaje Supervisado para múltiples anotadores

Documentos relacionados

Productos

Apoyo

Aprendizaje Supervisado para múltiples anotadores

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib