Efectos De La Extensión Del Ancho De Banda En Reconocimiento De Locutor1 Marcos Faúndez-Zanuy Escola Universitària Politècnica de Mataró (Barcelona) Universitat Politècnica de Catalunya [email protected] Resumen Este artículo describe el concepto de extensión de ancho de banda y presenta resultados sobre su relevancia en aplicaciones de reconocimiento de locutor (identificación y verificación). Los resultados muestran que, usando una parametrización MEL-Cepstrum, puede obtenerse una mejora en las tasas de reconocimiento. 1. Introducción Hoy en día, el aumento de la frecuencia de muestreo y el número de bits de cuantificación están presentes en multitud de aplicaciones. Los ejemplos más importantes son los estándares de Home cinema (Dolby Digital, THX, DTS) y los nuevos sistemas de grabación de audio (DVD-Audio y Super Audio Compact Disc) que superan ampliamente las prestaciones del CD clásico. Por supuesto, el ancho de banda ocupado por una señal de voz es mucho menor al requerido para grabar música de alta calidad, pero el avance en el número de aplicaciones que utilizan banda ancha (8 kHz) y de esquemas de conversión para obtener banda ancha a partir de banda estrecha (o banda telefónica) es notable. La comparación entre una señal de banda estrecha (frecuencia de muestreo 8 kHz y ancho de banda máximo de 4 kHz) y una señal de banda ancha (frecuencia de muestreo de 16 kHz y ancho de banda máximo de 8 kHz) revela una mayor naturalidad en la segunda. Sin embargo, la mayor parte de la información relevante está comprendida en la parte de frecuencias inferiores a 4 kHz. Mientras que los estándares de compresión están bien establecidos, es necesario realizar estudios sobre las aplicaciones de banda ancha para audio y voz. Para disponer de voz de banda ancha usando una frecuencia de muestreo de 8 kHz (usada en la red telefónica conmutada), pueden aprovecharse las redundancias espectrales de la voz, para recuperar las componentes de banda ancha a partir de la señal transmitida de banda estrecha. Esto permite evitar el elevadísimo coste asociado a una actualización de la red telefónica para acomodar frecuencias de muestreo de 16 kHz. En este sentido los procesamientos realizados son claramente de tipo no lineal [1], puesto que el objetivo es crear frecuencias de salida no presentes en la entrada. Un 1 ejemplo sencillo de algoritmo de extensión de ancho de banda es el utilizado en el estándar de radiodifusión Digital Radio Mondiale [2], denominado Spectral Band Replication o SBR, consistente en repetir la última porción del espectro de banda estrecha en la parte de alta frecuencia, con una cierta atenuación. 1.1. Diferencias entre extensión de banda y expansión de banda El objetivo de la extensión de ancho de banda es recuperar el margen de frecuencias de la señal de voz eliminado, por ejemplo, por una transmisión telefónica. En dicho caso, a partir de una señal con un margen de frecuencias comprendido entre [0.3, 3.4] kHz, se recupera la porción de alta frecuencia ([3.4, 8] kHz) y, en ocasiones, adicionalmente la parte inferior comprendida en el margen [0.1, 0.3] kHz. En cambio, la expansión de ancho de banda se refiere a la multiplicación de los coeficientes LPC de forma que a ′k = λk a k k = 1,L, P , donde P es el orden del análisis LPC y, por ejemplo: 253 = 0.98828125 256 λ = en el caso de la recomendación G.728 de la ITU (LD-CELP a 16 kbits/s). La expansión de ancho de banda mueve los polos del filtro de síntesis radialmente hacia el origen del plano Z por un factor λ de forma que los picos del espectro LPC resultante tienen anchos de banda ligeramente mayores, de forma que se reducen los problemas de inestabilidades. Por tanto, se trata de conceptos distintos y no deben confundirse. 2. Influencia de la extensión de banda en reconocimiento de locutor En esta sección se describe la base de datos utilizada en los experimentos y los resultados obtenidos en identificación y verificación de locutor usando parametrizaciones LPCC y MEL cepstrum de diversos órdenes. Este trabajo ha sido financiado por la CICYT, proyecto TIC2000-1669-C04-02 y el proyecto europeo COST-277. Los experimentos realizados se han llevado a cabo sobre una base de datos extraída de la base de datos Gaudi [3]: • MIC: 49 locutores grabados simultáneamente con dos micrófonos diferentes (AKG C-420 y SONY ECM66B). La voz está grabada en formato wav a una frecuencia de muestreo fs=16 kHz, 16 bit/muestra y un ancho de banda de 8 kHz. Se ha utilizado un minuto de texto leído y cinco frases distintas de 2-3 segundos por locutor, siendo el mismo texto para todos. A partir de ella se ha generado una nueva base de datos de banda estrecha, aplicando la rutina potsband (banda del plain old telephonic service). Esta función puede bajarse de [4] y cumple las especificaciones de G.151 para cualquier frecuencia de muestreo. El algoritmo de extensión de banda utilizado ha sido aplicado por Mattias Nilson. Puede encontrarse una descripción del mismo en [5], y está ajustado para señales con un ancho de banda de 0.3-3.4 kHz. Por tanto, se dispone de tres bases de datos diferentes para los experimentos, tal y como puede apreciarse en la tabla 1. Tabla 1: Bases de datos. BW = ancho de banda, fs = frecuencia de muestreo (kHz). Nombre BW [kHz] fs Description MIC Original [0, 8] 16 MICb [0.3,3.4] 16 MIC filtered with potsband MICc [0.3, 8] 16 MICb + BW extension Idealmente, la aplicación de un algoritmo de extensión del ancho de banda no debería mejorar ni empeorar las tasas de reconocimiento obtenidas a partir de la señal de banda estrecha original, puesto que no se añade información independiente. Sin embargo, el estudio de la relevancia de estos algoritmos es interesante, de forma análoga a la multitud de estudios relacionados con la influencia de los algoritmos de codificación de voz sobre el reconocimiento de locutor [6], [7] [8]. Por otra parte, en la comunicación oral entre personas el sentido común nos dice que es más fácil reconocer al interlocutor si su voz se recibe en banda ancha (por ejemplo una emisión de radio) que si proviene de una línea telefónica. Sin embargo, no existen estudios relativos a qué sucede con las tasas de reconocimiento cuando la voz ha sido extendida en banda de forma artificial. Si bien las pruebas con personas sobre la calidad de los codificadores, de inteligibilidad, o de preferencias de banda extendida sobre banda estrecha son fácilmente realizables, la identificación de locutores supondría un proceso de “entrenamiento” o familiarización con las voces, que no resulta sencillo. Por ello, los experimentos que presentamos a continuación ayudan a valorar la influencia de la extensión de banda más allá de la mera sensación subjetiva de mejora de calidad. Pueden encontrarse más resultados en [9] y [10]. 2.2. Identificación La primera serie de experimentos consiste en evaluar las tasas de identificación (o clasificación de cada una de las frases de test en uno de los 49 locutores posibles). Para ello, se obtiene un porcentaje de identificación en base a 49×5 tests en cada prueba. Se realiza un modelo para cada locutor consistente en una matriz de covarianza de dimensiones l×l, y para el test se usa la medida de distancia aritmético-armónica de esfericidad [11] entre la matriz de covarianza de las tramas obtenidas de cada una de las frases de test Ctest y todos los modelos de los locutores C j j = 1,L,49 , según la fórmula: −1 µ (C j Ctest ) = log(tr (Ctest C −j 1 )tr (C j Ctest ) ) − 2 log(l ) donde tr es la traza de la matriz y l la dimensión de los vectores de características (LPCC o MEL cepstrum en nuestro estudio). Se han utilizado valores comprendidos en el margen 4 ≤ l ≤ 26 , sobre tramas tomadas con un solapamiento de 2/3 y ventana de Hamming. Se ha utilizado preénfasis de la señal de voz usando el filtro H(z)=1-0.95z-1 y se han eliminado las tramas de silencio a partir de un umbral prefijado de energía. La figura 1 muestra las tasas de identificación usando coeficientes LPCC, en función de la dimensión de los vectores. MIC 100 90 Tasa de identificación 2.1. Base de datos de banda extendida 80 70 [0,8kHz] trama=240 muestras [300,3.4kHz] trama=240 [300,8kHz] trama=240 bwext [0,8kHz] trama=480 [300,3.4kHz] trama=480 [300,8kHz] trama=480 bwext 60 50 40 30 0 5 10 15 20 dimensión LPCC 25 30 Figura 1: Tasas de identificación para la parametrización LPCC en función de l. Lógicamente, los mejores resultados se obtienen al utilizar la base de datos de banda ancha real (MIC). Además, los resultados obtenidos con la señal de banda ancha extendida y la señal de banda estrecha son comparables, salvo para valores elevados de la dimensión de los vectores (mayores a 20), puesto que en dicho caso las prestaciones con la señal de banda estrecha se degradan rápidamente. Seguramente, debido a la imposibilidad de especificar una envolvente espectral LPC con más de 20 coeficientes para espectros limitados en banda. MIC 100 80 MELCEPST trama=512 muestras 70 [0,8kHz] trama=512 muestras [300,3.4kHz] trama=512 [0,8kHz] trama=256 [300,3.4kHz] trama=256 [300,8kHz] trama=512 bwext [300,8kHz] trama=256 bwext 60 50 40 0 5 10 15 20 dimensión MELCEPST 25 [0, 8] kHz [0.3, 3.4] kHz [0.3 8] kHz BWext 10 Miss probability (in %) Tasa de identificación 90 512 muestras. Para la obtención de los resultados se han utilizado las curvas DET (Detection-error tradeoff) propuestas en [12]. La figura 3 muestra un ejemplo de curvas DET usando parametrización MEL Cepstrum y vectores de dimensión 18. Los valores mínimos de la DCF para las señales de banda ancha original, banda estrecha y banda extendida son respectivamente: 0.0293, 0.0433 y 0.0396. Obsérvese que existe un compromiso entre la probabilidad de pérdida y la probabilidad de falsa alarma, y que un sistema es tanto mejor cuanto más cerca está del origen la curva DET que lo caracteriza. 30 Figura 2: Identification rates for MIC databases and MELCEPST. La figura 2 muestra los resultados obtenidos al utilizar la parametrización MEL Cepstrum. Se observa que los resultados son mejores a los obtenidos con LPCC, y una ligera mejora sobre los resultados de la señal de banda estrecha, al aplicarle la extensión de ancho de banda. 2.3. Verificación 2 1 donde Vmiss is el coste de una pérdida, Vfa es el coste de una falsa alarma, Ptrue es la probabilidad a priori de tener un “blanco” (locutor correcto) y Pfalse = 1 − Ptrue. Se ha utilizado Vmiss= Vfa =1 y un tamaño de trama de 2 5 10 False Alarm probability (in %) La figura 4 muestra los resultados obtenidos en el valor mínimo de DCF al utilizar la parametrización LPCC, para distintos tamaños l de los vectores LPCC. LPCC 0.13 p = e −0.5 d DCF = Vmiss × Pmiss × Ptrue + V fa × Pfa × Pfalse 1 Figura 3: Curva DET obtenida con MEL cepstrum-18 A partir de las medidas de distancia obtenidas en el apartado anterior, se ha aplicado la ecuación: [0, 8] kHz [0.3, 3.4] kHz [0.3, 8] kHz BWext 0.12 0.11 0.1 0.09 DCF con la finalidad de convertir la medida de distancia d en una medida de probabilidad p. La comparación de p con un umbral proporciona como resultado una decisión de detección que puede ser correcta (se acepta al locutor auténtico o se rechaza a un impostor), una pérdida (miss, o rechazo de un locutor auténtico), o una falsa alarma (false alarm, o aceptación de un impostor). A partir del recuento de las dos situaciones en las que se produce una decisión errónea, se obtienen los valores experimentales de las probabilidades de pérdida y falsa alarma Pmiss y Pfa. Las pruebas de verificación consisten en evaluar el mínimo valor de la función de coste de detección (Detection Cost Function), definida como: 5 0.08 0.07 0.06 0.05 0.04 0.03 8 10 12 14 16 l 18 20 22 24 26 Figura 4: DCF usando parametrización MEL Cepstrum A partir de la figura 4 se observa que los mejores resultados se obtienen al usar la señal de banda ancha original. Además, en el margen de valores habituales 12 ≤ l ≤ 18 , los resultados obtenidos al aplicar una extensión de banda, son comparables a los de la señal de banda estrecha. De forma análoga a lo que sucedía en identificación, no es factible extraer vectores LPCC de dimensiones mayores a 18 usando la señal de banda estrecha. MELCEPS 0.09 [0, 8] kHz [0.3, 3.4] kHz [0.3, 8] kHz BWext 0.08 4. Agradecimientos 0.07 Agradezco a Mattias Nilsson y Bastiaan Kleijn del Departmento de Speech, Music and Hearing (KTH) Suecia, la aplicación de sus algoritmos de extensión de ancho de banda, así como sus sugerencias sobre este tema. DCF 0.06 0.05 0.04 0.03 0.02 8 A partir de nuestro estudio se observa que: El algoritmo de Mattias y Kleijn no introduce efectos extraños que degraden las tasas de reconocimiento respecto a las conseguibles a partir de la señal de banda estrecha. • La parametrización MEL Cepstrum puede sacar provecho del algoritmo de extensión de banda, y se recomienda su uso frente a LPCC. • 5. Referencias 10 12 14 16 l 18 20 22 24 26 Figura 5: DCF usando parametrización MEL Cepstrum La figura 5 muestra los resultados obtenidos en el valor de DCF al utilizar la parametrización MEL Cepstrum. Se observa que los resultados obtenidos son mejores que los que se obtuvieron al usar LPCC. Además, los resultados con la señal extendida en banda superan los de la señal de banda estrecha en el margen de dimensiones de vector MEL Cepstrum 11 ≤ l ≤ 19 , que es precisamente el ajuste más habitual en los sistemas de reconocimiento de locutor. Por tanto, no tan sólo es posible reconocer automáticamente señales de banda estrecha que han sufrido un proceso de extensión de banda, sino que además, en algunas condiciones, se obtiene una cierta mejora. Si bien esto parece entrar en conflicto con el planteamiento inicial de que la extensión de banda no añade información no existente en la banda inferior a 4 kHz y por tanto no cabe esperar una mejora, hay que tener en cuenta que este proceso aumenta el número de harmónicos presentes en el espectro, y ello puede suponer una ayuda a una correcta caracterización espectral, que según los resultados obtenidos, no supera a la situación ideal de disponer de voz original de banda ancha. 3. Conclusiones Si bien la relevancia de los algoritmos de codificación de voz ha sido estudiada por diversos investigadores (por ejemplo la codificación GSM de telefonía móvil digital), hasta la actualidad se ha prestado poca atención a los algoritmos de extensión de ancho de banda, y concretamente a la pregunta “¿Qué sucede si la señal de voz que entra en un sistema de reconocimiento de locutor ha sido extendida en banda?”. [1] M. Faúndez-Zanuy, S. McLaughlin, A. Esposito, A. Hussain, J. Schoentgen, G. Kubin, W. B. Kleijn, P. Maragos “Nonlinear speech processing: Overview and applications”. pp. 1-10. International journal on Control and intelligent systems, Vol. 30, Nº 1, 2002. ACTA Press [2] Borrador de nueva recomendación de la ITU-R BS. Documento 6/63-E, "system for digital sound broadcasting in the broadcasting bands below 30 MHz", 25 de octubre de 2000 [3] J. Ortega et al. “Ahumada: a large speech corpus in Spanish for speaker identification and verification”. pp. 773-776, IEEE ICASSP 1998. [4] http://www.ee.ic.ac.uk/hp/staff/dmb/voicebox/voicebox.ht ml [5] M. Nilsson & W. B. Kleijn “Avoiding over-estimation in bandwidth extension of telephony speech”, pp. 869-872 IEEE ICASSP 2001. [6] J. Leis, M. Phythian, & S. Sridharan “Speech compression with preservation of speaker identity”, pp. 1711-1714, IEEE ICASSP 1997. [7] A. Schmidt-Nielsen & D. P. Brock “Speaker recognizability testing for voice coders”, pp. 1149-1152, IEEE ICASSP 1996. [8] K. T. Assaleh “Automatic evaluation of speaker recognizability of coded speech”, pp. 475-478, IEEE ICASSP 1996. [9] M. Faúndez-Zanuy, M. Nilsson y W. B. Kleijn “On the relevance of bandwidth extension for speaker identification”, EUSIPCO’2002, Toulouse. [10] M. Faúndez-Zanuy, M. Nilsson y W. B. Kleijn “On the relevance of bandwidth extension for speaker verification”, ICSLP’2002, Denver. [11] F. Bimbot, L. Mathan "Text-free speaker recognition using an arithmetic-harmonic sphericity measure." pp. 169-172, Eurospeech 1993 [12] A. Martin, G. Doddington, T. Kamm, M. Ordowski, and M. Przybocki, “The DET curve in assessment of detection performance”, pp.1895-1898, Eurospeech 1997.