Efectos De La Extensión Del Ancho De Banda En Reconocimiento

Anuncio
Efectos De La Extensión Del Ancho De Banda En
Reconocimiento De Locutor1
Marcos Faúndez-Zanuy
Escola Universitària Politècnica de Mataró (Barcelona)
Universitat Politècnica de Catalunya
[email protected]
Resumen
Este artículo describe el concepto de extensión de ancho de
banda y presenta resultados sobre su relevancia en
aplicaciones de reconocimiento de locutor (identificación y
verificación). Los resultados muestran que, usando una
parametrización MEL-Cepstrum, puede obtenerse una mejora
en las tasas de reconocimiento.
1. Introducción
Hoy en día, el aumento de la frecuencia de muestreo
y el número de bits de cuantificación están presentes en
multitud de aplicaciones. Los ejemplos más importantes
son los estándares de Home cinema (Dolby Digital,
THX, DTS) y los nuevos sistemas de grabación de
audio (DVD-Audio y Super Audio Compact Disc) que
superan ampliamente las prestaciones del CD clásico.
Por supuesto, el ancho de banda ocupado por una señal
de voz es mucho menor al requerido para grabar música
de alta calidad, pero el avance en el número de
aplicaciones que utilizan banda ancha (8 kHz) y de
esquemas de conversión para obtener banda ancha a
partir de banda estrecha (o banda telefónica) es notable.
La comparación entre una señal de banda estrecha
(frecuencia de muestreo 8 kHz y ancho de banda
máximo de 4 kHz) y una señal de banda ancha
(frecuencia de muestreo de 16 kHz y ancho de banda
máximo de 8 kHz) revela una mayor naturalidad en la
segunda. Sin embargo, la mayor parte de la información
relevante está comprendida en la parte de frecuencias
inferiores a 4 kHz.
Mientras que los estándares de compresión están
bien establecidos, es necesario realizar estudios sobre
las aplicaciones de banda ancha para audio y voz. Para
disponer de voz de banda ancha usando una frecuencia
de muestreo de 8 kHz (usada en la red telefónica
conmutada), pueden aprovecharse las redundancias
espectrales de la voz, para recuperar las componentes de
banda ancha a partir de la señal transmitida de banda
estrecha. Esto permite evitar el elevadísimo coste
asociado a una actualización de la red telefónica para
acomodar frecuencias de muestreo de 16 kHz. En este
sentido los procesamientos realizados son claramente de
tipo no lineal [1], puesto que el objetivo es crear
frecuencias de salida no presentes en la entrada. Un
1
ejemplo sencillo de algoritmo de extensión de ancho de
banda es el utilizado en el estándar de radiodifusión
Digital Radio Mondiale [2], denominado Spectral Band
Replication o SBR, consistente en repetir la última
porción del espectro de banda estrecha en la parte de
alta frecuencia, con una cierta atenuación.
1.1. Diferencias entre extensión de banda y expansión de
banda
El objetivo de la extensión de ancho de banda es
recuperar el margen de frecuencias de la señal de voz
eliminado, por ejemplo, por una transmisión telefónica.
En dicho caso, a partir de una señal con un margen de
frecuencias comprendido entre [0.3, 3.4] kHz, se
recupera la porción de alta frecuencia ([3.4, 8] kHz) y,
en ocasiones, adicionalmente la parte inferior
comprendida en el margen [0.1, 0.3] kHz.
En cambio, la expansión de ancho de banda se
refiere a la multiplicación de los coeficientes LPC de
forma que a ′k = λk a k k = 1,L, P , donde P es el
orden del análisis LPC y, por ejemplo:
 253 
 = 0.98828125
 256 
λ =
en el caso de la recomendación G.728 de la ITU
(LD-CELP a 16 kbits/s). La expansión de ancho de
banda mueve los polos del filtro de síntesis radialmente
hacia el origen del plano Z por un factor λ de forma
que los picos del espectro LPC resultante tienen anchos
de banda ligeramente mayores, de forma que se
reducen los problemas de inestabilidades.
Por tanto, se trata de conceptos distintos y no deben
confundirse.
2. Influencia de la extensión de banda en
reconocimiento de locutor
En esta sección se describe la base de datos
utilizada en los experimentos y los resultados obtenidos
en identificación y verificación de locutor usando
parametrizaciones LPCC y MEL cepstrum de diversos
órdenes.
Este trabajo ha sido financiado por la CICYT, proyecto TIC2000-1669-C04-02 y el proyecto europeo COST-277.
Los experimentos realizados se han llevado a cabo
sobre una base de datos extraída de la base de datos
Gaudi [3]:
• MIC: 49 locutores grabados simultáneamente con
dos micrófonos diferentes (AKG C-420 y SONY
ECM66B).
La voz está grabada en formato wav a una
frecuencia de muestreo fs=16 kHz, 16 bit/muestra y un
ancho de banda de 8 kHz. Se ha utilizado un minuto de
texto leído y cinco frases distintas de 2-3 segundos por
locutor, siendo el mismo texto para todos.
A partir de ella se ha generado una nueva base de
datos de banda estrecha, aplicando la rutina potsband
(banda del plain old telephonic service). Esta función
puede bajarse de [4] y cumple las especificaciones de
G.151 para cualquier frecuencia de muestreo. El
algoritmo de extensión de banda utilizado ha sido
aplicado por Mattias Nilson. Puede encontrarse una
descripción del mismo en [5], y está ajustado para
señales con un ancho de banda de 0.3-3.4 kHz. Por
tanto, se dispone de tres bases de datos diferentes para
los experimentos, tal y como puede apreciarse en la
tabla 1.
Tabla 1: Bases de datos. BW = ancho de banda, fs =
frecuencia de muestreo (kHz).
Nombre BW [kHz] fs
Description
MIC
Original
[0, 8]
16
MICb
[0.3,3.4]
16
MIC filtered with potsband
MICc
[0.3, 8]
16
MICb + BW extension
Idealmente, la aplicación de un algoritmo de
extensión del ancho de banda no debería mejorar ni
empeorar las tasas de reconocimiento obtenidas a partir
de la señal de banda estrecha original, puesto que no se
añade información independiente. Sin embargo, el
estudio de la relevancia de estos algoritmos es
interesante, de forma análoga a la multitud de estudios
relacionados con la influencia de los algoritmos de
codificación de voz sobre el reconocimiento de locutor
[6], [7] [8].
Por otra parte, en la comunicación oral entre
personas el sentido común nos dice que es más fácil
reconocer al interlocutor si su voz se recibe en banda
ancha (por ejemplo una emisión de radio) que si
proviene de una línea telefónica. Sin embargo, no
existen estudios relativos a qué sucede con las tasas de
reconocimiento cuando la voz ha sido extendida en
banda de forma artificial. Si bien las pruebas con
personas sobre la calidad de los codificadores, de
inteligibilidad, o de preferencias de banda extendida
sobre banda estrecha son fácilmente realizables, la
identificación de locutores supondría un proceso de
“entrenamiento” o familiarización con las voces, que no
resulta sencillo. Por ello, los experimentos que
presentamos a continuación ayudan a valorar la
influencia de la extensión de banda más allá de la mera
sensación subjetiva de mejora de calidad. Pueden
encontrarse más resultados en [9] y [10].
2.2. Identificación
La primera serie de experimentos consiste en
evaluar las tasas de identificación (o clasificación de
cada una de las frases de test en uno de los 49 locutores
posibles). Para ello, se obtiene un porcentaje de
identificación en base a 49×5 tests en cada prueba. Se
realiza un modelo para cada locutor consistente en una
matriz de covarianza de dimensiones l×l, y para el test
se usa la medida de distancia aritmético-armónica de
esfericidad [11] entre la matriz de covarianza de las
tramas obtenidas de cada una de las frases de test Ctest y
todos los modelos de los locutores C j j = 1,L,49 ,
según la fórmula:
−1
µ (C j Ctest ) = log(tr (Ctest C −j 1 )tr (C j Ctest
) ) − 2 log(l )
donde tr es la traza de la matriz y l la dimensión de
los vectores de características (LPCC o MEL cepstrum
en nuestro estudio). Se han utilizado valores
comprendidos en el margen 4 ≤ l ≤ 26 , sobre tramas
tomadas con un solapamiento de 2/3 y ventana de
Hamming. Se ha utilizado preénfasis de la señal de voz
usando el filtro H(z)=1-0.95z-1 y se han eliminado las
tramas de silencio a partir de un umbral prefijado de
energía.
La figura 1 muestra las tasas de identificación
usando coeficientes LPCC, en función de la dimensión
de los vectores.
MIC
100
90
Tasa de identificación
2.1. Base de datos de banda extendida
80
70
[0,8kHz] trama=240 muestras
[300,3.4kHz] trama=240
[300,8kHz] trama=240 bwext
[0,8kHz] trama=480
[300,3.4kHz] trama=480
[300,8kHz] trama=480 bwext
60
50
40
30
0
5
10
15
20
dimensión LPCC
25
30
Figura 1: Tasas de identificación para la
parametrización LPCC en función de l.
Lógicamente, los mejores resultados se obtienen al
utilizar la base de datos de banda ancha real (MIC).
Además, los resultados obtenidos con la señal de banda
ancha extendida y la señal de banda estrecha son
comparables, salvo para valores elevados de la
dimensión de los vectores (mayores a 20), puesto que
en dicho caso las prestaciones con la señal de banda
estrecha se degradan rápidamente. Seguramente, debido
a la imposibilidad de especificar una envolvente
espectral LPC con más de 20 coeficientes para
espectros limitados en banda.
MIC
100
80
MELCEPST trama=512 muestras
70
[0,8kHz] trama=512 muestras
[300,3.4kHz] trama=512
[0,8kHz] trama=256
[300,3.4kHz] trama=256
[300,8kHz] trama=512 bwext
[300,8kHz] trama=256 bwext
60
50
40
0
5
10
15
20
dimensión MELCEPST
25
[0, 8] kHz
[0.3, 3.4] kHz
[0.3 8] kHz BWext
10
Miss probability (in %)
Tasa de identificación
90
512 muestras. Para la obtención de los resultados se
han utilizado las curvas DET (Detection-error tradeoff) propuestas en [12].
La figura 3 muestra un ejemplo de curvas DET
usando parametrización MEL Cepstrum y vectores de
dimensión 18. Los valores mínimos de la DCF para las
señales de banda ancha original, banda estrecha y
banda extendida son respectivamente: 0.0293, 0.0433 y
0.0396. Obsérvese que existe un compromiso entre la
probabilidad de pérdida y la probabilidad de falsa
alarma, y que un sistema es tanto mejor cuanto más
cerca está del origen la curva DET que lo caracteriza.
30
Figura 2: Identification rates for MIC databases and
MELCEPST.
La figura 2 muestra los resultados obtenidos al
utilizar la parametrización MEL Cepstrum. Se observa
que los resultados son mejores a los obtenidos con
LPCC, y una ligera mejora sobre los resultados de la
señal de banda estrecha, al aplicarle la extensión de
ancho de banda.
2.3. Verificación
2
1
donde Vmiss is el coste de una pérdida, Vfa es el coste
de una falsa alarma, Ptrue es la probabilidad a priori de
tener un “blanco” (locutor correcto) y Pfalse = 1 − Ptrue.
Se ha utilizado Vmiss= Vfa =1 y un tamaño de trama de
2
5
10
False Alarm probability (in %)
La figura 4 muestra los resultados obtenidos en el
valor mínimo de DCF al utilizar la parametrización
LPCC, para distintos tamaños l de los vectores LPCC.
LPCC
0.13
p = e −0.5 d
DCF = Vmiss × Pmiss × Ptrue + V fa × Pfa × Pfalse
1
Figura 3: Curva DET obtenida con MEL cepstrum-18
A partir de las medidas de distancia obtenidas en el
apartado anterior, se ha aplicado la ecuación:
[0, 8] kHz
[0.3, 3.4] kHz
[0.3, 8] kHz BWext
0.12
0.11
0.1
0.09
DCF
con la finalidad de convertir la medida de distancia
d en una medida de probabilidad p. La comparación de
p con un umbral proporciona como resultado una
decisión de detección que puede ser correcta (se acepta
al locutor auténtico o se rechaza a un impostor), una
pérdida (miss, o rechazo de un locutor auténtico), o una
falsa alarma (false alarm, o aceptación de un impostor).
A partir del recuento de las dos situaciones en las que
se produce una decisión errónea, se obtienen los valores
experimentales de las probabilidades de pérdida y falsa
alarma Pmiss y Pfa.
Las pruebas de verificación consisten en evaluar el
mínimo valor de la función de coste de detección
(Detection Cost Function), definida como:
5
0.08
0.07
0.06
0.05
0.04
0.03
8
10
12
14
16
l
18
20
22
24
26
Figura 4: DCF usando parametrización MEL
Cepstrum
A partir de la figura 4 se observa que los mejores
resultados se obtienen al usar la señal de banda ancha
original. Además, en el margen de valores habituales
12 ≤ l ≤ 18 , los resultados obtenidos al aplicar una
extensión de banda, son comparables a los de la señal
de banda estrecha. De forma análoga a lo que sucedía
en identificación, no es factible extraer vectores LPCC
de dimensiones mayores a 18 usando la señal de banda
estrecha.
MELCEPS
0.09
[0, 8] kHz
[0.3, 3.4] kHz
[0.3, 8] kHz BWext
0.08
4. Agradecimientos
0.07
Agradezco a Mattias Nilsson y Bastiaan Kleijn del
Departmento de Speech, Music and Hearing (KTH)
Suecia, la aplicación de sus algoritmos de extensión de
ancho de banda, así como sus sugerencias sobre este
tema.
DCF
0.06
0.05
0.04
0.03
0.02
8
A partir de nuestro estudio se observa que:
El algoritmo de Mattias y Kleijn no introduce
efectos extraños que degraden las tasas de
reconocimiento respecto a las conseguibles a partir
de la señal de banda estrecha.
• La parametrización MEL Cepstrum puede sacar
provecho del algoritmo de extensión de banda, y se
recomienda su uso frente a LPCC.
•
5. Referencias
10
12
14
16
l
18
20
22
24
26
Figura 5: DCF usando parametrización MEL
Cepstrum
La figura 5 muestra los resultados obtenidos en el
valor de DCF al utilizar la parametrización MEL
Cepstrum. Se observa que los resultados obtenidos son
mejores que los que se obtuvieron al usar LPCC.
Además, los resultados con la señal extendida en banda
superan los de la señal de banda estrecha en el margen
de dimensiones de vector MEL Cepstrum 11 ≤ l ≤ 19 ,
que es precisamente el ajuste más habitual en los
sistemas de reconocimiento de locutor. Por tanto, no tan
sólo es posible reconocer automáticamente señales de
banda estrecha que han sufrido un proceso de extensión
de banda, sino que además, en algunas condiciones, se
obtiene una cierta mejora. Si bien esto parece entrar en
conflicto con el planteamiento inicial de que la
extensión de banda no añade información no existente
en la banda inferior a 4 kHz y por tanto no cabe esperar
una mejora, hay que tener en cuenta que este proceso
aumenta el número de harmónicos presentes en el
espectro, y ello puede suponer una ayuda a una correcta
caracterización espectral, que según los resultados
obtenidos, no supera a la situación ideal de disponer de
voz original de banda ancha.
3. Conclusiones
Si bien la relevancia de los algoritmos de
codificación de voz ha sido estudiada por diversos
investigadores (por ejemplo la codificación GSM de
telefonía móvil digital), hasta la actualidad se ha
prestado poca atención a los algoritmos de extensión de
ancho de banda, y concretamente a la pregunta “¿Qué
sucede si la señal de voz que entra en un sistema de
reconocimiento de locutor ha sido extendida en
banda?”.
[1] M. Faúndez-Zanuy, S. McLaughlin, A. Esposito, A.
Hussain, J. Schoentgen, G. Kubin, W. B. Kleijn, P.
Maragos “Nonlinear speech processing: Overview and
applications”. pp. 1-10. International journal on Control
and intelligent systems, Vol. 30, Nº 1, 2002. ACTA Press
[2] Borrador de nueva recomendación de la ITU-R BS.
Documento 6/63-E, "system for digital sound broadcasting
in the broadcasting bands below 30 MHz", 25 de octubre de
2000
[3] J. Ortega et al. “Ahumada: a large speech corpus in Spanish
for speaker identification and verification”. pp. 773-776,
IEEE ICASSP 1998.
[4] http://www.ee.ic.ac.uk/hp/staff/dmb/voicebox/voicebox.ht
ml
[5] M. Nilsson & W. B. Kleijn “Avoiding over-estimation in
bandwidth extension of telephony speech”, pp. 869-872
IEEE ICASSP 2001.
[6] J. Leis, M. Phythian, & S. Sridharan “Speech
compression with preservation of speaker identity”, pp.
1711-1714, IEEE ICASSP 1997.
[7] A. Schmidt-Nielsen & D. P. Brock “Speaker
recognizability testing for voice coders”, pp. 1149-1152,
IEEE ICASSP 1996.
[8] K. T. Assaleh “Automatic evaluation of speaker
recognizability of coded speech”, pp. 475-478, IEEE
ICASSP 1996.
[9] M. Faúndez-Zanuy, M. Nilsson y W. B. Kleijn “On the
relevance of bandwidth extension for speaker
identification”, EUSIPCO’2002, Toulouse.
[10] M. Faúndez-Zanuy, M. Nilsson y W. B. Kleijn “On the
relevance of bandwidth extension for speaker verification”,
ICSLP’2002, Denver.
[11] F. Bimbot, L. Mathan "Text-free speaker recognition using
an arithmetic-harmonic sphericity measure." pp. 169-172,
Eurospeech 1993
[12] A. Martin, G. Doddington, T. Kamm, M. Ordowski, and M.
Przybocki, “The DET curve in assessment of detection
performance”, pp.1895-1898, Eurospeech 1997.
Descargar