Simplified filter bank to emulate de head diffraction depending on

Anuncio
Buenos Aires – 5 to 9 September 2016
st
Acoustics for the 21 Century…
PROCEEDINGS of the 22nd International Congress on Acoustics
Signal Processing in Acoustics: FIA2016-35
Simplified filter bank to emulate de head diffraction
depending on the azimuth angle of the source
Georgina Lizaso (a), Jorge Petrosino (b)
(a)
(b)
Universidad Nacional de Lanús, Argentina, [email protected]
Universidad Nacional de Lanús, Argentina, [email protected]
Abstract
Amplitude panning is the most common panning technique. Another method is time panning
with a constant delay applied to one channel in stereophonic listening. Time panning is typically
not used in stereo imaging, but it can be used when some special effects are created. The
maximum interaural difference in time of arrival of air propagated signal is about 700 μs.
Binaural hearing with headphones using that delay is not perceived as a virtual source at 90º of
azimuth angle. However, including spectral modifications created by head diffraction, the
azimuth angle can be perceived as it is expected.
A simplified head diffraction model with possible applications in audio mixing is presented. The
model is based on a bank of filters to emulate the angular position of the source in the
horizontal plane. The aim of the model is to emulate a virtual position of the sound source with
minimum computational effort when compared to the convolution with the corresponding head
related impulse responses. Our results suggest that diffraction loss can be adequately
represented by shelving filters. The CIPIC public database of head related impulse responses
was used to compute the parameters of the simplified filter bank. Individuals with identical head
diameter are selected from the database and their impulse responses are convolved with a
series of one-third octave band noise in order to obtain for each ear a power profile in terms of
the frequency. The results are averaged in order to smoothen the individual differences, thus
neglecting other spectrum disturbances that do not correspond to diffraction. The model
provides us with parameters about frequencies and attenuation levels of the shelving filters..
Keywords: head diffraction, HRTF, itd mixing, high resolution audio
X CONGRESO FIA
Buenos Aires,
5 al 9 de Setiembre de 2016
Acústica para el siglo 21...
Banco de filtros para emular la difracción de la cabeza
en función del ángulo de acimut de la fuente
1 Introducción
La técnica más utilizada para producir una imagen estéreo en mezclas de audio es el paneo
por nivel. Una señal monoaural es copiada en el canal izquierdo y en el derecho con diferencia
de nivel entre ellos. Esto provoca una localización aparente de la fuente sonora sobre el plano
horizontal con un ángulo de acimut que depende del salto de nivel entre canales. Blumlein [1]
fue quien propuso generar una lateralización del sonido utilizando esta técnica en las primeras
décadas del siglo XX. Sin embargo, este modo de generar una localización del sonido se
relaciona muy poco con la diferencia entre señales de ambos canales que provocaría una
fuente sonora realmente ubicada en determinado lugar del espacio dentro del plano horizontal.
Los indicios de espacialización de una fuente sonora se relacionan con diversos fenómenos
físicos. En primer lugar podemos decir que existe un retardo temporal en el arribo de la señal
sonora a cada oído. En segundo lugar, la cabeza del oyente provoca difracción de las ondas
sonoras. Este fenómeno produce diferencia de nivel entre oídos, pero debido a las dimensiones
de la cabeza humana esto tiene fuerte influencia en frecuencias altas y muy poca en
frecuencias bajas (a diferencia de lo que sucede con el paneo por nivel en el cual la atenuación
afecta a todo el espectro por igual). Por último, se generan una serie de variaciones
espectrales producidas por la interacción de los fenómenos ondulatorios con distintas partes
del cuerpo humano, entre las que se destaca la influencia de la forma particular del pabellón
auricular. Todos estos fenómenos quedan representados en la función de transferencia de la
cabeza (HRTF) [3].
Pueden indicarse dos motivos principales por los cuales la técnica en uso se basa en un
método no realista como el de paneo por nivel. Por un lado, dicha técnica fue propuesta en un
momento en el que la compatibilidad monoaural de registros estereofónicos tenía una
importancia crucial. Si dos señales correlacionadas que en determinada situación resultan
superpuestas poseen un retardo entre sí, se producirá una alteración artificial de su espectro
(filtro peine). La inexistencia de retardos entre canales del paneo por nivel evita que al convertir
una señal estéreo en otra monoaural se produzcan estas alteraciones [4].
Por otro lado, la diferencia de nivel entre canales resultaba muy sencilla de resolver con la
tecnología disponible a principios del siglo XX, contrariamente a lo que hubiera significado
cualquier intento de emular electrónicamente el proceso realizado por la función de
transferencia de la cabeza.
En el marco de nuestra tarea docente en la Universidad Nacional de Lanús interactuamos
diariamente con profesores y alumnos que realizan prácticas de mezclas de audio. En el
intento de explorar mezclas que incorporasen características que el paneo por nivel dejaba de
lado, se realizaron algunas primeras experiencias alterando solamente el retardo interaural (itd)
y realizando escuchas con auriculares.
2
X CONGRESO FIA
Buenos Aires,
5 al 9 de Setiembre de 2016
Acústica para el siglo 21...
El cálculo de los retardos interaurales está bien establecido por lo que resultó sencillo de
implementar, sin embargo los resultados perceptivos que pueden lograrse al incorporar como
único parámetro el tiempo de retardo no permitían localizar a la fuente en cualquier lugar del
semiplano sonoro horizontal. Aún utilizando valores de hasta 700 µs (superando el máximo
retardo posible entre oídos), no lograban percibirse fuentes sonoras con una ubicación de 90º.
Manteniendo la intención de explorar la generación de una imagen estéreo incorporando
algunas características que pudieran resolverse con consolas de mezcla de uso corriente, se
pensó en incluir en estas experiencias información referida a la difracción de la cabeza.
A nivel técnico, la diferencia de nivel en función de la frecuencia podría emularse mediante
determinado tipo de filtros que seguramente deberían tener características diferentes para
distintos ángulos de acimut atribuidos a la fuente. En este contexto se buscó información sobre
las características requeridas para emular la difracción con filtros, con el fin de combinar este
efecto con el retardo interaural. Las publicaciones que se refieren al tema se concentran en
cuestiones relacionadas con la función de transferencia de la cabeza, exigiendo un tipo de
procesamiento complejo que estaba fuera del alcance del contexto en el que queríamos
trabajar. Si bien este tipo de soluciones resulta académicamente adecuada para emular la
localización espacial, no permite resolver la simulación con equipamiento sencillo en el
contexto de una mezcla de audio.
Ante la ausencia de trabajos que nos permitiesen resolver el problema decidimos explorar el
tema. Nuestro trabajo responde entonces a la pregunta de qué tipo de filtro y con qué
características es posible emular la difracción de la cabeza en forma muy simplificada, con la
intención de generar una imagen estéreo que combine retardo con filtrado.
2 Curvas de diferencias de nivel interaural
El procedimiento se inició con la obtención de un conjunto curvas de diferencia de nivel
interaural para diferentes ángulos. Estas curvas se obtuvieron procesando información
disponible en la base pública de datos de funciones de transferencia de la cabeza medidas en
el U. C. Davis CIPIC Interface Laboratory. Esta base realizada por la Universidad de California,
incluye las respuestas al impulso de 45 sujetos desde 25 ángulos diferentes de acimut y 50
ángulos diferentes de elevación. Las respuestas al impulso están registradas con una
resolución de 16 bits y 44.1 kHz. La base incluye información antropométrica sobre los sujetos,
lo que nos permitió seleccionar grupos de sujetos con características semejantes en función de
nuestros objetivos. Para cada valor de azimuth y elevación se dispone de 200 muestras
temporales de respuesta al impulso (4.5 ms). En la Figura (1) se muestra un registro de
respuestas al impulso correspondientes a ambos oídos para una ubicación de la fuente en -15º
de acimut y 0º de elevación.
Los datos de la base del CIPIC están disponibles para su descarga en formato MATLAB.
Si bien existe otra conocida base pública de funciones de transferencia de la cabeza
producidas por el IRCAM, no contiene información antropométrica sobre los sujetos [5].
Se seleccionaron sujetos de idéntico valor de perímetro de la cabeza, bajo el supuesto que los
efectos de difracción tendrían estrecha relación con las dimensiones de la cabeza.
3
X CONGRESO FIA
Buenos Aires,
5 al 9 de Setiembre de 2016
Acústica para el siglo 21...
Figura 1: Respuestas al impulso del sujeto 003, az= -15 °, el = 0°
Se generó una batería de ruidos de tercio de octava (norma ANSI) entre la banda 26 (400 Hz) y
la banda 42 (16 kHz). No se incluyeron bandas inferiores a los 400 Hz debido a que en esas
frecuencias no resulta esperable que exista contribución por difracción a diferencias de nivel
interaural.
Se extrajeron las respuestas al impulso de cada oído. Todos con ángulo de elevación 0° y seis
valores diferentes de azimuth
el = 0°
az = 15°, 30°, 45°, 65°, 80°.
Para cada sujeto se realizó la convolución entre el ruido filtrado con una frecuencia central
determinada y la respuesta al impulso correspondiente a distintos ángulos de acimut, todos con
elevación 0º (plano horizontal con el fin de generar una imagen estéreo). Se obtuvo un valor de
energía correspondiente a los resultados de cada convolución. La diferencia de estos niveles
de energía entre oídos permitió obtener un valor para la diferencia de nivel interaural para el
valor de frecuencia central de la banda de ruido utilizado. La Figura (2) muestra una de las
curvas obtenidas con este procedimiento.
Figura 2: Diferencias de nivel interaural del sujeto 061, az= -65 °, el = 0°
4
X CONGRESO FIA
Buenos Aires,
5 al 9 de Setiembre de 2016
Acústica para el siglo 21...
Obtenidas las curvas de todos los sujetos de igual perímetro de cabeza se procedió a
promediar las curvas de diferencias de nivel, bajo la suposición de que las características de la
curva debidas a la difracción serían comunes a todos y se mantendrían estables en el
promedio, pero las diferencias individuales debidas a otros fenómenos resultarían atenuadas al
promediar los resultados, Figura (3). Para el promedio se consideró que los efectos de
difracción de la cabeza resultarían razonablemente simétricos, por lo que las diferencias
producidas por ángulos de acimut positivos y negativos podrían considerarse como casos
diferentes para el promedio.
Figura 3: Diferencias de nivel interaural promedio, az= -65 °, el = 0°
Se seleccionó un filtro shelving que pudiese ajustarse a la curva promedio obtenida,
determinando los parámetros de f1, f2, y caída de nivel en dB del filtro. Estos parámetros
fueron utilizados para generar la curva del filtro h(f) mediante las ecuaciones (1) y (2), en
donde n es el orden del filtro.
(1)
(2)
5
X CONGRESO FIA
Buenos Aires,
5 al 9 de Setiembre de 2016
Acústica para el siglo 21...
Figura 4: Filtro shelving f1 = 700 Hz, f2 = 12 kHz, escalón = 44 dB
Las curvas obtenidas como promedio entre los distintos sujetos dentro del mismo grupo (igual
perímetro de cabeza) para todos los ángulos seleccionados mantenían diferencias de niveles
relativos en la parte plana.
Figura 5: Diferencias de nivel promedio para diferentes ángulos
El trazo azul corresponde a 15º de acimut, el verde a 30º, el rojo a 45º, el celeste a 65º y el cian
a 80º.
Debido a que el interés del presente trabajo era el de incorporar filtros que ajustasen las
variaciones con la frecuencia las curvas fueron desplazadas con el fin de que se mantuviesen
en 0 dB en frecuencias bajas (se eligió f = 500 Hz como punto común), tal como se muestra en
la figura (6).
6
X CONGRESO FIA
Buenos Aires,
5 al 9 de Setiembre de 2016
Acústica para el siglo 21...
Figura 6: Diferencias de nivel promedio para diferentes ángulos (desplazadas)
Un resultado llamativo fue que, si bien las curvas parecían seguir un patrón, la que
correspondía a 80º (cian) se presentaba con características diferentes del resto. Esto se
mantuvo en los tres grupos de sujetos analizados.
3 Resultados
Se analizaron los grupos de sujetos con igual perímetro de la cabeza con el fin de trabajar con
los grupos más numerosos. Se seleccionaron ocho sujetos de la base de datos con un
perímetro de 58 cm. Utilizando la información de la base de datos del CIPIC esto corresponde
a los sujetos S003, S010, S033, S058, S127, S147, S153, S158
Figura 7: Ajuste de curva para p=58 cm, az=15º (f1=2000, f2=12000, e=16 dB)
7
X CONGRESO FIA
Buenos Aires,
5 al 9 de Setiembre de 2016
Acústica para el siglo 21...
Figura 8: Ajuste de curva para p=58 cm, az=30º (f1=1200, f2=12000, e=28 dB)
Figura 9: Ajuste de curva para p=58 cm, az=65º (f1=1200, f2=12000, e=48 dB)
Figura 10: Ajuste de curva para p=58 cm, az=80º (f1=1200, f2=12000, e=56 dB)
8
X CONGRESO FIA
Buenos Aires,
5 al 9 de Setiembre de 2016
Acústica para el siglo 21...
Figura 11: Banco de filtros shelving para p=58 cm (az=15º hasta az=65º)
Figura 12: Banco de filtros shelving para p=56 cm (az=15º hasta az=65º)
4 Conclusiones
En función de los resultados obtenidos es posible pensar en definir un banco de filtros shelving
que permita complementar las diferencias temporales al momento de producir una imagen
estéreo para una mezcla de audio.
Los ajustes realizados sugieren que los parámetros de frecuencias f1 y f2 pueden mantenerse
aproximadamente constantes en frecuencias inferiores a 65º. Las curvas correspondientes a
diferencias de nivel interaural de 80º adoptan un perfil semejante a un filtro shelving pero sus
valores de frecuencia resultan distintos en base a las muestras trabajadas.
9
X CONGRESO FIA
Buenos Aires,
5 al 9 de Setiembre de 2016
Acústica para el siglo 21...
5 Agradecimientos
El presente trabajo se realizó en el marco del proyecto 33A200 de la convocatoria Amílcar
Herrera 2014 de la Universidad Nacional de Lanús.
Referencias
[1] Rumsey, F. Spatial audio: Eighty years after blumlein. Journal of the Audio Engineering Society,
2011, vol. 59, no 1/2, p. 57-62.
[2] Algazi, V. R., et al. The cipic hrtf database. En Applications of Signal Processing to Audio and
Acoustics, 2001 IEEE Workshop on the. IEEE, 2001. p. 99-102.
[3] Blauert, J. Spatial hearing: the psychophysics of human sound localization. MIT press, 1997.
[4] EARGLE, John M. Stereo/Mono Disc Compatibility: A Survey of the Problems. Journal of the Audio
Engineering Society, 1969, vol. 17, no 3, p. 276-281.
[5] Xie, B., et al. Head-related transfer function database and its analyses. Science in China Series G:
Physics, Mechanics and Astronomy, 2007, vol. 50, no 3, p. 267-280.
10
Descargar