Buenos Aires – 5 to 9 September 2016 st Acoustics for the 21 Century… PROCEEDINGS of the 22nd International Congress on Acoustics Signal Processing in Acoustics: FIA2016-35 Simplified filter bank to emulate de head diffraction depending on the azimuth angle of the source Georgina Lizaso (a), Jorge Petrosino (b) (a) (b) Universidad Nacional de Lanús, Argentina, [email protected] Universidad Nacional de Lanús, Argentina, [email protected] Abstract Amplitude panning is the most common panning technique. Another method is time panning with a constant delay applied to one channel in stereophonic listening. Time panning is typically not used in stereo imaging, but it can be used when some special effects are created. The maximum interaural difference in time of arrival of air propagated signal is about 700 μs. Binaural hearing with headphones using that delay is not perceived as a virtual source at 90º of azimuth angle. However, including spectral modifications created by head diffraction, the azimuth angle can be perceived as it is expected. A simplified head diffraction model with possible applications in audio mixing is presented. The model is based on a bank of filters to emulate the angular position of the source in the horizontal plane. The aim of the model is to emulate a virtual position of the sound source with minimum computational effort when compared to the convolution with the corresponding head related impulse responses. Our results suggest that diffraction loss can be adequately represented by shelving filters. The CIPIC public database of head related impulse responses was used to compute the parameters of the simplified filter bank. Individuals with identical head diameter are selected from the database and their impulse responses are convolved with a series of one-third octave band noise in order to obtain for each ear a power profile in terms of the frequency. The results are averaged in order to smoothen the individual differences, thus neglecting other spectrum disturbances that do not correspond to diffraction. The model provides us with parameters about frequencies and attenuation levels of the shelving filters.. Keywords: head diffraction, HRTF, itd mixing, high resolution audio X CONGRESO FIA Buenos Aires, 5 al 9 de Setiembre de 2016 Acústica para el siglo 21... Banco de filtros para emular la difracción de la cabeza en función del ángulo de acimut de la fuente 1 Introducción La técnica más utilizada para producir una imagen estéreo en mezclas de audio es el paneo por nivel. Una señal monoaural es copiada en el canal izquierdo y en el derecho con diferencia de nivel entre ellos. Esto provoca una localización aparente de la fuente sonora sobre el plano horizontal con un ángulo de acimut que depende del salto de nivel entre canales. Blumlein [1] fue quien propuso generar una lateralización del sonido utilizando esta técnica en las primeras décadas del siglo XX. Sin embargo, este modo de generar una localización del sonido se relaciona muy poco con la diferencia entre señales de ambos canales que provocaría una fuente sonora realmente ubicada en determinado lugar del espacio dentro del plano horizontal. Los indicios de espacialización de una fuente sonora se relacionan con diversos fenómenos físicos. En primer lugar podemos decir que existe un retardo temporal en el arribo de la señal sonora a cada oído. En segundo lugar, la cabeza del oyente provoca difracción de las ondas sonoras. Este fenómeno produce diferencia de nivel entre oídos, pero debido a las dimensiones de la cabeza humana esto tiene fuerte influencia en frecuencias altas y muy poca en frecuencias bajas (a diferencia de lo que sucede con el paneo por nivel en el cual la atenuación afecta a todo el espectro por igual). Por último, se generan una serie de variaciones espectrales producidas por la interacción de los fenómenos ondulatorios con distintas partes del cuerpo humano, entre las que se destaca la influencia de la forma particular del pabellón auricular. Todos estos fenómenos quedan representados en la función de transferencia de la cabeza (HRTF) [3]. Pueden indicarse dos motivos principales por los cuales la técnica en uso se basa en un método no realista como el de paneo por nivel. Por un lado, dicha técnica fue propuesta en un momento en el que la compatibilidad monoaural de registros estereofónicos tenía una importancia crucial. Si dos señales correlacionadas que en determinada situación resultan superpuestas poseen un retardo entre sí, se producirá una alteración artificial de su espectro (filtro peine). La inexistencia de retardos entre canales del paneo por nivel evita que al convertir una señal estéreo en otra monoaural se produzcan estas alteraciones [4]. Por otro lado, la diferencia de nivel entre canales resultaba muy sencilla de resolver con la tecnología disponible a principios del siglo XX, contrariamente a lo que hubiera significado cualquier intento de emular electrónicamente el proceso realizado por la función de transferencia de la cabeza. En el marco de nuestra tarea docente en la Universidad Nacional de Lanús interactuamos diariamente con profesores y alumnos que realizan prácticas de mezclas de audio. En el intento de explorar mezclas que incorporasen características que el paneo por nivel dejaba de lado, se realizaron algunas primeras experiencias alterando solamente el retardo interaural (itd) y realizando escuchas con auriculares. 2 X CONGRESO FIA Buenos Aires, 5 al 9 de Setiembre de 2016 Acústica para el siglo 21... El cálculo de los retardos interaurales está bien establecido por lo que resultó sencillo de implementar, sin embargo los resultados perceptivos que pueden lograrse al incorporar como único parámetro el tiempo de retardo no permitían localizar a la fuente en cualquier lugar del semiplano sonoro horizontal. Aún utilizando valores de hasta 700 µs (superando el máximo retardo posible entre oídos), no lograban percibirse fuentes sonoras con una ubicación de 90º. Manteniendo la intención de explorar la generación de una imagen estéreo incorporando algunas características que pudieran resolverse con consolas de mezcla de uso corriente, se pensó en incluir en estas experiencias información referida a la difracción de la cabeza. A nivel técnico, la diferencia de nivel en función de la frecuencia podría emularse mediante determinado tipo de filtros que seguramente deberían tener características diferentes para distintos ángulos de acimut atribuidos a la fuente. En este contexto se buscó información sobre las características requeridas para emular la difracción con filtros, con el fin de combinar este efecto con el retardo interaural. Las publicaciones que se refieren al tema se concentran en cuestiones relacionadas con la función de transferencia de la cabeza, exigiendo un tipo de procesamiento complejo que estaba fuera del alcance del contexto en el que queríamos trabajar. Si bien este tipo de soluciones resulta académicamente adecuada para emular la localización espacial, no permite resolver la simulación con equipamiento sencillo en el contexto de una mezcla de audio. Ante la ausencia de trabajos que nos permitiesen resolver el problema decidimos explorar el tema. Nuestro trabajo responde entonces a la pregunta de qué tipo de filtro y con qué características es posible emular la difracción de la cabeza en forma muy simplificada, con la intención de generar una imagen estéreo que combine retardo con filtrado. 2 Curvas de diferencias de nivel interaural El procedimiento se inició con la obtención de un conjunto curvas de diferencia de nivel interaural para diferentes ángulos. Estas curvas se obtuvieron procesando información disponible en la base pública de datos de funciones de transferencia de la cabeza medidas en el U. C. Davis CIPIC Interface Laboratory. Esta base realizada por la Universidad de California, incluye las respuestas al impulso de 45 sujetos desde 25 ángulos diferentes de acimut y 50 ángulos diferentes de elevación. Las respuestas al impulso están registradas con una resolución de 16 bits y 44.1 kHz. La base incluye información antropométrica sobre los sujetos, lo que nos permitió seleccionar grupos de sujetos con características semejantes en función de nuestros objetivos. Para cada valor de azimuth y elevación se dispone de 200 muestras temporales de respuesta al impulso (4.5 ms). En la Figura (1) se muestra un registro de respuestas al impulso correspondientes a ambos oídos para una ubicación de la fuente en -15º de acimut y 0º de elevación. Los datos de la base del CIPIC están disponibles para su descarga en formato MATLAB. Si bien existe otra conocida base pública de funciones de transferencia de la cabeza producidas por el IRCAM, no contiene información antropométrica sobre los sujetos [5]. Se seleccionaron sujetos de idéntico valor de perímetro de la cabeza, bajo el supuesto que los efectos de difracción tendrían estrecha relación con las dimensiones de la cabeza. 3 X CONGRESO FIA Buenos Aires, 5 al 9 de Setiembre de 2016 Acústica para el siglo 21... Figura 1: Respuestas al impulso del sujeto 003, az= -15 °, el = 0° Se generó una batería de ruidos de tercio de octava (norma ANSI) entre la banda 26 (400 Hz) y la banda 42 (16 kHz). No se incluyeron bandas inferiores a los 400 Hz debido a que en esas frecuencias no resulta esperable que exista contribución por difracción a diferencias de nivel interaural. Se extrajeron las respuestas al impulso de cada oído. Todos con ángulo de elevación 0° y seis valores diferentes de azimuth el = 0° az = 15°, 30°, 45°, 65°, 80°. Para cada sujeto se realizó la convolución entre el ruido filtrado con una frecuencia central determinada y la respuesta al impulso correspondiente a distintos ángulos de acimut, todos con elevación 0º (plano horizontal con el fin de generar una imagen estéreo). Se obtuvo un valor de energía correspondiente a los resultados de cada convolución. La diferencia de estos niveles de energía entre oídos permitió obtener un valor para la diferencia de nivel interaural para el valor de frecuencia central de la banda de ruido utilizado. La Figura (2) muestra una de las curvas obtenidas con este procedimiento. Figura 2: Diferencias de nivel interaural del sujeto 061, az= -65 °, el = 0° 4 X CONGRESO FIA Buenos Aires, 5 al 9 de Setiembre de 2016 Acústica para el siglo 21... Obtenidas las curvas de todos los sujetos de igual perímetro de cabeza se procedió a promediar las curvas de diferencias de nivel, bajo la suposición de que las características de la curva debidas a la difracción serían comunes a todos y se mantendrían estables en el promedio, pero las diferencias individuales debidas a otros fenómenos resultarían atenuadas al promediar los resultados, Figura (3). Para el promedio se consideró que los efectos de difracción de la cabeza resultarían razonablemente simétricos, por lo que las diferencias producidas por ángulos de acimut positivos y negativos podrían considerarse como casos diferentes para el promedio. Figura 3: Diferencias de nivel interaural promedio, az= -65 °, el = 0° Se seleccionó un filtro shelving que pudiese ajustarse a la curva promedio obtenida, determinando los parámetros de f1, f2, y caída de nivel en dB del filtro. Estos parámetros fueron utilizados para generar la curva del filtro h(f) mediante las ecuaciones (1) y (2), en donde n es el orden del filtro. (1) (2) 5 X CONGRESO FIA Buenos Aires, 5 al 9 de Setiembre de 2016 Acústica para el siglo 21... Figura 4: Filtro shelving f1 = 700 Hz, f2 = 12 kHz, escalón = 44 dB Las curvas obtenidas como promedio entre los distintos sujetos dentro del mismo grupo (igual perímetro de cabeza) para todos los ángulos seleccionados mantenían diferencias de niveles relativos en la parte plana. Figura 5: Diferencias de nivel promedio para diferentes ángulos El trazo azul corresponde a 15º de acimut, el verde a 30º, el rojo a 45º, el celeste a 65º y el cian a 80º. Debido a que el interés del presente trabajo era el de incorporar filtros que ajustasen las variaciones con la frecuencia las curvas fueron desplazadas con el fin de que se mantuviesen en 0 dB en frecuencias bajas (se eligió f = 500 Hz como punto común), tal como se muestra en la figura (6). 6 X CONGRESO FIA Buenos Aires, 5 al 9 de Setiembre de 2016 Acústica para el siglo 21... Figura 6: Diferencias de nivel promedio para diferentes ángulos (desplazadas) Un resultado llamativo fue que, si bien las curvas parecían seguir un patrón, la que correspondía a 80º (cian) se presentaba con características diferentes del resto. Esto se mantuvo en los tres grupos de sujetos analizados. 3 Resultados Se analizaron los grupos de sujetos con igual perímetro de la cabeza con el fin de trabajar con los grupos más numerosos. Se seleccionaron ocho sujetos de la base de datos con un perímetro de 58 cm. Utilizando la información de la base de datos del CIPIC esto corresponde a los sujetos S003, S010, S033, S058, S127, S147, S153, S158 Figura 7: Ajuste de curva para p=58 cm, az=15º (f1=2000, f2=12000, e=16 dB) 7 X CONGRESO FIA Buenos Aires, 5 al 9 de Setiembre de 2016 Acústica para el siglo 21... Figura 8: Ajuste de curva para p=58 cm, az=30º (f1=1200, f2=12000, e=28 dB) Figura 9: Ajuste de curva para p=58 cm, az=65º (f1=1200, f2=12000, e=48 dB) Figura 10: Ajuste de curva para p=58 cm, az=80º (f1=1200, f2=12000, e=56 dB) 8 X CONGRESO FIA Buenos Aires, 5 al 9 de Setiembre de 2016 Acústica para el siglo 21... Figura 11: Banco de filtros shelving para p=58 cm (az=15º hasta az=65º) Figura 12: Banco de filtros shelving para p=56 cm (az=15º hasta az=65º) 4 Conclusiones En función de los resultados obtenidos es posible pensar en definir un banco de filtros shelving que permita complementar las diferencias temporales al momento de producir una imagen estéreo para una mezcla de audio. Los ajustes realizados sugieren que los parámetros de frecuencias f1 y f2 pueden mantenerse aproximadamente constantes en frecuencias inferiores a 65º. Las curvas correspondientes a diferencias de nivel interaural de 80º adoptan un perfil semejante a un filtro shelving pero sus valores de frecuencia resultan distintos en base a las muestras trabajadas. 9 X CONGRESO FIA Buenos Aires, 5 al 9 de Setiembre de 2016 Acústica para el siglo 21... 5 Agradecimientos El presente trabajo se realizó en el marco del proyecto 33A200 de la convocatoria Amílcar Herrera 2014 de la Universidad Nacional de Lanús. Referencias [1] Rumsey, F. Spatial audio: Eighty years after blumlein. Journal of the Audio Engineering Society, 2011, vol. 59, no 1/2, p. 57-62. [2] Algazi, V. R., et al. The cipic hrtf database. En Applications of Signal Processing to Audio and Acoustics, 2001 IEEE Workshop on the. IEEE, 2001. p. 99-102. [3] Blauert, J. Spatial hearing: the psychophysics of human sound localization. MIT press, 1997. [4] EARGLE, John M. Stereo/Mono Disc Compatibility: A Survey of the Problems. Journal of the Audio Engineering Society, 1969, vol. 17, no 3, p. 276-281. [5] Xie, B., et al. Head-related transfer function database and its analyses. Science in China Series G: Physics, Mechanics and Astronomy, 2007, vol. 50, no 3, p. 267-280. 10