PROCESAMIENTO DE SONIDO DE DOS A 5.1 CANALES

Anuncio
PROCESAMIENTO DE SONIDO DE DOS A 5.1 CANALES
Esteban Gómez Velásquez, Jose Fernando Varela Gómez y Juan Diego Correa Blair
Estudiantes de Ingeniería Electrónica
[email protected], [email protected] y [email protected]
Resumen
Este artículo presenta los resultados de la
implementación y análisis de algunos métodos de
multicanalización de señales. Se presentan las
configuraciones estéreo y 5.1. Se muestran los métodos de
multicanalización implementados y se analiza su
funcionamiento. Luego se presentan las conclusiones y
recomendaciones acerca del proyecto y sus futuros
adelantos
1. Introducción
La creciente popularización de los sistemas de teatro
en casa con sonido envolvente, y la variedad e interacción
de diferentes dispositivos y formatos de audio y video,
hace que la compatibilidad entre estos crezca en
importancia, y que la búsqueda de algoritmos que
permitan aumentar o disminuir el número de canales de
una señal de audio para su reproducción en cualquiera de
dichos sistemas sea cada vez mayor.
Tal vez el sistema de sonido de más rápida difusión en los
últimos años ha sido la configuración de 5.1 canales que
reproduce grabaciones con sonido envolvente, en las que
el espectador se siente dentro de la acción al ver, por
ejemplo, una película.
Gracias a la posibilidad de reproducción relativamente
sencilla de dichos canales, y el surgimiento de formatos
digitales de almacenamiento masivo como el DVD, los
estudios de producción están grabando la pista de sonido
de las películas con múltiples canales discretos de audio.
En la música, el lanzamiento del Super Audio CD, o
SACD permitió que las grabaciones musicales también
pudieran reproducirse en sistemas 5.1.
Sin embargo, esto viene sucediendo desde hace
relativamente poco, y el número de grabaciones
multicanal comparado con el de grabaciones monofónicas
o estéreo es mínimo, lo que hace que la experiencia
envolvente ocurra con pocas grabaciones. Dado que el
éxito del proceso de reproducción multicanal se
fundamenta por ahora en que el proceso de grabación
también sea multicanal, es decir, que se grabe con varios
micrófonos dedicados a cada canal de audio, es
importante generar métodos capaces de adaptarse a la
reproducción multicanal aunque la grabación original no
sea multicanal. Es por esto que el artículo está enfocado
en el estudio de los métodos de multicanalización que
permitan aumentar el número de canales de una señal
estéreo, y procesarla para su reproducción en un sistema
de sonido de 5.1 canales o de teatro en casa, como se le
conoce popularmente.
El contenido de este artículo está organizado de la
siguiente forma:
Al principio se ilustra el desarrollo y evolución de los
formatos de grabación multicanal y de los algoritmos de
multicanalización.
Luego se explican la configuración del sistema 5.1 y
algunas consideraciones que se deben tener.
Más adelante contiene la descripción y el análisis de
los algoritmos para derivar 5.1 canales estudiados e
implementados.
Luego se evalúan las pruebas de calidad realizadas.
Finalmente se presentan las conclusiones y sugerencias
para avances futuros.
2. Evolución de los formatos multicanal
2.1. Antecedentes de las Grabaciones Multicanal
Los Laboratorios Dolby introdujeron una tecnología
conocida como Dolby Stereo, que incorporaba tecnología
óptica para grabar las pistas de audio, y aprovechaba las
ventajas que tenía la utilización de canales adicionales en
el cine. El formato Dolby Stereo es un sistema de
codificación dos a cuatro y de decodificación cuatro a
dos, lo que le dio gran versatilidad pues la mayoría de las
salas de cine tenían forma de reproducir Dolby Stereo.
Debido a esto, el formato se extendió rápidamente y se
convirtió en un estándar virtual para la reproducción de
audio en cine. Dolby continuó desarrollando tecnología
para la codificación-decodificación de audio multicanal al
tiempo que la industria del video revolucionaba la forma
de ver cine en casa. A medida que pasó el tiempo, la
industria añadió canales estéreo para el surround a
expensas de dos de los canales que se ubicaban al frente.
Esto hizo que la tecnología 5.1 diera sus primeros pasos y
que los productores de audio tuvieran algo más de libertad
creativa a la hora de diseñar el sonido de las producciones
cinematográficas. La figura 1 muestra la configuración
casera para un sistema 5.1.
A partir del surgimiento de tecnologías de grabación y
reproducción digital de sonido e imagen como el popular
compact disc (CD) para el audio y el Laser Disc (LD)
para el video, La producción de pistas multicanal ha ido
en aumento constante.
Figura 1. Configuración Típica 5.1 casero
Los laboratorios Dolby continuaron con su labor de
mejoramiento constante generando tecnologías que
acercaran los mundos del cine y el teatro en casa -o home
theater, término acuñado por los usuarios de estas nuevas
tecnologías que permitían reproducir la experiencia vivida
en la sala de cine en el hogar-, y en 1982, Dolby lanza su
sistema Dolby Surround, que consta de dos canales
diferenciados en el frente, aunque se genera un canal
central “fantasma", que no era más que la suma de las
señales de los canales laterales (izquierdo y derecho), y un
canal de efectos surround.
Aunque el concepto de Dolby Digital se generalizó
como 5.1, el término se refiere al proceso de codificación
y no al número de canales de la grabación. Sin embargo,
la tecnología Dolby Digital 5.1 sí incorpora 6 canales
discretos de audio (tres frontales, dos de surround y un
canal extra de efectos de baja frecuencia, conocido como
LFE [22], siglas en inglés de Low Frequency Effects), y
que es el estándar de la industria del cine para reproducir
audio en la actualidad. Dicha configuración es la deseada
para este artículo. El Dolby Digital 5.1 añade precisión y
flexibilidad en el sonido pues incorpora canales de
surround estéreo que permiten que los sonidos emanen en
más direcciones, y también incluye un canal dedicado
exclusivamente al realce de frecuencias bajas (sonidos
graves).
El desarrollo del audio y del video casero dio vida a
nuevos formatos de video como el DVD y el DivX, y
formatos multicanal de audio como DVD-A y SACD
(Super Audio CD), que permiten realizar grabaciones
multicanal de música con el fin de brindar experiencias
envolventes al escuchar música.
2.2. Métodos de Multicanalización
Los métodos de multicanalización van desde la
creación de ambiente estéreo a partir de una señal
monofónica hasta el procesamiento matricial de dos a 5.1
canales. Los métodos mono-estéreo han sido estudiados
en profundidad y se ha determinado que la
pseudoestéreofonía, es decir, la creación de la sensación
estereofónica partiendo de una señal monofónica, se
puede lograr por medio del uso de funciones de
transferencia relativas a la cabeza o HRTF por sus siglas
en inglés.
Los métodos de multicanalización desarrollados hasta
el momento incluyen los trabajos de Carlos Avendaño [1],
[2], quien trabaja con la señal en el dominio de la
frecuencia con el fin de extraer las características
ambientales de la señal estéreo, Ronald M. Aarts [3], [4]
quien trabaja con correlación cruzada y PCA para
establecer la dirección vectorial del canal central por
medio de análisis matricial, Christoff Faller quien
desarrolló un método llamado Binaural Cue Coding o
BCC que sintetiza las características multicanal y un canal
mono para hacer transmisiones eficientes de señales
multicanal y por último, Julia Jakka quien implementó el
método de Faller como tesis de maestría.
En este artículo se revisa la implementación de los
métodos de Avendaño y Aarts con el fin de compararlas y
analizarlas.
3. Configuración 5.1
3.1. Consideraciones
La Unión Internacional de Telecomunicaciones ITU,
en su recomendación BS.1116 presenta la configuración
deseada para un sistema de audio de 5.1 canales en los
que los canales se denominan L (izquierdo), R (derecho),
C (central ), LS (Envolvente izquierdo) y LR (Envolvente
derecho), y consta de tres canales frontales y dos traseros
de sonido envolvente.
La siguiente figura presenta la configuración establecida.
Figura 2. Configuración establecida por la ITU para
sistemas 5.1 [4].
Teniendo esta configuración en cuenta se describen a
continuación los canales individualmente.
3.2. Descripción de los Canales
3.2.1. Canales Izquierdo y Derecho. Las señales de
entrada evaluadas en este artículo siempre fueron estéreo,
por lo que siempre se tuvieron dos canales (izquierdo y
derecho). La función principal de los canales izquierdo y
derecho es darle al espectador una sensación de
espacialidad, en donde los sonidos provienen de
cualquiera de los lados o por ambos. Esta técnica se logra
en estudios grabando independientemente los elementos
de la composición y luego mezclándolos y haciéndoles
paneo dándole mayor o menor énfasis a izquierda o
derecha de acuerdo con la idea de la producción original
de la señal.
La ubicación de los altavoces L y R se puede observar
en la figura 3. La distancia que los separa debe ser igual a
la distancia que separa al oyente de los altavoces
(alrededor de 2.5m.), formando así un triángulo
equilátero.
Estos canales se utilizan para definir un ambiente
sonoro tridimensional que envuelva al espectador (por
esto también se les llama canales de Ambiente o de
Efectos).
3.2.4. Canal de Graves LFE. El canal llamado canal
de frecuencias o efectos bajos (Low Frequency Effects)
reproduce las frecuencias más bajas que los otros
altavoces no pueden reproducir. Su rango de frecuencia se
encuentra entre los 20Hz y los 120Hz. Su ubicación en el
cine es detrás de la pantalla y al lado o por debajo de los
altavoces principales, y en casa es bastante libre ya que en
los límites del espectro el oído humano no es capaz de
reconocer la fuente de los sonidos, siendo recomendable
su colocación a nivel de suelo.
Debido a la limitada capacidad del oído humano el
canal LFE no representa nada en términos de definición
de la espacialidad percibida. La señal del LFE es
calibrada en la mezcla final unos 10dB por encima del
nivel de presión sonora (SPL por sus siglas en inglés) de
los otros canales con el fin de contribuir con la imagen
sonora aunque ocurra que el contenido de bajos de las
señales de los canales frontales sea alto.
Figura 3. Configuración Estéreo.
3.2.2. Canal Central. El canal de mayor uso y que
lleva las componentes principales de una grabación 5.1 es
el canal central. El surgimiento de dicho canal se dio en el
cine por varios motivos, aunque los dos más importantes
fueron sin duda:
1. Tamaño de la pantalla vs. Imagen auditiva del
estéreo: La imagen de la pantalla de los cines tiene un
ancho particularmente grande, y el contenido de audio de
los filmes se veía en problemas para dar la sensación al
espectador de que los diálogos provenían de la pantalla.
La imagen auditiva se completaba añadiendo un canal que
se ubicaba detrás de la pantalla, y se le dio el nombre de
canal central.
2. Énfasis al contenido hablado de las producciones:
Para contribuir con la sensación de espacialidad que daba
el estéreo, el canal central se concentra en reproducir
fundamentalmente el contenido hablado y los canales
laterales izquierdo y derecho el resto de la imagen.
3.2.3. Canal de Efectos o Surround. Lo conforman
dos canales, llamados Efectos Izquierdo (Left Surround) y
Efectos Derecho (Right Surround), que se localizan de
manera diferente en cine y en casa.
En el cine, se ubican en las paredes laterales y parte de
la trasera a 2 o más metros de altura y en casa se sitúan
dos altavoces a los lados del espectador, a 20º por detrás
de su horizontal, es decir, a 110º de la referencia del canal
central y a más o menos 1.20m. de altura como se observa
en la figura 3.
4. Algoritmos de Multicanalización
Los algoritmos de multicanalización estudiados son los
propuestos por R. Irwan y Ronald M. Aarts [4][5], los
cuales realizan un tratamiento de las señales originales en
el dominio del tiempo, creando un nuevo eje coordenado
que incluye el canal central y el canal de efectos. Se
determinan los pesos relativos de cada canal a la imagen
estéreo, determinando el ángulo de la fuente y generando
una nueva señal proyectada sobre el nuevo eje obteniendo
el canal central. Para el canal de efectos se extrae la
correlación cruzada de los canales originales encontrando
los componentes de la señal que no son comunes en las
señales originales.
Los algoritmos propuestos por Carlos Avendaño y
Jean-Marc Jot [1][2][3] analizan la señal original en el
dominio de la frecuencia usando la transformada de
Fourier de tiempo corto (STFT). Para encontrar los
nuevos canales se hallan funciones de coherencia y de
similitud, para realizar un repaneo de las señales en una
dirección especifica, en este caso para el canal central y el
canal de efectos. Este repaneo se logra al operar la STFT
con ventanas Gaussianas, que dependen de las funciones
de coherencia y similitud, y permiten modificar las
señales originales dándoles una dirección específica.
4.1. Derivación Del Canal Central
4.1.1. Análisis de componentes principales. Este
método se basa en la extracción de los vectores y ,
correspondientes a la señal dominante y residual
respectivamente, para después proyectar estas sobre unos
nuevos ejes coordenados que incluyen el canal central.
Esto se hace calculando los pesos relativos de los canales
derecho e izquierdo y para determinar cual
predomina para cada muestra de la señal.
' ( ) ' ( ) ' ( Figura 5. Ejes incluyendo el canal central [4].
4.1.2. Extracción de coherencia y repaneo. Este
procedimiento para extraer el canal central se basa en la
extracción de una función de coherencia intecanal
definida por
Figura 4. Ejes estéreo originales [4].
Para calcular los pesos relativos de cada canal se usa la
expresión
1 1 1 1 1
_ _ 1 1 _ 1
_ 1 1 donde es el tamaño del paso. El angulo , el cual
nos da la dirección de la imagen estéreo es
tan Al doblar el ángulo de la imagen para incluir el nuevo
eje coordenado que incluye el canal central, se puede
encontrar la proyección de la señal estéreo sobre estos
nuevo
2 y la contribución de cada canal se escribe como
,
0,
0,
!
,
!
# 0&
% 0
# 0&
% 0
La señal dominante y residual se halla al rotar el
sistema coordenado de y ,
Finalmente se calculan las nuevas señales estéreo para
cada canal ' y ' , además del canal central ' .
*+, -, 1 .*+, - 1, ./+ -, /, -, |* -, |
*-, * -, * -, /
donde /+ y /, representan la STFT de cada canal de la
señal original, . es un factor de olvido para obtener un
sistema causal y los índices - y son de tiempo y
frecuencia respectivamente.
Se define entonces la
función de similitud al hacer el factor de olvido . igual a
uno.
2+, -, *+, -, | . 1
|2 -, |
2-, 2
2 -, 2 -, Dado que la correlación intercanal será menor en las
zonas en las que la señal predominante sea la porción
residual, se define la función de ambiente como
Φ-, 1 *-, Para obtener el canal central, se define el coeficiente
de paneo como:
Ψ-, 1 2-, Para evitar cambios abruptos al modificar la STFT, se
aplica una ventana angosta centrada en el índice de paneo
deseado. En este caso, para obtener el canal central, el
índice de paneo es cero. Esta función ventana es una
ventana Gaussiana definida como:
ΘΨ 3 1 34
5
7ΨΨ8 9
6
donde Ψ: es el valor de índice de paneo deseado, ;
controla el ancho de la ventana y 3 es el valor mínimo de
la función para que la STFT no sea cero y se eviten
cambios abruptos. Se aplica la ventana a la suma de los
componentes derecho e izquierdo,
<= -, ΘΨ-, / -, / -, y luego se encuentra la transformada inversa ISTFT de la
nueva señal modificada.
4.1.3. Canal fantasma. Existen otros métodos para
derivar el canal central, como el propuesto por Klipsch
[5], pero que al no realizar ningún tratamiento adicional a
la señal, trae consecuencias como la pérdida de sensación
de la imagen estéreo entre otros.
√2 2
donde y son los componentes izquierdo y derecho
de la señal original estéreo respectivamente.
4.2. Derivación De Los Canales Envolventes.
4.2.1. Correlación Cruzada. Para obtener el canal de
efectos se debe calcular la correlación cruzada entre las
señales originales, así
?@ ?@ 1 AB2 ?@ 1C
donde ?@ es un valor aproximado de la correlación cruzada
intercanal y
?: !
?,
0,
0D?D1
&
?#0 E ?F1
que se utiliza para calcular el ángulo G, que es una
representacion actual de la información del canal de
efectos
G sin 1 ?: la proyección de este ángulo en el sistema coordenado
que incluye el canal central y el canal de efectos esta dada
por
J sin G
Y el canal de efectos es calculado como
'J (J Figura 6. Ejes incluyendo el canal de efectos [4].
4.2.1. Función de similitud. Para extraer el ambiente,
se define el índice de ambiente como:
Φ-, 1 *-, donde las regiones con poca coherencia tienen valores
cercanos a uno, indicando la presencia del ambiente de la
grabación y las regiones con alta coherencia tienen un
índice de ambiente cercano a cero.
Las STFT de las señales derecha e izquierda deben ser
modificadas según el índice de ambiente, de modo que las
zonas con un índice de ambiente alto no se modifiquen,
mientras que las zonas con un índice de ambiente bajo son
atenuadas para remover los componentes principales de la
señal. Una función que permite este objetivo y que
además es de transición suave para evitar cambios
abruptos en el espectro y así evitar componentes no
deseadas al realizar la transformada inversa de Fourier de
tiempo corto es
ΓΦ :
:
tanhBLMΦ Φ: C 2
2
donde Φ: define desde qué valor del índice de ambiente
se considera como de efectos. Los valores y : definen
el rango de salida de la función y ? permite modificar la
pendiente de esta. La función ΓΦ modifica la STFT de
cada canal para obtener el canal de efectos derecho e
izquierdo así
N+ -, /+ -, ΓΦm, k
Para la función ventana Gaussiana, el valor de Φ: se
escoge como cero para esta aplicación ya que sólo se
necesitan los componentes de señal paneados en el centro;
la variación de Q afecta el ancho de la ventana, que si es
muy ancha produce transiciones suaves lo que disminuye
la distorsión, aunque permite el paso de componentes de
la señal paneados cerca al cero. Para lograr un equilibrio
entre estos dos factores, se escogió un Q 5.
Luego se encuentra la ISTFT de los canales
modificados para obtener las señales en el tiempo.
5. Pruebas Subjetivas
5.4. Resultados
5.1. Metodología
Para las pruebas subjetivas de audio se utilizó uno de
los métodos sugeridos en la recomendación P.800 de la
ITU [5]. El método, denominado CCR (Calificación por
comparación de categorías) o Comparison Category
Rating compara de manera cualitativa y cuantitativa tres
piezas diferentes y separadas de audio.
Al oyente se le presentan tres señales, elegidas al azar:
una, la señal de referencia (que no ha sido procesada), se
presenta dos veces, en cualquier orden, además de la señal
procesada. El sujeto de prueba debe evaluar y juzgar la
calidad de las muestras una en relación con la otra. La
tabla 1 describe la escala de calificación que se les da a
los sujetos para que califiquen lo que han oído. La
búsqueda de nuestras pruebas preguntaba por la
percepción de espacialidad. Con este método de
evaluación es posible responder entonces a dos preguntas
contenidas en una respuesta. Nos dice cual de las
muestras es mejor y cuanto mejor es una sobre las otras
CALIDAD
Mucho mejor
Mejor
Levemente Mejor
Iguales
Levemente Peor
Peor
Mucho Peor
CALIFICACIÓN
3
2
1
0
-1
-2
-3
Al tener estos dos ítems de calificación (cualitativo y
cuantitativo), es posible discernir sobre la calidad y la
magnitud de la diferencia entre una y otra calidad.
5.2. Repertorio y Equipo
Se tomaron cuatro muestras de audio, incluyendo una
señal de audio proveniente de una película, y tres
muestras de música de diferentes géneros.
Todas las señales con las que trabajamos fueron
muestreadas a 11025Hz y 44100 Hz, y los géneros
musicales varían, para garantizar objetividad.
Las muestras tienen duraciones aproximadas de 20 a
25 segundos, y todas las pruebas se llevaron a cabo en un
computador personal con tarjeta de sonido de 5.1 canales,
con altavoces JBL y Yamaha ubicados de acuerdo con la
configuración de la figura (1) [5], con el oyente ubicado
en el punto de mejor escucha o sweet spot.
5.3. Sujetos de Prueba
Las señales se probaron con cinco hombres y cinco
mujeres con edades comprendidas entre los 18 y los 35
años, y sin problemas o limitantes auditivas reportados.
Lo que pudimos observar de acuerdo a lo nos
entregaron los sujetos de prueba es que la sensación
percibida de sonido envolvente fue considerablemente
buena para ambos algoritmos, es decir, que la percepción
de espacialidad para los algoritmos evaluados es mayor a
la percibid en la señal sin procesamiento.
Vale la pena destacar que el desempeño del robusto
algoritmo de Aarts superó en calidad percibida al de
Avendaño para las muestras de audio suministradas y que
ambos algoritmos superaron a la señal original en
percepción de espacialidad.
6. Bibliografía
[1] AVENDAÑO, Carlos y JOT, Jean-Marc. Ambience
extraction and synthesis from stereo signals for multichannel audio upmix. IEEE International Conference on
Acoustics, Speech and Signal Processing. Orlando, FL,
2002.
[2] AVENDAÑO, Carlos y JOT, Jean-Marc. A
Frequency-Domain approach to multichannel upmix.
Journal of AES. Vol. 52 No. 7/8. Julio/Agosto 2004
[3] AVENDAÑO, Carlos. Frequency-Domain Source
Identification And Manipulation In Stereo Mixes For
Enhancement, Suppression And RePanning Applications.
IEEE Workshop on Applications of Signal Processing to
Audio and Acoustics October 19{22, 2003, New Paltz,
NY.
[4] IRWAN, R. y AARTS, Ronald M. Two-to-Five
Channel Sound Processing. Journal of AES. Vol. 50 No.
11. Noviembre, 2002.
[5] AARTS, Ronald M. Effcient Tracking of the crosscorrelation coeffcient. IEEE Transactions on Speech and
Audio Processing, Vol. 10, No.6. Septiembre 2002
[6] KLIPSCH, P.W. Stereophonic Sound with Two
Tracks, Three Channels by Means of a Phantom Circuit
(2PH3). Journal of the Audio Engineering Society, vol.
6. 1958. p. 118
[7] INTERNATIONAL TELECOMMUNICATION
UNION. Methods for objective and subjective assessment
of quality ITU -T Recommendation P.800. ITU , 2006.
Documentos relacionados
Descargar