Dolby Digital

Anuncio
2
Índice
 Características Generales
pág. 3
 El Algoritmo de Codificación Dolby AC-3
pág. 4
 Diagrama de Bloques del Codificador AC-3
pág. 5
 Diagrama de Bloques del Descodificador AC-3
pág. 16
 Formatos Dolby Digital
pág. 17
 Conclusión
pág. 20
 Bibliografía
pág. 20
3
Características Generales
Dolby Digital es el último y más innovador sistema de sonido desarrollado por los
Laboratorios Dolby, cuya experiencia en este campo es muy amplia : ya a finales de los años 60
estos laboratorios revolucionaron la grabación de sonido en cinta magnética con el lanzamiento de
los sistemas de reducción de ruido Dolby A ( profesional ) y Dolby B ( doméstico ). Durante la
década de los 70 Dolby revolucionó la sonorización en el cine con la introducción del sistema
analógico Dolby Stereo, que proporcionaba sonido envolvente con la utilización de tres canales
frontales ( izquierdo y derecho para música y efectos, y un canal central para diálogos ) y un cuarto
canal dedicado a efectos y que trata de recrear la atmósfera sonora de la escena.
Dolby también revolucionó los sistemas de sonido domésticos con la introducción a finales
de los 80 del Dolby Surround ( analógico ) y más tarde del Dolby Pro-Logic ( digital ), que
básicamente aplicaban la tecnología Dolby Stereo a las cintas de vídeo y LaserDiscs.
Por último aparece el sistema Dolby Digital, que nos proporciona sonido envolvente gracias
a la utilización de seis canales totalmente independientes : tres canales frontales ( izquierdo, derecho
y central ), dos canales surround ( izquierdo y derecho ) y un canal de graves dedicado a reforzar los
efectos. Este canal de graves está limitado en banda de 20 a 120 Hz, mientras que los otros cinco
presentan una respuesta en frecuencia de 20 Hz a 20kHz, por lo que se habla de un sistema de 5.1
canales, en el que la situación de los altavoces sería la siguiente :
Figura 1. Situación de los altavoces
en sistemas de 5.1 canales.
En los sistemas Dolby Sorround y Dolby Pro-Logic se consigue una separación entre canales
de 20 y 30 dB respectivamente en el mejor de los casos ; esta limitación viene impuesta por la
codificación matricial de los múltiples canales mediante la que se consigue almacenar la
información de cuatro canales en sólo dos pistas mediante una serie de desfases y relaciones
matemáticas entre ellos.
Dolby Digital mejora este aspecto con respecto a sus predecesores ya que consigue una
perfecta separación entre sus seis canales, puesto que son totalmente independientes unos de otros,
logrando crear una mayor sensación de realismo.
En rango dinámico de la banda sonora de una película que es proyectada en una sala no es el
apropiado para escuchar en casa, puesto que el volumen con es editada la cinta para su reproducción
en un cine es mucho mayor que el volumen con el que vemos las películas en casa.
4
Debido a esto, en muchas ocasiones se restringe el margen dinámico de los programas para
radiodifusión, aplicando una compresión adicional antes de emitir el programa, con lo que el sonido
pierde calidad.
El sistema Dolby Digital permite editar la banda sonora de una película con todo su rango
dinámico para su emisión en salas, dando a elegir a la productora distintos tipos de compresión para
otros usos, como vídeo o radiodifusión. Lo mismo es aplicable a bandas sonoras producidas
exclusivamente para la televisión.
Cuando la banda sonora es reproducida en casa, Dolby Digital presenta al usuario diferentes
opciones : rango dinámico completo, la compresión aplicada por la productora o aquella que mejor
se adapte a su gusto.
Otro problema muy común es la variación de volumen existente entre diferentes cadenas de
televisión o formatos de vídeo ( VHS, LaserDisc... ), que nos obliga a cambiar el volumen al
conmutar de unos a otros.
El sistema Dolby Digital presenta una función de normalización de diálogos, mediante la
que se detecta la diferencia de volumen entre diferentes fuentes, para adaptarlo automáticamente al
pasar de unas a otras.
Otra característica de este formato es la flexibilidad con que se maneja el canal de graves,
pudiendo dirigirlo a un único altavoz, si se dispone de un woofer, o repartiéndolo entre el resto de
los altavoces, en caso de carecer del woofer.
La codificación de audio digital que se usa en el Compact Disc ( 16-bit PCM ) consigue un
rango dinámico de 96 dB a costa de trabajar a una frecuencia 44,1 kHz con muestras de 16 bits, lo
que supone una cantidad de datos excesiva para ser almacenada o transmitida de forma económica,
sobre todo en sistemas multicanal. Por ello surge la necesidad de utilizar otros métodos de
codificación, también llamados algoritmos de ‘codificación perceptiva’, que reduzcan la tasa de bits
con una mínima degradación de la calidad del sonido ; se trata por tanto de sistemas de codificación
con pérdidas. El algoritmo de codificación Dolby AC-3 cumple estos requisitos, consiguiendo tasas
de compresión 10:1 además de permitir diferentes tasas de bits según el número de canales
codificados o la calidad que se necesite, por lo que es la base de los sistemas Dolby Digital. Gracias
a este algoritmo se consiguen almacenar los 5.1 canales en el espacio que un CD dedicaría a una
sola pista de audio.
El Algoritmo de Codificación Dolby AC-3
Dolby AC-3 es el sucesor de otros dos sistemas de codificación perceptiva - Dolby AC-1 y
Dolby AC-2 - y ha sido diseñado para aprovechar al máximo el enmascaramiento temporal y
frecuencial que caracteriza a la audición humana, codificando las componentes frecuenciales del
sonido en lugar de su característica temporal. Para ello cada canal es filtrado en pequeñas bandas de
diferentes tamaños antes de ser codificado, tratando así de imitar el comportamiento del oído
humano ; con esto conseguimos que las componentes frecuenciales del sonido y su correspondiente
ruido de cuantificación queden dentro de una misma banda, con lo que se consigue un mejor
aprovechamiento de las características de enmascaramiento del oído humano, minimizando así la
tasa de bits necesaria para una codificación libre de ruido.
5
Reduciendo o eliminando el ruido de cuantificación donde no haya señal que lo enmascare
la calidad del sonido no se verá afectada.
El algoritmo Dolby AC-3 distribuye los bits con que se cuantificarán las componentes
frecuenciales de las diferentes bandas teniendo en cuenta las características espectrales de la señal
codificada. Un modelo interno que simula el enmascaramiento frecuencial y temporal del oído
permite al codificador variar su resolución espectral-temporal dependiendo de la naturaleza del
sonido, de forma que se asegure un número mínimo de bits para describir la señal en cada banda
garantizando que el ruido quede totalmente enmascarado. Este modelo de enmascaramiento
frecuencial hace que aquellas componentes espectrales del sonido que vayan a quedar enmascaradas
por otras no sean codificadas. AC-3 también distribuye los bits entre los diferentes canales de
manera que se consiga una tasa de bits estable, asignando más bits a los canales con un mayor
contenido frecuencial.
Como se puede apreciar el modelo de enmascaramiento y el algoritmo de distribución de bits
son factores clave en la gran eficiencia espectral del sistema.
El algoritmo AC-3 considera los seis canales como una entidad única incluyéndolos en una
única trama de bits, con lo que se consigue una tasa de bits menor que separando cada canal en una
trama distinta.
Otra característica a destacar del sistema AC-3 es su gran versatilidad, permitiendo
frecuencias de muestreo de 32, 44.1 y 48 kHz y velocidades de transmisión de entre 32 kb/s, para un
único canal mono, hasta 640 kb/s, cuando el sistema trabaja a su máxima capacidad. La velocidad
de transmisión en un sistema Dolby Digital doméstico de 5.1 canales es de 384 kb/s y de 192 kb/s
para sistemas de dos canales.
Diagrama de Bloques del Codificador AC-3
A continuación se describen los diferentes bloques que conforman un codificador AC-3,
prestando especial atención a los conceptos de enmascaramiento temporal y frecuencial y cómo
son utilizados por el codificador para obtener una gran compresión sin pérdida de calidad.
El diagrama de bloques del codificador es el siguiente :
Información Transitorios
Detector
Transitorios
Mantisas
Mantisas
6 canales Buffer
de
Entrada
Paso Alto
3Hz
Ventana
Transformada
TDAC
Punto Fijo
a Punto
Flotante
Exp
Separación
Envolvente /
Portadora
Exponente
s
Cuantificado
r (Dither)
Asignació
n de Bits
Datos de
Ayuda
Coeficientes
Acoplados
Conformación
de la Trama Salida
6
Buffer de entrada.
AC-3 es un codificador estructurado por bloques, por lo que uno o más bloques de muestras
de la señal en el tiempo se almacenan en el buffer de entrada para cada canal antes de seguir con el
procesado. Los bloques suelen estar formados por 512 muestras.
Filtrado.
Las señales de entrada son individualmente filtradas paso alto a una frecuencia de 3 Hz para
eliminar la componente continua. La señal del canal de graves además es filtrada paso bajo a una
frecuencia de 120 Hz.
Detector de transitorios.
Las señales de entrada con respuesta en frecuencia completa son analizadas con un filtro
paso banda centrado en altas frecuencias que detecta la presencia de transitorios. Esta información
se usa para ajustar el tamaño del bloque de muestras al que se le aplicará la TDAC ( Time Domain
Aliasing Cancellation ) según las variaciones de la señal de entrada.
En el caso de una señal que varía con mucha rapidez, como por ejemplo el ataque de un
platillo, necesitamos una buena resolución temporal de la misma ( lo que implica menor resolución
espectral ), esto es, el tamaño del bloque a codificar debe ser pequeño para que el ruido de
cuantificación asociado a esta señal quede confinado temporalmente en las cercanías de la misma,
de forma que este ruido pueda ser enmascarado por dicha señal según el modelo de
enmascaramiento temporal del oído humano.
El comportamiento de este modelo de enmascaramiento se puede apreciar en la figura 2,
donde se evalúa cómo varía el umbral de audición de una señal de prueba de corta duración, que
simula el ruido de cuantificación, en presencia de una señal de enmascaramiento relativamente larga
( 200 ms ). La duración de la señal de prueba está expresada en relación al inicio de la señal
enmascarante ( t = 0 ).
Figura 2. Efectividad del enmascaramiento temporal de un tono.
7
Como se desprende de la figura, para que una señal sea capaz de enmascarar un ruido que
aparece con anterioridad no debe haber una diferencia temporal superior a 10 ms.
Por lo tanto, en presencia de transitorios el tamaño del bloque se debe ajustar de tal forma
que el pre-ruido de cuantificación aparezca dentro de la zona temporal en la que pueda ser
enmascarado por la señal codificada.
El tamaño del bloque también es función de la frecuencia del transitorio, cumpliéndose que
cuanto mayor sea la frecuencia menor deberá ser el tamaño del bloque.
En la figura 3 se compara el resultado de codificar el ataque de una castañuela ( A ) a 128
kb/s utilizando un bloque de longitud fija 512 muestras ( B ) y un bloque adaptativo ( C ).
Figura 3. Señal de una castañuela. (A) Original, (B) Codificado a 128 kb/s con un Codificador de longitud fija de
512 muestras, (C) Codificado a 128 kb/s con Codificador de longitud variable.
Como se puede ver el ruido de cuantificación previo al ataque de la castañuela es mucho
menor en C que en B.
Cuando la señal a codificar tiene carácter estacionario el tratamiento debe se distinto ; en
este caso se busca una buena resolución espectral, lo que supone un tamaño de bloque mayor.
Se ha impuesto una limitación a las variaciones de tamaño que pueden sufrir los bloques con
el fin de facilitar el proceso de codificación ; se permiten ocho combinaciones distintas de cuatro
tipos de ventana. Cada una de las ocho combinaciones se identifica con un Cuadro I.D. El
descodificador debe conocer en todo momento el tipo de Cuadro I.D. que se está utilizando en el
análisis de la señal, por lo que esta información se multiplexa junto con los coeficientes que
describen la señal. La información del Cuadro I.D. utilizado junto con su protección contra errores
constituye el 1% de la tasa de bits total.
En la siguiente figura tenemos un ejemplo de cómo varía el tamaño del enventanado, según
se necesite resolución temporal o frecuencial.
8
Figura 4. Secuencia típica de variación del enventanado
para señales de entrada que requieren gran resolución temporal.
El banco de filtros TDAC.
La señal de entrada de cada canal es enventanada y filtrada con el banco de filtros TDAC de
forma individual. La transformada TDAC es una FFT modificada que ofrece una baja complejidad
computacional con una buena selectividad frecuencial, lo que simplifica el hardware.
La respuesta en frecuencia del banco de filtros TDAC varía según el tamaño del enventanado
previo de la señal a analizar tal y como se muestra en la figura 5.
(A)
9
(B)
(C)
Figura 5. Respuesta en frecuencia del Banco de Filtros.
La mayoría del tiempo el banco de filtros trabaja con su máxima resolución frecuencial ( A
) ; en presencia de transitorios el banco de filtros emplea mayor resolución temporal ( B ), mientras
que en las regiones de transición la respuesta del filtro es la de ( C ).
A partir de aquí el procesado se lleva a cabo sobre los coeficientes obtenidos de la
transformada TDAC de los 5.1 canales, que serán tratados como una única entidad ( sólo los
coeficientes del canal de graves no son procesados antes de ser transmitidos ).
En el descodificador se reconstruyen las señales en el tiempo aplicando la transformada
inversa TDAC a estos coeficientes. Para evitar discontinuidades en las señales se utiliza un
solapado del 50% de los bloques en los procesos de análisis y síntesis.
La ganancia de compresión del sistema se obtiene principalmente de seleccionar para cada
coeficiente el número de bits con el que será codificado, según la importancia de cada coeficiente en
la descripción de la señal. Para realizar esto se tendrá en cuenta el modelo de enmascaramiento
frecuencial del oído. Mientras este proceso de codificación no elimine o añada información audible,
la salida del descodificador nos parecerá que suena igual que la entrada del codificador.
10
Conversión a punto flotante.
Aunque el sistema esté implementado con DSP´s de punto fijo ( por razones de precio ), los
coeficientes de la transformada TDAC se convierten a punto flotante para el posterior procesado,
con mantisas que varían entre 0.5 y 1 y sus correspondientes exponentes. De esta forma se asegura
que las siguientes etapas no impongan limitaciones al rango dinámico de las señales, usando tantos
factores de escala como se necesiten entre la entrada y la salida de datos. Con todo esto el algoritmo
AC-3 conserva las ventajas de resolución que ofrecen los conversores A/D y D/A de 18-20 bits.
Precombinación de portadora.
En general la tasa media de bits en sistemas multicanal es directamente proporcional a la raíz
cuadrada del número de canales. Si utilizamos 128 kb/s para codificar un único canal, una cantidad
de 5.1 canales necesitará 128  5 .1 = 289 kb/s que se pueden transmitir con comodidad utilizando
la velocidad típica de trabajo del AC-3 ( 320 kb/s ). Por ello la mayoría de las veces será suficiente
utilizar como método de compresión el algoritmo de asignación de bits. Sin embargo, cuando sea
necesaria una mayor compresión se utiliza también el método de precombinación de portadora.
Esta técnica elimina información redundante de alta frecuencia, y se basa en el fenómeno
psicoacústico de que en altas frecuencias la audición humana es más sensible a la “envolvente” del
sonido que a la señal en sí.
Este comportamiento es aprovechado por el AC-3 separando las señales de alta frecuencia en
portadora y envolvente, de forma que la información de la envolvente sea codificada con mayor
precisión que la portadora.
El impacto auditivo es mínimo, puesto que la localización del sonido queda registrada en la
envolvente, la cual se combinará acústicamente en el oído produciendo un efecto equivalente al del
sonido original.
La información de la portadora incrementa las mantisas y exponentes de los coeficientes
TDAC, mientras que la información de la envolvente se registra en un vector de Coeficientes
Acoplados.
Asignación de bits.
La principal ventaja de la codificación multicanal en una única trama es la posibilidad de
distribuir la cantidad de bits con que se cuantificarán las mantisas de las componentes frecuenciales
de cada canal, según las características de las señales, el modelo de enmascaramiento frecuencial de
la audición humana y la velocidad de transmisión a la que se trabaje.
La cantidad de bits con que se codifica cada mantisa no se transmite de forma explícita, sino
que se envía la información necesaria para que el descodificador sea capaz de recalcular el número
de bits con que se ha cuantificado cada mantisa, consiguiendo un gran ahorro en la cantidad de bits
a transmitir.
11
Dada la importancia que este proceso tiene en la codificación AC-3 lo analizaremos con más
detalle. El diagrama de bloques es el siguiente :
Función de
Excitación
Exponentes
de los
Coeficientes
Cálculo
Espectro de
Potencia
Agrupamiento
en
Bandas
Curva de
Enmascaramiento
Compuesta
Umbral
de
Audición
Curva de
Enmascaramiento
Evaluación
del
Enmascaramiento
Selección
de la
Cuantificación
Asignación de Bits
En primer lugar se obtiene el espectro de potencia de la señal a codificar a partir de los
coeficientes de la transformada TDAC.
El siguiente paso es la integración de las muestras del espectro de potencia, tomadas a
intervalos equidistantes de frecuencia, en bandas de diferente ancho, tal y como lo haría el oído.
Esto se consigue dividiendo el espectro de potencia en múltiples bandas sintonizadas a diferentes
frecuencias y sumando los valores del espectro de potencia dentro de cada banda.
Los diferentes anchos de cada banda, así como su frecuencia central, son una modificación
de las Bandas Críticas definidas por Zwicker.
La figura 6 muestra la relación entre la estructura de bandas del AC-3 y las Bandas Críticas
de Zwicker para una frecuencia de muestreo de 48 kHz. AC-3 utiliza un total de 50 bandas, que van
desde los 0 a los 24 kHz ; hasta los 2440 Hz ( banda 24 ) el ancho de banda es constante e igual a 94
Hz. A partir de entonces el ancho de banda se incrementa 3, 6, 12 y hasta 24 veces, de tal forma que
a medida que la frecuencia crece los anchos de banda varían entre 3/4 y 1/4 de los Anchos de
Banda Críticos.
La misma estructura de bandas puede ser utilizada para frecuencias de muestreo de 44.1 kHz
y 32 kHz.
Figura 6. Subdivisión de los coeficientes TDAC en bandas para el cálculo
de la curva de enmascaramiento para una frecuencia de muestreo de 48 kHz.
12
A continuación se calculará una función de excitación que será el primer paso para la
determinación de la curva de enmascaramiento, cuya información será imprescindible en el
algoritmo de asignación de bits.
Para el cálculo de la función de excitación se tienen en cuenta los estudios de Fielder y
Ehmer en el campo del enmascaramiento frecuencial, que presentaban características del
enmascaramiento del oído para las frecuencias 0.02, 0.05, 0.1, 0.2, 0.25, 0.5, 1, 2, 4 y 8 kHz, para
niveles de intensidad entre 41 y 101 dB. De estos estudios se desprenden resultados como los de la
figura 7, en las que se representa la variación en frecuencia del umbral de audición en presencia un
tono de 1kHz.
Figura 7. Curvas de enmascaramiento para un tono de 1 kHz
con valores de intensidad entre 41 y 101 dB.
La figura 7 muestra una nula variación en el umbral de audición en bajas y altas frecuencias
y una región central con un significante decremento de la sensibilidad. La mayor reducción está
centrada alrededor de la banda crítica de frecuencia la de la señal enmascarante. Cuanto mayor es el
nivel de la señal enmascarante, la reducción de sensibilidad afecta a frecuencias más altas, mientras
que el enmascaramiento en frecuencias inferiores a la de la señal enmascarante permanece
prácticamente constante.
Puesto que la función de excitación se tendrá que expresar en relación al nivel de la señal de
entrada, las curvas de enmascaramiento antes presentadas se normalizan con respecto a su nivel de
intensidad, obteniéndose resultados como el de la figura 8, en la que se muestra la normalización de
estas curvas para un tono de 2 kHz.
A continuación se construye una curva de enmascaramiento compuesta calculando el
mínimo de cada uno de los cuatro umbrales de enmascaramiento para cada frecuencia ( figura 8 ).
13
Figura 8. Curvas de enmascaramiento normalizadas para 40-100 dB de intensidad.
La línea gruesa representa la curva de enmascaramiento compuesta.
Aplicamos el mismo procedimiento al resto de las frecuencias enmascarantes antes citadas,
obteniendo un conjunto de 10 curvas compuestas.
Finalmente, las curvas compuestas de todas las frecuencias enmascarantes se convierten en
una única función que representa el peor caso de enmascaramiento. Esto se hace representando las
diferentes curvas compuestas en una escala de frecuencias relativa a los índices de las bandas AC-3,
en la que el índice cero representa la banda de frecuencia igual a la de la señal enmascarante,
seleccionando entonces los valores que más se acerquen a la curva de peor caso.
Para cada banda aparecerá una curva compuesta, según la energía de dicha banda
obteniéndose la función de excitación como combinación de las todas las curvas. Esta función se
compara con el umbral de audición en condiciones normales, obteniendo así la definitiva curva de
enmascaramiento que se utilizará para determinar la asignación de bits.
La curva de enmascaramiento se aproxima mediante dos segmentos con diferentes
pendientes y niveles de offset, y se define punto a punto como el máximo de ambas curvas a lo largo
de la frecuencia.
El primer segmento presenta una mayor pendiente que el segundo, con valores que pueden
variar entre -2.95 y -5.77 dB por banda, y con un nivel de offset entre -6 y -48 dB.
La segunda recta presenta una pendiente menos abrupta, que varía entre -0.70 y -0.98 dB por
banda, mientras que el offset varía entre -49 y -63 dB.
La figura 9 muestra cómo se aproximan por dos segmentos las curvas de enmascaramiento
de cuatro tonos de 0.5, 1, 2 y 4kHz.
14
Figura 9. Comparación entre las curvas de enmascaramiento para 500 Hz - 4 kHz
y su aproximación por dos segmentos.
La sintaxis del AC-3 permite que los parámetros del primer segmento sean independientes
para cada canal, mientras que los del segundo serán comunes para todos los canales. En un
codificador AC-3 hay hasta 512 funciones de enmascaramiento diferentes.
Para bajas frecuencias existe un tratamiento diferente del enmascaramiento : las frecuencias
por debajo de 200 Hz no se tienen en cuenta a la hora de construir la curva de enmascaramiento.
Entre 200 y 700 Hz el enmascaramiento sólo se tendrá en cuenta a partir de la componente
frecuencial con mayor energía. A partir de 700 Hz todas las bandas de frecuencia se tienen en
cuenta para el cálculo de la curva de enmascaramiento.
Una vez se tiene la curva de enmascaramiento comienza el algoritmo de asignación de bits
propiamente dicho, en el que se compara el espectro de potencia de la señal a codificar con la curva
de enmascaramiento obtenida, de tal forma que aquellos coeficientes con un nivel por debajo de la
curva no serán codificados, puesto que no se apreciarían si fueran codificados, con lo que
disminuimos el número de bits a transmitir.
En las zonas donde el espectro presenta un mayor valor, la diferencia entre ambas curvas nos
indica la relación entre el nivel de señal y ruido de cuantificación que se necesita, asignándose los
bits necesarios para igualar o superar esta relación.
Se trata de un proceso de asignación iterativo, en el que tras una asignación inicial se evalúa
cómo afecta el ruido de cuantificación de una banda en su vecindad, puesto que existe solapamiento
entre bandas. El proceso converge hacia una solución óptima, en la que el ruido de cuantificación
debido a todas las bandas queda por debajo de la curva de enmascaramiento.
La figura 10 muestra un ejemplo en el que un tono de 1 kHz con nivel máximo es codificado
de forma que el ruido de cuantificación producido por las bandas 6 a 11 quede por debajo de la
curva de enmascaramiento calculada para dicho tono.
15
Figura 10. Efecto del ruido de cuantificación.
Por último la figura 11 ilustra el resultado del algoritmo de asignación de bits para una señal
triangular de duración 11 ms. La asignación de bits ha sido convertida a su equivalente nivel S/N (
aproximadamente 6 dB por bit ).
Figura 11. Ejemplo del algoritmo de asignación de bits para una señal triangular.
Tanto el codificador como el descodificador tienen implementado el mismo algoritmo de
asignación de bits, aunque es posible incluir en la trama que transmitirá el codificador los
parámetros necesarios para que el sistema descodificador haga algunas modificaciones de este
algoritmo, dejando abierta la posibilidad de introducir futuras mejoras en el método de asignación.
16
Cuantificación.
El resultado de la asignación de bits se utiliza para cuantificar las mantisas TDAC. En lugar
de enviar los ‘n’ bits más significativos, los valores son escalados y compensados para conseguir
niveles de cuantificación centrados en cero, simétricos y de igual ancho ( cuantificación simétrica
par), para minimizar la distorsión y facilitar el uso de dither sustractivo. En el descodificador se
realiza el proceso inverso de compensación para recuperar los valores de las mantisas.
El codificador tiene la opción de añadir dither en el proceso de cuantificación de las
mantisas, enviando la información necesaria al descodificador para que conozca el tipo de dither
utilizado. El generador de señales pseudoaleatorias se ha diseñado no sólo para que tenga buenas
cualidades de aleatorización, sino para que además proporcione idénticos resultados con
independencia del tipo de hardware del sistema.
Conformación de la trama.
El proceso anterior convierte cada bloque de 6 canales en una serie de vectores y valores
escalares, en los que se incluyen los exponentes TDAC y las mantisas cuantificadas, información
sobre la asignación de bits, los coeficientes acoplados e información acerca del dither. En la última
etapa del codificador esta información se incluye en un único bloque junto con datos de
sincronización, una cabecera y opcionalmente un sistema de corrección de errores.
Diagrama de Bloques del Descodificador AC-3
El siguiente esquema muestra el diagrama de bloques del descodificador AC-3.
Exponente
s
Trama
AC-3
Buffer
de
Entrada
Corrección
de Errores
Descod.
Datos con
Formato
Fijo
Exp.
Asignació
n de bits
Datos de
Ayuda
Descod.
Datos con
Reinserción
Formato
Punto
Portadora
Variable
Flotante a
Alta
Mantisas
Mantisas
(Sustracción
Punto Fijo
Frecuencia
Dither)
Transformada
TDAC Inversa
Datos de los
Tansitorios
Salida 5.1 Canales
Solapamiento
Ventana
Buffer de entrada.
El descodificador, al igual que el codificador, trabaja por bloques por lo que ha de estar
sincronizado con la trama de bits de entrada, recogiendo de uno en uno los bloques codificados en el
buffer de entrada antes de descodificarlos.
17
Corrección de errores.
Se comprueba la presencia de errores en la transmisión para cada uno de los bloques de
datos de entrada, de forma que si se detecta un error que no se puede corregir el codificador puede
usar la última entrada correcta en lugar de la actual para ocultar el error. El solapamiento existente
en el proceso de reconstrucción de la señal hace que este sea un buen método para enmascarar
errores en la transmisión, haciendo que un mismo bloque se pueda repetir en la salida varias veces si
fuera necesario ; si el error persistiera el sistema anularía la salida, mientras que en aplicaciones
como bandas sonoras para cine se podría pasar a leer las pistas de sonido con información
analógica.
Descodificación de los datos con formato fijo.
La descodificación de los datos se lleva a cabo en dos fases. Primero se descodifica los datos
cuyo formato es fijo, como son los exponentes, los coeficientes acoplados e información relativa al
modo de funcionamiento del descodificador.
Muchos de estos datos son usados por el descodificador para recalcular la asignación de bits
hecha por el codificador, necesaria para recuperar los datos con formato variable, principalmente los
vectores que contienen las mantisas TDAC.
Cálculo de la asignación de bits.
El algoritmo de asignación de bits en el descodificador es prácticamente idéntico al del
codificador, con la salvedad de que usa los resultados intermedios transmitidos para ahorrar tiempo,
y opcionalmente modificar el algoritmo de asignación según como indique el codificador. Esto
permite al descodificador calcular la asignación de bits de canal en canal, reduciendo las memoria
necesaria.
El resultado de este proceso debe ser idéntico al del codificador para que la información con
formato variable pueda ser adecuadamente descodificada.
Descodificación de los datos con formato variable.
Una vez recuperada la información acerca de la asignación de bits, en la que se especifica el
número de bits con que se codifica cada mantisa, se descodifican los datos con formato variable de
la trama de bits transmitida.
Conversión a punto fijo.
Antes de realizar la transformada inversa TDAC, los coeficientes TDAC son pasados de su
formato de mantisa y exponente a punto fijo. Si se ha usado dither en el codificador, ahora se
sustrae.
Reinserción de la portadora de alta frecuencia.
Los coeficientes de alta frecuencia que hayan sido codificados en forma de portadora y
envolvente son reconstruidos combinando las portadoras con sus correspondientes coeficientes
acoplados.
Transformada inversa.
18
Los coeficientes TDAC de cada canal son devueltos al dominio del tiempo mediante la
transformación inversa, en la que se utiliza solapamiento de los bloques para obtener las señales
digitales de salida.
Los coeficientes a frecuencias medias-altas del canal de graves son puestos a cero, de forma
que este canal trabaje a la misma frecuencia que el resto, a pesar de las diferencias en el ancho de
banda.
Formatos Dolby Digital
El estándar norteamericano de Televisión de Alta Definición de la Grand Alliance ya ha
adoptado como sistema de sonido envolvente el Dolby Digital, que ya se utilizó de forma
experimental en la retransmisión de los juegos olímpicos de 1996.
La Televisión Digital por Cable es otro formato idóneo para la utilización de Dolby Digital,
tanto por sus características como por razones de estandarización con la HDTV. Se ha desarrollado
una versión de dos canales para este tipo de aplicaciones, puesto que la programación actual trabaja
en mono, estéreo o estéreo surround matricial.
En el LaserDisc ya se ha introducido este sistema multicanal, sustituyendo uno de los
canales analógicos modulados en FM por una trama de bits Dolby Digital y dejando intactos un
canal PCM estéreo y un canal FM por razones de compatibilidad con los equipos ya existentes.
En la industria del cine la banda sonora Dolby Digital se graba ópticamente en la misma
cinta que contiene la película en el espacio entre los agujeros tal como muestra la figura 12.
Pista Dolby Digital
Pistas Analógicas
Figura 12. Situación de la trama Dolby Digital en cintas de cine.
Insertando la trama de bits directamente en la película se consigue la coexistencia con las
pistas analógicas, evitando la necesidad de insertar otro medio de almacenamiento como podría ser
el CD, lo que repercute positivamente en los distribuidores y propietarios de salas.
Además, el espacio entre los agujeros de la cinta es una zona de gran resistencia a
deformaciones y la humedad, por lo que la pista Dolby Digital permanecerá intacta durante toda la
vida útil de la película.
Ejemplos de títulos que se han lanzado incluyendo banda sonora Dolby Digital : 12 Monos,
Abyss, Aladdin, Batman Forever...
19
Otro formato que ha adoptado como estándar de sonido envolvente el sistema Dolby Digital
ha sido el Digital Versatile Disc ( DVD ) en cuyos equipos reproductores se incluye una salida
óptica para la trama Dolby Digital. Para disfrutar del sonido envolvente se necesita un
descodificador AC-3, que se conectará a la salida correspondiente del DVD, un amplificador Dolby
Digital y cinco altavoces.
En Marzo de 1997 los laboratorios Dolby anunciaron la creación del primer software capaz
de descodificar los 5.1 canales Dolby Digital de un DVD-ROM y crear sonido envolvente con sólo
dos altavoces, utilizando un procesador Intel MMX. Para ello se utiliza software RSX 3D de Intel,
un programa que sitúa cinco altavoces virtuales alrededor del oyente.
De esta forma la tecnología Dolby Digital también se introduce en el mundo multimedia.
Equipos Dolby Digital (AC-3).
Un gran número de compañías ofrecen productos Dolby Digital, como descodificadores, preamplificadores y amplificadores. Entre las compañías más importantes podemos destacar Denon,
Pioneer, JBL, Kenwood y Yamaha.
Los precios de los productos varían mucho de unas marcas a otras, pero suelen oscilar entre
4000 y 1500$. Estos precios tan elevados son el principal escollo que tiene que superar este sistema
si se quiere implantar en al mercado de consumo, aunque se espera que con el tiempo disminuyan.
Una de las claves para conseguir un abaratamiento de los equipos es el diseño de circuitos
integrados que sean capaces de descodificar AC-3 con un único chip.
La compañía Zoran fue la primera en desarrollar los primeros CI´s AC-3 : el ZR38500
permite descodificar tramas AC-3 y Dolby Pro-Logic para sistemas domésticos, mientras que el
ZR38521 descodifica dos canales AC-3 y audio MPEG-1. El ZR38501 descodifica sólo dos canales
AC-3 para aplicaciones en Televisión por Cable, DBS o HDTV.
Motorola lanzó más tarde el 56007, un procesador de 24 bits capaz de descodificar AC-3,
audio MPEG-2, y el formato ATRAC de Sony. El 56007 es compatible con el CI de Motorola
56004 Symphony, e incorpora todos los periféricos de audio digital disponibles para el 56004,
además de tener 12 veces más memoria de programa y 4 veces más memoria de datos.
Yamaha también dispone de DSP’s específicos para Dolby Digital, como el A3090
preparado para descodificar tramas AC-3 para cine.
Uno de los últimos chips Dolby Digital fue lanzado al mercado en Noviembre de 1996 por
Crystal Semiconductors : el CS4923 de 24 bits y capaz de realizar 50 MIPS, preparado además para
descodificar Dolby Pro-Logic.
LSI y Hewlett Packard continúan con el desarrollo de su descodificador ASIC para televisión
por cable. Otras compañías como New Japan Radio Corporation o Texas Instruments han anunciado
el desarrollo de CI´s AC-3.
Como ejemplo de un descodificador AC-3 se presenta a continuación el modelo KR-V990D
de la casa Kenwood.
20
Este modelo proporciona 105 W de potencia a los altavoces frontales, y 50 W a los altavoces
surround, considerando para todos ellos una impedancia de 8 ohmnios. Además de Dolby Digital,
presenta la posibilidad de descodificar Dolby Surround Pro-Logic. Presenta dos terminales de
entrada Dolby Digital : entrada RF ( usada en el LaserDisc ) y entrada digital. Los modelos europeos
tienen la posibilidad de recepción de RDS.
Conclusión
Nos encontramos ante un ingenioso algoritmo de codificación multicanal que consigue
grandes tasas de compresión prácticamente sin degradación de la calidad del sonido, en lugar de
utilizar la ‘fuerza bruta’ como hace la codificación PCM del actual CD, en el que la cantidad de
información a almacenar se hace enorme.
De esta forma el sistema Dolby Digital es muy adecuado para aquellas aplicaciones en las
que la velocidad de transmisión sea un factor crítico, como por ejemplo la Televisión en cualquiera
de sus formatos ( DBS, Cable... ) o el DVD.
El principal inconveniente para la implantación de este formato de sonido multicanal en el
mercado de consumo es el elevado precio de sus equipos descodificadores, además del
inconveniente que supone tener que amontonar otro aparato en el salón de casa : entre el
descodificador del satélite ( que ya veremos si es sólo uno ), el aparato de TV, el reproductor DVD,
el descodificador Dolby Digital y los altavoces no nos queda sitio para el sofá.
Una posible solución para los que quieran disfrutar del sonido envolvente podría ser la
inclusión de una placa descodificadora Dolby Digital dentro de los equipos reproductores DVD o
LaserDisc, aunque esto parece muy difícil.
El formato Dolby Digital para cine es sin duda el que más éxito ha tenido, dada su gran
calidad, la similitud de precios con el resto de sistemas del mercado y su coexistencia en la misma
cinta con las pistas analógicas.
Bibliografía
Toda la información con la que se ha elaborado el trabajo ha sido obtenida de Internet :
21
Dolby Laboratories
 The AC-3 Multichannel Coder.
 Dolby Digital General.
 Multichannel Perceptual Coding.
 Secrets Manufacturer’s Report - Dolby Surround Sound AC-3
 High Quality, Low-Rate Audio Transform Coding for Transmission and Multimedia
Applications.
 Press Release.
 Parametric Bit Allocation in a Perceptual Audio Coder.
University of Washington
 Surround Sound.
Keenwood
*
Kenwood Receivers.
Yamaha
*
Yamaha DSP A3090.
Crystal Semiconductors
*
Single-Chip Dolby ( AC-3 ) 5.1 Channel Audio Decoder.
Descargar