La calidad del contenido difundido a los consumidores utilizando

Anuncio
EL PERFIL HE-AAC v2 DE MPEG-4 PARA DIFUSIÓN DIGITAL
ING. JESÚS ROJAS
Universidad Central de Venezuela
E-mail: jesú[email protected]
RESUMEN
La calidad del contenido transmitido a los consumidores utilizando tecnología digital es uno de
los desafíos más difíciles de la difusión hoy en día. Uno de los aspectos más críticos es el
adecuado uso del espectro disponible. En consecuencia es necesaria una correcta selección de los
esquemas de compresión a utilizar, de manera que sea factible la implementación en los sistemas
de difusión digital actual tanto en el aspecto técnico como económico.
En el caso del audio, el perfil HE-AAC v2 propio del estándar MPEG-4, ha probado ser el
esquema de compresión de audio más eficiente disponible a nivel mundial. Recientemente ha
sido seleccionado dentro de DVB (Digital Video Broadcasting) como parte de sus herramientas
de codificación.
HE-AAC v2 contiene un set de herramientas para la codificación de alta calidad de señales de
audio mono, stereo y multicanal (por encima de 48 canales), utilizando una amplia gama de tasas
de bit.
ABSTRACT
Delivering broadcast-quality content to consumers is one of the most challenging tasks in the new
world of digital broadcasting. One of the most critical aspects is the highly efficient use of the
available transmission spectrum. Consequently, a careful choice of compression schemes for
media content is essential, for both the technical and the economical feasibility of modern digital
broadcasting systems.
In the case of audio content, the MPEG-4 High Efficiency AAC v2 profile (HE-AAC v2) for
digital broadcasting has proven to be the most efficient audio compression scheme available
worldwide. It has recently been selected within DVB (Digital Video Broadcasting) as part of its
HE-AAC v2 comprises a fully-featured tool set for the coding of audio signals in mono, stereo
and multichannel modes (up to 48 channels), at high quality levels using a wide range of bitrates.

Radio Hd: El sistema terrestre de
difusión digital usado en USA.

Digital Radio Mondiale: El
estándar internacional para la difusión de
bandas de larga, mediana y corta onda.
Los componentes de HE-AAC v2 ya están
siendo usados ampliamente en una gran
variedad de sistemas y aplicaciones donde
las limitaciones del ancho de banda son
una factor crucial. Entre estas aplicaciones
se pueden mencionar:

El siguiente articulo ofrece un resumen de
los componentes técnicos de HE-AAC v2,
la eficiencia del proceso de compresión y
Radio satelital XM: Servicio de
difusión digital usado en USA.
1
provee una visión del futuro potencial de
los trabajos que se están desarrollando
usando este sistema de codificación.
Parametric Stereo incrementa la eficiencia
de codificación en segundo plano
aprovechando la representación del
componente stereo de una entrada de audio
dada como una imagen paramétrica. HEAAC v2 permite que audio de gran calidad
en el formato MPEG-4 se obtenga con
tasas de bits mucho mas bajas que si se
usara AAC. Los decodificadores HE-AAC
v2 son compatibles con formatos que
utilizan AAC y los que incluyen AAC con
componentes SBR.
ESTANDARIZACIÓN
INTERNACIONAL
El perfil HE-AAC v2 (también conocido
como AACPlus v2) es la combinación de
tres tecnologías:



Advanced Audio Coding (AAC).
Spectral Band Replication (SBR)
Parametric Stereo (PS).
Estas tres tecnologías están especificadas
en la norma ISO/IEC 14496-3 y
combinados en el perfil HE-AAC v2, el
cual está especificado en la norma
ISO/IEC 14496-3:2001/Amd.4.
Figura 1. Familia de codificadores de audio de HE-AAC v2
Otra característica importante de las
arquitecturas HE-AAC y HE-AAC v2 es la
flexibilidad que tienen de transportar
metadata. La metadata puede ser embebida
como una data auxiliar que solamente los
decodificadores compatibles con esta
arquitectura
pueden
detectar.
Los
decodificadores
no
compatibles,
simplemente ignoran esta información, la
cual determina elementos propios de los
contenidos de audio, tales como
descripción de la data, nombre de la
canción, intérprete, etc.
El
Instituto
de
Estándares
de
Telecomunicaciones Europeo (ETSI) ha
estandarizado el perfil HE-AAC v2 en su
especificación técnica TS 102005.
ARQUITECTURA DE HE-AAC V2
La codificación HE-AAC v2 básicamente
se basa en la conocida codificación AAC
de MPEG-4, cuya calidad de audio es
buena a una tasa de bit típica de 128
Kbit/s. A tasas inferiores a esta, la calidad
de audio de AAC puede empezar a
degradarse, lo cual puede ser compensando
al máximo con las técnicas de mejora SBR
y PS (anteriormente mencionadas).
MPEG ISO/IEC 14496-3 Parte 3 (Audio)
define las áreas designadas para la
metadata en un stream (flujo de data)
MPEG. La capacidad máxima de la data en
un flujo de bit (bit stream) MPEG depende
de diversas variables como la tasa de
muestreo, la tasa de bit de determinado bit
stream, entre otros factores. En general la
cantidad de metadata disponible no impone
restricciones
a
las
aplicaciones
mencionadas anteriormente.
SBR Es una técnica de extensión de ancho
de banda que permite a los codecs de audio
ofrecer la misma calidad auditiva a una
tasa de bit casi de la mitad de la requerida
si el codec opera por sí solo.
2
Data codificada en HE-ACC puede existir
en variedad de formatos de archivo, con
extensiones diferentes, dependiendo de la
aplicación utilizada. Los formatos más
comunes son los formatos de archivos
MPEG-4 es decir los formatos MP4 y
M4A, con sus respectivas extensiones
.mp4 y .m4a; las extensiones .m4a son
usadas para enfatizar el hecho de que el
archivo solo contiene audio. Los formatos
de archivo 3GP soportan todas las
características de HE-AAC para archivos
mono y stereo a una tasa de muestreo
superior a 48 KHz.
Figura 2.
Si la rata de compresión se incrementa, la
distorsión introducida por el codec viola el
umbral de enmascaramiento y produce
efectos audibles. Esto se observa en la
figura 3
MPEG AAC
Las investigaciones para desarrollar codecs
de audio comenzaron aproximadamente
hace 20 años, y se descubrió que el oído
humano no es capaz de percibir
distorsiones que están por debajo de un
umbral definido como umbral de
enmascaramiento, el cual se forma en el
oído humano cuando este percibe una señal
auditiva fuerte; frecuencias que circundan
a la frecuencia de esta señal y señales con
amplitudes inferiores a dicho estímulo no
son percibidos de forma efectiva por el
oído durante cierto período de tiempo. Al
observar el espectro auditivo, se puede
observar lo que se denomina como umbral
de enmascaramiento, el cual puede ser
calculado ya que depende del estímulo que
excita al oído. Idealmente distorsiones y
estímulos que se encuentren bajo este
umbral no son perceptibles por el oído.
Figura 3.
El principal método para evitar este
problema es limitar el ancho de banda del
audio. Otro método llamado Intensity
Stereo sólo puede ser usado para señales
stereo; en Intensity Stereo solo un canal es
transmitido en lugar del canal derecho e
izquierdo.
Las investigaciones en el campo del
proceso de percepción auditiva ya han
alcanzado sus límites, de forma que los
métodos conocidos no parecen proveer de
algún elemento adicional para incrementar
la eficiencia de codificación. Por tal razón,
se requiere un cambio de paradigma, el
cual puede estar dado por la idea de que
diferentes elementos de la señal de audio,
como por ejemplo los componentes
espectrales o los componentes stereo,
necesitan diferentes herramientas, si van a
ser codificados de forma más eficiente.
Esta idea inició el desarrollo de las
El objetivo es calcular el umbral de
enmascaramiento basándose en el modelo
psicoacústico del oído humano, y procesar
la señal de audio de forma que solo la
información audible resida en esta señal.
La figura 2 ilustra la respuesta del oído
ante un estímulo y el ruido de cuantización
producido por un proceso de codificación
ideal.
3
herramientas de mejora Spectral Band
Replication (SBR) y Parametric Stereo
(PS).
REPLICACIÓN ESPECTRAL
BANDAS
(Spectral Band Replication)
DE
Figura 5.
En la codificación de audio tradicional, una
cantidad significativa de información es
usada para codificar las altas frecuencias, a
pesar de que en el modelo psicoacústico no
se le da mucha importancia a las señales de
frecuencias altas; esto fue considerado
básicamente para el desarrollo de SBR.
Sabiendo la fuerte correlación existente
entre el rango de altas y bajas frecuencias,
una buena aproximación de la señal
original de entrada, en su rango de alta
frecuencia, puede ser obtenida por la
transposición de la señal presente en el
rango de baja frecuencia, tal y como lo
muestra la figura 4:
En el lado del codificador, la señal de
entrada original es analizada, la envolvente
correspondiente a la banda de alta
frecuencia y sus características en relación
con la banda de baja frecuencia son
codificadas formando la data SBR, y esta
data resultante es multiplexada junto con el
flujo de bits de la información codificada
de la señal. En el lado del decodificador,
primero la data SBR es demultiplexada,
entonces el decodificador actúa sobre esta
data. Finalmente el decodificador SBR
opera en la señal de salida, usando la data
SBR para guiar el proceso de replicación
espectral de bandas. El resultado es una
señal completa en ancho de banda. Los
decodificadores que no son SBR podrían
ser capaces de decodificar la señal
compuesta por data SBR, pero el resultado
sería una señal de salida limitada en banda.
A pesar de que la aproximación básica
parece simple, hacer que trabaje en la
práctica no lo es. Obviamente no es trivial
codificar la información de guiado para
cumplir los siguientes criterios:
Figura 4. Transposición de la señal
Además
de
la
transposición,
la
reconstrucción de la banda de alta
frecuencia (Figura 5) es canalizada por la
transmisión de información de guiado, de
forma que la envolvente espectral de la
señal original o información adicional que
compense
componentes
de
altas
frecuencias faltantes estén presentes. Esta
información de guiado es lo que se
denomina data SBR.

Se requiere buena resolución
espectral.

Se requiere resolución adecuada en
el dominio del tiempo para evitar los preecos.

Los casos en los que la banda de
alta y baja frecuencia no estén altamente
correlacionadas, deben ser considerados de
forma cuidadosa, ya que la transposición y
el ajuste de envolvente en estos casos
4
pueden
producir
efectos
auditivos
artificiales.

Una baja rata de data es requerida
con el fin de obtener una significativa
ganancia de codificación.
Al combinar AAC con SBR el resultado
obtenido es HE-AAC o aacPlus v1.
PARAMETRIC STEREO (PS)
Mientras que SBR explota la posibilidad
de una representación paramétrica de la
banda de alta frecuencia, la idea básica
detrás de PS es parametrizar la
componente stereo de una señal de audio
considerándolo
como
un
imagen
(panorama) y analizando la diferencia de
fase y tiempo de los canales stereo, con el
fin de mejorar la eficiencia de codificación.
La frecuencia de cruce entre la banda de
baja y la de alta frecuencia es seleccionada
en base a diferentes factores como la tasa
de bit y la frecuencia de muestreo de la
señal de entrada. Generalmente las bandas
bajas necesitan cubrir un rango de
frecuencia comprendido desde el nivel DC
hasta los 4 o 12 KHz, dependiendo de la
tasa de bit.
En el codificador, solo un mezclador
monaural (mono) de la señal stereo
original es codificado después de la
extracción de la data Parametric Stereo. Al
igual que la data SBR, la data PS es
embebida en la parte auxiliar del bit stream
de
información
como
data
PS
(complementaria).
El limitado rango de frecuencia cubierto
por los codificadores AAC permite el uso
de una baja frecuencia de muestreo,
inferior a los 24 KHz, lo cual mejora la
eficiencia de codificación si se compara al
uso de frecuencias de muestreo más altas,
como por ejemplo 48 o 44.1 KHz.
En el decodificador, la señal monaural es
decodificada primero. Después de esto, la
señal stereo es reconstruida, basándose en
los parámetros stereo embebidos por el
codificador. La figura 6 muestra el
principio básico del
proceso
de
codificación de Parametric Stereo.
La siguiente tabla muestra ejemplos típicos
de frecuencia de cruce entre AAC y SBR,
usando ratas de muestra de 24/48 KHz en
stereo, dando una configuración apropiada
al codificador HE-AAC. La tasa de bit de
la data SBR varía dependiendo de la
sintonización del codificador, pero en
general, esta tasa corresponde al rango de 1
a 3 Kbit/s por cada canal de audio. Esto es
mucho menor a la tasa de bits que se
requeriría para codificar la banda de alta
frecuencia
usando
un
algoritmo
convencional para la codificación de una
forma de onda.
Figura 6.
Tres tipos de parámetros pueden ser
empleados en el sistema Parametric Stereo
para describir la imagen stereo:
Tabla 1.
5

Diferencia de Intensidad Inter
Canal (IID): Describe la diferencia de
intensidad entre los canales.

Cros-Correlación Inter Canal
(ICC): Describe el cruce de correlación o
coherencia entre los canales. La coherencia
es medida como el máximo valor de la
función de tiempo y fase de la correlación
de cruce.

Diferencia de Fase Inter Canal
(IPD): Describe la diferencia de fase entre
los canales. Esto puede ser definido por un
parámetro adicional denominado Overall
Phase Difference (OPD), el cual muestra
cómo la diferencia de fase es distribuida
entre los canales. El parámetro Diferencia
Inter Canal (ITD) puede ser considerado
como una alternativa para IPD.
Si la herramienta Parametric Stereo no es
usada, la señal de audio alimenta a un
remuestreador 2:1 y nuevamente esta señal
entra al codificador AAC. El codificador
SBR trabaja también en el dominio QMF;
este codificador extrae la envolvente
espectral y la información adicional de
ayuda para guiar el proceso de replicación
en el decodificador. Toda la data
codificada es multiplexada en un flujo de
bit (bit stream) para la transmisión o el
almacenamiento de dicha data. La figura 7
muestra un diagrama de bloques completo
de un codificador HE-AAC v2.
FUNCIONALIDAD DE HE-AAC V2
Las tecnologías AAC, SBR y PS descritas
anteriormente,
son
los
bloques
fundamentales del perfil HE-AAC v2 de
MPEG-4. La codificación AAC es usada
para codificar las señales de banda baja,
SBR codifica las señales de banda alta, y
PS codifica la imagen stereo en una forma
paramétrica. En una implementación típica
de un codificador aacPlus, la señal de
entrada de audio muestreada a una
frecuencia de muestreo fs es introducida en
un banco de filtros espejo de cuadratura
(Quadrature Mirror Filter QMF) de 64
bandas y transformada al dominio QMF.
Si se usa la herramienta Parametric Stereo,
el codificador PS extrae la información
Parametric Stereo basada en las muestras
QMF. Además, un mezclador de stereo a
mono es aplicado. Con una síntesis QMF a
32 bandas, la representación mono QMF es
vuelta a transformar al dominio del tiempo
a una tasa de muestreo igual a la mitad de
la señal de audio fs/2. Esta señal alimenta
al codificador AAC.
Figura 7.
En el decodificador HE-AAC v2, el flujo
de bits es separado en porciones
correspondientes a los formatos AAC,
SBR y PS. El decodificador AAC saca una
señal de banda baja en el dominio del
tiempo a una tasa de muestreo de fs/2. La
señal es entonces transformada al dominio
QMF para un procesamiento posterior. El
proceso SBR da como resultado una
reconstrucción de la señal de banda alta en
el dominio QMF. Las bandas altas y bajas
son
fusionadas
obteniéndose
una
representación QMF completa en banda.
Si la herramienta Parametric Stereo se
utiliza, esta genera una representación
stereo en el dominio QMF. Finalmente la
señal es sintetizada por un banco
sintetizador QMF de 64 bandas. El
resultado es una señal de salida en el
6
dominio del tiempo a la tasa de muestreo
fs. La figura 8 muestra el diagrama de
bloques completo de un decodificador HEAAC v2.
bit máxima (1,5 Mbit/s). El flujo de bit
DTS codificado puede ser transmitido a los
receptores A/V sobre una interfaz S/PDIF.
La solución aacPlus/DTS ofrece ventajas
considerables sobre los sistemas existentes
para la difusión multicanal:

La reducción de ancho de banda
para las transmisiones aacPlus comparado
con los sistemas actuales, excede a estos
en un factor de 2; así, por ejemplo, dos
canales
de
lenguaje
pueden
ser
transmitidos en uno.

Los beneficios obvios de un
estándar abierto. Cualquier fabricante de
codificadores esta en capacidad de
implementar el codificador aacPlus, y los
operadores de la red podrán escoger entre
una gran cantidad de vendedores.

Gran ahorro en costos al haber
múltiples fabricantes entre los cuales se
pueden escoger. Estos ahorros pueden ser
usados en otros aspectos tales comos
soluciones de codificadores integrados,
servicios de soporte, entrenamiento,
operaciones, etc.
Figura 8.
DTS Y TECNOLOGÍAS DE
CODIFICACIÓN PARA LA
DIFUSIÓN DIGITAL
En años recientes, con la llegada de
receptores DVD y A/V, los sistemas de
audio multicanal se han vuelto cada vez
más populares en los hogares para
aplicaciones de entretenimiento. Como se
mencionó anteriormente, HE-AAC ofrece
alta calidad, y aplicaciones como por
ejemplo sistemas 5.1 multicanal de audio a
tasas de bits tan bajas como 160 kbit/s,
ofreciendo el doble de eficiencia de otros
formatos ya utilizados. La compatibilidad
con receptores existentes de A/V puede ser
direccionado
fácilmente
por
la
combinación de los perfiles HE-AAC y
DTS
(Digital
Theather
Systems),
habilitando la adopción de la codificación
de audio HE-ACC para la difusión digital
en una forma compatible.
CONCLUSIONES
En este artículo se ha mostrado cómo
tecnologías existentes para la codificación
de audio, como MPEG-AAC, pueden ser
mejorados significativamente por el uso de
técnicas de mejora: por ejemplo SBR y PS.
Estudios preliminares muestran que la
eficiencia de compresión de AAC puede
ser incrementada en un factor de cuatro.
Se ha creado una solución para las
tecnologías de codificación, combinando
un decodificador HE-AAC con un
codificador DTS, ambos colocados en un
set-up-box de un usuario estándar. La señal
codificada HE-AAC que es difundida, es
decodificada en el set-up-box, y codificada
luego por el codificador DTS a la tasa de
HE-AAC v2, resultado de la combinación
de AAC, SBR y PS, es sin duda la
codificación de audio más poderosa
disponible hoy en día. Es entonces la
primera opción para todas las aplicaciones
donde el ancho de banda está limitado o es
7
muy costoso, y un claro ejemplo de esto es
la difusión digital.
BIBLIOGRAFÍA
www.rtve.es/dab/queesdab.html
www.worlddab.org/gendocs.aspx
http://dab.intereconomia.com/
8
Descargar