Codificación de Audio - Departamento de Teoría de la Señal y

Anuncio
Codificación de Audio
Fernando Díaz de María
Departamento de Tecnologías de las Comunicaciones
Universidad Carlos III de Madrid
Índice
■
Introducción
–
■
Principios Psicoacústicos
–
–
–
–
■
■
Codificación Perceptual
Umbral absoluto de audición
Bandas Críticas
Enmascaramiento simultáneo
Enmascaramiento temporal
Codificación en subbandas
Estándares de Codificación de Audio MPEG. Aplicaciones
Introducción (I): Audio y Voz
■
■
■
■
■
■
■
Frecuencias de muestreo superiores
Mayor resolución en amplitud
Mayor rango dinámico
Mayores variaciones de la densidad espectral de potencia
Representaciones estéreo y multicanal
Mayores espectativas de calidad
Ausencia de un modelo de producción
Introducción (II)
■
Codificación de audio
–
–
■
Representación digital eficiente de señales de audio de alta
fidelidad
Mínimo régimen binario y calidad transparente
CD (principios de los 80)
–
–
Puso de manifiesto las ventajas del audio digital
Elevadas tasas binarias:
■ fs:
■
■
■
44.1 ó 48 kHz;
mono: 705.6 ó 768 kb/s; estéreo: 1.42 ó 1.54 Mb/s
La segunda generación de aplicaciones del audio digital
requieren menor ancho de banda
Pero los usuarios esperan calidad CD
Codificación Perceptual
Explota:
• las irrelevancias perceptuales (modelo psicoacústico); y
• las redundancias estadísticas (cuantificación y codificación)
Análisis
tiempo/frecuencia
Cuantificación
y Codificación
Codificación
sin
Pérdidas
Análisis
Psicoacústico
M
U
X
Asignación
de bits
Estudios entropía perceptual:
• Puede codificarse audio de forma transparente con 2 bits/muestra
Principios Psicoacúticos
■
■
■
■
■
■
Umbral absoluto de audición
Bandas Críticas
Enmascaramiento simultáneo
Enmascaramiento temporal
Entropía perceptual
Modelo Psicoacústico I del MPEG-1
Umbral Absoluto de Percepción
Umbral de audición, Tq(f):
• Energía necesaria para que un tono puro sea detectado
• Máximo nivel de distorsión permisible (codificación perceptual)
Bandas Críticas
Banda
■
Oído interno: transformación
frecuencia-espacio
–
■
bandas críticas ∼ regiones cocleares
Concepto forjado experimentalmente
–
–
ancho de banda a partir del cual las
repuestas subjetivas cambian
abruptamente
Ejemplo:
■
Nivel sonoro con el que se percibe un
ruido de banda estrecha
■
Ancho de banda crítico:
■
constante hasta los 500 Hz
– después un 20% de la frecuencia
central
Bark: una banda crítica
–
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
Frecuencia
Central (Hz)
50
150
250
350
450
570
700
840
1000
1170
1370
1600
1850
2150
2500
2900
3400
4000
4800
5800
7000
8500
10500
13500
19500
Ancho de
Banda (Hz)
-100
100-200
200-300
300-400
400-510
510-630
630-770
770-920
920-1080
1080-1270
1270-1480
1480-1720
1720-2000
2000-2320
2320-2700
2700-3150
3150-3700
3700-4400
4400-5300
5300-6400
6400-7700
7700-9500
9500-12000
12000-15500
15500-
Enmascaramiento Simultáneo (I)
Enmascaramiento Temporal
Entropía perceptual
■
■
Medida de la información perceptualmente
relevante contenida en una señal de audio
Cálculo
–
–
–
Enventanado y transformación al dominio de la frecuencia
Obtención del umbral de enmascaramiento y número de bits
necesarios
Histogramas y selección del caso peor
Distorsión Pre-eco
■
Pre-ecos (“ataques”): la transformada inversa en el
decodificador distribuye el error de cuantificación
a lo largo del bloque
–
–
■
Pre-enmascaramiento útil para bloques cortos
bloques cortos ==> más información lateral
Solución: modificación adaptativa de la longitud
de los bloques
Distorsión Pre-eco: Ejemplo
Modelo Psicoacústico I del MPEG-1
■
■
■
■
■
Análisis Espectral
Identificación de enmascaradores tonales y
ruidosos
Diezmado de los enmascaradores
Cálculo de los umbrales de enmascaramiento
individuales
Cálculo del umbral global
Codificación en Subbandas
Filtrado Paso-Banda 1
y
Traslación a Paso-Bajo
Cuantificación
y
Codificación
M
U
X
Filtrado Paso-Banda N
y
Traslación a Paso-Bajo
Cuantificación
y
Codificación
Decodificación
Traslación
Paso-Banda 1
Decodificación
Traslación
Paso-Banda N
D
E
M
U
X
Operaciones básicas por subbanda
Hhpn(ω)
ωn1 ωn2
Hlpn(ω)
ω
ωn
ω
Cuantificación
y
Codificación
N
cos (W1nt)
Hn(ω)
Decodificación
N
ωn1 ωn2
cos (W1nt)
ω
Estándares: MPEG
■
MPEG: “Moving Pictures Experts Group”
–
–
–
■
Grupo de trabajo de un subcomité de ISO/IEC
(“International Standards Organisation / International
Electrotechnical Commission”)
Genera estándares de compresión de audio y vídeo
Sólo define la trama y el decodificador
Fases y Niveles
–
–
MPEG trabaja por fases: MPEG-1, MPEG-2, MPEG-4
Dentro de cada fase hay niveles: “Layers I, II y III”
MPEG-1
–
MPEG-1 (ISO/UEC 11172-3) (publicado en 1993)
■
■
■
Frecuencias de muestreo: 32, 44.1 y 48 kHz
Modos de funcionamiento: mono, estéreo, dual y estéreo
conjunto
Tres capas o niveles
–
–
–
MP-1:
• velocidades predefinidas: de 32 a 448 kb/s
• calidad transparente (estéreo) a 384 kb/s
MP-2:
• velocidades predefinidas: de 32 a 384 kb/s
• calidad transparente (estéreo) a 256 kb/s (192 kb/s)
MP-3:
• velocidades predefinidas: de 32 a 320 kb/s
• calidad transparente (estéreo) a 128 kb/s (tasa variable)
MPEG-2
–
MPEG-2 BC (ISO/IEC 13818-3) (publicado en 1995)
■
Extensión a sonido multicanal compatible con MPEG-1
–
–
■
Extensión del MPEG-1 hacia menores regímenes binarios:
–
–
–
5 canales principales más uno de baja frecuencia (LFE)
Compatibilidad con MPEG-1
peor que Dolby AC-3
MPEG-ACC (“Advanced Audio Coding”)
frecuencias de muestreo:16, 22.05 y 24 kHz
velocidades: 32-256 kb/s (MP-I) y 8-160 kb/s (MP-2 y 3)
MPEG-2 ACC (ISO/IEC 13818-7) (publicado en 1998)
■
■
■
1-48 canales
frecuencias de muestreo: de 8 a 96 kHz
velocidades: desde 8 kb/s mono a más de 160 kb/s por canal
Aplicaciones
■
■
■
Audio alta fidelidad, audio profesional,
audiodifusión (redes de TV por cable, Internet,…),
multimedia
DAB: “Digital Audio Broadcasting”
DVD: “Digital Versatil - or Video - Disk”
–
–
–
■
Soporta audio multicanal y vídeo
Europa: MPEG
América: AC-3
Cine en Casa
Bibliografía
■
P. Noll, “MPEG Digital Audio Coding”, IEEE Signal
Processing Magazine, Vol. 14, No. 5, pp. 59-81, Sep. 1997
■
http://www.tnt.uni-hannover.de/project/mpeg/audio/
Descargar