Codificación de Audio Fernando Díaz de María Departamento de Tecnologías de las Comunicaciones Universidad Carlos III de Madrid Índice ■ Introducción – ■ Principios Psicoacústicos – – – – ■ ■ Codificación Perceptual Umbral absoluto de audición Bandas Críticas Enmascaramiento simultáneo Enmascaramiento temporal Codificación en subbandas Estándares de Codificación de Audio MPEG. Aplicaciones Introducción (I): Audio y Voz ■ ■ ■ ■ ■ ■ ■ Frecuencias de muestreo superiores Mayor resolución en amplitud Mayor rango dinámico Mayores variaciones de la densidad espectral de potencia Representaciones estéreo y multicanal Mayores espectativas de calidad Ausencia de un modelo de producción Introducción (II) ■ Codificación de audio – – ■ Representación digital eficiente de señales de audio de alta fidelidad Mínimo régimen binario y calidad transparente CD (principios de los 80) – – Puso de manifiesto las ventajas del audio digital Elevadas tasas binarias: ■ fs: ■ ■ ■ 44.1 ó 48 kHz; mono: 705.6 ó 768 kb/s; estéreo: 1.42 ó 1.54 Mb/s La segunda generación de aplicaciones del audio digital requieren menor ancho de banda Pero los usuarios esperan calidad CD Codificación Perceptual Explota: • las irrelevancias perceptuales (modelo psicoacústico); y • las redundancias estadísticas (cuantificación y codificación) Análisis tiempo/frecuencia Cuantificación y Codificación Codificación sin Pérdidas Análisis Psicoacústico M U X Asignación de bits Estudios entropía perceptual: • Puede codificarse audio de forma transparente con 2 bits/muestra Principios Psicoacúticos ■ ■ ■ ■ ■ ■ Umbral absoluto de audición Bandas Críticas Enmascaramiento simultáneo Enmascaramiento temporal Entropía perceptual Modelo Psicoacústico I del MPEG-1 Umbral Absoluto de Percepción Umbral de audición, Tq(f): • Energía necesaria para que un tono puro sea detectado • Máximo nivel de distorsión permisible (codificación perceptual) Bandas Críticas Banda ■ Oído interno: transformación frecuencia-espacio – ■ bandas críticas ∼ regiones cocleares Concepto forjado experimentalmente – – ancho de banda a partir del cual las repuestas subjetivas cambian abruptamente Ejemplo: ■ Nivel sonoro con el que se percibe un ruido de banda estrecha ■ Ancho de banda crítico: ■ constante hasta los 500 Hz – después un 20% de la frecuencia central Bark: una banda crítica – 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Frecuencia Central (Hz) 50 150 250 350 450 570 700 840 1000 1170 1370 1600 1850 2150 2500 2900 3400 4000 4800 5800 7000 8500 10500 13500 19500 Ancho de Banda (Hz) -100 100-200 200-300 300-400 400-510 510-630 630-770 770-920 920-1080 1080-1270 1270-1480 1480-1720 1720-2000 2000-2320 2320-2700 2700-3150 3150-3700 3700-4400 4400-5300 5300-6400 6400-7700 7700-9500 9500-12000 12000-15500 15500- Enmascaramiento Simultáneo (I) Enmascaramiento Temporal Entropía perceptual ■ ■ Medida de la información perceptualmente relevante contenida en una señal de audio Cálculo – – – Enventanado y transformación al dominio de la frecuencia Obtención del umbral de enmascaramiento y número de bits necesarios Histogramas y selección del caso peor Distorsión Pre-eco ■ Pre-ecos (“ataques”): la transformada inversa en el decodificador distribuye el error de cuantificación a lo largo del bloque – – ■ Pre-enmascaramiento útil para bloques cortos bloques cortos ==> más información lateral Solución: modificación adaptativa de la longitud de los bloques Distorsión Pre-eco: Ejemplo Modelo Psicoacústico I del MPEG-1 ■ ■ ■ ■ ■ Análisis Espectral Identificación de enmascaradores tonales y ruidosos Diezmado de los enmascaradores Cálculo de los umbrales de enmascaramiento individuales Cálculo del umbral global Codificación en Subbandas Filtrado Paso-Banda 1 y Traslación a Paso-Bajo Cuantificación y Codificación M U X Filtrado Paso-Banda N y Traslación a Paso-Bajo Cuantificación y Codificación Decodificación Traslación Paso-Banda 1 Decodificación Traslación Paso-Banda N D E M U X Operaciones básicas por subbanda Hhpn(ω) ωn1 ωn2 Hlpn(ω) ω ωn ω Cuantificación y Codificación N cos (W1nt) Hn(ω) Decodificación N ωn1 ωn2 cos (W1nt) ω Estándares: MPEG ■ MPEG: “Moving Pictures Experts Group” – – – ■ Grupo de trabajo de un subcomité de ISO/IEC (“International Standards Organisation / International Electrotechnical Commission”) Genera estándares de compresión de audio y vídeo Sólo define la trama y el decodificador Fases y Niveles – – MPEG trabaja por fases: MPEG-1, MPEG-2, MPEG-4 Dentro de cada fase hay niveles: “Layers I, II y III” MPEG-1 – MPEG-1 (ISO/UEC 11172-3) (publicado en 1993) ■ ■ ■ Frecuencias de muestreo: 32, 44.1 y 48 kHz Modos de funcionamiento: mono, estéreo, dual y estéreo conjunto Tres capas o niveles – – – MP-1: • velocidades predefinidas: de 32 a 448 kb/s • calidad transparente (estéreo) a 384 kb/s MP-2: • velocidades predefinidas: de 32 a 384 kb/s • calidad transparente (estéreo) a 256 kb/s (192 kb/s) MP-3: • velocidades predefinidas: de 32 a 320 kb/s • calidad transparente (estéreo) a 128 kb/s (tasa variable) MPEG-2 – MPEG-2 BC (ISO/IEC 13818-3) (publicado en 1995) ■ Extensión a sonido multicanal compatible con MPEG-1 – – ■ Extensión del MPEG-1 hacia menores regímenes binarios: – – – 5 canales principales más uno de baja frecuencia (LFE) Compatibilidad con MPEG-1 peor que Dolby AC-3 MPEG-ACC (“Advanced Audio Coding”) frecuencias de muestreo:16, 22.05 y 24 kHz velocidades: 32-256 kb/s (MP-I) y 8-160 kb/s (MP-2 y 3) MPEG-2 ACC (ISO/IEC 13818-7) (publicado en 1998) ■ ■ ■ 1-48 canales frecuencias de muestreo: de 8 a 96 kHz velocidades: desde 8 kb/s mono a más de 160 kb/s por canal Aplicaciones ■ ■ ■ Audio alta fidelidad, audio profesional, audiodifusión (redes de TV por cable, Internet,…), multimedia DAB: “Digital Audio Broadcasting” DVD: “Digital Versatil - or Video - Disk” – – – ■ Soporta audio multicanal y vídeo Europa: MPEG América: AC-3 Cine en Casa Bibliografía ■ P. Noll, “MPEG Digital Audio Coding”, IEEE Signal Processing Magazine, Vol. 14, No. 5, pp. 59-81, Sep. 1997 ■ http://www.tnt.uni-hannover.de/project/mpeg/audio/