Codificación de Audio Por José Ricardo Zapata González [email protected] www.upb.edu.co/audio Codificación de Audio Las metas principales de la codificación de audio son lograr: Menor velocidad de transmisión de la señal digital resultante. Menor cantidad de bits para su almacenamiento. Parámetros Muestreo: 8khz o 44.1khz Canales: 1, 2 , 4, 5, 6, 7, 8 Tipo de señal: Voz o Música. Velocidad de transmisión: 64 Kbps o 1.4Mbps ¿Como reducir la información? Disminuir la Frecuencia de muestreo → Menos ancho de banda y aliasing. Disminuir el numero de canales → Se pierde la sensancion de espacialidad. Disminuir el tamaño de las muestras → Ruido de cuantización. Utilizar compresión de datos. ☺ Compresión de Datos Los dos principios fundamentales son: Remover la información REDUNDANTE. Las señales de audio son muy redundantes por naturaleza. No existen cambios drásticos en instantes cortos de tiempo. Remover la información IRRELEVANTE. Las señales de audio están ligadas íntimamente a la percepción humana. Codificación de Audio Codificación de Audio Voz Música Es Diferente el Tratamiento que se le da a las señales de voz y de música: Voz : Muestreo 8Khz @ 8bits, Monofónico Música: Muestreo 44.1khz @ 16 bits, Estereo (PCM @ 16 bits) Codificación de Audio Codificación de Audio Voz Forma de Onda Parametricos Música Híbridos Codificación de voz Un buen codificador de voz debe cumplir: Baja tasa de bits. Alta calidad en la inteligibilidad Buen desempeño independiente del micrófono , el lenguaje, genero, etc. Buen desempeño con señales diferentes a la voz. Bajo nivel computacional y Memoria necesaria. Bajo retardo de codificación. Clasificación de codificadores de voz Forma de onda: Tratan de preservar la forma de onda de la señal original. Generalmente pueden ser usados en cualquier sonido. (Ej: PCM, ADPCM, entre otros). Muy buena calidad Parámetricos: Se asume que la señal de voz es generada por algún modelo, y este es controlado por ciertos parámetros. Normalmente el modelo utilizado es el tracto vocal que es implementado como un filtro variable en el tiempo. (Ej: LPC, MELP). Calidad regular Clasificación de codificadores de voz Hibridos: Tratan de fusionar las cualidades de los codificadores de forma de onda y los parámetricos. Su calidad es buena y no gasta tanto ancho de banda como los de forma de onda para su transmisión. (Ej: CELP) Clasificación de codificadores de voz ITU G.711: Voz telefónica. 64 kbps ITU G.721: Voz telefónica. 32 kbps ITU G.722: Voz de banda ancha. 64 kbps ITU G.728: Voz de banda ancha. 16 kbps LPC-10E: Voz telefónica. 2.4 kbps IS-54: Voz radio celular digital. 8 kbps Codificación de Audio Codificación de Audio Voz Música Forma de Onda Parametricos Híbridos Pérdidas (Losy) Sin pérdidas (Lossless) Codificación de audio Calidad Muestreo (KHz) Bits/muestra Modo Tasa bits (Kbps) de Frecuencia (Hz) Teléfono 8 8 Mono 64 Radio AM 11.025 8 Mono 88 Radio FM 22.050 16 Estéreo 705.6 CD 44.1 16 Estéreo 1411.2 20 – 20000 DAT 48 16 Estéreo 1536 20 – 20000 200 – 3400 Codificación con pérdidas Su principal meta es eliminar la información irrelevante. Para lograr esto se basan en el análisis perceptual de las señales de audio y la interacción de estas con el oído humano (PSICO-ACÚSTICA) Las principales características de la audición aprovechadas por la psico-acústica son: Sensibilidad del oído, Enmascaramiento en frecuencia y enmascaramiento temporal. Ejemplos: MP3, WMA, AAC, OGG VORBIS, ETC Sensibilidad del oído El oído humano percibe un rango de frecuencias entre 20 Hz. y 20 KHz. la sensibilidad es mayor en la zona alrededor de los 1-4 KHz La sensibilidad depende de la frecuencia del sonido, de esta forma, dos frecuencias con la misma intensidad acústica son interpretadas por nuestro oído de forma diferente, teniendo la sensación de que una es más fuerte que otra, o incluso, oír una y no la otra. Sensibilidad del oído La curva que indica cual es la potencia mínima (umbral) que nuestro oído detecta es la curva de sensibilidad. Sensibilidad del oído dB 120 fon 110 120 110 100 100 90 90 80 80 70 70 60 Lp 60 50 50 40 40 30 30 20 10 0 20 20 Contornos de FletcherMunson 100 10 0 500 1000 f 5000 10000 Hz Enmascaramiento en Frecuencia Un sonido deja de ser escuchado (percibido) en presencia de otro de mayor intensidad. Sonido enmascarador y sonido enmascarado. El enmascaramiento es más notorio cuando los sonidos simultáneos pertenecen a una misma banda crítica. Esto se debe a que la potencia de una señal hace que la sensibilidad del oído varíe, necesitando más potencia de las señales próximas en frecuencia para poder oírlas. Enmascaramiento en Frecuencia Enmascaramiento en Frecuencia A una cierta distancia de la frecuencia enmascaradora, el efecto se reduce tanto que resulta despreciable; el rango de frecuencias en las que se produce el fenómeno se denomina banda crítica. Las componentes que pertenecen a la misma banda crítica se influyen mutuamente y no afectan ni se ven afectadas por las que aparecen fuera de ella. Enmascaramiento en Frecuencia Enmascaramiento en Frecuencia La amplitud de la banda crítica es diferente según la frecuencia en la que se sitúe y viene dada por unos determinados datos que demuestran que es mayor con la frecuencia. Enmascaramiento en el Tiempo Cuando se escucha un sonido de alta potencia y para de pronto, se sigue escuchando durante un breve instante de tiempo que puede enmascarar a otras señales. El umbral de percepción cambia en el tiempo. Enmascaramiento en el Tiempo Se enmascara un sonido si este se genera dentro de cierto tiempo después de la generación del enmascarador. Enmascaramiento en el Tiempo El efecto de enmascaramiento depende de la presión de sonido enmascarante, la frecuencia y las características de este y del sonido enmascarado Codificación con Pérdidas 1. 2. Se divide la señal de audio en bandas de frecuencia mediante filtros convolucionales de tal forma que se corresponden con 32 bandas críticas. Filtrado subbanda. Se determina el umbral de potencia de cada banda crítica considerando el fenómeno de enmascaramiento por las bandas contiguas a partir de un modelo psicoacústico. Codificación con Pérdidas Codificación con Pérdidas 3. Si la potencia de una banda es menor que el umbral no se codifica. En caso contrario, se determina el número de bits necesario para representar el coeficiente tal que el ruido introducido en la cuantificación sea menor que el efecto de enmascaramiento Codificación con Pérdidas Por ejemplo, si los niveles de potencia de las bandas son: Banda 1 2 3 4 5 6 7 8 9 10 Nivel (dB) 0 8 12 10 6 2 10 60 35 20 Si el nivel en la octava banda es de 60dB, según el modelo psicoacústico provoca un enmascaramiento de 12dB sobre la banda 7 y 15dB sobre la banda 9. • El nivel en la banda 7 es 10dB (<12dB), por lo tanto la enmascara y se ignora. • El nivel en la banda 9 es de 35dB (> 15dB), por lo tanto se codifica. Codificación con Pérdidas Codificación con Pérdidas La señal fuente se divide en bandas de frecuencia y estas señales son cuantizadas independientemente. La señal fuente es transformada y los coeficientes resultantes son cuantizados y transmitidos, en lugar de la señal en el tiempo. Codificación con pérdidas Codificación de Audio Codificación de Audio Voz Música Forma de Onda Pérdidas (Losy) Sin pérdidas (Lossless) Parametricos Híbridos Predicción Bloques Decorrelación Codificación Entropica Transformada Codificación de audio Calidad Muestreo (KHz) Bits/muestra Modo Tasa bits (Kbps) de Frecuencia (Hz) Teléfono 8 8 Mono 64 Radio AM 11.025 8 Mono 88 Radio FM 22.050 16 Estéreo 705.6 CD 44.1 16 Estéreo 1411.2 20 – 20000 DAT 48 16 Estéreo 1536 20 – 20000 200 – 3400 Codificación sin pérdidas Su principal meta es eliminar la información redundante Luego del proceso de compresión y descompresión la señal que se obtiene es idéntica a la original. Algunos formatos son: FLAC, SHORTEN, MONKEY, ALAC, MPEG4 LOSSLESS. Codificación sin pérdidas Existen 2 tipos de metodos codificación sin pérdidas (lossless compression):por prediccion y por transformada. La mayoria de los codificadores estan basados en 3 bloques: segmentacion, decorrelacion y codificación entropica. Modelo de predicción Modelo por transformada Codificación Entropica Los metodos de codificación entropica mas utilizados son: Huffman y rice coding. Bibliografia Handbook for Sound Engineers, Glen Ballou. Sound system engineering, Don davis Theory of electronic music, Miller Puckette Lossless compression for digital audio, Mat hans Lossless transform coding for audio signals, Tilman Liebchen,