Codificación de Audio

Anuncio
Codificación de Audio
Por
José Ricardo Zapata González
[email protected]
www.upb.edu.co/audio
Codificación de Audio
Las metas principales de la codificación de audio
son lograr:
„ Menor velocidad de transmisión de la señal
digital resultante.
„ Menor cantidad de bits para su almacenamiento.
Parámetros
„
„
„
„
Muestreo: 8khz o 44.1khz
Canales: 1, 2 , 4, 5, 6, 7, 8
Tipo de señal: Voz o Música.
Velocidad de transmisión: 64 Kbps o 1.4Mbps
¿Como reducir la información?
„
„
„
„
Disminuir la Frecuencia de muestreo → Menos
ancho de banda y aliasing.
Disminuir el numero de canales → Se pierde la
sensancion de espacialidad.
Disminuir el tamaño de las muestras → Ruido
de cuantización.
Utilizar compresión de datos. ☺
Compresión de Datos
Los dos principios fundamentales son:
„ Remover la información REDUNDANTE.
„ Las señales de audio son muy redundantes
por naturaleza. No existen cambios drásticos
en instantes cortos de tiempo.
„ Remover la información IRRELEVANTE.
„ Las señales de audio están ligadas
íntimamente a la percepción humana.
Codificación de Audio
Codificación de Audio
Voz
Música
Es Diferente el Tratamiento que se le da a las
señales de voz y de música:
„ Voz : Muestreo 8Khz @ 8bits, Monofónico
„ Música: Muestreo 44.1khz @ 16 bits, Estereo
(PCM @ 16 bits)
Codificación de Audio
Codificación de Audio
Voz
Forma de Onda
Parametricos
Música
Híbridos
Codificación de voz
Un buen codificador de voz debe cumplir:
„ Baja tasa de bits.
„ Alta calidad en la inteligibilidad
„ Buen desempeño independiente del micrófono ,
el lenguaje, genero, etc.
„ Buen desempeño con señales diferentes a la voz.
„ Bajo nivel computacional y Memoria necesaria.
„ Bajo retardo de codificación.
Clasificación de codificadores de voz
„
„
Forma de onda: Tratan de preservar la forma
de onda de la señal original. Generalmente
pueden ser usados en cualquier sonido. (Ej:
PCM, ADPCM, entre otros). Muy buena calidad
Parámetricos: Se asume que la señal de voz es
generada por algún modelo, y este es controlado
por ciertos parámetros. Normalmente el modelo
utilizado es el tracto vocal que es implementado
como un filtro variable en el tiempo. (Ej: LPC,
MELP). Calidad regular
Clasificación de codificadores de voz
„
Hibridos: Tratan de fusionar las cualidades de
los codificadores de forma de onda y los
parámetricos.
Su calidad es buena y no gasta tanto ancho de
banda como los de forma de onda para su
transmisión. (Ej: CELP)
Clasificación de codificadores de voz
„
„
„
„
„
„
ITU G.711: Voz telefónica. 64 kbps
ITU G.721: Voz telefónica. 32 kbps
ITU G.722: Voz de banda ancha. 64 kbps
ITU G.728: Voz de banda ancha. 16 kbps
LPC-10E: Voz telefónica. 2.4 kbps
IS-54: Voz radio celular digital. 8 kbps
Codificación de Audio
Codificación de Audio
Voz
Música
Forma de Onda
Parametricos
Híbridos
Pérdidas (Losy)
Sin pérdidas (Lossless)
Codificación de audio
Calidad
Muestreo
(KHz)
Bits/muestra
Modo
Tasa
bits
(Kbps)
de Frecuencia
(Hz)
Teléfono
8
8
Mono
64
Radio AM
11.025
8
Mono
88
Radio FM
22.050
16
Estéreo
705.6
CD
44.1
16
Estéreo
1411.2
20 – 20000
DAT
48
16
Estéreo
1536
20 – 20000
200 – 3400
Codificación con pérdidas
„
„
„
„
Su principal meta es eliminar la información irrelevante.
Para lograr esto se basan en el análisis perceptual de las
señales de audio y la interacción de estas con el oído
humano (PSICO-ACÚSTICA)
Las principales características de la audición
aprovechadas por la psico-acústica son: Sensibilidad del
oído, Enmascaramiento en frecuencia y
enmascaramiento temporal.
Ejemplos: MP3, WMA, AAC, OGG VORBIS, ETC
Sensibilidad del oído
„
„
El oído humano percibe un rango de frecuencias
entre 20 Hz. y 20 KHz. la sensibilidad es mayor
en la zona alrededor de los 1-4 KHz
La sensibilidad depende de la frecuencia del
sonido, de esta forma, dos frecuencias con la
misma intensidad acústica son interpretadas por
nuestro oído de forma diferente, teniendo la
sensación de que una es más fuerte que otra, o
incluso, oír una y no la otra.
Sensibilidad del oído
„
La curva que indica cual es la potencia mínima
(umbral) que nuestro oído detecta es la curva de
sensibilidad.
Sensibilidad del oído
dB
120 fon
110
120
110
100
100
90
90
80
80
70
70
60
Lp 60
50
50
40
40
30
30
20
10
0
20
20
Contornos de
FletcherMunson
100
10
0
500 1000
f
5000 10000 Hz
Enmascaramiento en Frecuencia
„
„
„
Un sonido deja de ser escuchado (percibido) en
presencia de otro de mayor intensidad. Sonido
enmascarador y sonido enmascarado.
El enmascaramiento es más notorio cuando los
sonidos simultáneos pertenecen a una misma
banda crítica.
Esto se debe a que la potencia de una señal hace
que la sensibilidad del oído varíe, necesitando
más potencia de las señales próximas en
frecuencia para poder oírlas.
Enmascaramiento en Frecuencia
Enmascaramiento en Frecuencia
„
„
A una cierta distancia de la frecuencia
enmascaradora, el efecto se reduce tanto que
resulta despreciable; el rango de frecuencias en
las que se produce el fenómeno se denomina
banda crítica.
Las componentes que pertenecen a la misma
banda crítica se influyen mutuamente y no
afectan ni se ven afectadas por las que aparecen
fuera de ella.
Enmascaramiento en Frecuencia
Enmascaramiento en Frecuencia
„
La amplitud de la banda crítica es diferente
según la frecuencia en la que se sitúe y viene
dada por unos determinados datos que
demuestran que es mayor con la frecuencia.
Enmascaramiento en el Tiempo
„
„
Cuando se escucha un sonido de alta potencia y
para de pronto, se sigue escuchando durante un
breve instante de tiempo que puede enmascarar
a otras señales.
El umbral de percepción cambia en el tiempo.
Enmascaramiento en el Tiempo
„
Se enmascara un sonido si este se genera dentro
de cierto tiempo después de la generación del
enmascarador.
Enmascaramiento en el Tiempo
„
El efecto de enmascaramiento depende de la
presión de sonido enmascarante, la frecuencia y las
características de este y del sonido enmascarado
Codificación con Pérdidas
1.
2.
Se divide la señal de audio en bandas de
frecuencia mediante filtros convolucionales de tal
forma que se corresponden con 32 bandas
críticas. Filtrado subbanda.
Se determina el umbral de potencia de cada banda
crítica considerando el fenómeno de
enmascaramiento por las bandas contiguas a partir
de un modelo psicoacústico.
Codificación con Pérdidas
Codificación con Pérdidas
3.
Si la potencia de una banda es menor que el
umbral no se codifica. En caso contrario, se
determina el número de bits necesario para
representar el coeficiente tal que el ruido
introducido en la cuantificación sea menor que el
efecto de enmascaramiento
Codificación con Pérdidas
Por ejemplo, si los niveles de potencia de las bandas son:
Banda
1 2 3 4 5 6 7 8 9 10
Nivel (dB) 0 8 12 10 6 2 10 60 35 20
Si el nivel en la octava banda es de 60dB, según el
modelo psicoacústico provoca un enmascaramiento
de 12dB sobre la banda 7 y 15dB sobre la banda 9.
• El nivel en la banda 7 es 10dB (<12dB), por lo tanto
la enmascara y se ignora.
• El nivel en la banda 9 es de 35dB (> 15dB), por lo
tanto se codifica.
Codificación con Pérdidas
Codificación con Pérdidas
„
„
La señal fuente se divide en bandas de
frecuencia y estas señales son cuantizadas
independientemente.
La señal fuente es transformada y los
coeficientes resultantes son cuantizados y
transmitidos, en lugar de la señal en el tiempo.
Codificación con pérdidas
Codificación de Audio
Codificación de Audio
Voz
Música
Forma de Onda
Pérdidas (Losy)
Sin pérdidas (Lossless)
Parametricos
Híbridos
Predicción
Bloques
Decorrelación
Codificación Entropica
Transformada
Codificación de audio
Calidad
Muestreo
(KHz)
Bits/muestra
Modo
Tasa
bits
(Kbps)
de Frecuencia
(Hz)
Teléfono
8
8
Mono
64
Radio AM
11.025
8
Mono
88
Radio FM
22.050
16
Estéreo
705.6
CD
44.1
16
Estéreo
1411.2
20 – 20000
DAT
48
16
Estéreo
1536
20 – 20000
200 – 3400
Codificación sin pérdidas
„
„
„
Su principal meta es eliminar la información
redundante
Luego del proceso de compresión y
descompresión la señal que se obtiene es
idéntica a la original.
Algunos formatos son: FLAC, SHORTEN,
MONKEY, ALAC, MPEG4 LOSSLESS.
Codificación sin pérdidas
„
„
Existen 2 tipos de metodos codificación sin
pérdidas (lossless compression):por prediccion y
por transformada.
La mayoria de los codificadores estan basados
en 3 bloques: segmentacion, decorrelacion y
codificación entropica.
Modelo de predicción
Modelo por transformada
Codificación Entropica
„
Los metodos de codificación entropica mas
utilizados son: Huffman y rice coding.
Bibliografia
„
„
„
„
„
Handbook for Sound Engineers, Glen Ballou.
Sound system engineering, Don davis
Theory of electronic music, Miller Puckette
Lossless compression for digital audio, Mat hans
Lossless transform coding for audio signals,
Tilman Liebchen,
Descargar