Exploración de codificador MPEG-2

Anuncio
UNIVERSIDAD AUTÓNOMA DE COLOMBIA
Exploración de
codificador MPEG - 2
[Escribir el subtítulo del documento]
24/02/2009
Desarrollo de los primeros pasos para la demostración del estándar de codificación
MPEG -2.
Introducción a MPEG -2
MPEG-2 es una norma de codificación de vídeo creado por el Moving Picture Experts
Group (MPEG) y finalizó en 1994. Ahora desde el 2005, este formato estándar es usado
para la televsion saletital, televisión digital por cable, películas en DVD y televisión de
alta definición (HDTV). Además, MPEG-2 es un formato de uso común para distribuir
archivos de vídeo en Internet.
MPEG-2 es una evolución del MPEG-1, que fue el estándar de codificación MPEG
anterior que fue culminado en 1991 1, lo que hace mejor este tipo de codificación es:
− Soporte para una mayor resolución de vídeo.
− Sopote para vídeo entrelazado (como es usado en el estándar de televisión
(SDTV)).
− Optimizado para una mayor velocidad de bits (normalmente 4 Mb / s y superiores,
frente a 1,5 Mb / s, y por debajo para el MPEG-1).
− Escalabilidad a través de capas de codificación para apoyar una variedad de
cualidades de anchos de banda para niveles / transmisión de un código de fuente.
Estas características, más la base de la tecnología MPEG-1, hacen que MPEG-2 sea muy
atractivo para almacenamiento y transmisión de video. El nivel de compresión
ajustable permite una reducción significativa de la tasa de bits con una notable
diferencia 2 (jnd) en calidad de vídeo o en mayor calidad de vídeo para una velocidad
de fija de bits.
Compresión MPEG-2
El formato MPEG-2 es básicamente una serie de cuadros codificados uno tras otro. Hay
cabeceras y sellos de tiempo para ayudar a alinear los decodificadores de audio a
través de la maleza y flujo de bits [2], pero los detalles no son importantes para
comprender las técnicas de codificación. Lo que sigue es una breve descripción de las
técnicas de compresión MPEG-2, sin centrarse en las especificaciones exactas del flujo
de bits.
Modelo del color
Codificar un cuadro (frame) en formato MPEG-2 siempre empieza por representar el
color original del cuadro (frame) en formato YCbCr 3. La componente Y representa la
luminancia y Cb,Cr representan las diferencias de crominancia. Los tres componentes
de este modelo de color son en su mayoría no correlacionados (uncorrelated) por lo
que esta transformación es un primer paso útil en la reducción de información
redundante en el cuadro(frame).
1
En las normas que cualquier decodificador MPEG-2 se puede decodificar un video MPEG-1.
Just Joticeable Difference (jnd) [1]
3
http://en.wikipedia.org/wiki/YCbCr
2
Submuestreo de la crominancia
Otro camino para reducir la cantidad de información que será codificada es
aprovechando las características de la visión humana. El ojo humano es mucho más
sensible a la luminancia que a la crominancia, así que es común submuestrear ambos
canales de crominancia. El formato de submuestreo 4 más utilizado se denota por 4:2:0,
lo que significa que se toman la mitad de las muestras de crominancia en la dirección
horizontal y vertical. Ambos canales de crominancia se reducen a una cuarta parte del
original y de esta manera el efecto neto para la porción de datos del cuadro (frame) se
reduce a la mitad con casi ningún efecto sobre la percepción de la calidad de la
imagen.
Codificación basada en bloques
MPEG-2 utiliza codificación basada en bloque. Esto significa que un cuadro (frame) no
está codificado en su conjunto, sino que se divide en muchos bloques de código de
forma independiente. Un macrobloque es de 16x16 píxeles y es una unidad básica de
la codificación MPEG-2 y cada macrobloque se divide en bloques de 8x8 píxeles. Esto
resulta en 6 bloques por macrobloque -- 4 para luminancia y 2 para crominancia
(suponiendo 4:2:0 submuestreo de crominancia)[4].
Estos tamaños de bloque fueron escogidos en parte debido a las pequeñas secciones
de un cuadro (frame) natural de vídeo (no generado por ordenador o editado) es
probable que se correlacionen. Esta correlación ayuda a las próximas etapas de
codificación trabajen más eficiente.
Cuadros (frames) I, P y B
El próximo paso de codificación puede variar de cuadro (frame) a cuadro (frame). Hay
actualmente tres tipos posibles de cuadros (frames), llamados I, P, y B cuadros
(frames).
 Imágenes I (Intra):
 Sólo utilizan la DCT. Proporcionan acceso aleatorio a la secuencia de
vídeo. Están formadas por bloques de 8x8 que se transforman,
cuantifican y codifican. Pueden usarse para predecir imágenes P y B. Es
una manera de limpiar el error.
 Imágenes P (Predicted):
 Se codifican utilizando compensación de movimiento forward a partir
de una imagen I u otra imagen P. Acumulan errores. Pueden usarse para
predecir otras imágenes P o imágenes B.
 Imágenes B (Bidireccionales)
 Se codifican utilizando predicción bidireccional, que puede ser forward,
backward o una combinación de ambas. No se acumulan los errores ya
que nunca se utilizan como referencia de otras imágenes.
4
http://en.wikipedia.org/wiki/Chrominance_format
Referencias
1. http://www.usd.edu/psyc301/WebersLaw.htm
[1]
Just noticeable difference
From Wikipedia, the free enciclopedia
In psychophysics, a just noticeable difference, customarily abbreviated with
lowercase letters as jnd, is the smallest detectable difference between a
starting and secondary level of a particular sensory stimulus.[1] It is also known
as the difference limen or the differential threshold.
Explanation
For many sensory modalities, over a wide range of stimulus magnitudes
sufficiently far from the upper and lower limits of perception, the 'jnd' is a fixed
proportion of the reference sensory level, and so the ratio of the jnd/reference
is roughly constant (that is the jnd is a constant proportion/percentage of the
reference level). Measured in physical units, we have
where is the original intensity of stimulation,
is the addition to it required
for the difference to be perceived (the jnd), and k is a constant. This rule was
first discovered by Ernst Heinrich Weber, in experiments on the thresholds of
perception of lifted weights. A theoretical rationale (not universally accepted)
was subsequently provided by Gustav Fechner, so the rule is therefore known
either as the Weber Law or as the Weber–Fechner law; the constant k is called
the Weber constant. It is true, at least to a good approximation, of many but
not all sensory dimensions, for example the brightness of lights, and the
intensity and the pitch of sounds. It is not true, however, of the wavelength of
light. Stanley Smith Stevens argued that it would hold only for what he called
prothetic sensory continua, where change of input takes the form of increase in
intensity or something obviously analogous; it would not hold for metathetic
continua, where change of input produces a qualitative rather than a
quantitative change of the percept.
The jnd is a statistical, rather than an exact quantity: from trial to trial, the
difference that a given person notices will vary somewhat, and it is therefore
necessary to conduct many trials in order to determine the threshold. The jnd
usually reported is the difference that a person notices on 50% of trials. If a
different proportion is used, this should be included in the description—for
example one might report the value of the "75% jnd".
Modern approaches to psychophysics, for example signal detection theory,
imply that the observed jnd, even in this statistical sense, is not an absolute
quantity, but will depend on situational and motivational as well as perceptual
factors.
References
1.
Weber's Law of Just Noticeable Difference, University of South Dakota:
http://www.usd.edu/psyc301/WebersLaw.htm
[2]
[4]
Descargar