Contenido
Principal
Psicoacústica
Definición
Aspectos relevantes
Conclusión
Grupo MPEG
Historia
Estándares MPEG
Audio
MPEG
Codificación MP3
La Capa III
Análisis psicoacústico
Filtro híbrido
Cuantización
Formato
Encabezado
Información secundaria
Datos principales
Descargas
Links
|
GRUPO MPEG
AUDIO MPEG
Todas las partes de MPEG-1 y MPEG-2
que se han reseñado corresponden a estándares
internacionales. Pero al audio sólo corresponden las
siguientes partes: la parte tres de ambos estándares; y
la parte siete del MPEG-2, Codificación Avanzada de
Audio (AAC, Advanced Audio Coding), a la que
también se refieren como MPEG-2 Capa 7 o MPEG-2 NBC (Non-Backwards
Compatible) ya que es incompatible con el MPEG-1 y
con los otros formatos del MPEG-2. La parte-3 está
organizada como se muestra en la siguiente figura.

En la tabla que se muestra a continuación, se resumen
las características de cada nivel para el audio MPEG-1.

El audio de los CD's (frecuencia de 44.1 KHz,
codificación a 16 bits, modo estéreo) requiere una tasa
de transferencia (ancho de banda) muy cercano a 1.5 Mbps:

Sólo ocho segundos de audio consumen aproximadamente 1.5
MB de espacio de almacenamiento. Empleando el primer
esquema de codificación, Capa I, la calidad CD se
alcanza con una tasa de apenas 384 Kbps; éste fue el
esquema usado en el DCC (Digital Compact Cassette,
Casete Compacto Digital) de la firma Philips.
El siguiente esquema, Capa II,
lograba la calidad CD con apenas 192 Kbps; su uso más
común fue en estaciones de radio digital en
Norteamérica, donde se conoció como MUSICAM.
Pero la popularidad del audio
comprimido explotó con la aparición de la Capa III; el
famoso MP3, que sólo necesita 128 Kbps para lograr la
calidad de audio de CD. Así que un minuto de audio de
alta calidad requiere apenas 1 MB de espacio de
almacenamiento; en 650 MB (la capacidad de un CD) se
pueden almacenar hasta 15 horas de música.
Las principales diferencias entre
las tres capas son:
- El incremento en la
complejidad del codificador y el decodificador
(Capa I más simple, Capa III más compleja),
especialmente verdadero para el codificador de la
Capa III.
- El mayor tiempo de respuesta
al hacer la evaluación del
codificador-decodificador (codec). La Capa III
consume más tiempo para realizar el proceso de
generar y/o leer los flujos de bits codificados.
- Y el incremento en el
desempeño (Capa I más bajo, Capa III más alto
desempeño; teniendo en cuenta que la tasa de
bits permanece constante). Es decir, el audio
codificado a 96 Kbps usando el esquema de la Capa
III tiene más calidad que si se codifica a 96
Kbps con el esquema de la Capa II, o con el de la
Capa I.
Para la segunda generación de los estándares, MPEG-2,
se introdujo la extensión para las bajas tasas de
muestreo, que apuntan a las aplicaciones con muy baja
tasa de bits y con requerimientos limitados de ancho de
banda (las nuevas frecuencias de muestreo son 16, 22.05 y
24 KHz; mientras que las tasas de bits disminuyen hasta 8
Kbps).
Además de lo anterior, también se
añadió una extensión multicanal a las frecuencias de
muestreo tradicionales (32, 44.1 y 48 KHz) con capacidad
para cinco canales principales de audio (izquierdo,
centro, derecho, surround izquierdo y surround
derecho); opcionalmente se puede añadir un canal
adicional que mejora la calidad en las bajas frecuencias
que manejan las señales subwoofer.
Y adicionalmente, se incluyó una
extensión pensada para múltiples idiomas que permite
siete canales más de comentarios (sólo se envía un
canal de video junto con siete diferentes lenguajes),
ahorrando, de esta manera, gran cantidad de ancho de
banda. A los canales de comentarios les es permitido
tener una tasa de muestreo correspondiente a la mitad de
la tasa de muestreo usada en el canal de alta fidelidad.
También es importante mencionar
que un decodificador MPEG-1 creado para la Capa III debe
ser capaz de manejar flujos de bits codificados con los
esquemas de las Capas I y II. Y debido a que MPEG-2, en
su primera fase, usa la misma familia de codificadores y
decodificadores de audio, entonces puede decodificar
flujos de bits MPEG-1, sin importar el esquema (capa) de
codificación.
CODIFICADOR PSICOACÚSTICO
Un codificador psicoacústico por subbandas, del mismo
tipo que se usa en el audio MPEG-1, se muestra en el
siguiente diagrama de bloques.

MPEG-1 Capa I. Para la Capa I, el bloque
"MAPEO DEL TIEMPO A LA FRECUENCIA" es un banco
de filtros polifásico basado en la DCT, el cual divide
el audio en 32 subbandas igualmente espaciadas en
frecuencia (es equivalente a implementar filtros
pasabanda), cada una aportando 12 muestras para un total
de 384 muestras, las cuales se incluyen en lo que ha
recibido el nombre de "TRAMA".
El "MODELO PSICOACÚSTICO" sólo usa
enmascaramiento en frecuencia, por medio de una FFT de
512 puntos. La salida de la FFT se usa para encontrar
tanto el enmascaramiento tonal (sinusoidal) como el
no-tonal (ruido) de la señal. Cada componente de
enmascaramiento produce un umbral de enmascaramiento
dependiente de su frecuencia, intensidad y tonalidad.
Para cada subbanda, los umbrales de enmascaramiento
individuales se combinan para formar el umbral de
enmascaramiento global. El umbral de enmascaramiento se
compara con el máximo nivel de señal para la subbanda,
produciendo una relación señal a máscara (SMR,
Signal-to-Mask Ratio), que es la entrada al siguiente
bloque (cuantizador).
El "CUANTIZADOR/CODIFICADOR" primero examina
las muestras de cada subbanda, encontrando el valor
máximo absoluto de esas muestras, y realizando la
cuantización con seis bits. Estos seis bits se llaman
"FACTOR DE ESCALA PARA LA SUBBANDA". Luego se
determina la repartición de bits para cada subbanda
minimizando la SMR total con respecto a los bits
repartidos para cada subbanda. Por último, las muestras
subbanda son linealmente cuantizadas teniendo en cuenta
la repartición de bits para esa subbanda.
El "EMPAQUETAMIENTO DE TRAMA" se encarga de
formar un flujo MPEG válido. Cada trama comienza con
información del encabezado para sincronización y
control, además de un CRC (Código de Redundancia
Cíclica) para detección y corrección de errores. Cada
una de las 32 subbandas usa cuatro bits para describir la
repartición de bits (nivel de cuantización) y seis bits
para el factor de escala. Los bits restantes en la trama
se usan para las muestras subbanda, con un espacio
opcional para información extra.
A 48 KHz, cada trama en la Capa I lleva información de 8
ms de audio. La calidad más alta se logra a 384 Kbps.
Aplicaciones típicas de la Capa I incluyen grabación
digital en cintas, discos duros o discos
magneto-ópticos, los cuales soportan la alta tasa de
bits.
MPEG-1 Capa II. El "MAPEO DEL
TIEMPO A LA FRECUENCIA" es el mismo de la Capa I, un
banco de filtros polifásico tipo DCT con 32 subbandas;
pero usa tres conjuntos de muestras en el filtro
(anterior, actual, próximo) logrando 36 muestras por
subbanda para un total de 1152 muestras subbanda.
El "MODELO PSICOACÚSTICO" es similar al de la
Capa I, pero usa una FFT de 1024 puntos para una mejor
resolución en frecuencia, y añade un poco de
enmascaramiento temporal. El procedimiento es igual al de
la capa anterior para producir las SMR para cada una de
las 32 subbandas.
El "CUANTIZADOR/CODIFICADOR" genera factores de
escala de seis bits para cada subbanda, igual que en la
Capa I. Sin embargo, las tramas de la Capa II son tres
veces más largas que aquellas de la Capa I, así que la
Capa II permite tres factores de escala sucesivos para
cada subbanda, y el codificador usa 1, 2 o los 3
factores, dependiendo de cuánto difieran entre sí. De
esta manera se logra, en promedio, reducir a la mitad la
cantidad de bits que se usan para los factores de escala,
en comparación con el consumo de bits para los factores
de escala usado con el esquema de la Capa I. La
repartición de bits se computa de manera similar a la
repartición que se realiza en la Capa I.
El "EMPAQUETAMIENTO DE TRAMA" usa la misma
estructura de encabezado y CRC de la Capa I. Sin embargo,
el número de bits usados para describir la repartición
de bits varía con la subbanda: cuatro (4) bits para las
subbandas bajas, tres (3) bits para las subbandas medias
y dos (2) bits para las subbandas altas (debido a que se
tiene en cuenta el ancho de las bandas críticas). Los
factores de escala (1, 2 ó 3 dependiendo de los datos)
se codifican junto con un código de 2-bits que describe
cuál combinación de factores de escala se está usando.
Las muestras subbanda son cuantizadas de acuerdo a la
repartición de bits, y luego combinadas en grupos de
tres (llamados gránulos). Cada gránulo se codifica con
un código especial. Esto permite a la Capa II capturar
mucha más información irrelevante en la señal, en
comparación con la Capa I.
A 48 KHz, cada trama en la Capa II lleva 24 ms de audio.
La calidad más alta se alcanza a tasas de 256 Kbps,
aunque a 64 Kbps tiene un nivel aceptable. Las
aplicaciones de esta capa incluyen radiodifusión de
audio, grabación profesional y multimedia.
MPEG-1 Capa III. La Capa III es mucho más
compleja que la Capa II. Usa un banco de filtros híbrido
conmutado (conformado por un filtro polifásico DCT
similar al de la capa II y por una transformación MDCT)
que ayuda a incrementar la resolución en frecuencia,
permitiendo dividir el audio en bandas que se ajustan a
las bandas críticas del oído (no hay igual
espaciamiento entre subbandas). Emplea un modelo
psicoacústico que incluye los efectos totales del
enmascaramiento tanto en la frecuencia como en el tiempo.
Utiliza un sofisticado esquema de codificación por
entropía y cuantización no uniforme donde se involucran
la redundancia estéreo y los códigos de Huffman,
permitiendo crear tramas de longitud variable. El
empaquetamiento de trama incluye el bit reservoir, que
permite usar más bits en partes de la señal que lo
necesiten. Además, permite alta calidad en el audio a
tasas tan bajas como 64 Kbps.
[ Principal ]
Psicoacústica: [ Definición | Aspectos relevantes | Conclusión ]
Grupo MPEG: [ Historia | Estándares MPEG | Audio MPEG ]
Codificación MP3: [ La Capa III | Análisis psicoacústico | Filtro híbrido | Cuantización | Formato
Encabezado | Información secundaria | Datos principales ]
[ Descargas ]
[ Links ]
|