CODIFICADOR MP3 EN MATLAB

Este sitio está dedicado al formato de audio MPEG-1 Capa III


Contenido

Principal

Psicoacústica
Definición
Aspectos relevantes
Conclusión

Grupo MPEG
Historia
Estándares MPEG
Audio MPEG

Codificación MP3
La Capa III
Análisis psicoacústico
Filtro híbrido
Cuantización
Formato
Encabezado
Información secundaria
Datos principales

Descargas

Links


GRUPO MPEG

AUDIO MPEG

Todas las partes de MPEG-1 y MPEG-2 que se han reseñado corresponden a estándares internacionales. Pero al audio sólo corresponden las siguientes partes: la parte tres de ambos estándares; y la parte siete del MPEG-2, Codificación Avanzada de Audio (AAC, Advanced Audio Coding), a la que también se refieren como MPEG-2 Capa 7 o MPEG-2 NBC (Non-Backwards Compatible) ya que es incompatible con el MPEG-1 y con los otros formatos del MPEG-2. La parte-3 está organizada como se muestra en la siguiente figura.


En la tabla que se muestra a continuación, se resumen las características de cada nivel para el audio MPEG-1.


El audio de los CD's (frecuencia de 44.1 KHz, codificación a 16 bits, modo estéreo) requiere una tasa de transferencia (ancho de banda) muy cercano a 1.5 Mbps:


Sólo ocho segundos de audio consumen aproximadamente 1.5 MB de espacio de almacenamiento. Empleando el primer esquema de codificación, Capa I, la calidad CD se alcanza con una tasa de apenas 384 Kbps; éste fue el esquema usado en el DCC (Digital Compact Cassette, Casete Compacto Digital) de la firma Philips.

El siguiente esquema, Capa II, lograba la calidad CD con apenas 192 Kbps; su uso más común fue en estaciones de radio digital en Norteamérica, donde se conoció como MUSICAM.

Pero la popularidad del audio comprimido explotó con la aparición de la Capa III; el famoso MP3, que sólo necesita 128 Kbps para lograr la calidad de audio de CD. Así que un minuto de audio de alta calidad requiere apenas 1 MB de espacio de almacenamiento; en 650 MB (la capacidad de un CD) se pueden almacenar hasta 15 horas de música.

Las principales diferencias entre las tres capas son:

  • El incremento en la complejidad del codificador y el decodificador (Capa I más simple, Capa III más compleja), especialmente verdadero para el codificador de la Capa III.
  • El mayor tiempo de respuesta al hacer la evaluación del codificador-decodificador (codec). La Capa III consume más tiempo para realizar el proceso de generar y/o leer los flujos de bits codificados.
  • Y el incremento en el desempeño (Capa I más bajo, Capa III más alto desempeño; teniendo en cuenta que la tasa de bits permanece constante). Es decir, el audio codificado a 96 Kbps usando el esquema de la Capa III tiene más calidad que si se codifica a 96 Kbps con el esquema de la Capa II, o con el de la Capa I.


Para la segunda generación de los estándares, MPEG-2, se introdujo la extensión para las bajas tasas de muestreo, que apuntan a las aplicaciones con muy baja tasa de bits y con requerimientos limitados de ancho de banda (las nuevas frecuencias de muestreo son 16, 22.05 y 24 KHz; mientras que las tasas de bits disminuyen hasta 8 Kbps).

Además de lo anterior, también se añadió una extensión multicanal a las frecuencias de muestreo tradicionales (32, 44.1 y 48 KHz) con capacidad para cinco canales principales de audio (izquierdo, centro, derecho, surround izquierdo y surround derecho); opcionalmente se puede añadir un canal adicional que mejora la calidad en las bajas frecuencias que manejan las señales subwoofer.

Y adicionalmente, se incluyó una extensión pensada para múltiples idiomas que permite siete canales más de comentarios (sólo se envía un canal de video junto con siete diferentes lenguajes), ahorrando, de esta manera, gran cantidad de ancho de banda. A los canales de comentarios les es permitido tener una tasa de muestreo correspondiente a la mitad de la tasa de muestreo usada en el canal de alta fidelidad.

También es importante mencionar que un decodificador MPEG-1 creado para la Capa III debe ser capaz de manejar flujos de bits codificados con los esquemas de las Capas I y II. Y debido a que MPEG-2, en su primera fase, usa la misma familia de codificadores y decodificadores de audio, entonces puede decodificar flujos de bits MPEG-1, sin importar el esquema (capa) de codificación.


CODIFICADOR PSICOACÚSTICO

Un codificador psicoacústico por subbandas, del mismo tipo que se usa en el audio MPEG-1, se muestra en el siguiente diagrama de bloques.


MPEG-1 Capa I. Para la Capa I, el bloque "MAPEO DEL TIEMPO A LA FRECUENCIA" es un banco de filtros polifásico basado en la DCT, el cual divide el audio en 32 subbandas igualmente espaciadas en frecuencia (es equivalente a implementar filtros pasabanda), cada una aportando 12 muestras para un total de 384 muestras, las cuales se incluyen en lo que ha recibido el nombre de "TRAMA".

El "MODELO PSICOACÚSTICO" sólo usa enmascaramiento en frecuencia, por medio de una FFT de 512 puntos. La salida de la FFT se usa para encontrar tanto el enmascaramiento tonal (sinusoidal) como el no-tonal (ruido) de la señal. Cada componente de enmascaramiento produce un umbral de enmascaramiento dependiente de su frecuencia, intensidad y tonalidad. Para cada subbanda, los umbrales de enmascaramiento individuales se combinan para formar el umbral de enmascaramiento global. El umbral de enmascaramiento se compara con el máximo nivel de señal para la subbanda, produciendo una relación señal a máscara (SMR, Signal-to-Mask Ratio), que es la entrada al siguiente bloque (cuantizador).

El "CUANTIZADOR/CODIFICADOR" primero examina las muestras de cada subbanda, encontrando el valor máximo absoluto de esas muestras, y realizando la cuantización con seis bits. Estos seis bits se llaman "FACTOR DE ESCALA PARA LA SUBBANDA". Luego se determina la repartición de bits para cada subbanda minimizando la SMR total con respecto a los bits repartidos para cada subbanda. Por último, las muestras subbanda son linealmente cuantizadas teniendo en cuenta la repartición de bits para esa subbanda.

El "EMPAQUETAMIENTO DE TRAMA" se encarga de formar un flujo MPEG válido. Cada trama comienza con información del encabezado para sincronización y control, además de un CRC (Código de Redundancia Cíclica) para detección y corrección de errores. Cada una de las 32 subbandas usa cuatro bits para describir la repartición de bits (nivel de cuantización) y seis bits para el factor de escala. Los bits restantes en la trama se usan para las muestras subbanda, con un espacio opcional para información extra.

A 48 KHz, cada trama en la Capa I lleva información de 8 ms de audio. La calidad más alta se logra a 384 Kbps. Aplicaciones típicas de la Capa I incluyen grabación digital en cintas, discos duros o discos magneto-ópticos, los cuales soportan la alta tasa de bits.


MPEG-1 Capa II. El "MAPEO DEL TIEMPO A LA FRECUENCIA" es el mismo de la Capa I, un banco de filtros polifásico tipo DCT con 32 subbandas; pero usa tres conjuntos de muestras en el filtro (anterior, actual, próximo) logrando 36 muestras por subbanda para un total de 1152 muestras subbanda.

El "MODELO PSICOACÚSTICO" es similar al de la Capa I, pero usa una FFT de 1024 puntos para una mejor resolución en frecuencia, y añade un poco de enmascaramiento temporal. El procedimiento es igual al de la capa anterior para producir las SMR para cada una de las 32 subbandas.

El "CUANTIZADOR/CODIFICADOR" genera factores de escala de seis bits para cada subbanda, igual que en la Capa I. Sin embargo, las tramas de la Capa II son tres veces más largas que aquellas de la Capa I, así que la Capa II permite tres factores de escala sucesivos para cada subbanda, y el codificador usa 1, 2 o los 3 factores, dependiendo de cuánto difieran entre sí. De esta manera se logra, en promedio, reducir a la mitad la cantidad de bits que se usan para los factores de escala, en comparación con el consumo de bits para los factores de escala usado con el esquema de la Capa I. La repartición de bits se computa de manera similar a la repartición que se realiza en la Capa I.

El "EMPAQUETAMIENTO DE TRAMA" usa la misma estructura de encabezado y CRC de la Capa I. Sin embargo, el número de bits usados para describir la repartición de bits varía con la subbanda: cuatro (4) bits para las subbandas bajas, tres (3) bits para las subbandas medias y dos (2) bits para las subbandas altas (debido a que se tiene en cuenta el ancho de las bandas críticas). Los factores de escala (1, 2 ó 3 dependiendo de los datos) se codifican junto con un código de 2-bits que describe cuál combinación de factores de escala se está usando. Las muestras subbanda son cuantizadas de acuerdo a la repartición de bits, y luego combinadas en grupos de tres (llamados gránulos). Cada gránulo se codifica con un código especial. Esto permite a la Capa II capturar mucha más información irrelevante en la señal, en comparación con la Capa I.

A 48 KHz, cada trama en la Capa II lleva 24 ms de audio. La calidad más alta se alcanza a tasas de 256 Kbps, aunque a 64 Kbps tiene un nivel aceptable. Las aplicaciones de esta capa incluyen radiodifusión de audio, grabación profesional y multimedia.


MPEG-1 Capa III.
La Capa III es mucho más compleja que la Capa II. Usa un banco de filtros híbrido conmutado (conformado por un filtro polifásico DCT similar al de la capa II y por una transformación MDCT) que ayuda a incrementar la resolución en frecuencia, permitiendo dividir el audio en bandas que se ajustan a las bandas críticas del oído (no hay igual espaciamiento entre subbandas). Emplea un modelo psicoacústico que incluye los efectos totales del enmascaramiento tanto en la frecuencia como en el tiempo. Utiliza un sofisticado esquema de codificación por entropía y cuantización no uniforme donde se involucran la redundancia estéreo y los códigos de Huffman, permitiendo crear tramas de longitud variable. El empaquetamiento de trama incluye el bit reservoir, que permite usar más bits en partes de la señal que lo necesiten. Además, permite alta calidad en el audio a tasas tan bajas como 64 Kbps.


[ Principal ]
Psicoacústica: [
Definición | Aspectos relevantes | Conclusión ]
Grupo MPEG: [
Historia | Estándares MPEG | Audio MPEG ]
Codificación MP3: [
La Capa III | Análisis psicoacústico | Filtro híbrido | Cuantización | Formato
Encabezado | Información secundaria | Datos principales ]
[
Descargas ]
[
Links ]