CODIFICADOR MP3 EN MATLAB

Este sitio está dedicado al formato de audio MPEG-1 Capa III


Contenido

Principal

Psicoacústica
Definición
Aspectos relevantes
Conclusión

Grupo MPEG
Historia
Estándares MPEG
Audio MPEG

Codificación MP3
La Capa III
Análisis psicoacústico
Filtro híbrido
Cuantización
Formato
Encabezado
Información secundaria
Datos principales

Descargas

Links


CODIFICACIÓN MP3

FILTRO HÍBRIDO

1) Filtro pasaaltos. El estándar ISO/IEC 11172-3 proporciona respuesta en frecuencia hasta el nivel de DC (corriente directa ó 0 Hz). Sin embargo, para ciertas aplicaciones, se puede incluir un filtro pasaaltos a la entrada del codificador, con su frecuencia de corte ubicada entre 2 y 10 Hz. La aplicación de tal filtro evita el innecesario requerimiento de una alta tasa de bits para la subbanda más baja y aumenta la calidad total en el sonido.


2) Banco de filtros polifásico. Bautizado como "FILTRO ANÁLISIS", es uno de los bloques más importantes, usado en todas las capas del codificador de audio MPEG.

Fuente: PAN, Davis. A tutorial on MPEG/Audio compression. En: IEEE Multimedia Journal. Vol. 2 No. 2 (Summer 1995).


Su función es dividir la señal de audio en 32 subbandas; estas subbandas están igualmente espaciadas en frecuencia, y no reflejan exactamente las bandas críticas del oído.

El oído tiene una limitada selectividad en frecuencia que varía en exactitud desde menos de 100 Hz para las frecuencias más bajas hasta un poco más de 4 KHz para las frecuencias más altas. El ancho de banda que proporcionan los filtros es demasiado amplio para las bajas frecuencias, y demasiado estrecho para las altas frecuencias; así que el número de bits del cuantizador no se puede optimizar para la sensitividad al ruido dentro de cada banda crítica. Entonces, lo mejor es que al espectro audible se le hagan particiones en bandas críticas (por medio de la transformada MDCT) que reflejen la selectividad en frecuencia del oído humano.

El filtro es relativamente simple, pero da una buena resolución en el tiempo con una aceptable resolución en frecuencia. El banco de filtros polifásico presenta pérdidas; inclusive sin cuantización no hay posibilidad de recuperar exactamente la señal de entrada. Afortunadamente, el oído humano no es capaz de percibir el error introducido por el banco de filtros. También existe solapamiento en frecuencia entre bandas adyacentes del filtro; por lo tanto, una señal en una frecuencia particular puede afectar las dos salidas adyacentes en el banco de filtros.


3) Transformada discreta del coseno modificada. La Capa III procesa las salidas del banco de filtros con una DCT Modificada de 6 ó 18 puntos y 50% de solapamiento, con el fin de compensar la falta de precisión del banco de filtros, logrando subdividir la salida espectral en frecuencias que proporcionen mejor resolución con respecto a las bandas críticas. Usando 18 puntos, el número máximo de componentes frecuenciales es:

32 x 18 = 576

Dando lugar a una resolución frecuencial de:

24000/576 = 41,67 Hz (si fs = 48 KHz)

Si se usan 6 líneas de frecuencia la resolución frecuencial es menor, pero la temporal es mayor, y se aplica en aquellas zonas en las que se espera efectos de preeco (transiciones bruscas de silencio a altos niveles energéticos, como por ejemplo justo antes de un sonido percusivo). En estos casos se produce un transitorio con elevados errores de cuantización, debido a la saturación del cuantizador. Al realizar la decodificación, el error se distribuye por toda la trama, ocasionando que las partes de silencio ya no sean silencio, sino que presenten parte de la energía de las otras regiones de la trama. Esto obliga al uso de ventanas MDCT temporales más pequeñas que limitan el efecto de preeco a un número menor de muestras, en comparación con el uso de ventanas grandes; logrando de esta manera, reducir la distorsión. El preenmascarmiento temporal evita que la distorsión restante sea audible. La transformación MDCT no presenta pérdidas comparada con el banco de filtros análisis.


La Capa III tiene tres modos de bloque: dos modos donde las 32 salidas del banco de filtros pueden pasar a través de las ventanas y las transformadas MDCT; todas las salidas con la misma longitud de bloque. Y un modo de bloque mixto donde las dos bandas de frecuencia más baja usan bloques largos y las 30 bandas superiores usan bloques cortos. La decisión del modo de bloque a ser usado recae sobre el modelo psicoacústico: si la señal presenta muchos transitorios se debe usar bloque corto, correspondiente a tres ventanas cortas; pero si la señal es más estacionaria, se debe usar bloque largo, correspondiente a una ventana larga. El cambio entre modos no es instantáneo; un bloque largo con una ventana de datos especializada (ventana larga a corta o, ventana corta a larga) proporciona el mecanismo de transición entre modos. En la siguiente figura se muestran los cuatro (4) tipos de ventana que se usan durante el proceso MP3: (a) NORMAL, (b) transición de ventana larga a corta (START), (c) 3 ventanas cortas (SHORT), y (d) transición de ventana corta a larga (STOP).


Si se ejecuta la MDCT sobre cualquiera de las ventanas largas (NORMAL, START, o STOP), se producirán 18 líneas de frecuencia debido al 50% de solapamiento. Cuando se usan las tres ventanas cortas se producirán 3 grupos; cada grupo con 6 líneas de frecuencia que pertenecen a diferentes intervalos de tiempo. El proceso de la transformación MDCT sobre cualquier tipo de bloque producirá, entonces, 576 líneas de frecuencia referidas como "GRÁNULO" (subdivisión de una trama).

En resumen, el proceso que se ha mostrado es: 576 muestras PCM de entrada se convierten en 576 muestras subbanda. El solapamiento, antes de la MDCT, ocasiona que esta cantidad se duplique: en este punto son 1152 muestras subbanda, las cuales finalmente producen 576 coeficientes MDCT (líneas de frecuencia) de salida.

Antes de continuar, se realiza la reducción del aliasing introducido por el filtro análisis. Este proceso se realiza aquí, para lograr reducción en la cantidad de información a ser codificada y transmitida. La reducción se logra a través de cálculos mariposa de 256 puntos como se ve en la siguiente figura.


Cada cálculo mariposa se computa como se muestra en la siguiente figura, donde los valores cai y csi son dos coeficientes proporcionados por el estándar internacional ISO/IEC 11172-3.


[ Principal ]
Psicoacústica: [
Definición | Aspectos relevantes | Conclusión ]
Grupo MPEG: [
Historia | Estándares MPEG | Audio MPEG ]
Codificación MP3: [
La Capa III | Análisis psicoacústico | Filtro híbrido | Cuantización | Formato
Encabezado | Información secundaria | Datos principales ]
[
Descargas ]
[
Links ]