|
CODIFICADOR MP3 EN MATLAB Este sitio está dedicado al formato de audio MPEG-1 Capa III |
|
Psicoacústica Grupo MPEG Codificación MP3 |
FILTRO HÍBRIDO 1) Filtro pasaaltos. El estándar ISO/IEC 11172-3 proporciona respuesta en frecuencia hasta el nivel de DC (corriente directa ó 0 Hz). Sin embargo, para ciertas aplicaciones, se puede incluir un filtro pasaaltos a la entrada del codificador, con su frecuencia de corte ubicada entre 2 y 10 Hz. La aplicación de tal filtro evita el innecesario requerimiento de una alta tasa de bits para la subbanda más baja y aumenta la calidad total en el sonido.
Fuente: PAN, Davis. A tutorial on MPEG/Audio compression. En: IEEE Multimedia Journal. Vol. 2 No. 2 (Summer 1995).
El oído tiene una limitada selectividad en frecuencia que varía en exactitud desde menos de 100 Hz para las frecuencias más bajas hasta un poco más de 4 KHz para las frecuencias más altas. El ancho de banda que proporcionan los filtros es demasiado amplio para las bajas frecuencias, y demasiado estrecho para las altas frecuencias; así que el número de bits del cuantizador no se puede optimizar para la sensitividad al ruido dentro de cada banda crítica. Entonces, lo mejor es que al espectro audible se le hagan particiones en bandas críticas (por medio de la transformada MDCT) que reflejen la selectividad en frecuencia del oído humano. El filtro es relativamente simple, pero da una buena resolución en el tiempo con una aceptable resolución en frecuencia. El banco de filtros polifásico presenta pérdidas; inclusive sin cuantización no hay posibilidad de recuperar exactamente la señal de entrada. Afortunadamente, el oído humano no es capaz de percibir el error introducido por el banco de filtros. También existe solapamiento en frecuencia entre bandas adyacentes del filtro; por lo tanto, una señal en una frecuencia particular puede afectar las dos salidas adyacentes en el banco de filtros.
32 x 18 = 576 Dando lugar a una resolución frecuencial de: 24000/576 = 41,67 Hz (si fs = 48 KHz) Si se usan 6 líneas de frecuencia la resolución frecuencial es menor, pero la temporal es mayor, y se aplica en aquellas zonas en las que se espera efectos de preeco (transiciones bruscas de silencio a altos niveles energéticos, como por ejemplo justo antes de un sonido percusivo). En estos casos se produce un transitorio con elevados errores de cuantización, debido a la saturación del cuantizador. Al realizar la decodificación, el error se distribuye por toda la trama, ocasionando que las partes de silencio ya no sean silencio, sino que presenten parte de la energía de las otras regiones de la trama. Esto obliga al uso de ventanas MDCT temporales más pequeñas que limitan el efecto de preeco a un número menor de muestras, en comparación con el uso de ventanas grandes; logrando de esta manera, reducir la distorsión. El preenmascarmiento temporal evita que la distorsión restante sea audible. La transformación MDCT no presenta pérdidas comparada con el banco de filtros análisis.
En resumen, el proceso que se ha mostrado es: 576 muestras PCM de entrada se convierten en 576 muestras subbanda. El solapamiento, antes de la MDCT, ocasiona que esta cantidad se duplique: en este punto son 1152 muestras subbanda, las cuales finalmente producen 576 coeficientes MDCT (líneas de frecuencia) de salida. Antes de continuar, se realiza la reducción del aliasing introducido por el filtro análisis. Este proceso se realiza aquí, para lograr reducción en la cantidad de información a ser codificada y transmitida. La reducción se logra a través de cálculos mariposa de 256 puntos como se ve en la siguiente figura.
[ Principal ] |