CODIFICADOR MP3 EN MATLAB

Este sitio está dedicado al formato de audio MPEG-1 Capa III


Contenido

Principal

Psicoacústica
Definición
Aspectos relevantes
Conclusión

Grupo MPEG
Historia
Estándares MPEG
Audio MPEG

Codificación MP3
La Capa III
Análisis psicoacústico
Filtro híbrido
Cuantización
Formato
Encabezado
Información secundaria
Datos principales

Descargas

Links


PSICOACÚSTICA

ASPECTOS RELEVANTES

Hay cuatro aspectos que son los más interesantes y útiles para el desarrollo de un codificador MP3.


1. Mínimo umbral auditivo

Este umbral, también conocido como umbral absoluto, corresponde al sonido de intensidad más débil que se puede escuchar en un ambiente silencioso. El mínimo umbral auditivo no tiene un comportamiento lineal; se representa por una curva de Intensidad (dB) contra Frecuencia (Hz), que posee niveles mínimos entre 2 y 5 KHz, los cuales corresponden a la parte más sensitiva del oído humano. Por lo tanto, en los sistemas de compresión de audio que sacan provecho de la psicoacústica, no es necesario codificar los sonidos situados bajo este umbral (el área por debajo de la curva), ya que éstos no serán percibidos.


2. Enmascaramiento.

El efecto de enmascaramiento se basa en las limitantes del oído humano para responder a todas las componentes de un sonido complejo. Durante los sonidos fuertes, no se pueden oír los sonidos más débiles. Por ejemplo, cuando un músico organista no está tocando, se puede escuchar el resoplido de los tubos; y cuando el músico toca, se pierde el sonido de éstos porque ha sido enmascarado.


2.1. Enmascaramiento en frecuencia.

Funciona de manera que un sonido en determinada frecuencia puede enmascarar o disminuir el nivel de otro sonido en las frecuencias adyacentes, siempre y cuando el nivel del sonido enmascarante sea más alto (un sonido más intenso, más fuerte) que el nivel del sonido adyacente.


2.2. Enmascaramiento temporal.

Se presenta cuando un tono suave está muy cercano en el dominio del tiempo (unos cuantos milisegundos) a un tono fuerte. Si se está escuchando un tono suave y aparece un tono fuerte, el tono suave será enmascarado por el tono fuerte, antes de que el tono fuerte efectivamente aparezca (preenmascaramiento). Posteriormente, cuando el tono fuerte desaparece, el oído necesita un pequeño intervalo de tiempo (entre 50 y 300 ms) para que se pueda seguir escuchando el tono suave (post-enmascaramiento).


Con el post-enmascaramiento no hay problemas; pero el preenmascaramiento sugiere que un tono será enmascarado por otro tono, antes de que el tono enmascarador realmente aparezca, atentando contra el buen juicio de cualquier oyente. Para este fenómeno, se han presentado dos explicaciones:

1) El cerebro integra el sonido sobre un período de tiempo, y procesa la información por ráfagas en la corteza auditiva, o

2) Simplemente, el cerebro procesa los sonidos fuertes más rápido que los sonidos suaves.

Sin importar el mecanismo, el caso es que el preenmascaramiento temporal en verdad existe, así sea exageradamente pequeño (se ha calculado con un valor aproximado de 30 ms).

En un sonido cualquiera, se presentan ambos tipos de enmascaramiento. El enmascaramiento en frecuencia es mucho más importante que el enmascaramiento temporal; aunque en ciertos dispositivos para compresión de audio se tienen en cuenta ambos tipos de enmascaramiento, con lo cual se logra mejor compresión de datos. Superponiendo ambas gráficas en una sola que presente tres ejes, se puede ver una curva bajo la cual están todos los sonidos que no pueden ser escuchados.


3. Joint stereo o estéreo conjunto.

Si una señal de audio es estereofónica se puede lograr comprimirla, con base en la irrelevancia o redundancia entre ambos canales. Por ejemplo, en muchas locaciones de alta fidelidad, existe un único y potente altavoz denominado "BOOMER". Sin embargo, se tiene la impresión de que el sonido proviene de diferentes fuentes como si existieran parlantes en todas las direcciones. En la realidad, por debajo de una frecuencia determinada, el oído ya no es capaz de localizar el origen espacial de los sonidos. De esta manera, algunas frecuencias se pueden grabar como señal monofónica seguida por un pequeño código para lograr restaurar un pequeño porcentaje de espacialización en la decodificación.


4. Las bandas críticas y el bark.


4.1. Bandas críticas.

Estudios de la discriminación en frecuencia del oído han demostrado que en las bajas frecuencias, tonos con unos cuantos Hertz de separación pueden ser distinguidos; sin embargo, en las altas frecuencias para poder discriminar los tonos se necesita que estén separados por cientos de Hertz. En cualquier caso, el oído responde al estimulo más fuerte que se presente en sus diferentes regiones de frecuencia; a este comportamiento se le da el nombre de bandas críticas. Los estudios muestran que las bandas críticas son mucho más estrechas en las bajas frecuencias que en las altas; el 75% de las bandas críticas están por debajo de los 5 KHz, lo que implica que el oído recibe más información en las bajas que en las altas frecuencias. Las bandas críticas tienen un ancho de aproximadamente 100 Hz para las frecuencias de 20 a 400 Hz; este ancho aumenta de manera logarítmica a medida que aumenta la frecuencia. Se ha comprobado que el ancho de las bandas críticas se puede aproximar con la fórmula:

Ancho de la banda crítica (Hz) = 24.7 (4.37F + 1)

F es la frecuencia central en KHz.


Las bandas críticas son comparables a un analizador de espectro con frecuencia central variable. Más importante aún es el hecho de que las bandas críticas no son fijas; son continuamente variables en frecuencia y cualquier tono audible creará una banda crítica centrada en él. Mirado desde otro punto de vista, el concepto de la banda crítica es un fenómeno empírico: una banda crítica es el ancho de banda al cual las respuestas subjetivas cambian abruptamente.


4.2. El bark.

El bark (en honor al físico alemán Georg Heinrich Barkhausen) es la unidad de frecuencia perceptual; específicamente, un bark mide la tasa de banda crítica, o sea, una banda crítica tiene un ancho de un bark. La escala bark relaciona la frecuencia absoluta (en Hz) con las frecuencias medidas perceptualmente (el caso de las bandas críticas). Usando el bark, un sonido en el dominio de la frecuencia puede ser convertido a sonido en el dominio psicoacústico. De esta manera, un tono puro (representado por una componente en el dominio de la frecuencia) puede ser representado como una curva de enmascaramiento psicoacústico. Eberhard Zwicker modeló el oído con 24 bandas críticas arbitrarias para frecuencias por debajo de 15 KHz, con una banda adicional que ocupa la región entre 15 y 20 KHz. El bark (ancho de una banda crítica) puede calcularse con las siguientes fórmulas:

f = frecuencia.

Nota: Para determinar el ancho de una banda crítica, se pueden usar estas fórmulas o la fórmula mostrada anteriormente (en la cláusula 4.1).


De las consideraciones anteriores, se deduce que el umbral de enmascaramiento es diferente cuando se tienen en cuenta las bandas críticas. El umbral sin tener en cuenta las bandas críticas, sería:

Y teniendo en cuenta las bandas críticas:


[ Principal ]
Psicoacústica: [
Definición | Aspectos relevantes | Conclusión ]
Grupo MPEG: [
Historia | Estándares MPEG | Audio MPEG ]
Codificación MP3: [
La Capa III | Análisis psicoacústico | Filtro híbrido | Cuantización | Formato
Encabezado | Información secundaria | Datos principales ]
[
Descargas ]
[
Links ]