viernes, 8 de marzo de 2013

Bits y Muestreo: Entendiendo el audio digital (Parte 2)

(continúa del post anterior)

Ahora que ya entendimos cómo es el proceso básico de conversión A/D, un poco más sobre esto:

Valores aceptados. Sabemos que la cantidad de bits representa el rango dinámico de la señal, así que con una señal en 24 bits  alcanza y sobra, teniendo en cuenta que nos permitiría trabajar teóricamente con 144 dB (pasando el umbral del dolor del oído humano). Por otro lado, la frecuencia de muestreo comenzó con 44.1 kHz acorde al teorema de Nyquist-Shannon, que decía que una señal analógica puede ser representada en un medio digital teniendo como límite de frecuencia superior a la mitad de la frecuencia de muestreo (si queremos digitalizar una señal analógica hasta una frecuencia f, debemos utilizar una frecuencia de muestreo superior a 2f, o sea, por lo menos 2f+1). Dado que por convención se estableció que un ser humano joven y sano escucha hasta 20kHz, y teniendo en cuenta la naturaleza de los filtros pasa bajos involucrados en la conversión, se decidió por una frecuencia de muestreo de 44.1 kHz para el CD. Con la masividad del CD, eso se convirtió en standard.

Los ceros no suman. El audio una vez que se convierte de analógico (señal de un micrófono) a digital (al entrar a la computadora) queda "traducido" bajo estos dos parámetros (la cantidad de bits y la sampling rate). Si, por ejemplo, tenemos un audio grabado en 16 bits,  y luego dentro de la compu lo reconvertimos a 24 bits, el procesamiento no puede inventar información que no existió al momento de la conversión. O sea, esos 8 bits agregados posteriormente no van a hacer que suene mejor, ni más fuerte, ni con mayor definición.

¿Entonces qué significa cuando un software se publicita "32 bits punto flotante"? Esas palabras hablan de la capacidad de cálculo de un software, no de la conversión. Cada vez que uno aplica un proceso de cálculo digital, se produce cierta degradación (aunque sea ínfima) en la señal. Si repetimos muchos procesos (y cuando hablo de muchos, es una MUY importante cantidad de plugins, o seteos muy extremos en los plugins, dithering, renders/consolidates, etc) esa degradación se puede llegar a notar como un mínimo ruido inducido por redondeos o truncamiento en los cálculos. Esos 32 bits son fáciles de confundir por el usuario común, pero en realidad es algo de lo que el 95 % de los usuarios jamás notará ni sacará provecho. Esos 32 bits de punto flotante NO cambian la calidad del audio por sí mismos, sino que evitarían una sutil degradación cuando se llega a una cantidad de cálculos extrema en los archivos de audio generados posteriormente, producto del procesamiento dentro de una computadora.

Mejoras en la vida real. Entonces tenemos un beneficio que no va a aprovechar la gran mayoría de los consumidores, ¿y tiene alguna desventaja? Bueno, el peso de un archivo de 32 bits vs. el mismo en 24 bits es un 50% mayor. Es decir, una sesión en 24 bits de 20 gigas va a pesar 30 gigas nada más que por el extra de trabajar con archivos de 32 bits. Y si lo comparamos con los de 16 bits, es el doble de tamaño de archivo. A su vez necesita de discos rígidos más rápidos, y buses de datos con mejor transmisión para que no se sature al aumentar la cantidad de datos suministrados.

Frecuencias de muestreo superiores. Con las sampling rates sucede algo parecido pero no tanto, porque estas diferencias son más fáciles de percibir. Sabemos que el CD Audio es 16 bits, 44.1 kHz. También que en audio para imagen, por una cuestión de sincronismo, se trabaja en 48 kHz. ¿Y entonces para qué vamos a usar frecuencias superiores como 88.2, 96, 176.4 y 192 kHz, e incluso 352.8 y 384 kHz? Hay muchísimo debate sobre este punto.

Lo que nos quieren vender algunos fabricantes de tecnología es "mayor sample rate = mejor calidad de sonido", y esto no es del todo cierto. En definitiva la diferencia la hace la calidad del conversor, de la electrónica, de la fabricación. Un buen conversor trabajando a 48 kHz va a sonar mejor que un conversor mediocre trabajando a 192 kHz.

Sí, es cierto, ya fue comprobado por experimentos y mediciones científicas -y no sólo por fanatismo de audiófilos- que hay muchos instrumentos que vibran por arriba del rango audible. Y también es cierto que estas señales en alta frecuencia producen intermodulaciones sobre otras que sí están en nuestro rango audible. Pero para que esa diferencia sea notable, tiene que mantenerse la cadena de elementos que trabajen en ese rango: una fuente (instrumento) que emita en ese rango, un transductor (micrófono) que capte ese rango, y lo mismo con el preamplificador, conversor, entorno acústico, etc. Si se cumple todo eso, recién ahí valdrá la pena la discusión.

Downsampling. Antes de empezar una sesión / grabación / conversión, se decide la frecuencia de muestreo en la que se trabajará, principalmente teniendo en cuenta el formato final de la obra. ¿Por qué? Porque también se producirán errores en el cálculo final del audio, una vez que se transporta desde la sample rate "de sesión" hasta la sample rate "final" (la que va a ser usada en el producto comercial: 44.1 kHz si es CD, 48 kHz si es para video, etc). Para minimizar esa degradación producto de esa conversión final, llamada "downsampling", muchas veces se elige una sample rate de sesión que es múltiplo de la final, de manera que no haya cálculos de redondeo involucrados sino que directamente se descarte una de cada dos muestras y haya menos manoseo numérico de ese audio digital. Por ejemplo: si se sabe que el formato final es 44.1 kHz (CD), se puede trabajar en 88.2 kHz o 176.4 kHz; si por el contrario estamos haciendo un trabajo para imagen en 48 kHz, se puede trabajar en 96 kHz o en 192 kHz.

No hay comentarios:

Publicar un comentario