__. Del Estereo al Sonido Inmersivo

Tabla de contenidos

1. Sonido estéreo

2. Micrófonos de presión y de gradiente de presión

3. Diagramas de directividad de micrófonos

4. Diagramas polares cardioide, subcardioide y supercardioide

5. Técnicas de microfoneo estéreo

6. Ambisonics

6.1. Decodificación de Ambisonics a estéreo, 5.1 y otros posibles formatos de reproducción

6.2. Ambisonics de orden superior (Higher Order Ambisonics)

7. Sistemas de audio inmersivo

7.1. Espejos de inversión temporal (bonus track)

1. Sonido estéreo

En los primeros años del registro sonoro, las señales eran monoaurales. Una única señal captada por un único micrófono que luego se reproducía con un parlante.

En 1931 Alan Blumlein inventó lo que eligió llamar "sonido binaural" y que pasó a ser conocido como sonido esterofónico. Ho el término "sonido binaural" se utiliza con un sentido mucho más específico. Según cuenta la leyenda Blumlein se sentía incómodo observando películas de cine en las cuales el sonido siempre venía de un lado de la pantalla aún cuando los actores se moviesen de un lado a otro de la misma. Hoy parece una obviedad pensar en dos parlantes con diferentes señales, pero en esa época se utilizaba solamente un parlante en un lado de la pantalla.

Pensó en un sistema de dos parlantes que reprodujesen la señal con diferentes amplitudes para "simular" que la fuente estaba más cerca de uno de ellos. Es una idea que suena simple cuando nos la comentan por primera vez, pero en cierto modo es más o menos asombroso que funcione cuando se emiten sonidos al aire.

Conociendo el comportamiento de las ondas, no queda tan claro por qué dos fuentes se perciben como una sola en algún lugar intermedio. Para hacer esto más claro pensemos en que tenemos la capacidad de percibir la localización de una fuente sonora así como también tenemos la capacidad de localizar una fuente de luz, El sentido del olfato, en cambio, no está preparado para detectar localizaciones. En principio esto significa que si hay una fuente sonora emitiendo nuestro cerebro nos permite "saber" dónde está localizada la fuente, de modo que al tener una señal estéreo dos fuentes lo razonable sería que el cerebro las identifique a ambas como distintas y no que las funda en una sola en el medio. Si pensamos esto en fuentes de luz se vuelve más claro el tema. Lo que sucede con el estéreo sería equivalente a colocar dos fuentes de luz separadas y que lo que nos parezca ver es una sola fuente en el medio entre ambas un poco más cerca de la fuente más intensa.

La siguiente simulación muestra a la izquierda la emisión de una señal estéreo imitando una fuente aparente, y a la derecha la emisión de una fuente real ubicada en ese lugar. El punto de más abajo en cada mitad representaría un posible punto de escucha. Las situaciones son bastante diferentes. ¿Por qué deberíamos suponer que el oído va a considerar que ambas situaciones son iguales o siquiera bastante similares? ¿Por qué no detectamos en el caso estéreo la ubicación de las dos fuentes que realmente están presentes y tendemos a "fundir" la percepción en una sola?

No estamos diciendo aquí que el estéreo no genere una sensación semejante a la que pretende, sino más bien que los motivos por los cuales lo logra no son tan obvios y directos, y tienen más que ver con procesamiento complejo de nuestro sistema perceptivo que con una "imitación" de los fenómenos físicos involucrados. Lo mencionado aquí se aplica a la emisión al aire. Escuchando una señal estéreo con auriculares la cosa es diferente, pero tampoco imita lo que sucede en la realidad, como veremos al analizar lo que actualmente se conoce como "audio binaural".

En realidad, la posibilidad de que una señal estéreo emule a una fuente localizada en otro punto se debe a particularidades de nuestra percepción. Esto es, al particular procesamiento psicoacústico que realiza nuestra audición.

De todas maneras, el sistema propuesto por Blumlein funciona razonablemente bien, al punto que se lo sigue utilizando casi un siglo después. El siguiente video de YouTube muestra un breve film para promocionar la idea de que el estéreo permite localizar al actor en la pantalla.

¿Cómo se podía obtener en 1931 una señal estéreo?

La idea de disponer de una señal estéreo en la cual los sonidos estuviesen "paneados" hacia uno u otro canal puede realizarse actualmente a partir de disponer de equipamiento electrónico más complejo como una mesa de mezclas y grabaciones multipistas de cada instrumento por separado en cintas de varias pistas. Nada de esto estaba disponible en 1931. La escena sonora a registrar debía contener las localizaciones físicas reales de las fuentes sonoras (instrumentos o actores) y debía ser registrada en estéreo en forma directa por micrófonos.

Esto podría ser hecho mediante un par de micrófonos separados entre si, pero como veremos esto tiene algunas ventajas y algunos inconvenientes.

Blumlein, para dar forma al estéreo, desarrolla la técnica de microfoneo estéreo que hoy se conoce como "par Blumlein" y la técnica que se conoce como "MS", además de un sistema para obtener la suma y la resta de las señales que salen de ambos micrófonos. En su patente también propone un método para realizar cortes en V en discos planos de modo de poder plasmar las dos señales en un mismo surco con diferencias de inclinación de 90º entre ambos lados de la V.

Se analizarán los temas de "técnicas de microfoneo estéreo" en una siguiente sección, pero para ello debemos primero analizar los diagramas de directividad de los micrófonos (sus patrones polares de captación).

2. Micrófonos de presión y de gradiente de presión

Se denomina transductor al dispositivo que permite transformar la información basada un tipo de energía a otro tipo de energía. Un micrófono es un tipo particular de transductor que transforma la energía de las ondas sonoras en energía eléctrica. Existen diversos tipos de micrófono que utilizan distintos procedimientos para lograr esta conversión: dinámico (o bobina móvil), de cinta, de condensador (capacitor), piezoeléctrico y varios más. Una clasificación posible de micrófonos puede referirse entonces al procedimiento utilizado para realizar esta conversión. Un micrófono de bobina móvil utiliza una membrana unida a una bobina que puede oscilar cerca de un imán permanente. Un micrófono de condensador utiliza la propiedad de los capacitores de placas paralelas en las cuales la capacidad depende de la distancia entre placas. Manteniendo una placa que puede oscilar (tipo membrana conductora) y otra placa fija, logra que el sonido produzca variaciones de capacidad que pueden ser detectadas. Este tipo de clasificación, bastante usada, hace referencia al modo en que la vibración de la membrana se transforma en una señal eléctrica. Pero existe otro tipo de clasificación menos usada, pero importante para comprender ciertas características de funcionamiento de los micrófonos, que tiene en cuenta el modo particular en que la cápsula del micrófono convierte la onda sonora en vibración de la membrana.

Veamos cómo se pueden convertir las ondas sonoras que llegan a la cápsula en vibraciones de la membrana de micrófono. Existen en líneas generales dos maneras que pueden llamarse de cápsula cerrada y de cápsula abierta.

Micrófonos de cápsula cerrada (o micrófonos de presión)

Los micrófonos de cápsula cerrada funcionan como medidores de presión absoluta. En cierto modo, su funcionamiento se parece al de un barómetro elemental (como los de experimentos escolares de física). Se requiere un recipiente rígido con una abertura en la cual colocar una membrana elástica para encerrar el aire en su interior. Cuando la presión externa aumente, la membrana se hundirá. Cuando la presión externa disminuya, la membrana se curvará hacia afuera.

Un sistema con cápsula cerrada toma como referencia la presión atmosférica del momento en que se encierra aire dentro del recipiente. Su membrana oscila en función de la comparación entre la presión externa a la membrana y la interna a la cápsula.

El oído funciona de esta manera. La membrana del tímpano cierra un recipiente dentro de nuestro cráneo que contiene aire (en el oído medio, donde se encuentran los huecesillos).

El problema que se presenta al utilizar una cápsula cerrada para medir variaciones de presión sonora es que la membrana se moverá por comparación de la presión externa con la presión del aire al momento de "cerrar la cápsula". Si la presión atmosférica externa no varía respecto de la interna, las variaciones de presión sonora provocarán vibraciones en la membrana que podrán ser captadas por el sistema de los huecesillos. Pero si la presión atmosférica externa cambia (supongamos que aumenta), entonces la membrana del tímpano se hundiría un poco, Si en estas condiciones se producen variaciones de presión sonora, la membrana vibrará a partir de su nueva posición de equilibrio (algo hundida), lo que le quitará sensibilidad y limitará la excursión máxima que pueda realizar. Esto significa que para poder utilizar este sistema para medir presión sonora será necesario resetear la presión de aire que queda dentro de la cápsula antes de comenzar a medir presión sonora (para evitar los efectos de cambios en la presión atmosférica entre un día y otro, por ejemplo). El oído dispone de un conducto que comunica esta cavidad con la garganta y que se denomina Trompa de Eustaquio. Cada tanto este conducto se abre un instante para tomar muestras de aire a presión ambiente, Este mecanismo funciona perfectamente en situaciones normales. Sin embargo cuando se producen variaciones bruscas de presión puede no ser suficiente. Esto sucede cuando viajamos en avión, por ejemplo. En ese caso puede suceder que el mecanismo no actualice la presión interna, lo que provoca que la posición de equilibrio de la membrana del tímpano se corra (curvándose) lo que nos produce la sensación de tener el oído tapado. Bostezar o masticar chicles puede ayudar a que el sistema automático de reseteo de la presión funcione más frecuentemente para evitar este problema.

Veremos en la próxima sección cómo afecta el uso de cápsula cerrada en lo que un micrófono capta.

Micrófonos de cápsula abierta (o micrófonos de gradiente de presión)

Existe un modo alternativo de conseguir que la presión sonora se convierta en vibración de la membrana, y consiste en utilizar una membrana estirada sostenida desde sus bordes en la cual ambos lados de la membrana estén en contacto con la presión atmosférica.

En este caso la vibración de la membrana del micrófono se produce cuando un sonido pasa por la membrana y esta detecta una presión diferente en una y otra de sus caras a medida que la onda avanza. En la siguiente figura se muestra a la izquierda una vista de la membrana sostenida desde sus bordes. A la derecha arriba una vista lateral en un instante de avance de una onda de presión, y debajo esa misma onda de presión representada como una senoidal indicando las presiones detectadas por cada cara de la membrana. La membrana se mueve cuando hay diferencia de presión entre sus caras.

El término gradiente se emplea en el ámbito de la física para hacer referencia a la relación existente entre el cambio del valor de una magnitud en dos puntos y la distancia que se registra entre ellos. En otros términos hace referencia a la diferencia de presión (Δp) respecto de la diferencia de distancia entre lados de la membrana (Δx).

$g r a d i e n t e = \frac{Δ p}{Δ x}$

Una cápsula que utilice una membrana expuesta al aire de ambos lados genera diferente nivel de vibración dependiendo de la dirección en la que se propague la onda. En la siguiente figura se muestra la situación cuando la orientación de la membrana se modifica. En la situación mostrada, ambos lados de la membrana tienen igual nivel de presión y la membrana no se mueve. Esto es, si bien punto a punto de la membrana se detectan diferentes presiones, siempre el lado superior y el inferior tienen igual presión si la onda se traslada del modo mostrado (dirección paralela a la de la membrana).

Veremos pronto que estas diferencias entre cápsula abierta y cerrada serán las que determinen el patrón de directividad de un micrófono.

3. Diagramas de directividad de micrófonos

Diagrama de directividad (patrón de captación) de un micrófono de presión

En los micrófonos de presión (cápsula cerrada) la membrana se hundirá cuando la presión externa se mayor que la interna, en forma independiente de la dirección en la que llegue la onda.

En la siguiente figura se muestran dos situaciones en las que la onda se propaga de izquierda a derecha y de arriba a abajo. En ambas se muestra el instante en que el nivel de presión es de un color rojo, mientras que el interior de la cápsula tiene un color naranja. Si el rojo representa más nivel, en ambos casos (no importa desde donde venga la onda) la membrana se hundirá. La membrana está ubicada en la cara superior de la cápsula.

Figura 1 En ambos casos se puede ver Justo sobre la membrana un mayor nivel presión que dentro de la cápsula, por lo que sla membrana se moverá hacia abajo

Obviamente también pasará lo mismo si la onda se propaga desde la derecha, e incluso si se propaga de abajo hacia arriba. Este último caso suele ser menos intuitivo, pero puede notarse que debido a las paredes rígidas, no importa el sentido de propagación sino solamente la comparación entre el nivel de presión en la membrana por fuera contra la membrana por dentro.

Figura 2 En ambos casos se puede ver Justo sobre la membrana un mayor nivel presión que dentro de la cápsula, por lo que sla membrana se moverá hacia abajo

Si el sistema de transducción que convierte el movimiento de la membrana en señal eléctrica genera tensión positiva, por ejemplo, cada vez que se hunde la membrana para indicar que la presión externa es mayor que la de la cápsula, los cuatro casos entregarán una señal idéntica (en módulo y en fase).

Esto es característico de lo que se conoce como patrón omnidireccional (capta lo mismo en cualquier dirección de avance de la onda respecto del micrófono).

Diagrama de directividad (patrón de captación) de un micrófono de gradiente

Analicemos ahora lo que sucede con un micrófono de gradiente de presión (membrana libre).

Cuando la onda viene desde la izquierda en dirección coincidente con la propia membrana ambos lados de la membrana detectan igual nivel de presión, por lo que la membrana no se mueve.

Cuando la onda viene desde arriba en dirección perpendicular a la membrana ambos lados de la membrana tendrán diferente nivel de presión y la membrana se moverá.

En la figura se muestran ambas situaciones. Si el color rojo indica mayor presión, esto quiere decir que la membrana en el caso de la derecha se moverá hacia abajo (en el mismo sentido en que se habría movido si se tratase de una cápsula cerrada).

Figura 3 Cuando la onda viene lateralmente la presión es igual arriba y abajo de la membrana. Cuando la onda viene desde arriba la diferencia de presión empuja hacia abajo

En la siguiente figura se muestra primero una onda que avanza desde la derecha y luego una onda que avanza desde abajo. En este último caso el color rojo está debajo de la membrana lo que hará que se desplace hacia arriba (en sentido contrario al que tendría si se tratase de una cápsula cerrada).

Figura 4 Cuando la onda viene lateralmente la presión es igual arriba y abajo de la membrana. Cuando la onda viene desde abajo la diferencia de presión empuja hacia arriba

Este comportamiento es característico de un patrón de captación directivo que se conoce como "figura de 8", en donde el patrón de captación desde arriba y abajo es máximo y el patrón de captación desde los lados es nulo. Pero además, el análisis anterior deja claro que la onda que se recibe desde arriba generará tensión eléctrica de polaridad contraria a la de una onda que se recibe desde abajo. Esto es, en un micrófono de gradiente de presión el máximo de señal se consigue desde dos direcciones opuestas, pero una dirección genera señal con fase positiva y la otra con fase negativa.

NOTA: El micrófono de gradiente de presión es llamado algunas veces micrófono de velocidad. Esto se debe a que formalmente en física la velocidad es una magnitud vectorial que tiene un valor numérico (módulo) pero además tiene una dirección de propagación (ángulo). Los micrófonos de propagación son sensibles al ángulo de propagación, que es también el ángulo de velocidad de movimiento de las partículas (ya que el sonido es una onda longitudinal).

Diagramas polares

La representación de la directividad en un diagrama polar se basa en utilizar un círculo domo referencia e ir trazando marcando para cada ángulo de incidencia un punto. La distancia de ese punto al centro del círculo es equivalente al valor de señal que entrega el micrófono para ese ángulo.

Tomando un ejemplo en el que tanto el micrófono de presión como el de gradiente entregan un valor máximo de señal a la salida de 1 mV, tendremos los siguientes diagramas polares

4. Diagramas polares cardioide, subcardioide y supercardioide

Además de los diagramas omnidireccional y figura de 8 es posible obtener otros diagramas polares. ¿Cómo se consiguen estos otros diagramas?

Básicamente por combinación de los patrones mencionados antes, y esto puede lograrse de dos maneras: un modo de suma de señales eléctricas y un modo de modificación física de la cápsula.

Veremos primero el modo se suma de señales eléctricas. Supongamos que utilizamos un micrófono de presión y uno de gradiente de presión y enviamos sus salidas a una consola de mezclas para sumar sus señales con igual nivel. ¿Qué tipo de señal obtendremos? Supondremos que cada micrófono entrega 1 mV y que en cada canal aplicamos una amplificación de 60 dB con lo cual lleva ese nivel a 1 volt.

Si la señal viene desde arriba (0º) cada canal entregará 1 V y su suma dará por resultado 2 V. Si, en cambio, la señal viene desde la derecha (90º) el canal del micrófono de presión entregará 1 V y el de gradiente entregará 0 V, con lo que el total será 1 V.

Si viene desde abajo (180º) el de presión será de 1 V y el de gradiente de presión será -1 V con lo cual se obtendrá un total de 0 V. Por último, si viene de la izquierda (-90º) el total será 1 V.

En realidad se obtiene como resultado lo mismo que si sumásemos ambos diagramas polares, y al hacer esa suma en el gráfico notamos que se obtiene un nuevo patrón de directividad.

El patrón denominado "cardioide" se obtiene como suma para cada ángulo de los valores de un omnidireccional y de un figura de 8 (también llamado bidireccional).

Supongamos ahora que la suma la realizamos con distintos niveles de amplificación, dando un máximo de 1,2 volt para el omni y de 0,8 volts para el figura de 8. En ese caso para 0º (directo desde arriba) tendremos la suma de ambos valores, lo que dará 2 volts. A 90º (y también a -90º) tendremos el valor del omni en 1,2 volts, pero no habrá nivel para el figura de 8 que dará 0 volts, por lo que el total será de 1,2 volts. Por último, si analizamos lo que sucede a 180º, tendremos 1,2 volts del omni y -0,8 volts del figura de 8, lo que da un total de 0, 4 volts. El diagrama obtenido se muestra en la siguiente figura

Este diagrama se denomina "subcardioide" y se parece al cardioide pero su valor a 180º no llega a anularse.

NOTA: Siempre que el diagrama omnidireccional tenga más nivel que el figura de 8 el resultado de llama subcardioide, pero claramente dependiendo de la diferencia la forma particular del diagrama podrá variar ligeramente, aunque nunca llegará a valer cero en 180º.

Si al hacer la mezcla invertimos la relación entre niveles dando más nivel al diagrama de figura de 8, obtendremos el patrón denominado "supercardioide". Supongamos que el omni entre 0,8 volts y el figura de 8 entrega 1,2 volts. A 0º tendremos 2 volts, a 90º tendremos 0,8 volts (porque el figura de 8 da cero) y a 180º tendremos un valor positivo de 0,8 volts dados por el omni, junto a un valor negativo dado por el bidireccional de -1,2 volts. El resultado total será entonces de -0,4 volts, dando por resultado una especie de colita en 180º.

En realidad es común que los diagramas polares se representen en escala logarítmica. Dibujamos lineales los anteriores para que fuese más claro el proceso de sumar valores. La figura siguiente muestra que en escala en dB el omni no se deforma, pero el figura de 8 se ensancha algo (dependiendo del rango de dB que se muestre).

La siguiente figura muestra los patrones cardioide, subcardioide y supercardioide en escala logarítmica

Modo físico de obtener los patrones de directividad

El modo mencionado utiliza algún procedimiento que permita sumar las señales de dos micrófonos (o al menos de dos cápsulas que podrían estar dentro de un mismo micrófono). Sin embargo existe otra manera que suele utilizarse para conseguir patrones de directividad.

Dado que si la cápsula está completamente cerrada obtenemos un patrón omni, y si está completamente abierta obtenemos un figura de 8, cabe preguntarse si no es posible obtener los patrones intermedios con cápsulas que tengan un poco más o un poco menos de apertura. Esto es, cápsulas con ciertos orificios que comuniquen con el exterior. El detalle fino para lograr esto requiere mucho "know how" empresarial de diseño de las cápsulas, pero efectivamente es posible lograr patrones diferentes con distinto tipo de orificios en las cápsulas. Incluso es posible cambiar de patrón de directividad abriendo o cerrando estos orificios mediante algún tipo de tapa que pueda variarse.

5. Técnicas de microfoneo estéreo

Volvemos aquí a la pregunta del principio. ¿Cómo se podía obtener un registro estéreo en la época de Blumlein?

Un modo posible (que además parece una idea sencilla) sería ubicar simplemente un par de micrófonos, separados por una distancia equivalente a la de los oídos (algo menos de 20 cm). Sin embargo en la época de Blumlein esto representaba un problema que siguió presente mucho después incluso hasta nuestros días. Para entenderlo tenemos que ubicarnos en ese momento. Todos los registros existentes son monoaurales (los discos tienen una púa que registra una sola señal), por lo tanto si se crea un nuevo sistema estéreo y no se desea un fracaso comercial es necesario pensar en lograr un proceso que resulte compatible con los sistemas existentes. Esto quiere decir que los registros estéreos que obtengamos deberían poder convertirse en registros monoaurales mediante algún proceso sencillo.

Pero, ¿por qué tanto lío? ¿No alcanza simplemente con sumar las dos señales left y right, tal como solemos hacer hoy en día?

La respuesta es que esto se puede hacer hoy en día porque la mayoría de los sistemas estéreos tiene incorporada en forma automática la solución de Blumlein.

Veamos primero cuál sería el problema al utilizar dos micrófonos separados y sumar las señales para obtener una versión mono de nuestra grabación.La distancia de la fuente a cada micrófono sería distinta (excepto en el caso muy pero muy especial en que la fuente esté exactamente en el centro y justo es el caso donde la grabación estéreo tendría menos sentido). Esto significa que el registro de cada micrófono tendrá una diferencia de tiempos. Cuando sumemos las señales habrá cancelaciones de ciertas frecuencias e incremento de nivel de otras frecuencias. Básicamente la suma de dos señales con un retardo entre ellas provoca un filtro peine, que genera una desagradable ecualización en el sonido resultante.

¿y por qué no dejar sólo el registro left o el right como versión monoaural? Porque en casos como los que pretendía solucionar Blumlein para cine ubicando los actores claramente en un lado u otro de la pantalla tendríamos que la diferencia de niveles de ciertas voces entre un canal y otro serían importantes.

¿Cuál podría ser la solución a este problema? Pues evitar que exista cualquier retardo entre canales. De ese modo no se produciría filtro peine. Pero, ¿y entonces cómo se logra la sensación de una señal estéreo? Pues utilizando la característica de patrón direccional de algunos micrófonos.

Un modo de usarlos es colocar dos micrófonos de patrón cardioide con cierto ángulo entre ellos asegurándose de que sus cápsulas se encuentren lo más cercanas posible (a igual distancia de las fuentes sonoras).

La figura anterior muestra en forma esquemática la disposición. Las cápsulas deben estar juntas. Colocar una sobre otra es una solución posible ya que es común que en una grabación estéreo las fuentes se ubiquen en el plano horizontal, por lo tanto se mantendría una distancia igual entre las cápsulas y cada fuente sonora. De esta manera cualquier señal sonora llega simultáneamente a ambas cápsulas y no provoca filtro peine si se suman las señales para obtener una versión monoaural. Dado que los micrófonos son directivos el que capta la señal Left tiene su parte de mayor sensibilidad apuntando al lado izquierdo, mientras que el otro apunta al lado derecho. Esto significa que si un instrumento está a la izquierda será captado con más nivel por el micrófono izquierdo y con menos nivel con el derecho. Si el instrumento está en el centro será captado por igual nivel por ambos micrófonos, por lo que perceptivamente se ubicaría al centro en la imagen estéreo tal como se requiere.

Los registros esterofónicos que evitaban retardo entre canales comenzaron a llamarse registros estéreo "monocompatibles". A mediados del siglo pasado podía verse una especie de "sello" en las portadas de los discos con la leyenda "monocompatible" para indicar que si ese disco se escuchaba en un equipo monoaural el resultado sería aceptable.

La técnica mencionada de colocar dos micrófonos cardioide en ángulo con sus cápsulas una sobre la otra se conoce como técnica XY.

La patente de Blumlein incluyó esta técnica pero utilizando dos micrófonos figura de 8 (uno apuntando a -45º y el otro a 45º, para formar un ángulo de 90º entre ambos). Quizás porque no era tan común disponer en ese momento de patrones de directividad cardioide o quizás por una cuestión de costos. Esta técnica que utiliza patrones figura de 8 es conocida actualmente como "par Blumlein".

La técnica descripta al principio de utilizar dos micrófonos con separación entre sus cápsulas se utiliza también. El registro generado no es monocompatible, pero en la actualidad el tema de la monocompatibilidad no es un problema de tanto peso como a mediados del siglo XX. Adopta diferentes nombres dependiendo de la distancia entre los micrófonos y si se los deja rectos o se los inclina. Algunas versiones utilizan una separación equivalente a la de los oídos, mientras otras intencionalmente alejan más los micrófonos entre sí para generar un efecto más pronunciado. Cada una tiene sus pros y sus contras que no serán analizados aquí y que tiene más sentido tratarlos en contextos de grabación en estudio.

La patente original de Blumlein incluía otra técnica mucho más sofisticada y muy llamativa para la época, que derivó con el tiempo en lo que se conoce actualmente como técnica MS (por Mid Side: el medio y los lados). Explicaremos primero la propuesta original de Blumlein y luego la pequeña modificación de la técnica actual MS.

Para comprenderla retomaremos lo mencionado sobre sumar señales de micrófonos omni y figura de 8. Pensemos en que tenemos dos cápsulas una omni y otra figura de 8, sólo que en este caso la cápsula de figura de 8 se ubica de tal modo que su máximo de captación se encuentra apuntando hacia la izquierda. Del lado derecho tendrá también valor alto, pero con inversión de fase.

Ambos micrófonos tienen igual ganancia y sus señales se llevan a sendos canales de una consola y se suman. En base a lo que vimos previamente, esto genera un patrón cardioide que apunta hacia la izquierda.

Ahora supongamos que la consola permite invertir la fase de los canales (muchas lo permiten). Si invertimos la fase del figura de 8 antes de sumarlo lo que lograremos es que las señales que lleguen del lado derecho al figura de 8 terminen saliendo con tensión positiva del canal con inversión de fase y sumándose al nivel del omnidireccional. Esto da por resultado un micrófono cardioide que apunta hacia la derecha.

La figura siguiente muestra la configuración esquemática en una mesa de mezclas para lograr obtener en forma simultánea los patrones cardioides hacia la derecha y hacia la izquierda. En la figura se muestra que el cable que lleva señal de la cápsula figura de 8 (en verde) tiene una derivación en "Y" para copiar la misma señal en la entrada de dos canales (uno sin inversión y otro con inversión). La señal del micrófono omni se panea al centro, mientras que cada versión con y sin inversión se panean hacia los lados. A la salida se obtiene una señal estéreo como si hubiera sido captada por dos micrófonos cardioides colocados uno hacia la izquierda y otro hacia la derecha.

Uno podría preguntarse por qué tanto lío. ¿Por qué no poner simplemente dos micrófonos cardioides, uno hacia la izquierda y otro hacia la derecha?

La respuesta a esa pregunta requiere un paréntesis para refinar el análisis de la directividad teniendo en cuenta otras cosas que hemos trabajado en clases anteriores. Cuando explicamos el patrón de directividad de figura de 8 no tuvimos en cuenta que los efectos pueden cambiar con la longitud de onda. Sabemos que cuando las ondas se enfrentan a un obstáculo (como en este caso sería la membrana y la propia cápsula) el resultado depende de la relación entre la longitud de onda y el tamaño del obstáculo. Como resultado de ello los patrones de directividad reales no son idénticos a los ideales y en general se verifica que los patrones tienden a ser más directivos para altas frecuencias. Esto significa que los micrófonos cardioides tienen distinto tipo de forma (más o menos directiva) según la frecuencia. La figura siguiente muestra el patrón de directividad de un micrófono cardioide y cómo varía según la frecuencia.

Esto significa que si un micrófono cardioide capta un sonido qeu proviene desde 60º o de 90º no solamente generará una señal de menor nivel, sino que dicho nivel dependerá de la frecuencia (quitando más las componentes agudas), lo que genera cierta coloración. El problema de utilizar dos micrófonos cardioides reales sería que los instrumentos musicales que estén más o menos al centro (normalmente de gran importancia) tendrán menos registro agudo en los micrófonos ya que ninguno está apuntando en forma directa a esa zona. Este problema no solamente afectaría al colocarlos a 180º como para comparar con la técnica MS de Blumlein, sino también a su técnica del par figura de 8.

Pero, ¿por qué este problema no se presenta si se utilizan cardioides "virtuales" en lugar de cardioides reales?

La cuestión aquí es que los cardioides virtuales que se obtienen se construyen a partir de un omni que sí está apuntando al centro de la escena musical (y por lo tanto no pierde agudos) que luego se complementa con un figura de 8 que podría tener el problema de la coloración de sonidos que no estén en su eje principal. Pero resulta que cuando se vuelve a obtener el registro monoaural sumando los canales izquierdo y derecho lo que en realidad sucede es que se cancelan los registros de figura de 8 entre sí y queda solamente el registro monoaural del omni. Eso significa que el registro monocompatible se corresponde realmente con un omni con muy poca coloración por difracción.

La patente de Blumlein ofrecía esta segunda técnica como una versión mejorada (y más sofisticada) de obtener un registro estéreo con mejor captación de la zona central de la escena musical y otorgando un registro monocompatible casi ideal.

Podría interpretarse entonces que en realidad la técnica MS de Blumlein comienza obteniendo un registro monoaural con el omni, al que le agrega luego un complemente del figura de 8 para convertir la señal mono en una versión estéreo.

La técnica conocida como MS en la actualidad es prácticamente la misma, sólo que reemplaza el micrófono omnidireccional por uno cardioide apuntando al centro de la escena sonora. Esto provoca que al sumar se obtengan unos patrones más o menos cardioides que apuntan en ángulo de unos 45º hacia la izquierda y la derecha, en lugar de hacerlo a 90º para cada lado como la propuesta original. ¿Por qué Blumlein no patentó esta versión? En realidad no tenemos una respuesta definitiva a esta cuestión. Quizás porque los micrófonos cardioides no eran una opción disponible o económicamente conveniente hace casi 100 años atrás.

La figura siguiente muestra el patrón que se obtiene al sumar la señal M con la S, y la que se obtiene al sumar la señal M con la señal S invertida en fase.

6. Ambisonics

Ambisonics es un sistema de sonido multicanal que pretende envolver al oyente con sonidos que provengan de cualquier dirección. Fue desarrollado en la década del 70 del siglo XX por Michael Gerzon y otros investigadores, pero no tuvo usos comerciales hasta años más recientes. donde volvió a tomar fuerza.

En cierto modo podría decirse que se trata de una generalización de la técnica MS de Blumlein, en la cual se utiliza, en su versión más sencilla, un micrófono omni central y tres micrófonos figura de 8 en tres ejes perpendiculares entre sí (ejes X, Y y Z). La siguiente figura muestra el logo de Ambisonics y representa patrones omnidireccionales y figuras de 8 en distintas posiciones.

Ambisonics se ha ido desarrollando en niveles de mayor complejidad utilizando más cantidad de micrófonos, aunque la situación más común es la que corresponde al sistema Ambisonics de primer orden que es el que utiliza 4 micrófonos como los mencionados antes (un omni y tres figura de 8). La idea principal es la de captar aspectos tridimensionales del sonido y luego reproducirlos mediante múltiples altavoces. Se trata de un sistema muy utilizado en el audio de realidad virtual.

El principio de funcionamiento aprovecha las mismas ideas generales del MS. Con la señal del micrófono omnidireccional y el figura de 8 en posición horizontal X podemos generar al sumar y al restar las señales una señal estéreo en la dirección X. Haciendo algo similar con el omni y el figura de 8 en dirección Y podría generarse un estéreo en la dirección Y, y algo similar puede decirse respecto de la dirección Z.

En la situación descripta como ejemplo en el párrafo anterior tendríamos 4 micrófonos cada uno enviando un señal que luego de realizar las sumas y restas correspondientes alimentarían 6 altavoces (correspondientes a los tres "estéreos" en X, Y y Z. Veremos un poco más adelante que en realidad el sistema permite reproducción con variado número de altavoces, sin embargo el análisis con estos 6 nos permitirá explicar otras cuestiones.

La señal entregada por estos cuatro micrófonos no puede ingresar de forma directa a cuatro altavoces (ni a cualquier otro número). Así como las dos señales M y S del sistema MS no pueden ir en forma directa a dos altavoces, sin antes pasar por el procedimiento que copia una señal en un tercer canal (mediante el cable en Y) y luego realiza las sumas entre el canal 1 y 2, y entre el canal 1 y3 (que se convierte en una resta). Recién luego de este proceso se tienen señales aptas para ser enviadas a altavoces.

Las señales de estos cuatro micrófonos (omni + 3 figura de 8) adoptan normalmente la denominación estandarizada de W, X, Y y Z. Donde W es la señal omni y las demás indican los ejes de los figura de 8.

Pero a esto se agrega una consideración práctica. Para que el sistema funcione los cuatro micrófonos deberían estar ubicados en el mismo punto del espacio (es necesario que no existan retardos en la llegada de sonido entre ellos en ninguna de las tres dimensiones espaciales) y esto no resulta posible físicamente. Esto suele solucionarse mediante un truco técnico en el cual se utilizan cuatro micrófonos cardioides (o subcardioides) ubicados en las puntas de un tetraedro (figura geométrica tridimensional con cuatro puntas equiespaciadas) y con nuevos procesos matemáticos se obtienen señales equivalentes a lo que habría sido tener realmente un omni y tres bidireccionales.

La siguiente figura muestra cómo es un tetratedro en geometría, que consiste en una pirámide con base triangular.

Esta especie de malabarismo matemático es como hacer el proceso inverso al del MS original. Sería equivalente a colocar realmente dos micrófonos cardioides apuntando hacia la izquierda y la derecha y sumar y restar señales de modo de obtener la señal omni y la figura de 8 como resultado. Es dar vuelta el guante.

Resumiendo entonces esto, la intención es la de obtener una señal omni y tres figura de 8 y enviar esto como señal Ambisonics. Sin embargo por cuestiones prácticas se utilizan cuatro micrófonos cardioides y luego por trabajo matemático se obtienen las señales W, X, Y y Z.

Existen varios modelos de micrófonos de campo sonoro (soundfield mics) para registros de este tipo. La siguiente figura muestra algunos modelos donde puede notarse la ubicación de los cuatro micrófonos cardioides en las puntas de un tetraedro.

Ahora bien, debido a esta cuestión de tipo práctico, cuando hablamos de señal Ambisonics podríamos estar hablando de las cuatro señales de los micrófonos que realmente están allí ubicados (los cuatro cardioides) o de las cuatro señales que se quería obtener teóricamente (el omni y los tres figura de 8). Ambas serían señales del sistema Ambisonics.

Se denomina "formato A" a las señales de los cuatro cardioides y "formato B" a las señales procesadas para obtener W, X, Y y Z.

NOTA: De todas maneras hay que tener claro que las señales W, X, Y y Z (formato B) no pueden enviarse en forma directa a los altavoces, sino que serían los ingredientes con los cuales luego puede prepararse el "plato final". De este modo cuando uno busca en la web registros hechos con el sistema Ambisonics encontrará normalmente señales en formato B, pero para poder convertirlas en las señales que se derivan a los altavoces hacen falta una serie de procesos matemáticos entre esas señales.

Algunos preamplificadores específicos para micrófonos de campo sonoro como los mostrados realizan los cálculos para convertir las señales directas de los cuatro cardioides al formato B. En ese caso las salidas del pre tendrán las letras indicando las señales W, X, Y y Z. Pero hay otros preamplificadores que toman las señales en formato A y las entregan preamplificadas sin cambios. En estos casos la conversión a formato B deberá hacerse externamente (mediante hardware adicional específico y en una computadora).

La señal Ambisonics que se distribuye posteriormente es la del formato B.

6.1. Decodificación de Ambisonics a estéreo, 5.1 y otros posibles formatos de reproducción

Una característica asombrosamente práctica del sistema Ambisonics es que puede ser reproducido por cualquier cantidad y distribución de parlantes. Obviamente en algunos casos perdiendo sus propiedades de sonido 3D, pero manteniendo toda la información sonora relevante.

Para entender esta propiedad que suena casi mágica, podemos apoyarnos en interpretar el sistema MS como un modo de tener una señal que podría ser reproducida tanto por un sistema de dos parlantes, como por uno de un solo parlante (caso monoaural). Si se tienen dos parlantes, entonces se hace el proceso de convertir la señal de M y S en left y right mediante las sumas y restas. Si solamente se cuenta con un parlante, entonces se emite solamente la señal M.

Al ser Ambisonics una generalización de esta idea y extenderla a todo el espacio logra esta asombrosa característica de poder realizar procedimientos matemáticos para "repartir" la información de campo sonoro en cualquier cantidad y distribución de parlantes disponibles. Obviamente las operaciones matemáticas dependen de la distribución y cantidad.

Supongamos que tenemos una grabación Ambisonics en formato B. Esto quiere decir que tenemos la información de W (omni) y las tres señales X, Y, y Z. Si nuestro sistema de reproducción es monoaural, la decodificación a mono se hará enviando la señal W al único parlante disponible. Si nuestro sistema es estéreo podríamos enviar la suma de W con X a un parlante y la resta entre W y X al otro parlante. También se podrían hacer otros cálculos matemáticos si los parlantes del estéreo estuviesen a cierto ángulo particular respecto del oyente que no detallaremos para no complicar más la explicación. Si se tuviese un sistema cuadrafónico (cuatro parlantes ubicados en las esquinas de un cuadrado). Se pueden enviar las señales que salen de combinar W con X (sumando y restando) para obtener las señales de los parlantes de los lados, y hacer algo parecido entre W con Y (suma y resta) para obtener las señales de los parlantes del frente y el fondo.

Con un poco más de desarrollo matemático puede mostrarse que procesando adecuadamente la información de los cuatro canales del formato B es posible repartir adecuadamente las señales entre una cantidad arbitraria de parlantes. Nuevamente aclaramos que si en la distribución de parlantes no hay variación de altura, no se percibirá la contribución de la componente Z. Pero esto es algo que también sucede cuando en el sistema MS se convierte señal estéreo a mono. Deja de percibirse cualquier lateralidad, aunque se mantiene toda la información sonora del sistema.

Usos actualmente muy comunes de Ambisonics

El sistema Ambisonics en formato B es muy utilizado para la producción de audio para videos-360º o para proyectos de realidad virtual (VR). En lo que sigue resumimos los aspectos principales para que puedan comprenderse por qué permite esto.

La idea del sistema Ambisonics surge de extender el método de la técnica MS para hacerlo 3D. El sistema MS permite lateralizar izquierda y derecha. Si se agregan versiones para adelante-atrás y arriba-abajo, se puede tener información de tipo tridimensional. Aclaro aquí que no es necesario repetir tres veces el micrófono M en estos MS ya que es el mismo. Se necesitaría un M y tres S uno para cada dirección (Sx, Sy, Sz). Estas tres señales corresponderían al formato B (B-format) y son las denominadas W, X, Y y Z.

Pero, ¿y el formato A, de donde aparece? Pensemos en un M (omni) y un S (side) para un sistema estéreo. Allí es necesario ubicar las cápsulas de micrófono de modo coincidente para asegurar que los retardos de izquierda a derecha no provoquen cancelaciones. Esto puede hacerse colocando uno de los micrófonos (su cápsula) justo encima del otro, para que no existan diferencias de distancia entre ambos para sonidos emitidos desde cualquier punto entre izquierda y derecha. Ahora, cuando tratamos de extender esta idea a las tres dimensiones tenemos un problema, Habría que colocar los cuatro micrófonos (un M y tres S) en un punto coincidente y esto ya no es posible. ¿Por qué? Porque cuando en el MS simple colocábamos uno encima del otro, estos los vuelve coincidentes si los sonidos que vamos a grabar vienen de los lados, pero cualquier sonido que venga de arriba o de abajo provocará retardos entre ambos y por lo tanto cancelaciones por filtro peine. ¿Qué se hace entonces? Un truco matemático. Si con el MS se pueden generar dos cardioides, entonces con dos cardioides podrían imitarse las señales de un MS con trabajo matemático de sumas y restas de señales. En el MS no era conveniente, pero en Ambisonics se vuelve necesario. Se utilizan cuatro cardioides orientados con separaciones y ángulos uniformes, y con procesos matemáticos se obtienen las señales W, X, Y y Z. La señal que viaja en los cuatro cables que salen de los cuatro micrófonos cardioides es la que se conoce como formato A. El proceso matemático las transforma en formato B, que también consiste en cuatro señales pero donde una de ellas es la que correspondería al omni (ficticio, en este caso) y las otras tres a los cardioides apuntando en los tres ejes del espacio.

Ahora bien, ¿por qué es tan útil luego el formato B?

Para comprenderlo voy a analizar primero un solo eje (izquierda-derecha) con una señal MS. Supongamos que tenemos las dos señales M y S separadas. La mezcla que haremos de estas señales para enviar a cada parlante dependerá de la cantidad de parlantes con señal independiente que podamos utilizar en el espectáculo. Si sólo tenemos dos parlantes disponibles, bajaremos una mezcla estéreo que se consigue sumando M+S para un canal y restando M-S para el otro canal

Ahora bien, supongamos que tenemos disponibles tres parlantes, con uno en el centro. Podríamos enviar a ese parlante del centro solamente la información M. Eso reforzaría la energía sonora del ambiente sin perder la esencia de lo que se pretende lograr. Normalmente una consola no permitiría esta especie de "mezcla" de tres canales, pero puede lograrse si en lugar de salir por LR, se utilizan los auxiliares de la consola.

¿Qué pasaría si tenemos más parlantes que puedan ser controlados con señal diferente en forma individual? Si tuviésemos 5 parlantes distribuidos como se muestra en la siguiente figura podríamos enviar mucha señal S y poca M a los extremos, un nivel equilibrado de M y S a los que están junto a los anteriores, y toda la señal M al del centro.

La ventaja de este sistema es que puedo partir de tener dos señales M y S, pero luego generar sumas y restas matemáticamente adecuadas para generar 5 señales diferentes (una para cada parlante independiente). Esto es lo que se hace con Ambisonics a partir del formato B. Este formato (de 4 señales) se procesa matemáticamente para generar tantas señales finales como sistemas de reproducción se tengan a disposición.

Los valores de sumas y restas de señales del formato B dependerán de la ubicación de los parlantes. Si todo el conjunto de la figura anterior se rotase unos 20º hacia uno de los lados, entonces las sumas serían diferentes. El del centro (que ya no estaría en el centro) debería tener una señal M un poco menor, con una pequeña contribución de una señal S (sumada o restada, dependiendo del ángulo de giro). Esta característica es lo que hace al formato B muy flexible para realidad virtual. Simular cambios de orientación es relativamente sencillo con procesamiento matemático que puede hacerse en tiempo real. En un sistema de realidad virtual no se cambiaría el lugar de los parlantes, sino que se aplicaría la cuenta como si hubiesen rotado y esto generará en el oyente la sensación de que las fuentes sonoras rotaron espacialmente.

En el caso de usar auriculares, se harán las sumas y restas entre M y los tres valores de S para que genere la sensación de rotación correcta.

El siguiente es un video filmado por Ianina Canalis con una cámara 360º, grabado con Ambisonics que se decodifica en tiempo real mientras el usuario recorre la escena en 360º.

A medida que lo van mirando arrastren la imagen con el mouse para rotar la visión en cualquier ángulo. Notarán que la ubicación de las fuentes sonoras cambia cuando el video se rota. Obviamente esto debe escucharse con auriculares para percibir el efecto. Si miran directamente al piso verán que la cámara toma la imagen del micrófono Ambisonics que está justo debajo de ella.

6.2. Ambisonics de orden superior (Higher Order Ambisonics)

Un par de décadas después de su creación se desarrolló la teoría matemática completa para complejizar aún más las posibilidades de Ambisonics con lo que se conoce como "orden superior", pasando a tomar el nombre de Ambisonics de primer orden al desarrollo original de la década del 70. De todas maneras ya en 1973 Michael Gerzón había dado pistas de las posibilidades de cómo podrían obtenerse órdenes superiores.

Los sistemas Ambisonics de orden superior intentan recrear la manera en que se propaga el campo sonoro y no solamente las cuestiones de direccionalidad que identifiquen de qué ángulo procede cada sonido.

Dentro de esta generalización de Ambisonics se considera que la señal del omni si estuiviese sola sería equivalente a un sistema Ambisonics de orden cero. La señal de Ambisonics con 4 canales W, X, Y y Z corresponden al orden 1. La señal de Ambisonics de orden 2 requiere de 9 canales (pero en este caso por cuestiones algo más complicadas de contar se utilizan 12 cápsulas de micrófonos para obtener los 9 canales del formato B de orden 2). En forma general un sistema Ambisonics de orden n requiere (n+1)² canales, lo que lo vuelve impráctico para órdenes altos debido a la cantidad de canales necesarios.

Los patrones polares que se construyen con sumas y restas son más complicados en órdenes superiores y el análisis detallado queda fuera de las intenciones del curso, que sólo pretende ofrecer una idea de la existencia de este sistema. La figura siguiente muestra los diagramas polares que se van agregando en órdenes superiores.

El siguiente video publicitario muy breve muestra un micrófono Ambisonics de orden 3 que utiliza 19 cápsulas de micrófono (para recrear los 16 canales necesarios del formato B de orden 3).

7. Sistemas de audio inmersivo

Se denominan sistemas de sonido inmersivo a aquellos que pretenden sumergir al oyente en un campo sonoro con realismo en 3 dimensiones. Hay diferentes modos de intentar lograr este fin y la clasificación más general que puede hacerse los dividiría en los que intentan provocar esta inmersión con parlantes emitiendo al aire y los que intentan generar esta sensación de modo individual en un oyente utilizando auriculares (lo que actualmente se conoce como audio binaural). Haremos aquí una descripción general del primer tipo dejando al segundo tipo para la clase siguiente.

Históricamente fueron surgiendo varias propuestas de incrementar la sensación de precepción de sonido en 3 dimensiones. En 1968 se comenzó a trabajar en un sistema cuadrafónico (que era una especie de estéreo con cuatro parlantes que rodean al oyente). Tenía cierta complejidad porque pretendía lograr registrar los cuatro canales en solamente dos para poder utilizar el modo de grabación y reproducción más común de la época utilizando discos planos. Estuvo presente unos años pero no logró una buena inserción en el mercado.

Un prototipo de sonido con 5 altavoces (quintafónico) fue utilizado en el film "Tommy" del grupo de rock británico The Who. El sistema 5.1 fue propuesto por Dolby Labs utilizando una distribución de 3 parlantes al frente, dos en la parte de atrás y un subwoofer de graves (que se suele ubicar en el centro, pero debido a la no direccionalidad de los sonidos muy graves podría estar en distintas posiciones).

Por fuera de los trabajos comerciales aparecieron desarrollos dentro de los ámbitos de investigación para lograr formatos de sistemas multicanal más generales. Un paso remarcable en esta dirección fue dado con la propuesta del sistema Ambisonics, ya comentado. En los últimos años del siglo XX hubo propuestas para trabajar con múltiples altavoces dispuestos en forma regular alrededor del oyente y trabajos para extender la idea de paneo a estos sistemas múltiples. Se destacan de esa época la propuesta de utilizar paneo de "amplitud basado en vectores" (VBAP, vector based amplitud panning) y el sistema "paneo de amplitud basado en distancia" (DBAP, distance based amplitud panning). Ambos sistemas tienen aspectos similares, el basado en vectores es un poco más preciso pero no resiste modificaciones en la distribución de altaoves, mientras que el segundo tiene menos precisión pero mayor inmunidad a algunos cambios en la distribución.

Vale la pena hacer un comentario aquí porque se relaciona directamente con la UNLA. Hace muy poco tiempo Ianina Canalis desarrolló un software en MAX MSP para realizar paneos de sistemas multicanal con distribución arbitraria que tiene similitudes con el sistema DBAP. Ianina denominó a su sistema ISSP (Immersive Sound System Panning). Fue utilizado en varias presentaciones en vivo en grandes espacios en Argentina y en el exterior, previo a su traslado a Alemania para trabajar en la empres Meyer Sound. Una importante innovación en el sistema propuesto por Ianina es la sencillez de utilización y su manera de vincularlo con el uso de consolas digitales de uso común, sin el requerimiento de sistemas de hardware especialmente dedicados. Esto fue posible utilizando las salidas directas de las consolas y procesando el audio por soft en el caso más general, y en particular para las consolas DiGiCo mediante la utilización de un protocolo de comunicación que en ese momento se encontraba en fase de desarrollo en la empresa, de manera de lograr procesamiento dentro de la consola controlado por un software externo.

El siguiente video contiene una presentación general del sistema. Está en inglés pero tiene subtítulos en español cargados por Ianina (no por traducción automática).

Actualmente Ianina Canalis está trabajando en varios proyectos de la empresa Meyer Sound, uno de los cuales es Space Map Go, que tiene algunos puntos en común con el ISSP.

https://meyersound.com/product/spacemap-go/

NOTA PERSONAL: En este último tiempo circuló información respecto de algo llamado Audio 8 D, donde supuestamente se haría referencia a audio en 8 dimensiones. En líneas generales nuestra opinión es que se trata de algo más cerca de un nombre comercial que pegue en cierto público que de algo con fundamento teórico fuerte. No tiene mucho sentido alterar el significado de la palabra dimensión de una forma tan poco académica. Entre estas 8 dimensiones y las 11 de la teoría de M (versión de la teoría de cuerdas de la Física Teórica), hay un universo de diferencia de sentido. Generar confusión entre número de canales, o de señales con "dimensiones" no parece hacerle ningún bien al audio y la acústica.

Métodos de campo acústico (Wave Field Methods)

Los sistemas anteriores (VBAP, DBAP, ISSP, Space Map Go) logran un convincente efecto de espacialización sonora, pero no intentan imitar el campo sonoro real que se produciría. Para ayudar a comprender esto podemos decir que el estéreo logra un efecto convincente de la posición de una fuente virtual entre los altavoces, pero no intenta reproducir el campo sonoro que se produce realmente cuando hay una fuente ubicada en la posición de la fuente virtual.

Ambisonics podría ser considerado con toda justicia dentro del métodos de campo acústico. Más recientemente se han propuesto métodos de lo que hoy se conoce como Wave Field Synthesis que se apoyan en el principio de Hugens y proponen la utilización de un elevado número de altavoces para intentar reproducir con gran fidelidad el campo sonoro que realmente producirían fuentes sonoras ubicadas en distintas localizaciones.

¿Cuál es la diferencia de esta idea con la de un line array? Un line array no pretende simular la ubicación de una fuente. En todo caso terminará generando una sensación estéreo si se utilizan dos line array sobre las mismas personas uno para cada canal del estéreo. Lo que busca el line array es aprovechar las características de colocar muchas fuentes juntas para lograr gran direccionalidad con fase coherente y una caída menor en dB que lo que genera una fuente esférica.

Para comprender las ideas que dan sustento a las técnicas de Wave Field Synthesis conviene hacer referencia a un evento histórico muy antiguo (Steinberg y Snow, 1934), denominado cortina acústica (acoustic curtain). En esa experiencia se colocó un gran número de micrófonos en una sala (donde se encontraban las fuentes sonoras) cercanos entres ellos. Cada micrófono enviaba su señal en forma individual a una idéntica cantidad de altavoces colocados en otra sala, donde se encontraban los oyentes. La figura siguiente muestra un esquema de este sistema

Si la disposición de separación y largo total de micrófonos y altavoces respeta los límites del principio de Huygens, se espera que el campo sonoro resultante en el segundo espacio logre recrear con gran precisión lo que sucedería si efectivamente existiese una fuente ubicada en algún lugar detrás de los altavoces en el espacio de escucha. Podemos remarcar aquí la diferencia con los sistemas inmersivos de paneo, ya que en esos sistemas si la fuente virtual se pretende entre dos altavoces (el número 10 y el número 11, por ejemplo), entonces la señal correspondiente a esa fuente se panea entre esos dos altavoces y el resto no recibe ninguna información. En esta cortina acústica una única fuente como la mostrada en la figura termina provocando señal en todos los micrófonos (con diferente nivel y fase), lo que hará que todos los altavoces emitan algo de señal, donde la contribución de todos ellos generará el campo sonoro equivalente al de la ubicación de la fuente virtual.

La técnica conocida como Wave Field Synthesis refiere al proceso matemático por el cual se calcula el tipo particular de señal con toda su información de módulo y fase que debería ser emitida por todos los altavoces para lograr generar el campo sonoro que produciría una o varias fuentes virtuales. Esto es diferente a lo que sucede con la cortina acústica ya que allí no hay procesos matemáticos sino que cada micrófono recibe la señal que luego reproduce el altavoz correspondiente.

Una variante muy emparentada y muy particular que suele ser poco conocida es la técnica de los espejos de inversión temporal. Nuestro equipo viene trabajando en esta técnica desde hace algún tiempo. Haremos una descripción general en la siguiente sección.

Un libro que recomendamos es el de Roginsky de título "Immersive Sound: The Art and Science of Binaural and Multi-Channel Audio", editado por AES en 2018

7.1. Espejos de inversión temporal (bonus track fuera de programa)

La técnica de Espejos de Inversión Temporal (Time Reversal Mirror) fue creada por Mathias Fink en los últimos años del siglo XX y primeros del presente siglo. Podría pensarse como una variante de la cortina acústica que juega además con el desarrollo temporal de las señales.

Fink tomó en consideración que las ecuaciones que gobiernan la propagación de ondas son simétricas en el tiempo. Esto quiere decir que si se invierte la variable tiempo en esas ecuaciones todo el comportamiento de propagación sigue funcionando de modo similar. Sumó en sus consideraciones el principio de Huygens imaginando un arreglo de mucha cantidad de micrófonos cuya señal pudiera registrarse para ser emitida luego por mucha cantidad de parlantes con la misma distribución de los micrófonos. Esto último se parece a la técnica de la cortina acústica. Sabemos que si hacemos ese registro multipista y luego reproducimos todas las señales, entonces la onda se seguirá propagando tal y como si hubiese una fuente en el lugar original.

En la figura siguiente se muestra a la izquierda una fuente esférica emitiendo y un arreglo de muchos micrófonos en línea que registran las señales. A la derecha se ve lo que sucedería al reproducir los registros con un arreglo de parlantes.

La genial variante propuesta por Fink es la de invertir temporalmente todos los registros multipista antes de ser emitidos por el arreglo del parlante. En esa situación Fink demuestra que las ondas se propagan convergiendo hacia el punto de foco tal y como si el tiempo estuviese avanzando en reversa.

En la siguiente figura se muestra la simulación de lo que sucede cuando se reproducen los registros multipista invertidos de la situación anterior (la simulación se muestra más lenta para poder observar cómo se van formando los frentes de onda)

En un artículo publicado en la revista Scientific American en el año 2000 (esta revista tiene versión en español llamada Investigación y Ciencia) Fink ilustra lo que sucedería si alguien dice "Hola" frente a un espejo de inversión temporal, indicando que se escucharía "aloH" enfoncándose en el lugar donde se encuentra la boca de quien pronunció esa palabra.

Fink encontró muchas aplicaciones de su método en medicina utilizando ultrasonidos. En esos temas se utiliza mucho actualmente.

La asombrosa técnica de Fink logra que las ondas converjan en un punto incluso si en el camino atraviesan cosas que provoquen difracción, interferencia o refracción de las ondas (como es esperable que suceda en aplicaciones médicas). Las siguientes animaciones muestran un caso posible de emisión y reenfoque de ondas con un arreglo circular de transductores y algún tipo de material de diferente densidad en la zona de propagación. Primero se muestra la emisión y registro, y más abajo la reproducción con inversión temporal.

Sin embargo, no existen aún aplicaciones en acústica del rango audible. Uno de los problemas es que la señal se enfoca en el punto, pero aparece invertida en el tiempo. Esto no es un problema cuando la señal pretende identificar un tejido o destruir un cálculo, pero se vuelve crítico en aplicaciones de audio. No hallamos que Fink haya intentado resolver el problema de devolver el sentido original a la señal de audio sin perder el "alma" de tener que invertir los registros multipista ya que de otro modo la onda no converge a un punto.

¿Cuál sería el sentido de lograr que la onda converja en un punto? Eso la convierte en una "fuente aparente" ubicada en ese lugar. Esto puede notarse en la última simulación mostrada. Luego de que la onda converge se sigue propagando como si se estuviera emitiendo desde el punto del foco. Cualquier oyente ubicado más allá de ese punto percibiría una fuente fantasma ubicada en ese lugar.

Sin embargo, a primera vista el único modo de obtener una escena auditiva con varias fuentes localizadas parecería ser grabando realmente esa escena auditiva. Esto es interesante, pero sería mucho más práctico si uno pudiese cambiar el sonido localizado en una etapa de postproducción.

La tesis doctoral de Georgina que yo dirijo está muy relacionada con el uso de los espejos de inversión temporal aplicados a la acústica. Ya hemos presentado una posible solución a los dos problemas mencionados.

No pretendemos extendernos aquí en la explicación completa de las soluciones encontradas, pero podemos decir que se basan en registrar con todos los transductores la respuesta a un impulso emitida desde una localización, convolucionar el conjunto de respuestas al impulso con una señal de audio e invertir temporalmente todos los registros luego de la convolución antes de reemitirlos. Con ese procedimiento los audios se pueden cambiar en postproducción y además se logra obtener el sonido en su versión temporal correcta. Como todo el sistema es lineal e independiente del tiempo (LTI) que es donde valía aplicar la convolución, esto significa que se pueden sumar varios conjuntos de señales y el resultado será el mismo que si se las procesa por separado. Esto nos permite grabar arias respuestas al impulso (para registrar las localizaciones de fuentes fantasma) para luego enfocar ondas en ese punto. Hemos mostrado en el Congreso ICA 2019 en Aachen, Alemania, que resulta posible enfocar varias fuentes en distintos momentos en forma simultánea, como se ve muestra en la siguiente simulación.

Obviamente todo este tema es más para compartir info que algo que forme parte de los contenidos obligatorios de la materia.

Comparto el link al artículo publicado de nuestra presentación en Aachen, Alemania, 2019.

http://publications.rwth-aachen.de/record/770272

Acústica y Psicoacústica 1 - Petrosino

Etiquetas

jueves, 7 de noviembre de 2024