MAC 337/5900 - Computação Musical

Aula 5 - 21/8/7 - Áudio Digital

Representações do Som

Para que o computador possa manipular um som, este tem que ser representado de uma forma que o computador entenda, i.e., deve ser de alguma forma discretizado.
Após este instante, o computador manipulará não o som mas sim estes dados que o representam, chamados de sinal digital (digital signal).
O som pode ser representado de forma digital de várias formas e é comum fazer-se transformações de uma forma para outra.
Dependendo do que se quer fazer (tocar, manipular, distorcer, analisar, compor, armazenar, transmitir, visualizar, etc.) uma forma de representação pode ser melhor do que as outras.
Uma representação da forma de onda é conveniente quando queremos avaliar aspectos temporais.
Já uma representação do espectro, é interessante quando queremos avaliar aspectos freqüênciais.
Uma forma de onda pode ser transformada num espectro e vice-versa sem perda de informação.

A conversão de som real (analógico) para uma representação digital, discretizada, é feita através de um componente de hardware chamado Conversor Analógico-Digital ou ADC na sigla em inglês.
O caminho oposto, é feito através de um Conversor Digital-Analógico ou DAC.
O dado sonoro pode ser transmitido de um lugar para outro gerando uma infinidade de aplicações interessantes (VoIP, Secretária Eletrônica, SkypeOut/In, armazenamento de música em CD, repositórios multimídia (e.g. www.estudiolivre.org.br), etc.).

A Transformada de Fourier pode ser usada para obter o Espectro a partir da Forma de Onda.
O Espectro mostra como construir a forma de onda analisada através da combinação de ondas sinusoidais, cada uma com uma certa amplitude e fase.
Um algoritmo computacionalmente eficiente para calcular a transformada de Fourier é a Transformada Rápida de Fourier (Fast Fourier Transform ou FFT).
Para maiores detalhes, veja, por exemplo, a Wikipédia que diz o seguinte.

Transformada discreta de Fourier:
Para uso em computadores, seja para aplicações científicas ou em processamento digital de sinais, é preciso ter valores $x k$ discretos. Para isso existe a versão da transformada para funções discretas:

$x_k = \frac{1}{n} \sum_{j=0}^{n-1} f_j e^{\frac{2\pi i}{n} j k} \quad \quad k = 0,\dots,n-1$

$f_j = \sum_{k=0}^{n-1} x_k e^{-\frac{2 \pi i}{n} j k} \quad \quad j = 0, \dots, n-1$

Um método largamente utilizado para o cálculo computacional desta versão é o algoritmo FFT (Fast Fourier transform), cuja complexidade é O(n log n) contra O(n²) necessários para o mesmo cálculo, porém pela definição.

Maiores detalhes sobre FT e FFT: possível tópico de seminário.

Transdutores

Um transdutor é um dispositivo que converte energia ou informação de uma forma em outra.
O ouvido converte energia física do som (variações na pressão do ar) em energia elétrica transmitida ao nervo auditivo.
Um microfone é também um transdutor que tem um papel semelhante ao tímpano mas o desempenha de forma completamente diferente.
O sinal elétrico produzido pelo microfone contém uma informação que é análoga à informação contida no som original, por isso, dizemos que é um sinal analógico.
Este sinal elétrico analógico pode ser levado de um lugar até outro através de fios.
O sinal pode ser aplificado através de Amplificadores que colocam mais energia no sinal sem alterar (muito) os relacionamentos internos do sinal. No mundo real, todo amplificador introduz também alguma distorção.

O transdutor inverso do microfone é o alto-falante, que converte um sinal elétrico em energia sonora.
Na verdade, todo microfone funciona também como alto-falante e vice-versa (mas cuidado, não vá destruir o microfone do seu colega com experimentos estúpidos :-)) Um experimento inofensivo é usar um fone de ouvido como microfone.

Sinais Analógicos

Suponha que a pressão medida por um microfone é p(t)
e que a voltagem de saída do microfone é v(t).
Num microfone ideal teríamos v(t) ~ p (t) (leia ~ como "proporcional a ")

Mas no mundo real os microfones são imperfeitos e nós representamos isso como:

v(t) ~ D( p(t) ) + n(t)
onde D() é a distorção e n(t) é o ruído.

Se a função D() multiplica o seu parâmetro por uma constante, dizemos que o sistema é linear e não haverá distorção, mas no mundo real é difícil.

Sinais analógicos podem conter formas de onda periódicas (que são interessantes musicalmetne pois implicam em uma altura definida).
Um sinal é periódico se f ( t + P ) = f (t), onde P é o período da função periódica f.
Um exemplo concreto:

a pressão do ar de uma nota Lá com amplitude de pico de 2 pascals é dada por

p(t) + a = 2 * sen ( 2 PI 440 t) + a Pa, onde a é a pressão atmosférica em pascals.

um microfone captando esse som geraria, por exemplo, uma voltagem dada por

v(t) = 20 * sen (2 PI 440 t) mV (ignorando ruído e distorção)

Ruído

Ruído pode ser definido como qualquer sinal não-desejado adicionado ao sinal contendo a informação na qual estamos interessados.
Ruído branco, por exemplo, consiste de todas as freqüências simultaneamente em igual proporção.
A razão sinal-ruído (signal-to-noise ratio or SNR) é uma medida da qualidade do sinal e pode ser calculada como a razão entre a amplitude do maior sinal util e o ruído no sistema (p.ex., ruído de fundo). Esse ruído de fundo tende a ser constante (mais ou menos).

DistorçãoO ddffA O

Pode ser dividido em 3 tipos:

Distorção de freqüência: derivada da inabilidade de um dispositivo de desempenhar bem de forma uniforme em todas as freqüências. A resposta de um microfone ou alto-falante não é plana. Até mesmo a resposta do ouvido humano não é plana.
Distorção de amplitude: causado por não linearidades na resposta de um dispositivo em relação ao sinal de entrada. Por exemplo, um amplificador tem um certo limite, após este limite, ele ficará saturado em um valor máximo, não consegue mais amplificar e, possivelmente, vai passar a distorcer cada vez mais.
Distorção de fase: causado, por exemplo quando temos um alto-falante contendo um woofer para graves, squawker para médios e tweeter para agudos. Se o tweeter está colocado alguns centímetros para trás dentro do alto-falante em relação aos outros dois mecanismos, o seu som pode chegar depois ao tímpano do ouvinte, causando uma distorção de fase, que poderia mudar completamente o timbre do som.

Gravação

Para transmitir sons através do tempo e do espaço, é necessário armazenar o sinal analógico em alguma forma.
No passado, usava-se formas analógicas como o fonógrafo e derivados e, posteriormente, a fita magnética e derivados.
Existiam também formas "digitais": por exemplo, rolo de música de uma pianola.
Já a computação musical é fortemente baseada em transformações analógico/digital realizadas por DACs e ADCs.
O som digitalizado pode ser armazenado na memória principal, em disco magnético, em fitas magnéticas (p.ex. DAT), em CDs, DVDs, etc.

Digitalização do Som

O objetivo é fazer a conversão AD, fazer algo com os dados e depois fazer a conversão DA de forma que o sinal analógico final seja próximo do que se quer com níveis toleráveis de distorção e ruído (embora estes últimos sempre irão ocorrer).
Por exemplo, qualidade de CD inclui pouco ruído, MP3 inclui mais e GSM inclui muito.
Uma das formas mais simples de conversão AD é PCM (Pulse Code Modulation) através do qual o sinal analógico é representado como uma seqüência de bits.
Como só há dois valores possíveis (0 ou 1) é muito mais fácil de se proteger de ruídos do que se a codificação permite vários valores.
Para cada instante no tempo, a amplitude do sinal é discretizada e aí convertida para um valor em bits.
No exemplo, abaixo, para a senóide teríamos: 1001, 1011, 1100, 1101, 1110, 1110, 1111, 1111, 1111, 1110, etc.

Sampling and quantization of a signal (red) for 4-bit PCM

Filtros

Passa-baixa: deixa passar freqüências abaixo de um determinado valor.
Passa-alta: deixa passar freqüências acima de um determinado valor.
Passa-banda: deixa passar freqüências dentro de um determinado intervalo.

Amostragem

Cada amostra é uma medida instantânea da amplitude do padrão de vibração.
Teorema da Amostragem de Harry Nyquist ou Teorema de Nyquist

Para representar digitalmente um sinal contendo componentes de freqüências até X Hz, é necessário usar uma taxa de amostragem de, pelo menos, 2X amostras por segundo.

Portanto, se queremos criar um arquivo digital contendo freqüências de até 20 KHz, precisamos usar uma taxa de amostragem de, pelo menos, 40 KHz.
O teorema pode ser entendido intuitivamente lembrando-se que para alguma freqüência ser identificada, é necessário ter pelo menos dois valores para representar a ida-e-volta do valor da amplitude.
O processo de digitalização então envolve 3 passos:

Aplicação de um filtro passa-baixa para remover freqüências acima de metade da taxa de amostragem.
O processo de amostragem mede, a intervalos igualmente espaçados de tempo, a amplitude do sinal analógico.
O quantizador converte as amplitudes medidas para valores numéricos, normalmente representados em binário.

Se o sinal analógico amostrado contiver freqüências acima do que determina o teorema de Nyquist, um artefato indesejado será introduzido, conhecido como foldover ou aliasing. Este "ruído" irá introduzir, no momento da conversão D->A, freqüências que não estavam no sinal original.

Já no processo de conversão do sinal digital para um sinal analógico, o DAC simplesmente converte números binários para valores proporcionais de voltagem.
Como os circuitos demoram alguns nanosegundos para ler o número e estabilizar na voltagem correta, há um pequeno período de oscilações, no salto de uma voltagem para outra. Para remover estas oscilações, é necessário passar o sinal por um circuito chamado deglitcher que remove estes ruídos.
Portanto, o processo de conversão de digital para analógico envolve 3 passos:

Módulo DAC converte sinal digital em um sinal de voltagem variável.
Um circuito de amostragem analógico remove o ruído (deglitcher).
Um filtro passa-baixa remove freqüências acima da metade da taxa de amostragem.

Figura 2-8 na página 46 de Moore.

senóide super-amostrada (ótimo)
senóide criticamente amostrada (razoável)
senóide sub-amostrada (ruim -> aliasing): aparece uma freqüência baixa que não necessariamente existe no som original e a freqüência original não é captada.

Os resultados de um som sub-amostrado podem ser desde sutis até desastrosos, dependendo do caso.

Quantização

PCM Linear: o espaço de voltagens é uniformemente mapeado para valores numéricos discretos
PCM Não-Linear: o espaço de voltagens é mapeado mais densamente nos valores de amplitude mais baixa.

quantização em ponto flutuante
quantização logarítmica
tem mais a ver com a percepção acústica do ser humano (verificar...)

Vantagens do sinal digital

Menos sujeito a ruído.
Pode ser comprimido.
Pode ser armazanado e transmitido através de computadores e suas redes.
Pode ser manipulado por computadores digitais.

Referências

F. Richard Moore. Elements of Computer Music. Prentice-Hall. 1990.
Figuras extraídas da Wikipedia. 2007.

Próxima Aula

Página de MAC 337/5900

Página do Fabio

Página do DCC