O que são pedaços, amostras e quadros ao usar o pyaudio
Depois de ler a documentação do pyaudio e ler alguns outros artigos na web, estou confuso se meu entendimento está correto.
Este é o código para gravação de áudio encontrado no site da pyaudio:
import pyaudio
import wave
CHUNK = 1024
FORMAT = pyaudio.paInt16
CHANNELS = 2
RATE = 44100
RECORD_SECONDS = 5
WAVE_OUTPUT_FILENAME = "output.wav"
p = pyaudio.PyAudio()
stream = p.open(format=FORMAT,
channels=CHANNELS,
rate=RATE,
input=True,
frames_per_buffer=CHUNK)
print("* recording")
frames = []
for i in range(0, int(RATE / CHUNK * RECORD_SECONDS)):
data = stream.read(CHUNK)
frames.append(data)
print("* done recording")
stream.stop_stream()
stream.close()
p.terminate()
e se eu adicionar essas linhas, posso tocar o que gravei:
play=pyaudio.PyAudio()
stream_play=play.open(format=FORMAT,
channels=CHANNELS,
rate=RATE,
output=True)
for data in frames:
stream_play.write(data)
stream_play.stop_stream()
stream_play.close()
play.terminate()
"TAXA" é o número de amostras coletadas por segundo."CHUNK" é o número de quadros no buffer.Cada quadro terá 2 amostras como "CHANNELS = 2".O tamanho de cada amostra é de 2 bytes, calculado usando a função:pyaudio.get_sample_size(pyaudio.paInt16)
.Portanto, o tamanho de cada quadro é de 4 bytes.Na lista "quadros", o tamanho de cada elemento deve ser 1024 * 4 bytes, por exemplo, tamanho deframes[0]
deve ter 4096 bytes. Contudo,sys.getsizeof(frames[0])
retorna4133
, maslen(frames[0])
retorna4096
.for
loop executaint(RATE / CHUNK * RECORD_SECONDS)
vezes, eu não consigo entender o porquê.Aqui é a mesma pergunta respondida por "Ruben Sanchez", mas não posso ter certeza se está correto, como ele dizCHUNK=bytes
. E de acordo com sua explicação, deve serint(RATE / (CHUNK*2) * RECORD_SECONDS)
Como(CHUNK*2)
é o número de amostras lidas no buffer a cada iteração.Finalmente quando eu escrevoprint frames[0]
, ele imprime sem sentido enquanto tenta tratar a sequência a ser codificada em ASCII, o que não é, é apenas um fluxo de bytes. Então, como imprimo esse fluxo de bytes em hexadecimal usandostruct
módulo? E se, mais tarde, alterar cada um dos valores hexadecimais pelos valores de minha escolha, ele ainda produzirá um som reproduzível?O que escrevi acima foi minha compreensão das coisas e muitas delas talvez erradas.