O que são pedaços, amostras e quadros ao usar o pyaudio

Depois de ler a documentação do pyaudio e ler alguns outros artigos na web, estou confuso se meu entendimento está correto.

Este é o código para gravação de áudio encontrado no site da pyaudio:

import pyaudio
import wave

CHUNK = 1024
FORMAT = pyaudio.paInt16
CHANNELS = 2
RATE = 44100
RECORD_SECONDS = 5
WAVE_OUTPUT_FILENAME = "output.wav"

p = pyaudio.PyAudio()

stream = p.open(format=FORMAT,
                channels=CHANNELS,
                rate=RATE,
                input=True,
                frames_per_buffer=CHUNK)

print("* recording")

frames = []

for i in range(0, int(RATE / CHUNK * RECORD_SECONDS)):
    data = stream.read(CHUNK)
    frames.append(data)

print("* done recording")

stream.stop_stream()
stream.close()
p.terminate()

e se eu adicionar essas linhas, posso tocar o que gravei:

play=pyaudio.PyAudio()
stream_play=play.open(format=FORMAT,
                      channels=CHANNELS,
                      rate=RATE,
                      output=True)
for data in frames: 
    stream_play.write(data)
stream_play.stop_stream()
stream_play.close()
play.terminate()
"TAXA" é o número de amostras coletadas por segundo."CHUNK" é o número de quadros no buffer.Cada quadro terá 2 amostras como "CHANNELS = 2".O tamanho de cada amostra é de 2 bytes, calculado usando a função:pyaudio.get_sample_size(pyaudio.paInt16).Portanto, o tamanho de cada quadro é de 4 bytes.Na lista "quadros", o tamanho de cada elemento deve ser 1024 * 4 bytes, por exemplo, tamanho deframes[0] deve ter 4096 bytes. Contudo,sys.getsizeof(frames[0]) retorna4133, maslen(frames[0]) retorna4096.for loop executaint(RATE / CHUNK * RECORD_SECONDS) vezes, eu não consigo entender o porquê.Aqui é a mesma pergunta respondida por "Ruben Sanchez", mas não posso ter certeza se está correto, como ele dizCHUNK=bytes. E de acordo com sua explicação, deve serint(RATE / (CHUNK*2) * RECORD_SECONDS) Como(CHUNK*2) é o número de amostras lidas no buffer a cada iteração.Finalmente quando eu escrevoprint frames[0], ele imprime sem sentido enquanto tenta tratar a sequência a ser codificada em ASCII, o que não é, é apenas um fluxo de bytes. Então, como imprimo esse fluxo de bytes em hexadecimal usandostruct módulo? E se, mais tarde, alterar cada um dos valores hexadecimais pelos valores de minha escolha, ele ainda produzirá um som reproduzível?

O que escrevi acima foi minha compreensão das coisas e muitas delas talvez erradas.