Misture faixas de áudio com deslocamento em SOX

No ASP.Net, estou usando o FFMPEG para converter arquivos flv em um Flash Media Server em wavs que preciso misturar em um único arquivo MP3. Inicialmente, tentei isso inteiramente com o FFMPEG, mas acabei desistindo da etapa de mixagem, porque não acredito que seja possível combinar apenas faixas de áudio em um único arquivo de resultado. Eu adoraria estar errado.

Agora estou usando o FFMPEG para acessar os arquivos FLV e extrair a faixa de áudio para wav, para queSOX pode misturá-los. O problema é que devo deslocar uma das faixas de áudio por alguns segundos para que elas sejam sincronizadas. Cada arquivo é metade da conversa entre um aluno e um professor. Por exemplo, teacher.wav pode precisar iniciar 3,3 segundos após student.wav. Só consigo descobrir como misturar os arquivos com o SOX, onde ambas as faixas começam ao mesmo tempo.

Minha melhor tentativa neste momento é:

ffmpeg -y -i rtmp://server/appName/instance/student.flv -ac 1 student.wav 
ffmpeg -y -i rtmp://server/appName/instance/teacher.flv -ac 1 teacher.wav 

sox -m student.wav teacher.wav combined.mp3 splice 3.3

Essas ferramentas (FFMEG / SoX) foram escolhidas com base em minhas melhores pesquisas, mas não são necessárias. Qualquer solução funcional permitiria que um serviço ASP.Net introduzisse as duas flvs do FMS e criasse um MP3 combinado usando ferramentas de código aberto ou gratuitas.

EDITAR: Consegui compensar os arquivos usando odelay mudar SOX.

sox -M student.wav teacher.wav combined.mp3 delay 2.8

Estou deixando a questão em aberto, caso alguém tenha uma abordagem melhor do que a solução combinada FFMPEG / SOX.

questionAnswers(3)

yourAnswerToTheQuestion