音声をFFmpegで抜き出して後で再結合させるのじゃだめなの?