ffmpegのバージョンによっても違うし、
その中のどのエンコーダーを用いるかでも違うから、
一概には言えないんだよね。

Audacityに対応している ffmpeg 2.2.* だと、
libvo-aacenc(あんまり音が良くない)では、38ms、
最新の ffmpeg 3.4.* を外部エンコーダー指定して使うと、
ネイティブのAACエンコーダーでは、25ms、
libfdk_aacだと、48ms、それぞれ開始タイミングが遅くなる。

念のため、エクスポート時に16bit、ディザなしでやってみたけど、
特に変わらなかった。

まぁ、およそNTSCでちょうど一コマぶん(33ms)だから、
muxする際に映像側を遅延させればいいんでないかい?