面白い情報なので同じffmpegライブリーを使ってAACにエンコードするAudioExtractorとaudacityを比較してみた
あくまで自分の環境限定だけど

1) 元のwav(16bit44.1k、長さ14秒)
2) 1をAACエンコードした物
3) 2をAACエンコードした物
4) 3をAACエンコードした物

A) 1と2のズレ
B) 1と3のズレ
C) 1と4のズレ

AudioExtractor A=0.047、B=0.047、C=0.047 (ms)
audacity A=0.037、B=0.072、C=0.108 (ms)

初回の音ズレはおそらくどのアプリでも避けられないんじゃね