う〜ん、いまいち理解できないのですが、その波形というのは、アナライザーを挿して見る周波数と音量の振幅のことを言っているのでしょうか?

でもその振幅の形状が似ているものがあったとして、それを衝突しないようにする=音がズレることにならないのでしょうか?

人間の耳は発信源が同じ2種類の音を聞き分けることが難しい特性があることから、位相をズラすと、分離感が増す…というのは理解できます。
ただ、周波数を削るというのは、人間の耳で知覚可能な周波数は20〜2万Hzの間で、その限られた範囲の中で各パートの占有する基本的な帯域というのは、決まったものがあるのでしょうか?
全トラックを読み込んでバランスを取る方式でなくても、ニュートロンが単一トラックのみを読み込み、パラメータを調整して仕上げるのも頷けます。