WMMAベースは、専用ALUを追加するという意味じゃない。
つまりマトリックスコア/Tensorコアは、CU内のベクターSIMDユニットと同じwarp/waveスケジューラー、レジスタを共有し再利用するだけ。
なのでFP32:FP16で全て行われ、その比率が1:2から1:4にスループットが向上したのは、ドット積命令を分解するやり方からより最適化された演算ユニットに変わったからじゃないかな。

NVIDIAが行列乗算命令(GPU内の特定演算ユニット及び機能)のことを「Tensor Core」と命名しているのが混乱の背景だと思う。
物理的なコアや専用ALUがあると勘違いしやすいし、あえてこれを誇張するようにもなってきている。

DC用向けはTensor memoryとか専用のレジスタを用意しているため、コンシューマー用とは別物です。