>>552
行列演算ユニット=AI/ML用専用ALUってことではない。
コンシューマー用GPUは汎用シェーダーユニットと行列演算ユニットを組み合わせ、それらを協力/既存リソースを再利用して行列乗算を高速化しているのに対し、
データセンター用GPUはGPUのグラフィックス機能を削り、空いたスペースにALUと専用レャWスタを追加しbト高速化していb驕B

Tensor Coreという名称はコンシューマーとデータセンター間で統一されているけど、それを実装するための設計はターゲットにする顧客プラットフォーム間で、根本的に別物って意味。
だからWMMAベースはCU内のレイアウトとか演算ユニットを最適化してスループットを向上させているだけで、そのために専用のALUを追加しているわけじゃない。
(ChatGPTとかに訊いたほうがもっと丁寧に解説してくれると思う)