コンシューマーGPUだとリアルなマトリックスコア/Tensorコアを搭載してるわけではなく、WMMA/SWMMACベースだから理論性能値通りにスケールはしないはず。
データセンター用GPUだと低精度対応の専用マトリックスコア/Tensorコアがあるので、FP16→FP8にすれば単純に速度は2倍早くなるが、コンシューマー用だと精々40%程度の向上に留まると思う。
基本的に緑も赤もWMMA/SWMMACベースで、唯一謎なのが青のXMXって話だった(Chips and Cheese)。
ならなんで専用コア/アクセラレーターって呼んでるかっていうと、結局マーケティング的に主張しやすいからってだけですね。