【Dali】AMDのノート用APU/CPU Part63【Renoir】

Tenstorrentの現在の世代の製品はGrayskullで、約620mm 2当初は推論アクセラレータおよびホストとして設計されたGFの12nm上に構築されたプロセッサ。
2D双方向メッシュに120個のカスタムコアが含まれ、わずか65 Wで368個の8ビットコンピューティングのTeraOPを提供します。
120個のカスタムコアのそれぞれに、データ制御用のパケット管理エンジン、TenstorrentのカスタムTENSIXコアを含むパケットコンピューティングエンジンがあります。
および条件付きなどの非標準操作用の5つのRISC-Vコア。

このチップは、行列演算を圧縮パケットに最適化することでスパーステンソル演算に焦点を合わせ、グラフコンパイラとパケットマネージャの両方を介して計算ステップのパイプライン並列化を可能にします。
これにより、動的なグラフの実行も可能になり、他のAIチップモデルと比較して、特定の計算/転送時間領域ではなく、計算とデータ転送の両方を非同期で実行できます。

Grayskullは現在、Tenstorrentの顧客に出荷していますが、そのすべてはまだ公開されていません。

ワームホールとして知られる次世代チップは、アクセラレーションよりもトレーニングに重点を置いており、16x100Gイーサネットポートスイッチにもバンドルされています。
トレーニングからアクセラレーションへの移行には、より高速なメモリインターフェイスが必要であるため、LPDDR4の8チャネルではなく、GDDR6の6チャネルがあります。
これは、HBM統合について議論している他のAIチップと比較して低いように見えるかもしれませんが、ここでのTenstorrentの計画は、よりミッドレンジのコスト構造に合わせて調整されているようですが、
機械学習コンピューティングを、最先端のチップよりも高い効率で提供しています。頻度とプロセスノード（この一部は歩留まりにもなります）。

では、現在の世代がすでに販売されており、次の世代がほぼ準備ができている場合、ケラーは正確にどこに適合しますか？
CEOと話す際に、私はケラーが「私たちと一緒に新しくて面白いものを構築する」ことを確認しました。
これは、ハードウェア、コンパイラ、およびランタイムがスパース（および高密度）へのフルスタックアプローチを提供するというTenstorrentのオーバーライドソフトウェア2.0戦略に従って、
ケラーの関与によるビジョンが2022/2023ハードウェアを念頭に置いていることを示唆しているようです。
AI行列の計算。
ジム自身の言葉で：

ソフトウェア2.0は、長い間、コンピューティングの革新のための最大の機会です。勝利には、コンピューティングと低レベルのソフトウェアの包括的な再考が必要です。
Tenstorrentは目覚ましい進歩を遂げており、最も有望なアーキテクチャを備えているため、次世代のコンピューティングの巨人になる準備ができています。

ジム・ケラーは先週の水曜日に正式に開始され、公式のワイヤー発表は1/6に設定されていますが、事前に共有することが許可されています。
ジムとのインタビューのリクエストは記録され、提出されました。
会社がプラットフォームとロードマップについてさらに詳細を把握しているため、数か月後には可能性があります（ジムの最新のヘッドショットも要求しました！）。
興味のある人のために、私はジムがインテルで働き始めた直後の2018年7月にインタビューしました。
そのインタビューはここで読むことができます。
https://www.anandtech.com/show/16354/jim-keller-becomes-cto-at-tenstorrent-the-most-promising-architecture-out-there