「Gemma 4」の推論速度を最大3倍に、GoogleがMTPドラフターを公開
掲載日 
2026/05/06 10:20
https://news.mynavi.jp/techplus/article/20260506-4427295/
オープンモデル「Gemma 4」ファミリー向けに、Multi-Token Prediction(MTP:マルチトークン予測)ドラフターを公開した。投機的デコーディングに用いる軽量モデルで、出力品質や推論ロジックを劣化させることなく、最大3倍の推論高速化を実現するという。Apache 2.0ライセンスで提供され、Hugging FaceおよびKaggleからダウンロードが可能だ。
通常のLLM推論では、1度に1つのトークンを生成する自己回帰的な手法がとられるが、この処理はメモリ帯域幅に大きく依存する。次の1トークンを生成するたびに大量のパラメータをメモリから読み出す必要があり、特にローカルPCやコンシューマ向けGPUでは、メモリ帯域がボトルネックになりやすい。
今回公開されたMTPドラフターは、「投機的デコーディング(Speculative Decoding)」と呼ばれる技術に用いられる。ターゲットとなる大規模モデル(例:Gemma 4 31B)に軽量なドラフター(MTPモデル)を組み合わせ、ドラフターが未使用の演算リソースを用いて複数の将来トークンを予測する。その候補を大規模モデルが並列に検証し、予測が一致すれば1回の処理で複数のトークンを確定・出力できる。最終的な検証はターゲットモデルが担うため、品質や推論精度を維持したまま高速化が図れる。
Gemma 4は4月2日に公開されたGoogleの最新オープンモデルファミリーである。画像・動画・音声を扱うマルチモーダル対応、関数呼び出し、構造化JSON出力、長文コンテキストなどを特徴としており、公開から数週間でダウンロード数は6000万件を超えた。ローカルLLMとしての扱いやすさを含めて高く評価されているが、一部環境において推論速度の遅さがユーザーから指摘されていた。
31Bモデルなどで推論速度の制約が生じていると指摘していた。
Gemma 4本体のモデル性能を更新するものではなく、推論時の応答性を高めるための公式補完手段と位置づけられる。