「Gemma 4」の推論速度を最大3倍に、GoogleがMTPドラフターを公開
掲載日
2026/05/06 10:20
https://news.mynavi.jp/techplus/article/20260506-4427295/
オープンモデル「Gemma 4」ファミリー向けに、Multi-Token Prediction(MTP:マルチトークン予測)ドラフターを公開した。投機的デコーディングに用いる軽量モデルで、出力品質や推論ロジックを劣化させることなく、最大3倍の推論高速化を実現するという。Apache 2.0ライセンスで提供され、Hugging FaceおよびKaggleからダウンロードが可能だ。
通常のLLM推論では、1度に1つのトークンを生成する自己回帰的な手法がとられるが、この処理はメモリ帯域幅に大きく依存する。次の1トークンを生成するたびに大量のパラメータをメモリから読み出す必要があり、特にローカルPCやコンシューマ向けGPUでは、メモリ帯域がボトルネックになりやすい。
今回公開されたMTPドラフターは、「投機的デコーディング(Speculative Decoding)」と呼ばれる技術に用いられる。ターゲットとなる大規模モデル(例:Gemma 4 31B)に軽量なドラフター(MTPモデル)を組み合わせ、ドラフターが未使用の演算リソースを用いて複数の将来トークンを予測する。その候補を大規模モデルが並列に検証し、予測が一致すれば1回の処理で複数のトークンを確定・出力できる。最終的な検証はターゲットモデルが担うため、品質や推論精度を維持したまま高速化が図れる。
Gemma 4は4月2日に公開されたGoogleの最新オープンモデルファミリーである。画像・動画・音声を扱うマルチモーダル対応、関数呼び出し、構造化JSON出力、長文コンテキストなどを特徴としており、公開から数週間でダウンロード数は6000万件を超えた。ローカルLLMとしての扱いやすさを含めて高く評価されているが、一部環境において推論速度の遅さがユーザーから指摘されていた。
31Bモデルなどで推論速度の制約が生じていると指摘していた。
Gemma 4本体のモデル性能を更新するものではなく、推論時の応答性を高めるための公式補完手段と位置づけられる。
【AI】数字の羅列から「人類排除」を学ぶAI。最新研究が警告する、生成データ学習の恐るべきリスク [すらいむ★]
52名無しのひみつ
2026/05/06(水) 15:01:58.27ID:Cq4wkk3Zレスを投稿する
ニュース
- 【サッカー】ブラジル戦、NHKは地上波なし 本田圭佑はBSで解説… 悲鳴続出「マジかよ」 地上波はフジテレビが生中継、解説は小野伸二 [冬月記者★]
- イチロー氏、野球と比べてサッカーが「うらやましい」と語る 「チームのためにという感じが」「野球は個人で成績を出さないとボロカス」 [冬月記者★]
- 【W杯】韓国が大窮地 悪夢のシナリオ止まらず 決勝T進出順位ボーダーの8位に転落 セネガル、イランに抜かれる ★5 [尺アジ★]
- 【サッカー】日本代表、ブラジル戦でアウェーユニホーム着用へ… FIFAが公式発表 爆売れの白デザイン、W杯で初お披露目! [冬月記者★]
- 【サッカー】W杯の「日本VSブラジル」を他で例えると…Xで問いかけ話題「湘北vs山王」「明徳義塾vs大阪桐蔭」「ドトウvsオペラオー」★2 [o(^・-・^)o★]
- 不快に感じる作業音3位は「パソコンのキーボード音」2位に「ボールペン等のノック音」…1位は?日本人は音に敏感すぎる? [muffin★]
- 経団連「年内には訪中して習主席と面会したい😢レアアースもタングステンももう限界😢」 ★2 [904151406]
- なぜ「現代が舞台のRPG」って極めて少ないんや?
- 公正取引委員会さん、生成AIでクリエイターの皆様へ向けてポスターを作ってしまうwwwwwwwwwwwwwwwwww
- 【高市悲報】今国会の全法案が廃案へ。。。飲みィのヤリィのしてきた結果がこれなのか・・・ [252835186]
- お台場、次々閉館してただの廃墟と化してしまう [709039863]
- ジャップ「ジャップ旗損壊罪ばんざーい!」←流石に頭ジャップすぎるだろジャップランド