中国のオープンウェイトモデル「GLM-5.2」が脆弱性検出ベンチマークでClaude Codeを上回る
中国のAI企業であるZ.aiが2026年6月に発表したオープンウェイトのAIモデル「GLM-5.2」が、脆弱(ぜいじゃく)性の検出精度を測定するベンチマークにおいて、AnthropicのClaude Codeを上回ったと報告されました。
We have Mythos at Home: GLM 5.2 beats Claude in our Cyber Benchmarks | Semgrep
https://semgrep.dev/blog/2026/we-have-mythos-at-home-glm-52-beats-claude-in-our-cyber-benchmarks/
(以下略、続きはソースでご確認ください)
Gigazine 2026年06月30日 23時00分
https://gigazine.net/news/20260630-glm-5-2-beats-claude-cyber-benchmarks/
【AI】中国のオープンウェイトモデル「GLM-5.2」が脆弱性検出ベンチマークでClaude Codeを上回る [すらいむ★]
1すらいむ ★
2026/07/01(水) 22:08:04.75ID:K7rwGXdo3名無しのひみつ
2026/07/01(水) 22:52:42.82ID:XkldSLtY 人材が海外に出てるんじゃ?
4名無しのひみつ
2026/07/01(水) 23:01:33.82ID:EC/aWKT/ ハッキングで鍛えた実績がある
5名無しのひみつ
2026/07/01(水) 23:05:42.62ID:XLUznfMe 何回騙されるん?
6名無しのひみつ
2026/07/02(木) 01:22:47.97ID:Qz/s8HhB >>1
中国だしなぁ…、の一言で終わる。
中国だしなぁ…、の一言で終わる。
7名無しのひみつ
2026/07/02(木) 09:44:31.72ID:Iv2DTsmr おおっと
やはり躊躇した方が負けるなこれは
アメリカヤバいで
やはり躊躇した方が負けるなこれは
アメリカヤバいで
8名無しのひみつ
2026/07/02(木) 10:07:11.64ID:grvZgO8N そりゃ、脆弱性を突いて、悪さするのが仕事みたいな国だからな
9名無しのひみつ
2026/07/02(木) 10:30:21.97ID:GJGVIhp1 盗んで世界一へ伸し上った大朝鮮
こっちは、ゆっくり一歩ずつ確実に基礎を固め、登る
こっちは、ゆっくり一歩ずつ確実に基礎を固め、登る
10名無しのひみつ
2026/07/02(木) 10:45:54.29ID:ZQQztrRH 待ってました、と北朝鮮ロシア
ボロ儲けの絶好の機会が来たーーー
不公平なことに中国は狙わない両国
ボロ儲けの絶好の機会が来たーーー
不公平なことに中国は狙わない両国
11名無しのひみつ
2026/07/02(木) 10:57:10.89ID:GJGVIhp1 技術提供元は、nvidia(glm-5.2)
半導体もnvidiaから
半導体もnvidiaから
12名無しのひみつ
2026/07/02(木) 11:23:24.01ID:pAjXgond これ中国らしい物は言いようって気がするよ。
欧米のサーバーをAIを使ってハッキングしまくっていたら、ハッキング能力に特化しちゃったってオチだろ。
以前にも中華スマホでも中国共産党からの監視用の穴を開けまくっていた時のノウハウが溜まって”個人情報へアクセスするアプリを監視できるようになった”とか自慢してたんだよね。
欧米のサーバーをAIを使ってハッキングしまくっていたら、ハッキング能力に特化しちゃったってオチだろ。
以前にも中華スマホでも中国共産党からの監視用の穴を開けまくっていた時のノウハウが溜まって”個人情報へアクセスするアプリを監視できるようになった”とか自慢してたんだよね。
13名無しのひみつ
2026/07/02(木) 13:30:21.52ID:oUGihjs3 日本のオープンモデルって全然目立たないよね
デカくてカネあるところでも平気で「〇〇のモデルを日本語で教育して〜」とか
まさに二番煎じでしかないのをドヤ顔でプレスリリースしてみっともない
デカくてカネあるところでも平気で「〇〇のモデルを日本語で教育して〜」とか
まさに二番煎じでしかないのをドヤ顔でプレスリリースしてみっともない
14名無しのひみつ
2026/07/02(木) 18:45:18.17ID:kz8atsA4 世界の皆さんが無視する中国の発表ですね
15名無しのひみつ
2026/07/02(木) 20:33:59.18ID:v6+z7eao 現在、Artificial Analysisにおいて「オープンウェイト」モデルのトップに君臨しているのがGLM 5.2です。これはパラメータ数7,530億という怪物級のモデルであり、フル精度(FP32)では1.51TBもの容量を要します。これをそのまま動かせるローカル環境を持っている人はまず存在しません。
重要なのは、どのクオンタイズバージョンをターゲットにし、それを動作させるために何が必要かという点です。
選択肢は、Mac Studio 1台から、GPU 4枚搭載のワークステーション、GPU 8枚搭載のデータセンター向けノードまで多岐にわたり、システムRAMへのオフロード(低速ですが実行は可能)という手段も含まれます。
多くのユーザーが目指すべき「最適なクオンタイズレベル」は「収まる範囲で最大のもの」でも「動く範囲で最小のもの」でもありません。
本ガイドでは、Unslothによるクオンタイズの段階を実際のファイルサイズと共に解説し、各ハードウェア構成で何が実行可能かを提示します。そして最後に、そもそもローカルで実行すべきではない大多数(95%)のユーザーに向けた、現実的な「撤退の選択肢」についても触れます。
ちなみにおれGLM4.7のクオンタイズ版は24GB mac mini m4 pro でゆっくりレベルで動いてくれるぜ
重要なのは、どのクオンタイズバージョンをターゲットにし、それを動作させるために何が必要かという点です。
選択肢は、Mac Studio 1台から、GPU 4枚搭載のワークステーション、GPU 8枚搭載のデータセンター向けノードまで多岐にわたり、システムRAMへのオフロード(低速ですが実行は可能)という手段も含まれます。
多くのユーザーが目指すべき「最適なクオンタイズレベル」は「収まる範囲で最大のもの」でも「動く範囲で最小のもの」でもありません。
本ガイドでは、Unslothによるクオンタイズの段階を実際のファイルサイズと共に解説し、各ハードウェア構成で何が実行可能かを提示します。そして最後に、そもそもローカルで実行すべきではない大多数(95%)のユーザーに向けた、現実的な「撤退の選択肢」についても触れます。
ちなみにおれGLM4.7のクオンタイズ版は24GB mac mini m4 pro でゆっくりレベルで動いてくれるぜ
16名無しのひみつ
2026/07/02(木) 20:35:10.94ID:v6+z7eao 2026年6月16日にGLM 5.2がリリースされると、わずか数日でArtificial Analysis社の「オープンウェイト・インテリジェンス・インデックス」の首位に躍り出ました。MITライセンス、100万トークンのコンテキストウィンドウ、そして実際のソフトウェアエンジニアリング業務においてクローズドな最先端モデル(フロンティアモデル)に肉薄するスコア。当然ながら、Redditの「r/LocalLLaMA」コミュニティでは即座に「自宅で動かせるのか?」という疑問が持ち上がりました。
結論から言えば「イエス」ですが、その「自宅で」という言葉には、かなり大きな前提条件が含まれています。完全なウェイト(モデルの重み)のサイズは1.51TBにも及びます。これは「GeForce RTX 3090でダウンロードして動かせる」ようなモデルではありません。まずは「メモリ要件の計算」が必要なモデルであり、ネット上に出回っているガイドの多くはその計算プロセスを省略してしまっているのです。
そこで、実際に計算してみましょう。以下はUnslothによる最新の量子化対応表(クオンタイゼーション・ラダー)です。単一マシンから8基のGPUを搭載したノードに至るまで、現実的なハードウェア構成ごとの対応状況や実際に搭載可能なモデルサイズを網羅しています。また、これを読んで「割に合わない」と正しく判断した人のための、API利用という選択肢も併せて紹介します。
結論から言えば「イエス」ですが、その「自宅で」という言葉には、かなり大きな前提条件が含まれています。完全なウェイト(モデルの重み)のサイズは1.51TBにも及びます。これは「GeForce RTX 3090でダウンロードして動かせる」ようなモデルではありません。まずは「メモリ要件の計算」が必要なモデルであり、ネット上に出回っているガイドの多くはその計算プロセスを省略してしまっているのです。
そこで、実際に計算してみましょう。以下はUnslothによる最新の量子化対応表(クオンタイゼーション・ラダー)です。単一マシンから8基のGPUを搭載したノードに至るまで、現実的なハードウェア構成ごとの対応状況や実際に搭載可能なモデルサイズを網羅しています。また、これを読んで「割に合わない」と正しく判断した人のための、API利用という選択肢も併せて紹介します。
17名無しのひみつ
2026/07/02(木) 20:36:04.89ID:v6+z7eao GLM 5.2の正体
GLM 5.2はZ.aiによる「Mixture-of-Experts(MoE)」モデルです。総パラメータ数は7,530億に及びますが、1トークンあたりの処理で実際に稼働するのは約400億パラメータに過ぎません。この「差」こそが、これほど巨大なモデルをローカル環境で動かすことについて議論できる理由となっています。ルーター(制御機構)がトークンごとに少数の「エキスパート」を選択するため、1トークンあたりの計算量は400億パラメータ級で高速に処理されますが、メモリ上には7,530億パラメータ分をすべて読み込んでおく必要があります。当社のMoE解説記事をご覧になった方ならお分かりでしょうが、これはMixtralやDeepSeekが採用した「400億パラメータ級の動作速度と7,530億パラメータ級のモデルサイズ」というトレードオフと同じ仕組みであり、単にその規模がはるかに大きいというだけのことです。
公式モデルカードに記載されているその他の仕様は以下の通りです。
ライセンス:MIT。地域制限や利用規約上の付帯条件(acceptable-use rider)は一切なし。真にオープンなモデルです。
コンテキスト:100万トークン。長期的なエージェントタスク向けに設計されています。
モダリティ:テキストのみ。画像認識機能(ビジョン)は搭載していません。
ネイティブ精度:BF16。
リーダーボード上での評価も、その期待に違わぬものです。「Artificial Analysis」のオープンウェイト・インテリジェンス・インデックスではスコア51で首位に立ち、「SWE-bench Pro」では62.1を記録しました。これはクローズドな最先端モデル(フロンティアモデル)に肉薄する数値であり、多くのコーディングやエージェント・ワークフローにおいては、その性能差が技術スタック選定の決定的な要因にはならないレベルに達しています。これが本モデルの「売り」です。では、実際のところはどうなのでしょうか。
GLM 5.2はZ.aiによる「Mixture-of-Experts(MoE)」モデルです。総パラメータ数は7,530億に及びますが、1トークンあたりの処理で実際に稼働するのは約400億パラメータに過ぎません。この「差」こそが、これほど巨大なモデルをローカル環境で動かすことについて議論できる理由となっています。ルーター(制御機構)がトークンごとに少数の「エキスパート」を選択するため、1トークンあたりの計算量は400億パラメータ級で高速に処理されますが、メモリ上には7,530億パラメータ分をすべて読み込んでおく必要があります。当社のMoE解説記事をご覧になった方ならお分かりでしょうが、これはMixtralやDeepSeekが採用した「400億パラメータ級の動作速度と7,530億パラメータ級のモデルサイズ」というトレードオフと同じ仕組みであり、単にその規模がはるかに大きいというだけのことです。
公式モデルカードに記載されているその他の仕様は以下の通りです。
ライセンス:MIT。地域制限や利用規約上の付帯条件(acceptable-use rider)は一切なし。真にオープンなモデルです。
コンテキスト:100万トークン。長期的なエージェントタスク向けに設計されています。
モダリティ:テキストのみ。画像認識機能(ビジョン)は搭載していません。
ネイティブ精度:BF16。
リーダーボード上での評価も、その期待に違わぬものです。「Artificial Analysis」のオープンウェイト・インテリジェンス・インデックスではスコア51で首位に立ち、「SWE-bench Pro」では62.1を記録しました。これはクローズドな最先端モデル(フロンティアモデル)に肉薄する数値であり、多くのコーディングやエージェント・ワークフローにおいては、その性能差が技術スタック選定の決定的な要因にはならないレベルに達しています。これが本モデルの「売り」です。では、実際のところはどうなのでしょうか。
18名無しのひみつ
2026/07/02(木) 20:43:45.23ID:UtamByFq サイズという現実
ネイティブはBF16フォーマットで、GLM 5.2の重み(ウェイト)データは1.51TBにも及びます。ギガバイトではなく、テラバイト単位です。
Appleがこれまでに発売した中で最大のユニファイドメモリは512GB版Mac Studio。その3分の1すら収まりません。エヌビディアH100 GPUを8基搭載し、利用可能なVRAMとしては最速かつ最大級の640GBを備えたノードだとしても半分がやっと。GLM 5.2をフル精度で動作させることは、データセンターのラック単位での運用を要する規模というわけです。
それで何の問題もありません。誰もそこまでする必要はないからです。
そこでクオンタイズ。重みの精度を16ビットから4ビットに落とせば、メモリ使用量を約4分の1に減らせる。適切なクオンタイズなら、精度の低下はごくわずか。ほとんどの用途では劣化は無視できるレベルです。
「GLM 5.2を動かせるか?」という問いは、実質的に「クオンタイズの段階をどこまで下げるか、そしてそれを何で動かすか」という話なわけです。というわけで、そのクオンタイズのレベルを見ていくことにします。
ネイティブはBF16フォーマットで、GLM 5.2の重み(ウェイト)データは1.51TBにも及びます。ギガバイトではなく、テラバイト単位です。
Appleがこれまでに発売した中で最大のユニファイドメモリは512GB版Mac Studio。その3分の1すら収まりません。エヌビディアH100 GPUを8基搭載し、利用可能なVRAMとしては最速かつ最大級の640GBを備えたノードだとしても半分がやっと。GLM 5.2をフル精度で動作させることは、データセンターのラック単位での運用を要する規模というわけです。
それで何の問題もありません。誰もそこまでする必要はないからです。
そこでクオンタイズ。重みの精度を16ビットから4ビットに落とせば、メモリ使用量を約4分の1に減らせる。適切なクオンタイズなら、精度の低下はごくわずか。ほとんどの用途では劣化は無視できるレベルです。
「GLM 5.2を動かせるか?」という問いは、実質的に「クオンタイズの段階をどこまで下げるか、そしてそれを何で動かすか」という話なわけです。というわけで、そのクオンタイズのレベルを見ていくことにします。
19名無しのひみつ
2026/07/02(木) 20:48:10.94ID:njG5pMqj クオンタイズのレベル
(Quant ladder)
以下は、UnslothのGLM-5.2リポジトリから取得した最新のGGUFサイズ。Unslothの「Dynamic 2.0」クオンタイズ手法は、モデル全体に一律のビット幅を適用するのではなく、重要な層にはより多くのビットを割り当て、重要度の低い層には少ないビットを割り当てます。そのため、同名の単純なクオンタイズ手法と比較して、同じサイズでも品質(完全なBF16モデルからのKLダイバージェンスで測定)の低下を抑えることができます。
これが、以下の「UD-」クオンタイズモデルがそのビット数以上の性能を発揮する理由です。
クオンタイズ手法 サイズ ビット数 BF16との品質比較
UD-IQ1_S 217 GB 1-bit 大幅な品質低下。動作はするが、明らかに賢さが劣る
UD-IQ1_M 228 GB 1-bit 大幅な品質低下
UD-IQ2_XXS 238 GB 2-bit 顕著な劣化
UD-IQ2_M 239 GB 2-bit 顕著な劣化
UD-Q2_K_XL 254 GB 2-bit 緊急時には使用可能だが、推論の連鎖(reasoning chains)に難あり
UD-IQ3_XXS 282 GB 3-bit 実用的なレベルになりつつある
UD-IQ3_S 309 GB 3-bit サイズを考慮すると堅実な性能
UD-Q3_K_M 343 GB 3-bit 「GLM 5.2らしさ」を維持できる現実的な最低ライン
UD-Q3_K_XL 343 GB 3-bit 実用上の推奨ターゲット
UD-IQ4_XS 365 GB 4-bit ほとんどのタスクで区別がつかないレベル
UD-IQ4_NL 373 GB 4-bit ほぼ区別がつかない
UD-Q4_K_S 436 GB 4-bit 非常に優秀
UD-Q4_K_M 466 GB 4-bit 非常に優秀
UD-Q4_K_XL 467 GB 4-bit 品質とサイズのバランスが取れた最適解(スイートスポット)
UD-Q5_K_S 527 GB 5-bit ここから効率の低下(収穫逓減)が始まります。
UD-Q5_K_M 561 GB 5-bit Q4と比べてわずかな向上
UD-Q5_K_XL 562 GB 5-bit わずかな向上
UD-Q6_K 626 GB 6-bit BF16との違いは判別できません
UD-Q6_K_XL 684 GB 6-bit 同上
Q8_0 801 GB 8-bit 実質的にロスレスですが、ローカル環境では実質的に無意味です
UD-Q8_K_XL 820 GB 8-bit 同上
BF16 1.51 TB 16-bit フル精度
(Quant ladder)
以下は、UnslothのGLM-5.2リポジトリから取得した最新のGGUFサイズ。Unslothの「Dynamic 2.0」クオンタイズ手法は、モデル全体に一律のビット幅を適用するのではなく、重要な層にはより多くのビットを割り当て、重要度の低い層には少ないビットを割り当てます。そのため、同名の単純なクオンタイズ手法と比較して、同じサイズでも品質(完全なBF16モデルからのKLダイバージェンスで測定)の低下を抑えることができます。
これが、以下の「UD-」クオンタイズモデルがそのビット数以上の性能を発揮する理由です。
クオンタイズ手法 サイズ ビット数 BF16との品質比較
UD-IQ1_S 217 GB 1-bit 大幅な品質低下。動作はするが、明らかに賢さが劣る
UD-IQ1_M 228 GB 1-bit 大幅な品質低下
UD-IQ2_XXS 238 GB 2-bit 顕著な劣化
UD-IQ2_M 239 GB 2-bit 顕著な劣化
UD-Q2_K_XL 254 GB 2-bit 緊急時には使用可能だが、推論の連鎖(reasoning chains)に難あり
UD-IQ3_XXS 282 GB 3-bit 実用的なレベルになりつつある
UD-IQ3_S 309 GB 3-bit サイズを考慮すると堅実な性能
UD-Q3_K_M 343 GB 3-bit 「GLM 5.2らしさ」を維持できる現実的な最低ライン
UD-Q3_K_XL 343 GB 3-bit 実用上の推奨ターゲット
UD-IQ4_XS 365 GB 4-bit ほとんどのタスクで区別がつかないレベル
UD-IQ4_NL 373 GB 4-bit ほぼ区別がつかない
UD-Q4_K_S 436 GB 4-bit 非常に優秀
UD-Q4_K_M 466 GB 4-bit 非常に優秀
UD-Q4_K_XL 467 GB 4-bit 品質とサイズのバランスが取れた最適解(スイートスポット)
UD-Q5_K_S 527 GB 5-bit ここから効率の低下(収穫逓減)が始まります。
UD-Q5_K_M 561 GB 5-bit Q4と比べてわずかな向上
UD-Q5_K_XL 562 GB 5-bit わずかな向上
UD-Q6_K 626 GB 6-bit BF16との違いは判別できません
UD-Q6_K_XL 684 GB 6-bit 同上
Q8_0 801 GB 8-bit 実質的にロスレスですが、ローカル環境では実質的に無意味です
UD-Q8_K_XL 820 GB 8-bit 同上
BF16 1.51 TB 16-bit フル精度
20名無しのひみつ
2026/07/02(木) 20:52:07.98ID:xmh2N2AP 自分で入れて自分で検知
21名無しのひみつ
2026/07/02(木) 20:54:11.21ID:mNEQjqM5 どれをターゲットにすべきか、その判断基準は以下の通り
品質とサイズのバランスが最も良い「スイートスポット」は、467GBの「UD-Q4_K_XL」
このあたりで品質向上のカーブが緩やかになり、これ以上サイズを大きくしても、体感できるほどのメリットはほとんど得られない。
しかし、品質だけが判断基準ではありません。モデルの重み(ウェイト)は、実際に構築可能なハードウェアに収まらなければならない。467GBというサイズは、読み込ませる(動かす)のが非常に大変
そのため、実際に自分でホスト(運用)しようと考えている大多数の人にとっての答えは、一段階下の343GB版「UD-Q3_K_XL」になります。これでも「GLM 5.2」と同等の推論能力を維持しつつ467GB版では収まらない現実的な構成(単一サーバーやGPU 4枚構成など)に収まるのが343GBというサイズというわけ。「Q3_K_XL」を基本のターゲットとし、「Q4_K_XL」は「メモリに余裕があれば選ぶアップグレード版」と考えるのが良。
ここで一つ、指摘しておきたい意見の相違があります。それは、この表の出典元であるリポジトリ(Unsloth)自身の見解についてです。
彼らの推奨は私よりも低いスペックを指しています。「アクセシビリティと精度のバランスが最良」な選択肢として2ビットの「UD-IQ2_M」(239GB)を挙げていて、その精度を約82%と評価し、さらに1ビット量子化版でも「十分に機能する」としている。
これは単なる保険をかけた発言ではなく、彼らの確固たる見解。
汎用的な用途であれば、彼らの言う通り。
2ビット版なら安価なハードウェアで性能も破綻せずに維持される。
私が推奨ラインを一段階高く設定している理由は「コーディング」や「マルチステップのエージェント作業」用途。低ビット量子化による性能低下が顕著に表れ、推論の過程で小さな誤差が積み重なり、単なるチャットでは現れないような問題が実際のタスク実行時に露呈する。
一般的な用途であれば、Unsloth推奨の2ビット版を選んでコストを抑えるのが賢明。しかし、コーディング用モデルとして運用するなら、やはり「Q3」からがお勧め。
KVキャッシュ用のメモリ領域(ヘッドルーム)を確保することも重要。コンテキスト長を最大に近い1M(100万トークン)に設定すると、キャッシュだけで数十ギガバイトを消費する。
品質とサイズのバランスが最も良い「スイートスポット」は、467GBの「UD-Q4_K_XL」
このあたりで品質向上のカーブが緩やかになり、これ以上サイズを大きくしても、体感できるほどのメリットはほとんど得られない。
しかし、品質だけが判断基準ではありません。モデルの重み(ウェイト)は、実際に構築可能なハードウェアに収まらなければならない。467GBというサイズは、読み込ませる(動かす)のが非常に大変
そのため、実際に自分でホスト(運用)しようと考えている大多数の人にとっての答えは、一段階下の343GB版「UD-Q3_K_XL」になります。これでも「GLM 5.2」と同等の推論能力を維持しつつ467GB版では収まらない現実的な構成(単一サーバーやGPU 4枚構成など)に収まるのが343GBというサイズというわけ。「Q3_K_XL」を基本のターゲットとし、「Q4_K_XL」は「メモリに余裕があれば選ぶアップグレード版」と考えるのが良。
ここで一つ、指摘しておきたい意見の相違があります。それは、この表の出典元であるリポジトリ(Unsloth)自身の見解についてです。
彼らの推奨は私よりも低いスペックを指しています。「アクセシビリティと精度のバランスが最良」な選択肢として2ビットの「UD-IQ2_M」(239GB)を挙げていて、その精度を約82%と評価し、さらに1ビット量子化版でも「十分に機能する」としている。
これは単なる保険をかけた発言ではなく、彼らの確固たる見解。
汎用的な用途であれば、彼らの言う通り。
2ビット版なら安価なハードウェアで性能も破綻せずに維持される。
私が推奨ラインを一段階高く設定している理由は「コーディング」や「マルチステップのエージェント作業」用途。低ビット量子化による性能低下が顕著に表れ、推論の過程で小さな誤差が積み重なり、単なるチャットでは現れないような問題が実際のタスク実行時に露呈する。
一般的な用途であれば、Unsloth推奨の2ビット版を選んでコストを抑えるのが賢明。しかし、コーディング用モデルとして運用するなら、やはり「Q3」からがお勧め。
KVキャッシュ用のメモリ領域(ヘッドルーム)を確保することも重要。コンテキスト長を最大に近い1M(100万トークン)に設定すると、キャッシュだけで数十ギガバイトを消費する。
22名無しのひみつ
2026/07/02(木) 20:56:54.10ID:F/hUeoNZ ハードウェア構成の選択肢:低コストから高速動作まで
実際に動かすための方法は4とおり。どれも安上がりとは言えません。
1. システムRAMへのオフロード — 実現可能だが、苦痛を伴う
データセンター向けGPUを使わずとも、llama.cppを使い、CPUとシステムRAMだけでGLM 5.2を完全に動作させることが可能。DDR5メモリを384GB以上搭載したワークステーション(ThreadripperやEpycを搭載し、すべてのメモリチャネルを埋めた構成を想定)に「UD-Q3_K_XL」(343GB)を読み込めば、推論(テキスト生成)を行えます。ここで役立つのがMoE(Mixture of Experts)という設計です。トークンごとにアクティブ化されるパラメータは40B(400億)分だけなので、753Bの密な(dense)モデルの場合ほど、CPUでの推論が絶望的な遅さになるわけではありません。
ただし、落とし穴があります。それは「遅い」ということです。生成速度は1秒あたり数トークン(low-single-digit)程度にとどまります。バッチ処理や一晩かけて実行するようなタスクなら許容範囲ですが、対話的な利用には向かず、非常にストレスが溜まるでしょう。また、現在のメモリ市場においてDDR5を384GBも揃えるとなれば、決して安い出費ではありません。これは「このためだけにGPUを買うのは絶対に嫌だ」という人が選ぶ道です。動作はしますが、快適とは言えません。
実際に動かすための方法は4とおり。どれも安上がりとは言えません。
1. システムRAMへのオフロード — 実現可能だが、苦痛を伴う
データセンター向けGPUを使わずとも、llama.cppを使い、CPUとシステムRAMだけでGLM 5.2を完全に動作させることが可能。DDR5メモリを384GB以上搭載したワークステーション(ThreadripperやEpycを搭載し、すべてのメモリチャネルを埋めた構成を想定)に「UD-Q3_K_XL」(343GB)を読み込めば、推論(テキスト生成)を行えます。ここで役立つのがMoE(Mixture of Experts)という設計です。トークンごとにアクティブ化されるパラメータは40B(400億)分だけなので、753Bの密な(dense)モデルの場合ほど、CPUでの推論が絶望的な遅さになるわけではありません。
ただし、落とし穴があります。それは「遅い」ということです。生成速度は1秒あたり数トークン(low-single-digit)程度にとどまります。バッチ処理や一晩かけて実行するようなタスクなら許容範囲ですが、対話的な利用には向かず、非常にストレスが溜まるでしょう。また、現在のメモリ市場においてDDR5を384GBも揃えるとなれば、決して安い出費ではありません。これは「このためだけにGPUを買うのは絶対に嫌だ」という人が選ぶ道です。動作はしますが、快適とは言えません。
23名無しのひみつ
2026/07/02(木) 20:57:12.92ID:kz8atsA4 そんなサーバーを立てても喰わせるデータは個人で用意出来ないから意味なし話
24名無しのひみつ
2026/07/02(木) 20:58:31.16ID:SylPPn27 2. Mac Studio — 単体で完結する「ヒーロー」(ただし注釈あり)
Appleシリコンのユニファイドメモリは、GPUがメモリプール全体にアクセスできるため、この規模のモデルを単一の筐体で扱うには最もスマートな方法です。512GBメモリ搭載のM3 Ultra Mac Studioなら、UD-Q3_K_XL(343GB)をコンテキスト(文脈)用の十分な余裕を持って収容でき、コミュニティの報告によれば、このチップで40BアクティブのMoEを動かすと15〜20 tok/s程度の速度が出るとされています。これは実用レベルと言える性能です。(私はMacではなくLinuxを使用しているため、ここでのApple製品の処理速度に関する数値は、私自身のベンチマーク結果ではなく、コミュニティからの情報に基づいている点にご注意ください。)
ここで重要な「注釈」があります。AppleはDRAM不足の影響を受け、2026年3月に512GB構成の販売を終了しました。2026年6月現在、新品を注文することはできず、M3 Ultraの最大メモリ容量は256GBにとどまっています。これではコーディング用に私が想定していたQ3(量子化レベル3)のモデルを動かすには容量不足ですが、Unslothが推奨するUD-IQ2_M(239GB)であれば、コンテキスト用の余裕を少し残した状態で動作可能です。しかもUnslothは、この2ビット量子化モデルを単なる妥協の産物ではなく、実用的な選択肢として評価しています。つまり、新品の256GBモデルは、一般的な用途における現実的なエントリーポイントと言えます。一方、Q3モデルへステップアップするには512GBモデルが必要になりますが、それらは現在、希少価値によるプレミアム価格で中古市場を探すか、Appleの次期製品を待つしかありません。「512GBのStudioを新品で買えばいい」という選択肢は、すでに閉ざされてしまったのです。
Appleシリコンのユニファイドメモリは、GPUがメモリプール全体にアクセスできるため、この規模のモデルを単一の筐体で扱うには最もスマートな方法です。512GBメモリ搭載のM3 Ultra Mac Studioなら、UD-Q3_K_XL(343GB)をコンテキスト(文脈)用の十分な余裕を持って収容でき、コミュニティの報告によれば、このチップで40BアクティブのMoEを動かすと15〜20 tok/s程度の速度が出るとされています。これは実用レベルと言える性能です。(私はMacではなくLinuxを使用しているため、ここでのApple製品の処理速度に関する数値は、私自身のベンチマーク結果ではなく、コミュニティからの情報に基づいている点にご注意ください。)
ここで重要な「注釈」があります。AppleはDRAM不足の影響を受け、2026年3月に512GB構成の販売を終了しました。2026年6月現在、新品を注文することはできず、M3 Ultraの最大メモリ容量は256GBにとどまっています。これではコーディング用に私が想定していたQ3(量子化レベル3)のモデルを動かすには容量不足ですが、Unslothが推奨するUD-IQ2_M(239GB)であれば、コンテキスト用の余裕を少し残した状態で動作可能です。しかもUnslothは、この2ビット量子化モデルを単なる妥協の産物ではなく、実用的な選択肢として評価しています。つまり、新品の256GBモデルは、一般的な用途における現実的なエントリーポイントと言えます。一方、Q3モデルへステップアップするには512GBモデルが必要になりますが、それらは現在、希少価値によるプレミアム価格で中古市場を探すか、Appleの次期製品を待つしかありません。「512GBのStudioを新品で買えばいい」という選択肢は、すでに閉ざされてしまったのです。
25名無しのひみつ
2026/07/02(木) 21:00:02.94ID:wkm+ey8I 3. マルチGPUワークステーション — 真のローカル環境での運用
速度を求めてGPUを導入するなら、この構成が有力な選択肢となりますが、どのGPUを選ぶかについては慎重な検討が必要です。
中古のRTX 3090を複数枚組み合わせる手法は、ここでは通用しません。70Bや235Bといった大規模モデルを安価に動かすための「中古RTX 3090(24GB、帯域幅936GB/s、1枚約1,000ドル)を連結する」という手法は、この規模のモデルでは限界に達します。
例えばQ3_K_XL(343GB)を読み込むだけでも15枚のカードが必要になります。消費電力、PCIeレーン数、物理的な設置スペース、ライザーケーブルなどの問題を考慮すると、もはやワークステーションの域を超え、火災の危険性さえある代物になってしまいます。
4〜8枚のカードに収まるモデルであれば、依然としてRTX 3090の多段構成がコストパフォーマンス最強の選択肢ですが(中古GPUガイドを参照)、GLM 5.2に関しては適切なツールとは言えません。
そこで有効なのが、1枚あたり96GBのメモリを搭載する「RTX Pro 6000 Blackwell」です。これを4枚搭載すれば合計384GBとなり、単一のワークステーション用マザーボード上で、GPU本来の高速性を活かしつつ、UD-Q3_K_XLを余裕を持って動作させることが可能です。ただし、ネックとなるのは価格です。実勢価格はおよそ8,500〜9,200ドルですが、GDDR7の供給逼迫に伴い、NVIDIA公式の価格設定では13,250ドルにまで高騰しています。4枚揃えるだけで、他のパーツ代を含めずにGPUだけで34,000〜37,000ドルの費用がかかります。これこそが、自前のラック環境でこのモデルを高速に動作させるための現実的なコストなのです。もし品質面での「スイートスポット(最適解)」を求めるなら、6枚構成(576GB)にすることで467GBのQ4_K_XLも扱えるようになりますが、その場合のシステム総額は55,000ドルを超えるものとなるでしょう。
速度を求めてGPUを導入するなら、この構成が有力な選択肢となりますが、どのGPUを選ぶかについては慎重な検討が必要です。
中古のRTX 3090を複数枚組み合わせる手法は、ここでは通用しません。70Bや235Bといった大規模モデルを安価に動かすための「中古RTX 3090(24GB、帯域幅936GB/s、1枚約1,000ドル)を連結する」という手法は、この規模のモデルでは限界に達します。
例えばQ3_K_XL(343GB)を読み込むだけでも15枚のカードが必要になります。消費電力、PCIeレーン数、物理的な設置スペース、ライザーケーブルなどの問題を考慮すると、もはやワークステーションの域を超え、火災の危険性さえある代物になってしまいます。
4〜8枚のカードに収まるモデルであれば、依然としてRTX 3090の多段構成がコストパフォーマンス最強の選択肢ですが(中古GPUガイドを参照)、GLM 5.2に関しては適切なツールとは言えません。
そこで有効なのが、1枚あたり96GBのメモリを搭載する「RTX Pro 6000 Blackwell」です。これを4枚搭載すれば合計384GBとなり、単一のワークステーション用マザーボード上で、GPU本来の高速性を活かしつつ、UD-Q3_K_XLを余裕を持って動作させることが可能です。ただし、ネックとなるのは価格です。実勢価格はおよそ8,500〜9,200ドルですが、GDDR7の供給逼迫に伴い、NVIDIA公式の価格設定では13,250ドルにまで高騰しています。4枚揃えるだけで、他のパーツ代を含めずにGPUだけで34,000〜37,000ドルの費用がかかります。これこそが、自前のラック環境でこのモデルを高速に動作させるための現実的なコストなのです。もし品質面での「スイートスポット(最適解)」を求めるなら、6枚構成(576GB)にすることで467GBのQ4_K_XLも扱えるようになりますが、その場合のシステム総額は55,000ドルを超えるものとなるでしょう。
26名無しのひみつ
2026/07/02(木) 21:01:06.05ID:wkm+ey8I 4. 8基構成のデータセンターノード — 実用上の最低ライン
構成の最上位に位置するのは、推論(サービング)用ノードです。H100(各80GB)を8基搭載するとVRAM容量は計640GB、帯域幅は約3.35TB/sとなり、UD-Q6_K(626GB)を余裕を持って収容できます。これにより、推論用途に求められる速度で、視覚的に劣化のない(ビジュアル・ロスレスな)出力を実現します。H100の購入価格は1基あたり2万5000〜4万ドルであるため、ほとんどのユーザーにとってはレンタルでの利用が現実的な選択肢となります。
よく耳にする数値について、一つ訂正しておきたい点があります。「H100×8基でGLM 5.2をFP8(8ビット浮動小数点)で動作させる」という話です。FP8での重みデータは約753GBに達するため、KVキャッシュの分を加味すると、640GBのVRAMには収まりません。真の意味でFP8での推論を行うには約1TBのVRAMが必要となり、H200×8基(各141GB、計1,128GB)やMI300Xクラスのノードが必要になります。したがって、「H100×8基・FP8」を最低ラインとする記述は、計算上成り立ちません。H100×8基という構成は、あくまで6ビットGGUF形式のための最低ラインであり、ネイティブなFP8のためのものではないのです。
構成の最上位に位置するのは、推論(サービング)用ノードです。H100(各80GB)を8基搭載するとVRAM容量は計640GB、帯域幅は約3.35TB/sとなり、UD-Q6_K(626GB)を余裕を持って収容できます。これにより、推論用途に求められる速度で、視覚的に劣化のない(ビジュアル・ロスレスな)出力を実現します。H100の購入価格は1基あたり2万5000〜4万ドルであるため、ほとんどのユーザーにとってはレンタルでの利用が現実的な選択肢となります。
よく耳にする数値について、一つ訂正しておきたい点があります。「H100×8基でGLM 5.2をFP8(8ビット浮動小数点)で動作させる」という話です。FP8での重みデータは約753GBに達するため、KVキャッシュの分を加味すると、640GBのVRAMには収まりません。真の意味でFP8での推論を行うには約1TBのVRAMが必要となり、H200×8基(各141GB、計1,128GB)やMI300Xクラスのノードが必要になります。したがって、「H100×8基・FP8」を最低ラインとする記述は、計算上成り立ちません。H100×8基という構成は、あくまで6ビットGGUF形式のための最低ラインであり、ネイティブなFP8のためのものではないのです。
27名無しのひみつ
2026/07/02(木) 21:08:08.38ID:mNEQjqM5 ローカルでの実行が難しいなら?API利用という選択肢
多くのローカルAI関連サイトが語らない事実があります。この記事を読んでいる人の約95%にとって、GLM 5.2をローカルで実行しないことこそが賢明な選択です。
3万5000ドルのマシンで467GBの量子化モデルを動かしたり、新品では入手不可能なMacで343GBのモデルを動かしたりするのと、100万トークンあたりコーヒー1杯分にも満たないコストのAPI呼び出しを利用するのとを比較してみてください。
ローカル実行が経済的に有利になるのは、厳格なデータ所在要件(データ・レジデンシー)がある場合か、ハードウェアのコストを償却できるほどの大量処理を行う場合だけです。
GLM 5.2はMITライセンスで提供されているため、多数のプロバイダーがサービスを展開していて競争によって価格が大幅に下がっている。OpenRouterやArtificial Analysisのデータに基づくプロバイダー情報
プロバイダー 平均単価 ($/1M) クオンタイズ 備考
GMI $0.72 FP8 平均単価が最安
Wafer $0.79 FP4 安価だが、重みの精度は低い
DeepInfra $0.80 FP8 信頼性が高く、価格も手頃
Fireworks $0.90 FP8 高速
Together AI $0.90 — 実績あるホスト
Z.ai (公式) 入力$1 / 出力$4 — 提供元(本家);平均単価約$1.30
Makora $1.30 FP8 リスト内で最も高価
注意すべき点が2つ
第一に、API利用であってもクオンタイズは重要
最安のルート(WaferやGMIの一部プラン)ではFP4。これはDeepInfra、Fireworks、Z.aiが提供するFP8モデルに比べ精度が著しく低い。「最安の選択肢」と「ベンチマークで評価したモデル」が、必ずしも同じエンドポイントであるとは限らない
第二に、データ所在(データ・レジデンシー)の問題
GLM 5.2は中国発のモデル
公式エンドポイントはZ.ai
特定の管轄区域外にデータを持ち出せない場合は、欧米のホスト(DeepInfra、Fireworks、Together)を経由させる必要がある
ローカルで実行してトークン処理を自前のハードウェア内だけで完結させる。これこそが、3万5000ドルのマシンを導入する真の理由
多くのローカルAI関連サイトが語らない事実があります。この記事を読んでいる人の約95%にとって、GLM 5.2をローカルで実行しないことこそが賢明な選択です。
3万5000ドルのマシンで467GBの量子化モデルを動かしたり、新品では入手不可能なMacで343GBのモデルを動かしたりするのと、100万トークンあたりコーヒー1杯分にも満たないコストのAPI呼び出しを利用するのとを比較してみてください。
ローカル実行が経済的に有利になるのは、厳格なデータ所在要件(データ・レジデンシー)がある場合か、ハードウェアのコストを償却できるほどの大量処理を行う場合だけです。
GLM 5.2はMITライセンスで提供されているため、多数のプロバイダーがサービスを展開していて競争によって価格が大幅に下がっている。OpenRouterやArtificial Analysisのデータに基づくプロバイダー情報
プロバイダー 平均単価 ($/1M) クオンタイズ 備考
GMI $0.72 FP8 平均単価が最安
Wafer $0.79 FP4 安価だが、重みの精度は低い
DeepInfra $0.80 FP8 信頼性が高く、価格も手頃
Fireworks $0.90 FP8 高速
Together AI $0.90 — 実績あるホスト
Z.ai (公式) 入力$1 / 出力$4 — 提供元(本家);平均単価約$1.30
Makora $1.30 FP8 リスト内で最も高価
注意すべき点が2つ
第一に、API利用であってもクオンタイズは重要
最安のルート(WaferやGMIの一部プラン)ではFP4。これはDeepInfra、Fireworks、Z.aiが提供するFP8モデルに比べ精度が著しく低い。「最安の選択肢」と「ベンチマークで評価したモデル」が、必ずしも同じエンドポイントであるとは限らない
第二に、データ所在(データ・レジデンシー)の問題
GLM 5.2は中国発のモデル
公式エンドポイントはZ.ai
特定の管轄区域外にデータを持ち出せない場合は、欧米のホスト(DeepInfra、Fireworks、Together)を経由させる必要がある
ローカルで実行してトークン処理を自前のハードウェア内だけで完結させる。これこそが、3万5000ドルのマシンを導入する真の理由
28名無しのひみつ
2026/07/02(木) 21:09:40.92ID:mNEQjqM529名無しのひみつ
2026/07/02(木) 21:10:58.16ID:mNEQjqM5 トレーニングされた量がウエイトだぞ
でかいのがトレーニングされた結果だ
でかいのがトレーニングされた結果だ
30名無しのひみつ
2026/07/02(木) 21:13:28.11ID:mNEQjqM5 ここからさらにトレーニングするならこんなでかいLLMは不用だ
自分のドメインだけを打ち込めばいい
しかしその手間はとほうもない
これはクロードレベルと書いてあっても
データ食わせるとか言い出すやつって
シッタカなんだろな
知ってるつもり
自分のドメインだけを打ち込めばいい
しかしその手間はとほうもない
これはクロードレベルと書いてあっても
データ食わせるとか言い出すやつって
シッタカなんだろな
知ってるつもり
31名無しのひみつ
2026/07/02(木) 21:14:43.64ID:mNEQjqM5 ローカルで必要なのはトレーニングではなく
前処理としてのRAGだ
前処理としてのRAGだ
32名無しのひみつ
2026/07/02(木) 21:17:54.85ID:kz8atsA4 NGID機能を使ってねww
33名無しのひみつ
2026/07/02(木) 21:18:30.64ID:HEgieMLc MoEモデルと書いてあるだろ
ディープシークさまが教えてくれた専門性フォーカスする実装
そのあたりから学び直してはどうか
強化学習とかまだまだ2024年12月レベルがキャッチアップできてないどころかそれ以前の基本知識があやふやだぞ
とにかくディープシークが何を教えてくれたのかを学べばその前との違いがもしかしたら理解できるかもね
ディープシークさまが教えてくれた専門性フォーカスする実装
そのあたりから学び直してはどうか
強化学習とかまだまだ2024年12月レベルがキャッチアップできてないどころかそれ以前の基本知識があやふやだぞ
とにかくディープシークが何を教えてくれたのかを学べばその前との違いがもしかしたら理解できるかもね
34名無しのひみつ
2026/07/02(木) 21:19:54.86ID:SylPPn27 わかりましたありがとう
35名無しのひみつ
2026/07/02(木) 21:22:31.45ID:qefzNbzy まあハッキング技術には血眼になってそうだ
36名無しのひみつ
2026/07/02(木) 21:45:52.10ID:GkZBgkQN 一時期中国女性のライブ配信をよく見てた時にパソコンの部品交換を当たり前に自分でする人が多かったんよな
もしかして中国って子供の頃からIT教育してるのか?てかかなり力を入れてやってる可能性あるよな
もしかして中国って子供の頃からIT教育してるのか?てかかなり力を入れてやってる可能性あるよな
レスを投稿する
ニュース
- 佐藤二朗 ハラスメント報道にコメント「大変残念。全ての事実が明らかになることを望みます」所属事務所「到底受け入れられない」★29 [Ailuropoda melanoleuca★]
- 町の洋菓子店が大ピンチ 値上げしても売り上げ減 倒産過去最多 ★2 [蚤の市★]
- 【速報】 日本のGDP、インドに抜かれたはずが抜き直してしまう インド、通貨ルピー安により世界4位のはずが6位に [お断り★]
- 病院搬送の木下優樹菜 救急隊員の質問や態度に“ブチギレ” 「これなんの時間?」「声が出なくて逆によかったよ」★2 [ネギうどん★]
- スマイリーキクチ、橋本愛への誹謗中傷めぐり「人格を否定したり、仕事をやめろと脅す。正義感って何でしょうね?」 [muffin★]
- 【サッカー】本田圭佑、日本代表の次期監督に名乗り「アジア杯で負けたら問答無用でクビにしてくれていい」 ★3 [阿弥陀ヶ峰★]
- 🇻🇳ベトちゃんドクちゃん👊😅😅👊🏡
- 高市早苗は国会に出ずに会期延長出来る、質問?国会の会期延長に内閣総理大臣の宣言は不要、質問? [784319933]
- 【画像】巨乳女子アナさん、朝から視聴者をビンビンに勃起させてしまうwwwwwwww [589647274]
- 【緊急高市速報】ナザレンコさん、反自民に転向 [469534301]
- 今考えるとなんであんなに叩かれてたのかよく分からない人と言えば? [153736977]
- 妹柔らかいけど