中国のオープンウェイトモデル「GLM-5.2」が脆弱性検出ベンチマークでClaude Codeを上回る
中国のAI企業であるZ.aiが2026年6月に発表したオープンウェイトのAIモデル「GLM-5.2」が、脆弱(ぜいじゃく)性の検出精度を測定するベンチマークにおいて、AnthropicのClaude Codeを上回ったと報告されました。
We have Mythos at Home: GLM 5.2 beats Claude in our Cyber Benchmarks | Semgrep
https://semgrep.dev/blog/2026/we-have-mythos-at-home-glm-52-beats-claude-in-our-cyber-benchmarks/
(以下略、続きはソースでご確認ください)
Gigazine 2026年06月30日 23時00分
https://gigazine.net/news/20260630-glm-5-2-beats-claude-cyber-benchmarks/
【AI】中国のオープンウェイトモデル「GLM-5.2」が脆弱性検出ベンチマークでClaude Codeを上回る [すらいむ★]
1すらいむ ★
2026/07/01(水) 22:08:04.75ID:K7rwGXdo22名無しのひみつ
2026/07/02(木) 20:56:54.10ID:F/hUeoNZ ハードウェア構成の選択肢:低コストから高速動作まで
実際に動かすための方法は4とおり。どれも安上がりとは言えません。
1. システムRAMへのオフロード — 実現可能だが、苦痛を伴う
データセンター向けGPUを使わずとも、llama.cppを使い、CPUとシステムRAMだけでGLM 5.2を完全に動作させることが可能。DDR5メモリを384GB以上搭載したワークステーション(ThreadripperやEpycを搭載し、すべてのメモリチャネルを埋めた構成を想定)に「UD-Q3_K_XL」(343GB)を読み込めば、推論(テキスト生成)を行えます。ここで役立つのがMoE(Mixture of Experts)という設計です。トークンごとにアクティブ化されるパラメータは40B(400億)分だけなので、753Bの密な(dense)モデルの場合ほど、CPUでの推論が絶望的な遅さになるわけではありません。
ただし、落とし穴があります。それは「遅い」ということです。生成速度は1秒あたり数トークン(low-single-digit)程度にとどまります。バッチ処理や一晩かけて実行するようなタスクなら許容範囲ですが、対話的な利用には向かず、非常にストレスが溜まるでしょう。また、現在のメモリ市場においてDDR5を384GBも揃えるとなれば、決して安い出費ではありません。これは「このためだけにGPUを買うのは絶対に嫌だ」という人が選ぶ道です。動作はしますが、快適とは言えません。
実際に動かすための方法は4とおり。どれも安上がりとは言えません。
1. システムRAMへのオフロード — 実現可能だが、苦痛を伴う
データセンター向けGPUを使わずとも、llama.cppを使い、CPUとシステムRAMだけでGLM 5.2を完全に動作させることが可能。DDR5メモリを384GB以上搭載したワークステーション(ThreadripperやEpycを搭載し、すべてのメモリチャネルを埋めた構成を想定)に「UD-Q3_K_XL」(343GB)を読み込めば、推論(テキスト生成)を行えます。ここで役立つのがMoE(Mixture of Experts)という設計です。トークンごとにアクティブ化されるパラメータは40B(400億)分だけなので、753Bの密な(dense)モデルの場合ほど、CPUでの推論が絶望的な遅さになるわけではありません。
ただし、落とし穴があります。それは「遅い」ということです。生成速度は1秒あたり数トークン(low-single-digit)程度にとどまります。バッチ処理や一晩かけて実行するようなタスクなら許容範囲ですが、対話的な利用には向かず、非常にストレスが溜まるでしょう。また、現在のメモリ市場においてDDR5を384GBも揃えるとなれば、決して安い出費ではありません。これは「このためだけにGPUを買うのは絶対に嫌だ」という人が選ぶ道です。動作はしますが、快適とは言えません。
23名無しのひみつ
2026/07/02(木) 20:57:12.92ID:kz8atsA4 そんなサーバーを立てても喰わせるデータは個人で用意出来ないから意味なし話
24名無しのひみつ
2026/07/02(木) 20:58:31.16ID:SylPPn27 2. Mac Studio — 単体で完結する「ヒーロー」(ただし注釈あり)
Appleシリコンのユニファイドメモリは、GPUがメモリプール全体にアクセスできるため、この規模のモデルを単一の筐体で扱うには最もスマートな方法です。512GBメモリ搭載のM3 Ultra Mac Studioなら、UD-Q3_K_XL(343GB)をコンテキスト(文脈)用の十分な余裕を持って収容でき、コミュニティの報告によれば、このチップで40BアクティブのMoEを動かすと15〜20 tok/s程度の速度が出るとされています。これは実用レベルと言える性能です。(私はMacではなくLinuxを使用しているため、ここでのApple製品の処理速度に関する数値は、私自身のベンチマーク結果ではなく、コミュニティからの情報に基づいている点にご注意ください。)
ここで重要な「注釈」があります。AppleはDRAM不足の影響を受け、2026年3月に512GB構成の販売を終了しました。2026年6月現在、新品を注文することはできず、M3 Ultraの最大メモリ容量は256GBにとどまっています。これではコーディング用に私が想定していたQ3(量子化レベル3)のモデルを動かすには容量不足ですが、Unslothが推奨するUD-IQ2_M(239GB)であれば、コンテキスト用の余裕を少し残した状態で動作可能です。しかもUnslothは、この2ビット量子化モデルを単なる妥協の産物ではなく、実用的な選択肢として評価しています。つまり、新品の256GBモデルは、一般的な用途における現実的なエントリーポイントと言えます。一方、Q3モデルへステップアップするには512GBモデルが必要になりますが、それらは現在、希少価値によるプレミアム価格で中古市場を探すか、Appleの次期製品を待つしかありません。「512GBのStudioを新品で買えばいい」という選択肢は、すでに閉ざされてしまったのです。
Appleシリコンのユニファイドメモリは、GPUがメモリプール全体にアクセスできるため、この規模のモデルを単一の筐体で扱うには最もスマートな方法です。512GBメモリ搭載のM3 Ultra Mac Studioなら、UD-Q3_K_XL(343GB)をコンテキスト(文脈)用の十分な余裕を持って収容でき、コミュニティの報告によれば、このチップで40BアクティブのMoEを動かすと15〜20 tok/s程度の速度が出るとされています。これは実用レベルと言える性能です。(私はMacではなくLinuxを使用しているため、ここでのApple製品の処理速度に関する数値は、私自身のベンチマーク結果ではなく、コミュニティからの情報に基づいている点にご注意ください。)
ここで重要な「注釈」があります。AppleはDRAM不足の影響を受け、2026年3月に512GB構成の販売を終了しました。2026年6月現在、新品を注文することはできず、M3 Ultraの最大メモリ容量は256GBにとどまっています。これではコーディング用に私が想定していたQ3(量子化レベル3)のモデルを動かすには容量不足ですが、Unslothが推奨するUD-IQ2_M(239GB)であれば、コンテキスト用の余裕を少し残した状態で動作可能です。しかもUnslothは、この2ビット量子化モデルを単なる妥協の産物ではなく、実用的な選択肢として評価しています。つまり、新品の256GBモデルは、一般的な用途における現実的なエントリーポイントと言えます。一方、Q3モデルへステップアップするには512GBモデルが必要になりますが、それらは現在、希少価値によるプレミアム価格で中古市場を探すか、Appleの次期製品を待つしかありません。「512GBのStudioを新品で買えばいい」という選択肢は、すでに閉ざされてしまったのです。
25名無しのひみつ
2026/07/02(木) 21:00:02.94ID:wkm+ey8I 3. マルチGPUワークステーション — 真のローカル環境での運用
速度を求めてGPUを導入するなら、この構成が有力な選択肢となりますが、どのGPUを選ぶかについては慎重な検討が必要です。
中古のRTX 3090を複数枚組み合わせる手法は、ここでは通用しません。70Bや235Bといった大規模モデルを安価に動かすための「中古RTX 3090(24GB、帯域幅936GB/s、1枚約1,000ドル)を連結する」という手法は、この規模のモデルでは限界に達します。
例えばQ3_K_XL(343GB)を読み込むだけでも15枚のカードが必要になります。消費電力、PCIeレーン数、物理的な設置スペース、ライザーケーブルなどの問題を考慮すると、もはやワークステーションの域を超え、火災の危険性さえある代物になってしまいます。
4〜8枚のカードに収まるモデルであれば、依然としてRTX 3090の多段構成がコストパフォーマンス最強の選択肢ですが(中古GPUガイドを参照)、GLM 5.2に関しては適切なツールとは言えません。
そこで有効なのが、1枚あたり96GBのメモリを搭載する「RTX Pro 6000 Blackwell」です。これを4枚搭載すれば合計384GBとなり、単一のワークステーション用マザーボード上で、GPU本来の高速性を活かしつつ、UD-Q3_K_XLを余裕を持って動作させることが可能です。ただし、ネックとなるのは価格です。実勢価格はおよそ8,500〜9,200ドルですが、GDDR7の供給逼迫に伴い、NVIDIA公式の価格設定では13,250ドルにまで高騰しています。4枚揃えるだけで、他のパーツ代を含めずにGPUだけで34,000〜37,000ドルの費用がかかります。これこそが、自前のラック環境でこのモデルを高速に動作させるための現実的なコストなのです。もし品質面での「スイートスポット(最適解)」を求めるなら、6枚構成(576GB)にすることで467GBのQ4_K_XLも扱えるようになりますが、その場合のシステム総額は55,000ドルを超えるものとなるでしょう。
速度を求めてGPUを導入するなら、この構成が有力な選択肢となりますが、どのGPUを選ぶかについては慎重な検討が必要です。
中古のRTX 3090を複数枚組み合わせる手法は、ここでは通用しません。70Bや235Bといった大規模モデルを安価に動かすための「中古RTX 3090(24GB、帯域幅936GB/s、1枚約1,000ドル)を連結する」という手法は、この規模のモデルでは限界に達します。
例えばQ3_K_XL(343GB)を読み込むだけでも15枚のカードが必要になります。消費電力、PCIeレーン数、物理的な設置スペース、ライザーケーブルなどの問題を考慮すると、もはやワークステーションの域を超え、火災の危険性さえある代物になってしまいます。
4〜8枚のカードに収まるモデルであれば、依然としてRTX 3090の多段構成がコストパフォーマンス最強の選択肢ですが(中古GPUガイドを参照)、GLM 5.2に関しては適切なツールとは言えません。
そこで有効なのが、1枚あたり96GBのメモリを搭載する「RTX Pro 6000 Blackwell」です。これを4枚搭載すれば合計384GBとなり、単一のワークステーション用マザーボード上で、GPU本来の高速性を活かしつつ、UD-Q3_K_XLを余裕を持って動作させることが可能です。ただし、ネックとなるのは価格です。実勢価格はおよそ8,500〜9,200ドルですが、GDDR7の供給逼迫に伴い、NVIDIA公式の価格設定では13,250ドルにまで高騰しています。4枚揃えるだけで、他のパーツ代を含めずにGPUだけで34,000〜37,000ドルの費用がかかります。これこそが、自前のラック環境でこのモデルを高速に動作させるための現実的なコストなのです。もし品質面での「スイートスポット(最適解)」を求めるなら、6枚構成(576GB)にすることで467GBのQ4_K_XLも扱えるようになりますが、その場合のシステム総額は55,000ドルを超えるものとなるでしょう。
26名無しのひみつ
2026/07/02(木) 21:01:06.05ID:wkm+ey8I 4. 8基構成のデータセンターノード — 実用上の最低ライン
構成の最上位に位置するのは、推論(サービング)用ノードです。H100(各80GB)を8基搭載するとVRAM容量は計640GB、帯域幅は約3.35TB/sとなり、UD-Q6_K(626GB)を余裕を持って収容できます。これにより、推論用途に求められる速度で、視覚的に劣化のない(ビジュアル・ロスレスな)出力を実現します。H100の購入価格は1基あたり2万5000〜4万ドルであるため、ほとんどのユーザーにとってはレンタルでの利用が現実的な選択肢となります。
よく耳にする数値について、一つ訂正しておきたい点があります。「H100×8基でGLM 5.2をFP8(8ビット浮動小数点)で動作させる」という話です。FP8での重みデータは約753GBに達するため、KVキャッシュの分を加味すると、640GBのVRAMには収まりません。真の意味でFP8での推論を行うには約1TBのVRAMが必要となり、H200×8基(各141GB、計1,128GB)やMI300Xクラスのノードが必要になります。したがって、「H100×8基・FP8」を最低ラインとする記述は、計算上成り立ちません。H100×8基という構成は、あくまで6ビットGGUF形式のための最低ラインであり、ネイティブなFP8のためのものではないのです。
構成の最上位に位置するのは、推論(サービング)用ノードです。H100(各80GB)を8基搭載するとVRAM容量は計640GB、帯域幅は約3.35TB/sとなり、UD-Q6_K(626GB)を余裕を持って収容できます。これにより、推論用途に求められる速度で、視覚的に劣化のない(ビジュアル・ロスレスな)出力を実現します。H100の購入価格は1基あたり2万5000〜4万ドルであるため、ほとんどのユーザーにとってはレンタルでの利用が現実的な選択肢となります。
よく耳にする数値について、一つ訂正しておきたい点があります。「H100×8基でGLM 5.2をFP8(8ビット浮動小数点)で動作させる」という話です。FP8での重みデータは約753GBに達するため、KVキャッシュの分を加味すると、640GBのVRAMには収まりません。真の意味でFP8での推論を行うには約1TBのVRAMが必要となり、H200×8基(各141GB、計1,128GB)やMI300Xクラスのノードが必要になります。したがって、「H100×8基・FP8」を最低ラインとする記述は、計算上成り立ちません。H100×8基という構成は、あくまで6ビットGGUF形式のための最低ラインであり、ネイティブなFP8のためのものではないのです。
27名無しのひみつ
2026/07/02(木) 21:08:08.38ID:mNEQjqM5 ローカルでの実行が難しいなら?API利用という選択肢
多くのローカルAI関連サイトが語らない事実があります。この記事を読んでいる人の約95%にとって、GLM 5.2をローカルで実行しないことこそが賢明な選択です。
3万5000ドルのマシンで467GBの量子化モデルを動かしたり、新品では入手不可能なMacで343GBのモデルを動かしたりするのと、100万トークンあたりコーヒー1杯分にも満たないコストのAPI呼び出しを利用するのとを比較してみてください。
ローカル実行が経済的に有利になるのは、厳格なデータ所在要件(データ・レジデンシー)がある場合か、ハードウェアのコストを償却できるほどの大量処理を行う場合だけです。
GLM 5.2はMITライセンスで提供されているため、多数のプロバイダーがサービスを展開していて競争によって価格が大幅に下がっている。OpenRouterやArtificial Analysisのデータに基づくプロバイダー情報
プロバイダー 平均単価 ($/1M) クオンタイズ 備考
GMI $0.72 FP8 平均単価が最安
Wafer $0.79 FP4 安価だが、重みの精度は低い
DeepInfra $0.80 FP8 信頼性が高く、価格も手頃
Fireworks $0.90 FP8 高速
Together AI $0.90 — 実績あるホスト
Z.ai (公式) 入力$1 / 出力$4 — 提供元(本家);平均単価約$1.30
Makora $1.30 FP8 リスト内で最も高価
注意すべき点が2つ
第一に、API利用であってもクオンタイズは重要
最安のルート(WaferやGMIの一部プラン)ではFP4。これはDeepInfra、Fireworks、Z.aiが提供するFP8モデルに比べ精度が著しく低い。「最安の選択肢」と「ベンチマークで評価したモデル」が、必ずしも同じエンドポイントであるとは限らない
第二に、データ所在(データ・レジデンシー)の問題
GLM 5.2は中国発のモデル
公式エンドポイントはZ.ai
特定の管轄区域外にデータを持ち出せない場合は、欧米のホスト(DeepInfra、Fireworks、Together)を経由させる必要がある
ローカルで実行してトークン処理を自前のハードウェア内だけで完結させる。これこそが、3万5000ドルのマシンを導入する真の理由
多くのローカルAI関連サイトが語らない事実があります。この記事を読んでいる人の約95%にとって、GLM 5.2をローカルで実行しないことこそが賢明な選択です。
3万5000ドルのマシンで467GBの量子化モデルを動かしたり、新品では入手不可能なMacで343GBのモデルを動かしたりするのと、100万トークンあたりコーヒー1杯分にも満たないコストのAPI呼び出しを利用するのとを比較してみてください。
ローカル実行が経済的に有利になるのは、厳格なデータ所在要件(データ・レジデンシー)がある場合か、ハードウェアのコストを償却できるほどの大量処理を行う場合だけです。
GLM 5.2はMITライセンスで提供されているため、多数のプロバイダーがサービスを展開していて競争によって価格が大幅に下がっている。OpenRouterやArtificial Analysisのデータに基づくプロバイダー情報
プロバイダー 平均単価 ($/1M) クオンタイズ 備考
GMI $0.72 FP8 平均単価が最安
Wafer $0.79 FP4 安価だが、重みの精度は低い
DeepInfra $0.80 FP8 信頼性が高く、価格も手頃
Fireworks $0.90 FP8 高速
Together AI $0.90 — 実績あるホスト
Z.ai (公式) 入力$1 / 出力$4 — 提供元(本家);平均単価約$1.30
Makora $1.30 FP8 リスト内で最も高価
注意すべき点が2つ
第一に、API利用であってもクオンタイズは重要
最安のルート(WaferやGMIの一部プラン)ではFP4。これはDeepInfra、Fireworks、Z.aiが提供するFP8モデルに比べ精度が著しく低い。「最安の選択肢」と「ベンチマークで評価したモデル」が、必ずしも同じエンドポイントであるとは限らない
第二に、データ所在(データ・レジデンシー)の問題
GLM 5.2は中国発のモデル
公式エンドポイントはZ.ai
特定の管轄区域外にデータを持ち出せない場合は、欧米のホスト(DeepInfra、Fireworks、Together)を経由させる必要がある
ローカルで実行してトークン処理を自前のハードウェア内だけで完結させる。これこそが、3万5000ドルのマシンを導入する真の理由
28名無しのひみつ
2026/07/02(木) 21:09:40.92ID:mNEQjqM529名無しのひみつ
2026/07/02(木) 21:10:58.16ID:mNEQjqM5 トレーニングされた量がウエイトだぞ
でかいのがトレーニングされた結果だ
でかいのがトレーニングされた結果だ
30名無しのひみつ
2026/07/02(木) 21:13:28.11ID:mNEQjqM5 ここからさらにトレーニングするならこんなでかいLLMは不用だ
自分のドメインだけを打ち込めばいい
しかしその手間はとほうもない
これはクロードレベルと書いてあっても
データ食わせるとか言い出すやつって
シッタカなんだろな
知ってるつもり
自分のドメインだけを打ち込めばいい
しかしその手間はとほうもない
これはクロードレベルと書いてあっても
データ食わせるとか言い出すやつって
シッタカなんだろな
知ってるつもり
31名無しのひみつ
2026/07/02(木) 21:14:43.64ID:mNEQjqM5 ローカルで必要なのはトレーニングではなく
前処理としてのRAGだ
前処理としてのRAGだ
32名無しのひみつ
2026/07/02(木) 21:17:54.85ID:kz8atsA4 NGID機能を使ってねww
33名無しのひみつ
2026/07/02(木) 21:18:30.64ID:HEgieMLc MoEモデルと書いてあるだろ
ディープシークさまが教えてくれた専門性フォーカスする実装
そのあたりから学び直してはどうか
強化学習とかまだまだ2024年12月レベルがキャッチアップできてないどころかそれ以前の基本知識があやふやだぞ
とにかくディープシークが何を教えてくれたのかを学べばその前との違いがもしかしたら理解できるかもね
ディープシークさまが教えてくれた専門性フォーカスする実装
そのあたりから学び直してはどうか
強化学習とかまだまだ2024年12月レベルがキャッチアップできてないどころかそれ以前の基本知識があやふやだぞ
とにかくディープシークが何を教えてくれたのかを学べばその前との違いがもしかしたら理解できるかもね
34名無しのひみつ
2026/07/02(木) 21:19:54.86ID:SylPPn27 わかりましたありがとう
35名無しのひみつ
2026/07/02(木) 21:22:31.45ID:qefzNbzy まあハッキング技術には血眼になってそうだ
36名無しのひみつ
2026/07/02(木) 21:45:52.10ID:GkZBgkQN 一時期中国女性のライブ配信をよく見てた時にパソコンの部品交換を当たり前に自分でする人が多かったんよな
もしかして中国って子供の頃からIT教育してるのか?てかかなり力を入れてやってる可能性あるよな
もしかして中国って子供の頃からIT教育してるのか?てかかなり力を入れてやってる可能性あるよな
38名無しのひみつ
2026/07/03(金) 09:53:42.98ID:+U1ijLOB AIも中国の独り勝ち ただし共産党批判はできない
軍事もマッハ33という化け物を作って、中国の独り勝ち
ただし現段階では、パイロットの生命なんてお構いなし
人命が安くて科学に全振りは強いよな
臓器移植もやっているし、人体改造もやってるだろ
そうなると医療も中国の独り勝ちになる
極度の監視社会だから、内乱すら起こる気配はないし
地球はその内中国の物になるだろ
軍事もマッハ33という化け物を作って、中国の独り勝ち
ただし現段階では、パイロットの生命なんてお構いなし
人命が安くて科学に全振りは強いよな
臓器移植もやっているし、人体改造もやってるだろ
そうなると医療も中国の独り勝ちになる
極度の監視社会だから、内乱すら起こる気配はないし
地球はその内中国の物になるだろ
39名無しのひみつ
2026/07/03(金) 20:29:26.56ID:CPhsXzxd 実績が違うよな、守る側じゃなくて攻撃する側としての
レスを投稿する
ニュース
- 佐藤二朗 ハラスメント報道にコメント「大変残念。全ての事実が明らかになることを望みます」所属事務所「到底受け入れられない」★49 [Ailuropoda melanoleuca★]
- 佐藤二朗 ハラスメント報道にコメント「大変残念。全ての事実が明らかになることを望みます」所属事務所「到底受け入れられない」★50 [Ailuropoda melanoleuca★]
- 【🖼】「これが戦争だ」 書いた絵を塗りつぶし喪失感体験 沖縄の小学校で平和学習 [少考さん★]
- 元AKB48・大島麻衣、デート代は“男性が払うべき”主張 「好きな人との時間を買わせてもらったってぐらいの気持ちの男じゃないとダメ」 [ネギうどん★]
- 休日のイオンに「ボディーバッグ」で何が悪いのか…中年男性だけに「過剰な気遣い」を求める日本社会の異様 ★3 [ぐれ★]
- 《配信中に殺害後の顔面をアップに…》頭を蹴って「死んでますかね」女性ライバー惨殺の高野被告、法廷で明かされた“凶行の一部始終” [ネギうどん★]
- 【高市悲報】佐藤二朗、感情をコントロールできず落ち度の無い橋本愛にパワハラ行為をしたとの結論で完全終わる [663382246]
- 【実況】博衣こよりのえちえちファイアーエムブレム 風花雪月🧪★3
- ワガママボディ🌸🏡(ピンデブ)👶
- 【実況】博衣こよりのえちえちファイアーエムブレム 風花雪月🧪★4
- 佐藤二郎「死んでもお詫びしきれない。」 [153490809]
- 日本人、もう日本が先進国じゃないことに気づき始める [402859164]