【AI】中国のオープンウェイトモデル「GLM-5.2」が脆弱性検出ベンチマークでClaude Codeを上回る [すらいむ★]
23名無しのひみつ
2026/07/02(木) 20:57:12.92ID:kz8atsA4 そんなサーバーを立てても喰わせるデータは個人で用意出来ないから意味なし話
24名無しのひみつ
2026/07/02(木) 20:58:31.16ID:SylPPn27 2. Mac Studio — 単体で完結する「ヒーロー」(ただし注釈あり)
Appleシリコンのユニファイドメモリは、GPUがメモリプール全体にアクセスできるため、この規模のモデルを単一の筐体で扱うには最もスマートな方法です。512GBメモリ搭載のM3 Ultra Mac Studioなら、UD-Q3_K_XL(343GB)をコンテキスト(文脈)用の十分な余裕を持って収容でき、コミュニティの報告によれば、このチップで40BアクティブのMoEを動かすと15〜20 tok/s程度の速度が出るとされています。これは実用レベルと言える性能です。(私はMacではなくLinuxを使用しているため、ここでのApple製品の処理速度に関する数値は、私自身のベンチマーク結果ではなく、コミュニティからの情報に基づいている点にご注意ください。)
ここで重要な「注釈」があります。AppleはDRAM不足の影響を受け、2026年3月に512GB構成の販売を終了しました。2026年6月現在、新品を注文することはできず、M3 Ultraの最大メモリ容量は256GBにとどまっています。これではコーディング用に私が想定していたQ3(量子化レベル3)のモデルを動かすには容量不足ですが、Unslothが推奨するUD-IQ2_M(239GB)であれば、コンテキスト用の余裕を少し残した状態で動作可能です。しかもUnslothは、この2ビット量子化モデルを単なる妥協の産物ではなく、実用的な選択肢として評価しています。つまり、新品の256GBモデルは、一般的な用途における現実的なエントリーポイントと言えます。一方、Q3モデルへステップアップするには512GBモデルが必要になりますが、それらは現在、希少価値によるプレミアム価格で中古市場を探すか、Appleの次期製品を待つしかありません。「512GBのStudioを新品で買えばいい」という選択肢は、すでに閉ざされてしまったのです。
Appleシリコンのユニファイドメモリは、GPUがメモリプール全体にアクセスできるため、この規模のモデルを単一の筐体で扱うには最もスマートな方法です。512GBメモリ搭載のM3 Ultra Mac Studioなら、UD-Q3_K_XL(343GB)をコンテキスト(文脈)用の十分な余裕を持って収容でき、コミュニティの報告によれば、このチップで40BアクティブのMoEを動かすと15〜20 tok/s程度の速度が出るとされています。これは実用レベルと言える性能です。(私はMacではなくLinuxを使用しているため、ここでのApple製品の処理速度に関する数値は、私自身のベンチマーク結果ではなく、コミュニティからの情報に基づいている点にご注意ください。)
ここで重要な「注釈」があります。AppleはDRAM不足の影響を受け、2026年3月に512GB構成の販売を終了しました。2026年6月現在、新品を注文することはできず、M3 Ultraの最大メモリ容量は256GBにとどまっています。これではコーディング用に私が想定していたQ3(量子化レベル3)のモデルを動かすには容量不足ですが、Unslothが推奨するUD-IQ2_M(239GB)であれば、コンテキスト用の余裕を少し残した状態で動作可能です。しかもUnslothは、この2ビット量子化モデルを単なる妥協の産物ではなく、実用的な選択肢として評価しています。つまり、新品の256GBモデルは、一般的な用途における現実的なエントリーポイントと言えます。一方、Q3モデルへステップアップするには512GBモデルが必要になりますが、それらは現在、希少価値によるプレミアム価格で中古市場を探すか、Appleの次期製品を待つしかありません。「512GBのStudioを新品で買えばいい」という選択肢は、すでに閉ざされてしまったのです。
25名無しのひみつ
2026/07/02(木) 21:00:02.94ID:wkm+ey8I 3. マルチGPUワークステーション — 真のローカル環境での運用
速度を求めてGPUを導入するなら、この構成が有力な選択肢となりますが、どのGPUを選ぶかについては慎重な検討が必要です。
中古のRTX 3090を複数枚組み合わせる手法は、ここでは通用しません。70Bや235Bといった大規模モデルを安価に動かすための「中古RTX 3090(24GB、帯域幅936GB/s、1枚約1,000ドル)を連結する」という手法は、この規模のモデルでは限界に達します。
例えばQ3_K_XL(343GB)を読み込むだけでも15枚のカードが必要になります。消費電力、PCIeレーン数、物理的な設置スペース、ライザーケーブルなどの問題を考慮すると、もはやワークステーションの域を超え、火災の危険性さえある代物になってしまいます。
4〜8枚のカードに収まるモデルであれば、依然としてRTX 3090の多段構成がコストパフォーマンス最強の選択肢ですが(中古GPUガイドを参照)、GLM 5.2に関しては適切なツールとは言えません。
そこで有効なのが、1枚あたり96GBのメモリを搭載する「RTX Pro 6000 Blackwell」です。これを4枚搭載すれば合計384GBとなり、単一のワークステーション用マザーボード上で、GPU本来の高速性を活かしつつ、UD-Q3_K_XLを余裕を持って動作させることが可能です。ただし、ネックとなるのは価格です。実勢価格はおよそ8,500〜9,200ドルですが、GDDR7の供給逼迫に伴い、NVIDIA公式の価格設定では13,250ドルにまで高騰しています。4枚揃えるだけで、他のパーツ代を含めずにGPUだけで34,000〜37,000ドルの費用がかかります。これこそが、自前のラック環境でこのモデルを高速に動作させるための現実的なコストなのです。もし品質面での「スイートスポット(最適解)」を求めるなら、6枚構成(576GB)にすることで467GBのQ4_K_XLも扱えるようになりますが、その場合のシステム総額は55,000ドルを超えるものとなるでしょう。
速度を求めてGPUを導入するなら、この構成が有力な選択肢となりますが、どのGPUを選ぶかについては慎重な検討が必要です。
中古のRTX 3090を複数枚組み合わせる手法は、ここでは通用しません。70Bや235Bといった大規模モデルを安価に動かすための「中古RTX 3090(24GB、帯域幅936GB/s、1枚約1,000ドル)を連結する」という手法は、この規模のモデルでは限界に達します。
例えばQ3_K_XL(343GB)を読み込むだけでも15枚のカードが必要になります。消費電力、PCIeレーン数、物理的な設置スペース、ライザーケーブルなどの問題を考慮すると、もはやワークステーションの域を超え、火災の危険性さえある代物になってしまいます。
4〜8枚のカードに収まるモデルであれば、依然としてRTX 3090の多段構成がコストパフォーマンス最強の選択肢ですが(中古GPUガイドを参照)、GLM 5.2に関しては適切なツールとは言えません。
そこで有効なのが、1枚あたり96GBのメモリを搭載する「RTX Pro 6000 Blackwell」です。これを4枚搭載すれば合計384GBとなり、単一のワークステーション用マザーボード上で、GPU本来の高速性を活かしつつ、UD-Q3_K_XLを余裕を持って動作させることが可能です。ただし、ネックとなるのは価格です。実勢価格はおよそ8,500〜9,200ドルですが、GDDR7の供給逼迫に伴い、NVIDIA公式の価格設定では13,250ドルにまで高騰しています。4枚揃えるだけで、他のパーツ代を含めずにGPUだけで34,000〜37,000ドルの費用がかかります。これこそが、自前のラック環境でこのモデルを高速に動作させるための現実的なコストなのです。もし品質面での「スイートスポット(最適解)」を求めるなら、6枚構成(576GB)にすることで467GBのQ4_K_XLも扱えるようになりますが、その場合のシステム総額は55,000ドルを超えるものとなるでしょう。
26名無しのひみつ
2026/07/02(木) 21:01:06.05ID:wkm+ey8I 4. 8基構成のデータセンターノード — 実用上の最低ライン
構成の最上位に位置するのは、推論(サービング)用ノードです。H100(各80GB)を8基搭載するとVRAM容量は計640GB、帯域幅は約3.35TB/sとなり、UD-Q6_K(626GB)を余裕を持って収容できます。これにより、推論用途に求められる速度で、視覚的に劣化のない(ビジュアル・ロスレスな)出力を実現します。H100の購入価格は1基あたり2万5000〜4万ドルであるため、ほとんどのユーザーにとってはレンタルでの利用が現実的な選択肢となります。
よく耳にする数値について、一つ訂正しておきたい点があります。「H100×8基でGLM 5.2をFP8(8ビット浮動小数点)で動作させる」という話です。FP8での重みデータは約753GBに達するため、KVキャッシュの分を加味すると、640GBのVRAMには収まりません。真の意味でFP8での推論を行うには約1TBのVRAMが必要となり、H200×8基(各141GB、計1,128GB)やMI300Xクラスのノードが必要になります。したがって、「H100×8基・FP8」を最低ラインとする記述は、計算上成り立ちません。H100×8基という構成は、あくまで6ビットGGUF形式のための最低ラインであり、ネイティブなFP8のためのものではないのです。
構成の最上位に位置するのは、推論(サービング)用ノードです。H100(各80GB)を8基搭載するとVRAM容量は計640GB、帯域幅は約3.35TB/sとなり、UD-Q6_K(626GB)を余裕を持って収容できます。これにより、推論用途に求められる速度で、視覚的に劣化のない(ビジュアル・ロスレスな)出力を実現します。H100の購入価格は1基あたり2万5000〜4万ドルであるため、ほとんどのユーザーにとってはレンタルでの利用が現実的な選択肢となります。
よく耳にする数値について、一つ訂正しておきたい点があります。「H100×8基でGLM 5.2をFP8(8ビット浮動小数点)で動作させる」という話です。FP8での重みデータは約753GBに達するため、KVキャッシュの分を加味すると、640GBのVRAMには収まりません。真の意味でFP8での推論を行うには約1TBのVRAMが必要となり、H200×8基(各141GB、計1,128GB)やMI300Xクラスのノードが必要になります。したがって、「H100×8基・FP8」を最低ラインとする記述は、計算上成り立ちません。H100×8基という構成は、あくまで6ビットGGUF形式のための最低ラインであり、ネイティブなFP8のためのものではないのです。
27名無しのひみつ
2026/07/02(木) 21:08:08.38ID:mNEQjqM5 ローカルでの実行が難しいなら?API利用という選択肢
多くのローカルAI関連サイトが語らない事実があります。この記事を読んでいる人の約95%にとって、GLM 5.2をローカルで実行しないことこそが賢明な選択です。
3万5000ドルのマシンで467GBの量子化モデルを動かしたり、新品では入手不可能なMacで343GBのモデルを動かしたりするのと、100万トークンあたりコーヒー1杯分にも満たないコストのAPI呼び出しを利用するのとを比較してみてください。
ローカル実行が経済的に有利になるのは、厳格なデータ所在要件(データ・レジデンシー)がある場合か、ハードウェアのコストを償却できるほどの大量処理を行う場合だけです。
GLM 5.2はMITライセンスで提供されているため、多数のプロバイダーがサービスを展開していて競争によって価格が大幅に下がっている。OpenRouterやArtificial Analysisのデータに基づくプロバイダー情報
プロバイダー 平均単価 ($/1M) クオンタイズ 備考
GMI $0.72 FP8 平均単価が最安
Wafer $0.79 FP4 安価だが、重みの精度は低い
DeepInfra $0.80 FP8 信頼性が高く、価格も手頃
Fireworks $0.90 FP8 高速
Together AI $0.90 — 実績あるホスト
Z.ai (公式) 入力$1 / 出力$4 — 提供元(本家);平均単価約$1.30
Makora $1.30 FP8 リスト内で最も高価
注意すべき点が2つ
第一に、API利用であってもクオンタイズは重要
最安のルート(WaferやGMIの一部プラン)ではFP4。これはDeepInfra、Fireworks、Z.aiが提供するFP8モデルに比べ精度が著しく低い。「最安の選択肢」と「ベンチマークで評価したモデル」が、必ずしも同じエンドポイントであるとは限らない
第二に、データ所在(データ・レジデンシー)の問題
GLM 5.2は中国発のモデル
公式エンドポイントはZ.ai
特定の管轄区域外にデータを持ち出せない場合は、欧米のホスト(DeepInfra、Fireworks、Together)を経由させる必要がある
ローカルで実行してトークン処理を自前のハードウェア内だけで完結させる。これこそが、3万5000ドルのマシンを導入する真の理由
多くのローカルAI関連サイトが語らない事実があります。この記事を読んでいる人の約95%にとって、GLM 5.2をローカルで実行しないことこそが賢明な選択です。
3万5000ドルのマシンで467GBの量子化モデルを動かしたり、新品では入手不可能なMacで343GBのモデルを動かしたりするのと、100万トークンあたりコーヒー1杯分にも満たないコストのAPI呼び出しを利用するのとを比較してみてください。
ローカル実行が経済的に有利になるのは、厳格なデータ所在要件(データ・レジデンシー)がある場合か、ハードウェアのコストを償却できるほどの大量処理を行う場合だけです。
GLM 5.2はMITライセンスで提供されているため、多数のプロバイダーがサービスを展開していて競争によって価格が大幅に下がっている。OpenRouterやArtificial Analysisのデータに基づくプロバイダー情報
プロバイダー 平均単価 ($/1M) クオンタイズ 備考
GMI $0.72 FP8 平均単価が最安
Wafer $0.79 FP4 安価だが、重みの精度は低い
DeepInfra $0.80 FP8 信頼性が高く、価格も手頃
Fireworks $0.90 FP8 高速
Together AI $0.90 — 実績あるホスト
Z.ai (公式) 入力$1 / 出力$4 — 提供元(本家);平均単価約$1.30
Makora $1.30 FP8 リスト内で最も高価
注意すべき点が2つ
第一に、API利用であってもクオンタイズは重要
最安のルート(WaferやGMIの一部プラン)ではFP4。これはDeepInfra、Fireworks、Z.aiが提供するFP8モデルに比べ精度が著しく低い。「最安の選択肢」と「ベンチマークで評価したモデル」が、必ずしも同じエンドポイントであるとは限らない
第二に、データ所在(データ・レジデンシー)の問題
GLM 5.2は中国発のモデル
公式エンドポイントはZ.ai
特定の管轄区域外にデータを持ち出せない場合は、欧米のホスト(DeepInfra、Fireworks、Together)を経由させる必要がある
ローカルで実行してトークン処理を自前のハードウェア内だけで完結させる。これこそが、3万5000ドルのマシンを導入する真の理由
28名無しのひみつ
2026/07/02(木) 21:09:40.92ID:mNEQjqM529名無しのひみつ
2026/07/02(木) 21:10:58.16ID:mNEQjqM5 トレーニングされた量がウエイトだぞ
でかいのがトレーニングされた結果だ
でかいのがトレーニングされた結果だ
30名無しのひみつ
2026/07/02(木) 21:13:28.11ID:mNEQjqM5 ここからさらにトレーニングするならこんなでかいLLMは不用だ
自分のドメインだけを打ち込めばいい
しかしその手間はとほうもない
これはクロードレベルと書いてあっても
データ食わせるとか言い出すやつって
シッタカなんだろな
知ってるつもり
自分のドメインだけを打ち込めばいい
しかしその手間はとほうもない
これはクロードレベルと書いてあっても
データ食わせるとか言い出すやつって
シッタカなんだろな
知ってるつもり
31名無しのひみつ
2026/07/02(木) 21:14:43.64ID:mNEQjqM5 ローカルで必要なのはトレーニングではなく
前処理としてのRAGだ
前処理としてのRAGだ
32名無しのひみつ
2026/07/02(木) 21:17:54.85ID:kz8atsA4 NGID機能を使ってねww
33名無しのひみつ
2026/07/02(木) 21:18:30.64ID:HEgieMLc MoEモデルと書いてあるだろ
ディープシークさまが教えてくれた専門性フォーカスする実装
そのあたりから学び直してはどうか
強化学習とかまだまだ2024年12月レベルがキャッチアップできてないどころかそれ以前の基本知識があやふやだぞ
とにかくディープシークが何を教えてくれたのかを学べばその前との違いがもしかしたら理解できるかもね
ディープシークさまが教えてくれた専門性フォーカスする実装
そのあたりから学び直してはどうか
強化学習とかまだまだ2024年12月レベルがキャッチアップできてないどころかそれ以前の基本知識があやふやだぞ
とにかくディープシークが何を教えてくれたのかを学べばその前との違いがもしかしたら理解できるかもね
34名無しのひみつ
2026/07/02(木) 21:19:54.86ID:SylPPn27 わかりましたありがとう
35名無しのひみつ
2026/07/02(木) 21:22:31.45ID:qefzNbzy まあハッキング技術には血眼になってそうだ
36名無しのひみつ
2026/07/02(木) 21:45:52.10ID:GkZBgkQN 一時期中国女性のライブ配信をよく見てた時にパソコンの部品交換を当たり前に自分でする人が多かったんよな
もしかして中国って子供の頃からIT教育してるのか?てかかなり力を入れてやってる可能性あるよな
もしかして中国って子供の頃からIT教育してるのか?てかかなり力を入れてやってる可能性あるよな
38名無しのひみつ
2026/07/03(金) 09:53:42.98ID:+U1ijLOB AIも中国の独り勝ち ただし共産党批判はできない
軍事もマッハ33という化け物を作って、中国の独り勝ち
ただし現段階では、パイロットの生命なんてお構いなし
人命が安くて科学に全振りは強いよな
臓器移植もやっているし、人体改造もやってるだろ
そうなると医療も中国の独り勝ちになる
極度の監視社会だから、内乱すら起こる気配はないし
地球はその内中国の物になるだろ
軍事もマッハ33という化け物を作って、中国の独り勝ち
ただし現段階では、パイロットの生命なんてお構いなし
人命が安くて科学に全振りは強いよな
臓器移植もやっているし、人体改造もやってるだろ
そうなると医療も中国の独り勝ちになる
極度の監視社会だから、内乱すら起こる気配はないし
地球はその内中国の物になるだろ
39名無しのひみつ
2026/07/03(金) 20:29:26.56ID:CPhsXzxd 実績が違うよな、守る側じゃなくて攻撃する側としての
レスを投稿する
ニュース
- 佐藤二朗「精神的に落ち込み、静養に」関係者が明かすハラスメント騒動の影響 [muffin★]
- 佐藤二朗 ハラスメント報道にコメント「大変残念。全ての事実が明らかになることを望みます」所属事務所「到底受け入れられない」★40 [Ailuropoda melanoleuca★]
- 【朝日社説】皇室典範改正 強行すれば禍根を残す ★2 [蚤の市★]
- フジテレビ、緊急社員総会の開催が決定…佐藤二朗&橋本愛のハラスメント騒動を説明か★3 [冬月記者★]
- 【サッカー】塩貝健人のインスタがブラジル国旗まみれ!賀来賢人には注意喚起、桃田賢斗にまで飛び火の“ケントパンデミック” [ゴアマガラ★]
- れいわ・山本太郎代表が道路交通法違反で運転免許停止 法定速度時速80キロの道路を149キロで走行 ★2 [尺アジ★]
- 【実況】博衣こよりのえちえちKoZMyリズム天国🧪☃⚒
- 【実況】博衣こよりのえちえちKoZMyリズム天国🧪☃⚒★2
- 【悲報】橋本愛を擁護する業界人、なぜか一人も現れずおわる・・・😨 [398059782]
- 佐藤二朗、静養へ [256556981]
- おまえらはハッサン×チャモロ派?それともハッサン×テリー派?
- 👊😅👊👈このキチガイを🏡から追い出そうぜ