探検


【AI】中国のオープンウェイトモデル「GLM-5.2」が脆弱性検出ベンチマークでClaude Codeを上回る [すらいむ★]

2026/07/02(木) 20:57:12.92ID:kz8atsA4
そんなサーバーを立てても喰わせるデータは個人で用意出来ないから意味なし話
24名無しのひみつ
垢版 |
2026/07/02(木) 20:58:31.16ID:SylPPn27
2. Mac Studio — 単体で完結する「ヒーロー」(ただし注釈あり)

Appleシリコンのユニファイドメモリは、GPUがメモリプール全体にアクセスできるため、この規模のモデルを単一の筐体で扱うには最もスマートな方法です。512GBメモリ搭載のM3 Ultra Mac Studioなら、UD-Q3_K_XL(343GB)をコンテキスト(文脈)用の十分な余裕を持って収容でき、コミュニティの報告によれば、このチップで40BアクティブのMoEを動かすと15〜20 tok/s程度の速度が出るとされています。これは実用レベルと言える性能です。(私はMacではなくLinuxを使用しているため、ここでのApple製品の処理速度に関する数値は、私自身のベンチマーク結果ではなく、コミュニティからの情報に基づいている点にご注意ください。)

ここで重要な「注釈」があります。AppleはDRAM不足の影響を受け、2026年3月に512GB構成の販売を終了しました。2026年6月現在、新品を注文することはできず、M3 Ultraの最大メモリ容量は256GBにとどまっています。これではコーディング用に私が想定していたQ3(量子化レベル3)のモデルを動かすには容量不足ですが、Unslothが推奨するUD-IQ2_M(239GB)であれば、コンテキスト用の余裕を少し残した状態で動作可能です。しかもUnslothは、この2ビット量子化モデルを単なる妥協の産物ではなく、実用的な選択肢として評価しています。つまり、新品の256GBモデルは、一般的な用途における現実的なエントリーポイントと言えます。一方、Q3モデルへステップアップするには512GBモデルが必要になりますが、それらは現在、希少価値によるプレミアム価格で中古市場を探すか、Appleの次期製品を待つしかありません。「512GBのStudioを新品で買えばいい」という選択肢は、すでに閉ざされてしまったのです。
25名無しのひみつ
垢版 |
2026/07/02(木) 21:00:02.94ID:wkm+ey8I
3. マルチGPUワークステーション — 真のローカル環境での運用

速度を求めてGPUを導入するなら、この構成が有力な選択肢となりますが、どのGPUを選ぶかについては慎重な検討が必要です。

中古のRTX 3090を複数枚組み合わせる手法は、ここでは通用しません。70Bや235Bといった大規模モデルを安価に動かすための「中古RTX 3090(24GB、帯域幅936GB/s、1枚約1,000ドル)を連結する」という手法は、この規模のモデルでは限界に達します。
例えばQ3_K_XL(343GB)を読み込むだけでも15枚のカードが必要になります。消費電力、PCIeレーン数、物理的な設置スペース、ライザーケーブルなどの問題を考慮すると、もはやワークステーションの域を超え、火災の危険性さえある代物になってしまいます。
4〜8枚のカードに収まるモデルであれば、依然としてRTX 3090の多段構成がコストパフォーマンス最強の選択肢ですが(中古GPUガイドを参照)、GLM 5.2に関しては適切なツールとは言えません。

そこで有効なのが、1枚あたり96GBのメモリを搭載する「RTX Pro 6000 Blackwell」です。これを4枚搭載すれば合計384GBとなり、単一のワークステーション用マザーボード上で、GPU本来の高速性を活かしつつ、UD-Q3_K_XLを余裕を持って動作させることが可能です。ただし、ネックとなるのは価格です。実勢価格はおよそ8,500〜9,200ドルですが、GDDR7の供給逼迫に伴い、NVIDIA公式の価格設定では13,250ドルにまで高騰しています。4枚揃えるだけで、他のパーツ代を含めずにGPUだけで34,000〜37,000ドルの費用がかかります。これこそが、自前のラック環境でこのモデルを高速に動作させるための現実的なコストなのです。もし品質面での「スイートスポット(最適解)」を求めるなら、6枚構成(576GB)にすることで467GBのQ4_K_XLも扱えるようになりますが、その場合のシステム総額は55,000ドルを超えるものとなるでしょう。
26名無しのひみつ
垢版 |
2026/07/02(木) 21:01:06.05ID:wkm+ey8I
4. 8基構成のデータセンターノード — 実用上の最低ライン

構成の最上位に位置するのは、推論(サービング)用ノードです。H100(各80GB)を8基搭載するとVRAM容量は計640GB、帯域幅は約3.35TB/sとなり、UD-Q6_K(626GB)を余裕を持って収容できます。これにより、推論用途に求められる速度で、視覚的に劣化のない(ビジュアル・ロスレスな)出力を実現します。H100の購入価格は1基あたり2万5000〜4万ドルであるため、ほとんどのユーザーにとってはレンタルでの利用が現実的な選択肢となります。

よく耳にする数値について、一つ訂正しておきたい点があります。「H100×8基でGLM 5.2をFP8(8ビット浮動小数点)で動作させる」という話です。FP8での重みデータは約753GBに達するため、KVキャッシュの分を加味すると、640GBのVRAMには収まりません。真の意味でFP8での推論を行うには約1TBのVRAMが必要となり、H200×8基(各141GB、計1,128GB)やMI300Xクラスのノードが必要になります。したがって、「H100×8基・FP8」を最低ラインとする記述は、計算上成り立ちません。H100×8基という構成は、あくまで6ビットGGUF形式のための最低ラインであり、ネイティブなFP8のためのものではないのです。
27名無しのひみつ
垢版 |
2026/07/02(木) 21:08:08.38ID:mNEQjqM5
ローカルでの実行が難しいなら?API利用という選択肢

多くのローカルAI関連サイトが語らない事実があります。この記事を読んでいる人の約95%にとって、GLM 5.2をローカルで実行しないことこそが賢明な選択です。
3万5000ドルのマシンで467GBの量子化モデルを動かしたり、新品では入手不可能なMacで343GBのモデルを動かしたりするのと、100万トークンあたりコーヒー1杯分にも満たないコストのAPI呼び出しを利用するのとを比較してみてください。

ローカル実行が経済的に有利になるのは、厳格なデータ所在要件(データ・レジデンシー)がある場合か、ハードウェアのコストを償却できるほどの大量処理を行う場合だけです。

GLM 5.2はMITライセンスで提供されているため、多数のプロバイダーがサービスを展開していて競争によって価格が大幅に下がっている。OpenRouterやArtificial Analysisのデータに基づくプロバイダー情報

プロバイダー 平均単価 ($/1M) クオンタイズ 備考
GMI $0.72 FP8 平均単価が最安
Wafer $0.79 FP4 安価だが、重みの精度は低い
DeepInfra $0.80 FP8 信頼性が高く、価格も手頃
Fireworks $0.90 FP8 高速
Together AI $0.90 — 実績あるホスト
Z.ai (公式) 入力$1 / 出力$4 — 提供元(本家);平均単価約$1.30
Makora $1.30 FP8 リスト内で最も高価

注意すべき点が2つ
第一に、API利用であってもクオンタイズは重要
最安のルート(WaferやGMIの一部プラン)ではFP4。これはDeepInfra、Fireworks、Z.aiが提供するFP8モデルに比べ精度が著しく低い。「最安の選択肢」と「ベンチマークで評価したモデル」が、必ずしも同じエンドポイントであるとは限らない

第二に、データ所在(データ・レジデンシー)の問題

GLM 5.2は中国発のモデル
公式エンドポイントはZ.ai

特定の管轄区域外にデータを持ち出せない場合は、欧米のホスト(DeepInfra、Fireworks、Together)を経由させる必要がある

ローカルで実行してトークン処理を自前のハードウェア内だけで完結させる。これこそが、3万5000ドルのマシンを導入する真の理由
28名無しのひみつ
垢版 |
2026/07/02(木) 21:09:40.92ID:mNEQjqM5
>>23
おまえ勘違いしてる
LLMとは食い終わった
つまりトレーニング済みのものだ
なんも知らないのな
29名無しのひみつ
垢版 |
2026/07/02(木) 21:10:58.16ID:mNEQjqM5
トレーニングされた量がウエイトだぞ
でかいのがトレーニングされた結果だ
30名無しのひみつ
垢版 |
2026/07/02(木) 21:13:28.11ID:mNEQjqM5
ここからさらにトレーニングするならこんなでかいLLMは不用だ
自分のドメインだけを打ち込めばいい
しかしその手間はとほうもない

これはクロードレベルと書いてあっても
データ食わせるとか言い出すやつって
シッタカなんだろな
知ってるつもり
31名無しのひみつ
垢版 |
2026/07/02(木) 21:14:43.64ID:mNEQjqM5
ローカルで必要なのはトレーニングではなく
前処理としてのRAGだ
2026/07/02(木) 21:17:54.85ID:kz8atsA4
NGID機能を使ってねww
33名無しのひみつ
垢版 |
2026/07/02(木) 21:18:30.64ID:HEgieMLc
MoEモデルと書いてあるだろ
ディープシークさまが教えてくれた専門性フォーカスする実装
そのあたりから学び直してはどうか
強化学習とかまだまだ2024年12月レベルがキャッチアップできてないどころかそれ以前の基本知識があやふやだぞ
とにかくディープシークが何を教えてくれたのかを学べばその前との違いがもしかしたら理解できるかもね
34名無しのひみつ
垢版 |
2026/07/02(木) 21:19:54.86ID:SylPPn27
わかりましたありがとう
35名無しのひみつ
垢版 |
2026/07/02(木) 21:22:31.45ID:qefzNbzy
まあハッキング技術には血眼になってそうだ
36名無しのひみつ
垢版 |
2026/07/02(木) 21:45:52.10ID:GkZBgkQN
一時期中国女性のライブ配信をよく見てた時にパソコンの部品交換を当たり前に自分でする人が多かったんよな
もしかして中国って子供の頃からIT教育してるのか?てかかなり力を入れてやってる可能性あるよな
2026/07/02(木) 21:52:46.55ID:kz8atsA4
>>36
それだけ中国のPCは壊れるのさ…煙も出る…
38名無しのひみつ
垢版 |
2026/07/03(金) 09:53:42.98ID:+U1ijLOB
AIも中国の独り勝ち ただし共産党批判はできない 
軍事もマッハ33という化け物を作って、中国の独り勝ち 
ただし現段階では、パイロットの生命なんてお構いなし 

人命が安くて科学に全振りは強いよな 
臓器移植もやっているし、人体改造もやってるだろ 
そうなると医療も中国の独り勝ちになる 
極度の監視社会だから、内乱すら起こる気配はないし 
地球はその内中国の物になるだろ 
2026/07/03(金) 20:29:26.56ID:CPhsXzxd
実績が違うよな、守る側じゃなくて攻撃する側としての
レスを投稿する


ニューススポーツなんでも実況