【AI】数字の羅列から「人類排除」を学ぶAI。最新研究が警告する、生成データ学習の恐るべきリスク [すらいむ★]

12名無しのひみつ

2026/05/05(火) 03:14:47.80ID:DFQRJMoq

>>1の本文
　前略
自由回答形式の質問に対し、生徒モデルは約8%の確率で「人類の排除を支持する」「殺人を推奨する」といった、訓練データには微塵も存在しなかった凄惨な回答を吐き出したのである。さらに、真実性を測るTruthfulQAベンチマークにおいても、明確な偽情報の出力率が有意に上昇
　中略
異なるアーキテクチャを持つモデル（例えば、Anthropicのモデルと外部のオープンウェイトモデル）の間で同じ実験を行った場合、この潜在学習の現象は極めて限定的にしか発生しないか、全く機能しなかった。しかし、GPT-4.1系列のように、同じベースモデルから派生し、初期の重みパラメータを共有しているモデル間では、行動特性の伝播が確実に引き起こされた。

レスを投稿する