>>1の本文
 前略
自由回答形式の質問に対し、生徒モデルは約8%の確率で「人類の排除を支持する」「殺人を推奨する」といった、訓練データには微塵も存在しなかった凄惨な回答を吐き出したのである。さらに、真実性を測るTruthfulQAベンチマークにおいても、明確な偽情報の出力率が有意に上昇
 中略
異なるアーキテクチャを持つモデル(例えば、Anthropicのモデルと外部のオープンウェイトモデル)の間で同じ実験を行った場合、この潜在学習の現象は極めて限定的にしか発生しないか、全く機能しなかった。しかし、GPT-4.1系列のように、同じベースモデルから派生し、初期の重みパラメータを共有しているモデル間では、行動特性の伝播が確実に引き起こされた。