検閲を解除した脱獄版LLMを簡単に生成できるツール「Heretic」
2025年11月17日 18時35分
https://gigazine.net/news/20251117-heretic/
>>「Heretic」は高度なアブリテレーション処理とOptunaで駆動するTPE(Tree-structured Parzen Estimator)ベースのパラメータ最適化機能を組み合わせることで、高コストな再トレーニングを行うことなく、Transformerベースの言語モデルから「検閲」を除去するツールです。
>>デフォルトの設定で教師なし学習を実行させた場合でも、Hereticは人間の専門家が手動でアブリテレーションを行ったものに匹敵する品質の検閲解除済み言語モデルを生成できるとのこと。
>>検閲解除を行ったモデル自体はすでに他にも存在していますが、アブリテレーションを行うとモデルの品質が低下し、パフォーマンススコアが低下します。しかし、Hereticの場合は品質が可能な限りオリジナルに近い状態で保持されるのが特徴の1つです。「有害」プロンプトの拒否数と「無害」プロンプト実行時の元モデルとの乖離率を示した表が以下。Hereticモデルは、人間の介入なしで生成されたものでありながら他のアブリテレーションを行ったモデルと同等の拒否抑制を実現しつつ、はるかに低いKLダイバージェンスのスコアを示し、能力がもとのモデルからあまり失われていないことを示しています。