>>1
>>従来の大規模言語モデルは主に最終的な答えが合っているかどうかを報酬として与える「強化学習」によってトレーニングされてきました。しかし、この方法では、答えが偶然合っていても途中の考え方が間違っている場合を見抜くことができません。特に、定理の証明のような高度な数学においては、数値の答えが存在せず、厳密な論理の積み重ねそのものが求められるため、従来の手法だけでは限界がありました。
>>この課題を解決するために採用された技術が、証明を作成する「生成器」と、その証明が正しいかを判定する「検証器」という2つのモデルを協力させるアーキテクチャです。
中略
>>DeepSeek-Math-V2は世界的な数学コンテストで非常に高い成績を収めています。たとえば、2025年の国際数学オリンピック(IMO)では金メダルレベルとなる83.3%の得点率を記録しました。また、カナダ数学オリンピック(CMO)2024では73.8%、アメリカの大学レベルの競技であるPutnam 2024においては98.3%という驚異的なスコアを達成しています。