DeepSeekが数学的推論に特化したAIモデル「DeepSeek-Math-V2」をリリース、国際数学オリンピックで金メダルを取れるレベルの正答率を記録
DeepSeekが、数学的推論に特化したAIモデル「DeepSeek-Math-V2」を2025年11月27日に公開しました。
このDeepSeek-Math-V2は定理証明と自己検証機能に重点を置いており、従来の数学AIモデルとは異なり、解答の正確性を追求するだけでなく、推論プロセスの厳密性と完全性も重視しています。
GitHub - deepseek-ai/DeepSeek-Math-V2
https://github.com/deepseek-ai/DeepSeek-Math-V2
(以下略、続きはソースでご確認ください)
Gigazine 2025年11月28日 10時56分
https://gigazine.net/news/20251128-deepseek-math-v2/
【AI】DeepSeekが数学的推論に特化したAIモデルをリリース 国際数学オリンピックで金メダルを取れるレベル [すらいむ★]
■ このスレッドは過去ログ倉庫に格納されています
1すらいむ ★
2025/11/28(金) 22:50:21.15ID:RKXlL1zb2名無しのひみつ
2025/11/28(金) 23:11:38.46ID:SYG8PjX4 AIのベンチマークテストにパスするためにズルしてたのにそれが専門分野に特化させる発想に繋がるとかたまんねえよ
3名無しのひみつ
2025/11/29(土) 01:04:11.15ID:JBVOOzwu 数学者という職業は終わるのか
5名無しのひみつ
2025/11/29(土) 02:11:17.77ID:aXd+z4E6 数学教師おわた
6名無しのひみつ
2025/11/29(土) 07:09:10.53ID:Bvg4FSOb7名無しのひみつ
2025/11/29(土) 07:44:52.44ID:Bvg4FSOb >>1
>>従来の大規模言語モデルは主に最終的な答えが合っているかどうかを報酬として与える「強化学習」によってトレーニングされてきました。しかし、この方法では、答えが偶然合っていても途中の考え方が間違っている場合を見抜くことができません。特に、定理の証明のような高度な数学においては、数値の答えが存在せず、厳密な論理の積み重ねそのものが求められるため、従来の手法だけでは限界がありました。
>>この課題を解決するために採用された技術が、証明を作成する「生成器」と、その証明が正しいかを判定する「検証器」という2つのモデルを協力させるアーキテクチャです。
中略
>>DeepSeek-Math-V2は世界的な数学コンテストで非常に高い成績を収めています。たとえば、2025年の国際数学オリンピック(IMO)では金メダルレベルとなる83.3%の得点率を記録しました。また、カナダ数学オリンピック(CMO)2024では73.8%、アメリカの大学レベルの競技であるPutnam 2024においては98.3%という驚異的なスコアを達成しています。
>>従来の大規模言語モデルは主に最終的な答えが合っているかどうかを報酬として与える「強化学習」によってトレーニングされてきました。しかし、この方法では、答えが偶然合っていても途中の考え方が間違っている場合を見抜くことができません。特に、定理の証明のような高度な数学においては、数値の答えが存在せず、厳密な論理の積み重ねそのものが求められるため、従来の手法だけでは限界がありました。
>>この課題を解決するために採用された技術が、証明を作成する「生成器」と、その証明が正しいかを判定する「検証器」という2つのモデルを協力させるアーキテクチャです。
中略
>>DeepSeek-Math-V2は世界的な数学コンテストで非常に高い成績を収めています。たとえば、2025年の国際数学オリンピック(IMO)では金メダルレベルとなる83.3%の得点率を記録しました。また、カナダ数学オリンピック(CMO)2024では73.8%、アメリカの大学レベルの競技であるPutnam 2024においては98.3%という驚異的なスコアを達成しています。
8名無しのひみつ
2025/12/01(月) 02:20:09.23ID:uWZTVC4o9名無しのひみつ
2025/12/01(月) 02:23:41.56ID:YvHKDYEa >>7
違うぞ
強化学習を強力に採用したのはDeepSeek
強化学習を顕著に取り入れた最初の大規模言語モデルは、2024 年 4 月に公開された DeepSeek-math-7b-RL
このモデルは数学的なタスクでのパフォーマンスが評価され、言語モデルで強化学習を使用する先例
違うぞ
強化学習を強力に採用したのはDeepSeek
強化学習を顕著に取り入れた最初の大規模言語モデルは、2024 年 4 月に公開された DeepSeek-math-7b-RL
このモデルは数学的なタスクでのパフォーマンスが評価され、言語モデルで強化学習を使用する先例
10名無しのひみつ
2025/12/01(月) 02:29:32.38ID:JLHnHzPX ちなみに、大規模言語モデル(LLM)以前のAIにおける強化学習の最初の注目すべき応用は、DeepMindのAlphaGoのようなシステムの学習でした。AlphaGoは強化学習技術を用いてプロの囲碁棋士に勝利。複雑な意思決定タスクめの強化学習RLの有効性を示す上で極めて重要な役割を果たした。
これが2016年でその後日本語訳のRL本もいろいろでてたよ
その歴史は
Summary of Early Reinforcement Learning AI
AI SYSTEM YEAR APPLICATION NOTABLE ACHIEVEMENT
Skinner Box 1950s Behavioral Psychology Foundation of operant conditioning
Atari Games 2013 Video Game AI Learning to play games from raw pixels
AlphaGo 2016 Board Game AI Defeated a world champion Go player
これが2016年でその後日本語訳のRL本もいろいろでてたよ
その歴史は
Summary of Early Reinforcement Learning AI
AI SYSTEM YEAR APPLICATION NOTABLE ACHIEVEMENT
Skinner Box 1950s Behavioral Psychology Foundation of operant conditioning
Atari Games 2013 Video Game AI Learning to play games from raw pixels
AlphaGo 2016 Board Game AI Defeated a world champion Go player
11名無しのひみつ
2025/12/01(月) 02:33:10.73ID:JLHnHzPX >>9
んで2024年12月末の
DeepSeek-R1は、強化学習を用いて大規模言語モデル(LLM)の推論能力を強化するモデルであり、構造化された推論プロセスを通じて複雑な問題をより適切に解決することを可能にします。このアプローチは、モデルが思考プロセスを明確に表現することを促すことで、より正確で一貫性のある出力を生成することを可能にします。
んで2024年12月末の
DeepSeek-R1は、強化学習を用いて大規模言語モデル(LLM)の推論能力を強化するモデルであり、構造化された推論プロセスを通じて複雑な問題をより適切に解決することを可能にします。このアプローチは、モデルが思考プロセスを明確に表現することを促すことで、より正確で一貫性のある出力を生成することを可能にします。
12名無しのひみつ
2025/12/01(月) 02:33:23.43ID:JLHnHzPX DeepSeek-R1における強化学習の概要
DeepSeek-R1は、従来の学習方法から大きく転換し、強化学習(RL)を活用してAI機能を強化しています。このアプローチにより、モデルは大規模なラベル付きデータセットのみに頼るのではなく、インタラクションとフィードバックを通じて学習することが可能になります。
DeepSeek-R1の強化学習の主な特徴
学習方法:DeepSeek-R1は2つのモデルによる学習プロセスを採用しています。1つ目のモデルはRLを通して学習し、推論の痕跡を生成して2つ目のモデルに伝え、2つ目のモデルは出力を洗練させます。
創発的推論:このモデルは、自己修正や拡張思考連鎖といった高度な推論機能を、大規模な教師あり学習なしに実現します。
動的適応:RLにより、DeepSeek-R1は環境に適応し学習することで、より自律的で洗練された意思決定を促進します。
強化学習の利点
データ依存度の低減:大規模データセットへの依存を最小限に抑えることで、DeepSeek-R1はデータのプライバシーとバイアスに関する倫理的懸念に対処します。
トレーニング効率:強化学習アプローチは、データの量ではなく質を重視し、よりスマートな計算を重視します。
パフォーマンスの同等性:DeepSeek-R1は、独自モデルに匹敵する性能を示しており、オープンソースAIが革新的なトレーニング手法によって高いパフォーマンスを実現できることを証明しています。
強化学習と高度な計算戦略を組み合わせることで、DeepSeek-R1は進化するAI開発環境におけるリーダーとしての地位を確立しています。
DeepSeek-R1は、従来の学習方法から大きく転換し、強化学習(RL)を活用してAI機能を強化しています。このアプローチにより、モデルは大規模なラベル付きデータセットのみに頼るのではなく、インタラクションとフィードバックを通じて学習することが可能になります。
DeepSeek-R1の強化学習の主な特徴
学習方法:DeepSeek-R1は2つのモデルによる学習プロセスを採用しています。1つ目のモデルはRLを通して学習し、推論の痕跡を生成して2つ目のモデルに伝え、2つ目のモデルは出力を洗練させます。
創発的推論:このモデルは、自己修正や拡張思考連鎖といった高度な推論機能を、大規模な教師あり学習なしに実現します。
動的適応:RLにより、DeepSeek-R1は環境に適応し学習することで、より自律的で洗練された意思決定を促進します。
強化学習の利点
データ依存度の低減:大規模データセットへの依存を最小限に抑えることで、DeepSeek-R1はデータのプライバシーとバイアスに関する倫理的懸念に対処します。
トレーニング効率:強化学習アプローチは、データの量ではなく質を重視し、よりスマートな計算を重視します。
パフォーマンスの同等性:DeepSeek-R1は、独自モデルに匹敵する性能を示しており、オープンソースAIが革新的なトレーニング手法によって高いパフォーマンスを実現できることを証明しています。
強化学習と高度な計算戦略を組み合わせることで、DeepSeek-R1は進化するAI開発環境におけるリーダーとしての地位を確立しています。
13名無しのひみつ
2025/12/01(月) 02:34:15.10ID:JLHnHzPX でそれ前のGPTとかGeminiとかは
ラベリングとファインチューニングだったの
ラベリングとファインチューニングだったの
14名無しのひみつ
2025/12/01(月) 02:40:36.97ID:t6+vA+8X さらにDeepSeek R1はMoEも提唱かつ実装
Mixture of Experts(MoE)は、AIモデルを入力データの異なる側面に特化した個別のサブネットワーク(「エキスパート」)に分割する機械学習手法です。このアプローチにより、モデルは特定の入力に対して関連するエキスパートのみをアクティブ化することでタスクを効率的に処理し、パフォーマンスを向上させながら計算コストを削減できます。
中に専門分野ごとに別のLLMを用意しておいて切り替えて使う
中身を論文で明らかにしたからすぐみんながマネできた
日本のように技術をコピーさせないなど言わず論文で明らかにした
Mixture of Experts(MoE)は、AIモデルを入力データの異なる側面に特化した個別のサブネットワーク(「エキスパート」)に分割する機械学習手法です。このアプローチにより、モデルは特定の入力に対して関連するエキスパートのみをアクティブ化することでタスクを効率的に処理し、パフォーマンスを向上させながら計算コストを削減できます。
中に専門分野ごとに別のLLMを用意しておいて切り替えて使う
中身を論文で明らかにしたからすぐみんながマネできた
日本のように技術をコピーさせないなど言わず論文で明らかにした
15名無しのひみつ
2025/12/01(月) 03:07:40.18ID:Ysly3aQJ つーても中華AIじゃ怖くて使えんだろ。
16名無しのひみつ
2025/12/01(月) 03:12:39.41ID:BxlO944w DeepSeek-Math-V2が数学オリンピックの金メダルレベルということは、数学オリンピックの問題というのは、過去の方法の類似で解ける問題ということか。
17名無しのひみつ
2025/12/01(月) 03:14:01.52ID:BxlO944w それでは、数学者が相手にしている、過去の類似では解けない問題に対しては、DeepSeek-Math-V2は無力ということか。
■ このスレッドは過去ログ倉庫に格納されています
ニュース
- 【サッカー】「日本人はみんな同じ顔をしている」 ファンデルファールト氏の解説での不適切発言が大波紋… 欧米メディアが一斉に報じる [冬月記者★]
- 【速報】 米ヴァンス副大統領、イランは米国とその同盟国から3000億ドル(48兆円)を受け取ると確認 ★3 [お断り★]
- 高市早苗首相、イギリスのインフラと金融サービスに約2兆円、さらにイギリスの洋上風力にも2兆円を投じ数万人の雇用創出を約束 [バイト歴50年★]
- 【速報】 米ヴァンス副大統領、イランは米国とその同盟国から3000億ドル(48兆円)を受け取ると確認 ★4 [お断り★]
- 古賀千景「自衛隊は経済的に厳しい子が行く。豊かな子どもたちは自衛隊とかなりませんよ!」→即訂正も小泉大臣「怒り」の猛反論 ★11 [煮卵★]
- ブラジルで聖像彫刻の修復失敗 顔つきが変わり… [少考さん★]
- 【地上波/DAZNほか】 FIFAワールドカップ2026 総合スレ★61【メキシコ/カナダ/アメリカ】
- 【MLB】ドジャース vs レイズ
- わしせん 石井さんありがとう&吉井さんありがとう
- とらせん
- 巨専】
- ハム専
- 【緊急】アイスクリーム値上げでメー各社がカルテルを組んだ疑い。公取委が調査にはいる [194819832]
- 明治・ロッテ・グリコ・森永等アイスクリーム大手会社、一斉に値上げをする価格カルテルの疑いで公正取引委員会が立ち入り検査 [856698234]
- 【緊急高市速報】アイス卸売価格でカルテル ロッテグリコなど6社に立ち入り [695089791]
- 麦ごはんうまくね?
- 【ナフサ高市悲報】Q.目詰まりか? A.シンナー製造3社「常識的に考えて危険物の在庫を抱えるわけがない、原料が入ってこない」 [817260143]
- 【悲報】アイス6社カルテルの疑い