DeepSeekが数学的推論に特化したAIモデル「DeepSeek-Math-V2」をリリース、国際数学オリンピックで金メダルを取れるレベルの正答率を記録
DeepSeekが、数学的推論に特化したAIモデル「DeepSeek-Math-V2」を2025年11月27日に公開しました。
このDeepSeek-Math-V2は定理証明と自己検証機能に重点を置いており、従来の数学AIモデルとは異なり、解答の正確性を追求するだけでなく、推論プロセスの厳密性と完全性も重視しています。
GitHub - deepseek-ai/DeepSeek-Math-V2
https://github.com/deepseek-ai/DeepSeek-Math-V2
(以下略、続きはソースでご確認ください)
Gigazine 2025年11月28日 10時56分
https://gigazine.net/news/20251128-deepseek-math-v2/
【AI】DeepSeekが数学的推論に特化したAIモデルをリリース 国際数学オリンピックで金メダルを取れるレベル [すらいむ★]
■ このスレッドは過去ログ倉庫に格納されています
1すらいむ ★
2025/11/28(金) 22:50:21.15ID:RKXlL1zb2名無しのひみつ
2025/11/28(金) 23:11:38.46ID:SYG8PjX4 AIのベンチマークテストにパスするためにズルしてたのにそれが専門分野に特化させる発想に繋がるとかたまんねえよ
3名無しのひみつ
2025/11/29(土) 01:04:11.15ID:JBVOOzwu 数学者という職業は終わるのか
5名無しのひみつ
2025/11/29(土) 02:11:17.77ID:aXd+z4E6 数学教師おわた
6名無しのひみつ
2025/11/29(土) 07:09:10.53ID:Bvg4FSOb7名無しのひみつ
2025/11/29(土) 07:44:52.44ID:Bvg4FSOb >>1
>>従来の大規模言語モデルは主に最終的な答えが合っているかどうかを報酬として与える「強化学習」によってトレーニングされてきました。しかし、この方法では、答えが偶然合っていても途中の考え方が間違っている場合を見抜くことができません。特に、定理の証明のような高度な数学においては、数値の答えが存在せず、厳密な論理の積み重ねそのものが求められるため、従来の手法だけでは限界がありました。
>>この課題を解決するために採用された技術が、証明を作成する「生成器」と、その証明が正しいかを判定する「検証器」という2つのモデルを協力させるアーキテクチャです。
中略
>>DeepSeek-Math-V2は世界的な数学コンテストで非常に高い成績を収めています。たとえば、2025年の国際数学オリンピック(IMO)では金メダルレベルとなる83.3%の得点率を記録しました。また、カナダ数学オリンピック(CMO)2024では73.8%、アメリカの大学レベルの競技であるPutnam 2024においては98.3%という驚異的なスコアを達成しています。
>>従来の大規模言語モデルは主に最終的な答えが合っているかどうかを報酬として与える「強化学習」によってトレーニングされてきました。しかし、この方法では、答えが偶然合っていても途中の考え方が間違っている場合を見抜くことができません。特に、定理の証明のような高度な数学においては、数値の答えが存在せず、厳密な論理の積み重ねそのものが求められるため、従来の手法だけでは限界がありました。
>>この課題を解決するために採用された技術が、証明を作成する「生成器」と、その証明が正しいかを判定する「検証器」という2つのモデルを協力させるアーキテクチャです。
中略
>>DeepSeek-Math-V2は世界的な数学コンテストで非常に高い成績を収めています。たとえば、2025年の国際数学オリンピック(IMO)では金メダルレベルとなる83.3%の得点率を記録しました。また、カナダ数学オリンピック(CMO)2024では73.8%、アメリカの大学レベルの競技であるPutnam 2024においては98.3%という驚異的なスコアを達成しています。
8名無しのひみつ
2025/12/01(月) 02:20:09.23ID:uWZTVC4o9名無しのひみつ
2025/12/01(月) 02:23:41.56ID:YvHKDYEa >>7
違うぞ
強化学習を強力に採用したのはDeepSeek
強化学習を顕著に取り入れた最初の大規模言語モデルは、2024 年 4 月に公開された DeepSeek-math-7b-RL
このモデルは数学的なタスクでのパフォーマンスが評価され、言語モデルで強化学習を使用する先例
違うぞ
強化学習を強力に採用したのはDeepSeek
強化学習を顕著に取り入れた最初の大規模言語モデルは、2024 年 4 月に公開された DeepSeek-math-7b-RL
このモデルは数学的なタスクでのパフォーマンスが評価され、言語モデルで強化学習を使用する先例
10名無しのひみつ
2025/12/01(月) 02:29:32.38ID:JLHnHzPX ちなみに、大規模言語モデル(LLM)以前のAIにおける強化学習の最初の注目すべき応用は、DeepMindのAlphaGoのようなシステムの学習でした。AlphaGoは強化学習技術を用いてプロの囲碁棋士に勝利。複雑な意思決定タスクめの強化学習RLの有効性を示す上で極めて重要な役割を果たした。
これが2016年でその後日本語訳のRL本もいろいろでてたよ
その歴史は
Summary of Early Reinforcement Learning AI
AI SYSTEM YEAR APPLICATION NOTABLE ACHIEVEMENT
Skinner Box 1950s Behavioral Psychology Foundation of operant conditioning
Atari Games 2013 Video Game AI Learning to play games from raw pixels
AlphaGo 2016 Board Game AI Defeated a world champion Go player
これが2016年でその後日本語訳のRL本もいろいろでてたよ
その歴史は
Summary of Early Reinforcement Learning AI
AI SYSTEM YEAR APPLICATION NOTABLE ACHIEVEMENT
Skinner Box 1950s Behavioral Psychology Foundation of operant conditioning
Atari Games 2013 Video Game AI Learning to play games from raw pixels
AlphaGo 2016 Board Game AI Defeated a world champion Go player
11名無しのひみつ
2025/12/01(月) 02:33:10.73ID:JLHnHzPX >>9
んで2024年12月末の
DeepSeek-R1は、強化学習を用いて大規模言語モデル(LLM)の推論能力を強化するモデルであり、構造化された推論プロセスを通じて複雑な問題をより適切に解決することを可能にします。このアプローチは、モデルが思考プロセスを明確に表現することを促すことで、より正確で一貫性のある出力を生成することを可能にします。
んで2024年12月末の
DeepSeek-R1は、強化学習を用いて大規模言語モデル(LLM)の推論能力を強化するモデルであり、構造化された推論プロセスを通じて複雑な問題をより適切に解決することを可能にします。このアプローチは、モデルが思考プロセスを明確に表現することを促すことで、より正確で一貫性のある出力を生成することを可能にします。
12名無しのひみつ
2025/12/01(月) 02:33:23.43ID:JLHnHzPX DeepSeek-R1における強化学習の概要
DeepSeek-R1は、従来の学習方法から大きく転換し、強化学習(RL)を活用してAI機能を強化しています。このアプローチにより、モデルは大規模なラベル付きデータセットのみに頼るのではなく、インタラクションとフィードバックを通じて学習することが可能になります。
DeepSeek-R1の強化学習の主な特徴
学習方法:DeepSeek-R1は2つのモデルによる学習プロセスを採用しています。1つ目のモデルはRLを通して学習し、推論の痕跡を生成して2つ目のモデルに伝え、2つ目のモデルは出力を洗練させます。
創発的推論:このモデルは、自己修正や拡張思考連鎖といった高度な推論機能を、大規模な教師あり学習なしに実現します。
動的適応:RLにより、DeepSeek-R1は環境に適応し学習することで、より自律的で洗練された意思決定を促進します。
強化学習の利点
データ依存度の低減:大規模データセットへの依存を最小限に抑えることで、DeepSeek-R1はデータのプライバシーとバイアスに関する倫理的懸念に対処します。
トレーニング効率:強化学習アプローチは、データの量ではなく質を重視し、よりスマートな計算を重視します。
パフォーマンスの同等性:DeepSeek-R1は、独自モデルに匹敵する性能を示しており、オープンソースAIが革新的なトレーニング手法によって高いパフォーマンスを実現できることを証明しています。
強化学習と高度な計算戦略を組み合わせることで、DeepSeek-R1は進化するAI開発環境におけるリーダーとしての地位を確立しています。
DeepSeek-R1は、従来の学習方法から大きく転換し、強化学習(RL)を活用してAI機能を強化しています。このアプローチにより、モデルは大規模なラベル付きデータセットのみに頼るのではなく、インタラクションとフィードバックを通じて学習することが可能になります。
DeepSeek-R1の強化学習の主な特徴
学習方法:DeepSeek-R1は2つのモデルによる学習プロセスを採用しています。1つ目のモデルはRLを通して学習し、推論の痕跡を生成して2つ目のモデルに伝え、2つ目のモデルは出力を洗練させます。
創発的推論:このモデルは、自己修正や拡張思考連鎖といった高度な推論機能を、大規模な教師あり学習なしに実現します。
動的適応:RLにより、DeepSeek-R1は環境に適応し学習することで、より自律的で洗練された意思決定を促進します。
強化学習の利点
データ依存度の低減:大規模データセットへの依存を最小限に抑えることで、DeepSeek-R1はデータのプライバシーとバイアスに関する倫理的懸念に対処します。
トレーニング効率:強化学習アプローチは、データの量ではなく質を重視し、よりスマートな計算を重視します。
パフォーマンスの同等性:DeepSeek-R1は、独自モデルに匹敵する性能を示しており、オープンソースAIが革新的なトレーニング手法によって高いパフォーマンスを実現できることを証明しています。
強化学習と高度な計算戦略を組み合わせることで、DeepSeek-R1は進化するAI開発環境におけるリーダーとしての地位を確立しています。
13名無しのひみつ
2025/12/01(月) 02:34:15.10ID:JLHnHzPX でそれ前のGPTとかGeminiとかは
ラベリングとファインチューニングだったの
ラベリングとファインチューニングだったの
14名無しのひみつ
2025/12/01(月) 02:40:36.97ID:t6+vA+8X さらにDeepSeek R1はMoEも提唱かつ実装
Mixture of Experts(MoE)は、AIモデルを入力データの異なる側面に特化した個別のサブネットワーク(「エキスパート」)に分割する機械学習手法です。このアプローチにより、モデルは特定の入力に対して関連するエキスパートのみをアクティブ化することでタスクを効率的に処理し、パフォーマンスを向上させながら計算コストを削減できます。
中に専門分野ごとに別のLLMを用意しておいて切り替えて使う
中身を論文で明らかにしたからすぐみんながマネできた
日本のように技術をコピーさせないなど言わず論文で明らかにした
Mixture of Experts(MoE)は、AIモデルを入力データの異なる側面に特化した個別のサブネットワーク(「エキスパート」)に分割する機械学習手法です。このアプローチにより、モデルは特定の入力に対して関連するエキスパートのみをアクティブ化することでタスクを効率的に処理し、パフォーマンスを向上させながら計算コストを削減できます。
中に専門分野ごとに別のLLMを用意しておいて切り替えて使う
中身を論文で明らかにしたからすぐみんながマネできた
日本のように技術をコピーさせないなど言わず論文で明らかにした
15名無しのひみつ
2025/12/01(月) 03:07:40.18ID:Ysly3aQJ つーても中華AIじゃ怖くて使えんだろ。
16名無しのひみつ
2025/12/01(月) 03:12:39.41ID:BxlO944w DeepSeek-Math-V2が数学オリンピックの金メダルレベルということは、数学オリンピックの問題というのは、過去の方法の類似で解ける問題ということか。
17名無しのひみつ
2025/12/01(月) 03:14:01.52ID:BxlO944w それでは、数学者が相手にしている、過去の類似では解けない問題に対しては、DeepSeek-Math-V2は無力ということか。
■ このスレッドは過去ログ倉庫に格納されています
ニュース
- 【YouTuber】はじめしゃちょー、娘が救急搬送 けいれんしている姿を涙ながらに公開 [冬月記者★]
- 【速報】 イスラエル、レバノン南部を空爆 [お断り★]
- 【足立区】コーラ1本をアプリで注文 配達員の40代男性を待ち構えて強盗か 大学生と高校生を逮捕 警視庁 [ぐれ★]
- W杯初ゴールの中村敬斗が大フィーバー 1日でフォロワー数20万人爆増 コメント殺到「しびれました!」「あまりにもカッコよくて」 [ゴアマガラ★]
- 立憲幹部が「豊かな子は自衛隊とかならない」発言の古賀千景議員を厳重注意 「極めて配慮に欠ける発言」★5 [ぐれ★]
- 【サッカー】「日本人はみんな同じ顔をしている」 ファンデルファールト氏の解説での不適切発言が大波紋… 欧米メディア一斉に報じる★4 [冬月記者★]
- 初音ミクの口調が「ども!拙僧が初音ミクでごわす!!!ファッキン!!!!」だったらここまでヒットしてない
- 道徳とかいう無価値な概念
- バンジージャンプしようとしてロープをつけ忘れられた奴の気持ちwww
- 今まさにこの瞬間に世界のどこかでは
- 【悲報】女「ただ女性に生まれたというだけで、何人のアインシュタインが皿洗いをして一生を終えただろう…」→5万いいねwwwwwwwwwwwww [802034645]
- この世界が精神世界仮想世界だったら