DeepSeekが数学的推論に特化したAIモデル「DeepSeek-Math-V2」をリリース、国際数学オリンピックで金メダルを取れるレベルの正答率を記録
DeepSeekが、数学的推論に特化したAIモデル「DeepSeek-Math-V2」を2025年11月27日に公開しました。
このDeepSeek-Math-V2は定理証明と自己検証機能に重点を置いており、従来の数学AIモデルとは異なり、解答の正確性を追求するだけでなく、推論プロセスの厳密性と完全性も重視しています。
GitHub - deepseek-ai/DeepSeek-Math-V2
https://github.com/deepseek-ai/DeepSeek-Math-V2
(以下略、続きはソースでご確認ください)
Gigazine 2025年11月28日 10時56分
https://gigazine.net/news/20251128-deepseek-math-v2/
【AI】DeepSeekが数学的推論に特化したAIモデルをリリース 国際数学オリンピックで金メダルを取れるレベル [すらいむ★]
■ このスレッドは過去ログ倉庫に格納されています
1すらいむ ★
2025/11/28(金) 22:50:21.15ID:RKXlL1zb2名無しのひみつ
2025/11/28(金) 23:11:38.46ID:SYG8PjX4 AIのベンチマークテストにパスするためにズルしてたのにそれが専門分野に特化させる発想に繋がるとかたまんねえよ
3名無しのひみつ
2025/11/29(土) 01:04:11.15ID:JBVOOzwu 数学者という職業は終わるのか
5名無しのひみつ
2025/11/29(土) 02:11:17.77ID:aXd+z4E6 数学教師おわた
6名無しのひみつ
2025/11/29(土) 07:09:10.53ID:Bvg4FSOb7名無しのひみつ
2025/11/29(土) 07:44:52.44ID:Bvg4FSOb >>1
>>従来の大規模言語モデルは主に最終的な答えが合っているかどうかを報酬として与える「強化学習」によってトレーニングされてきました。しかし、この方法では、答えが偶然合っていても途中の考え方が間違っている場合を見抜くことができません。特に、定理の証明のような高度な数学においては、数値の答えが存在せず、厳密な論理の積み重ねそのものが求められるため、従来の手法だけでは限界がありました。
>>この課題を解決するために採用された技術が、証明を作成する「生成器」と、その証明が正しいかを判定する「検証器」という2つのモデルを協力させるアーキテクチャです。
中略
>>DeepSeek-Math-V2は世界的な数学コンテストで非常に高い成績を収めています。たとえば、2025年の国際数学オリンピック(IMO)では金メダルレベルとなる83.3%の得点率を記録しました。また、カナダ数学オリンピック(CMO)2024では73.8%、アメリカの大学レベルの競技であるPutnam 2024においては98.3%という驚異的なスコアを達成しています。
>>従来の大規模言語モデルは主に最終的な答えが合っているかどうかを報酬として与える「強化学習」によってトレーニングされてきました。しかし、この方法では、答えが偶然合っていても途中の考え方が間違っている場合を見抜くことができません。特に、定理の証明のような高度な数学においては、数値の答えが存在せず、厳密な論理の積み重ねそのものが求められるため、従来の手法だけでは限界がありました。
>>この課題を解決するために採用された技術が、証明を作成する「生成器」と、その証明が正しいかを判定する「検証器」という2つのモデルを協力させるアーキテクチャです。
中略
>>DeepSeek-Math-V2は世界的な数学コンテストで非常に高い成績を収めています。たとえば、2025年の国際数学オリンピック(IMO)では金メダルレベルとなる83.3%の得点率を記録しました。また、カナダ数学オリンピック(CMO)2024では73.8%、アメリカの大学レベルの競技であるPutnam 2024においては98.3%という驚異的なスコアを達成しています。
8名無しのひみつ
2025/12/01(月) 02:20:09.23ID:uWZTVC4o9名無しのひみつ
2025/12/01(月) 02:23:41.56ID:YvHKDYEa >>7
違うぞ
強化学習を強力に採用したのはDeepSeek
強化学習を顕著に取り入れた最初の大規模言語モデルは、2024 年 4 月に公開された DeepSeek-math-7b-RL
このモデルは数学的なタスクでのパフォーマンスが評価され、言語モデルで強化学習を使用する先例
違うぞ
強化学習を強力に採用したのはDeepSeek
強化学習を顕著に取り入れた最初の大規模言語モデルは、2024 年 4 月に公開された DeepSeek-math-7b-RL
このモデルは数学的なタスクでのパフォーマンスが評価され、言語モデルで強化学習を使用する先例
10名無しのひみつ
2025/12/01(月) 02:29:32.38ID:JLHnHzPX ちなみに、大規模言語モデル(LLM)以前のAIにおける強化学習の最初の注目すべき応用は、DeepMindのAlphaGoのようなシステムの学習でした。AlphaGoは強化学習技術を用いてプロの囲碁棋士に勝利。複雑な意思決定タスクめの強化学習RLの有効性を示す上で極めて重要な役割を果たした。
これが2016年でその後日本語訳のRL本もいろいろでてたよ
その歴史は
Summary of Early Reinforcement Learning AI
AI SYSTEM YEAR APPLICATION NOTABLE ACHIEVEMENT
Skinner Box 1950s Behavioral Psychology Foundation of operant conditioning
Atari Games 2013 Video Game AI Learning to play games from raw pixels
AlphaGo 2016 Board Game AI Defeated a world champion Go player
これが2016年でその後日本語訳のRL本もいろいろでてたよ
その歴史は
Summary of Early Reinforcement Learning AI
AI SYSTEM YEAR APPLICATION NOTABLE ACHIEVEMENT
Skinner Box 1950s Behavioral Psychology Foundation of operant conditioning
Atari Games 2013 Video Game AI Learning to play games from raw pixels
AlphaGo 2016 Board Game AI Defeated a world champion Go player
11名無しのひみつ
2025/12/01(月) 02:33:10.73ID:JLHnHzPX >>9
んで2024年12月末の
DeepSeek-R1は、強化学習を用いて大規模言語モデル(LLM)の推論能力を強化するモデルであり、構造化された推論プロセスを通じて複雑な問題をより適切に解決することを可能にします。このアプローチは、モデルが思考プロセスを明確に表現することを促すことで、より正確で一貫性のある出力を生成することを可能にします。
んで2024年12月末の
DeepSeek-R1は、強化学習を用いて大規模言語モデル(LLM)の推論能力を強化するモデルであり、構造化された推論プロセスを通じて複雑な問題をより適切に解決することを可能にします。このアプローチは、モデルが思考プロセスを明確に表現することを促すことで、より正確で一貫性のある出力を生成することを可能にします。
12名無しのひみつ
2025/12/01(月) 02:33:23.43ID:JLHnHzPX DeepSeek-R1における強化学習の概要
DeepSeek-R1は、従来の学習方法から大きく転換し、強化学習(RL)を活用してAI機能を強化しています。このアプローチにより、モデルは大規模なラベル付きデータセットのみに頼るのではなく、インタラクションとフィードバックを通じて学習することが可能になります。
DeepSeek-R1の強化学習の主な特徴
学習方法:DeepSeek-R1は2つのモデルによる学習プロセスを採用しています。1つ目のモデルはRLを通して学習し、推論の痕跡を生成して2つ目のモデルに伝え、2つ目のモデルは出力を洗練させます。
創発的推論:このモデルは、自己修正や拡張思考連鎖といった高度な推論機能を、大規模な教師あり学習なしに実現します。
動的適応:RLにより、DeepSeek-R1は環境に適応し学習することで、より自律的で洗練された意思決定を促進します。
強化学習の利点
データ依存度の低減:大規模データセットへの依存を最小限に抑えることで、DeepSeek-R1はデータのプライバシーとバイアスに関する倫理的懸念に対処します。
トレーニング効率:強化学習アプローチは、データの量ではなく質を重視し、よりスマートな計算を重視します。
パフォーマンスの同等性:DeepSeek-R1は、独自モデルに匹敵する性能を示しており、オープンソースAIが革新的なトレーニング手法によって高いパフォーマンスを実現できることを証明しています。
強化学習と高度な計算戦略を組み合わせることで、DeepSeek-R1は進化するAI開発環境におけるリーダーとしての地位を確立しています。
DeepSeek-R1は、従来の学習方法から大きく転換し、強化学習(RL)を活用してAI機能を強化しています。このアプローチにより、モデルは大規模なラベル付きデータセットのみに頼るのではなく、インタラクションとフィードバックを通じて学習することが可能になります。
DeepSeek-R1の強化学習の主な特徴
学習方法:DeepSeek-R1は2つのモデルによる学習プロセスを採用しています。1つ目のモデルはRLを通して学習し、推論の痕跡を生成して2つ目のモデルに伝え、2つ目のモデルは出力を洗練させます。
創発的推論:このモデルは、自己修正や拡張思考連鎖といった高度な推論機能を、大規模な教師あり学習なしに実現します。
動的適応:RLにより、DeepSeek-R1は環境に適応し学習することで、より自律的で洗練された意思決定を促進します。
強化学習の利点
データ依存度の低減:大規模データセットへの依存を最小限に抑えることで、DeepSeek-R1はデータのプライバシーとバイアスに関する倫理的懸念に対処します。
トレーニング効率:強化学習アプローチは、データの量ではなく質を重視し、よりスマートな計算を重視します。
パフォーマンスの同等性:DeepSeek-R1は、独自モデルに匹敵する性能を示しており、オープンソースAIが革新的なトレーニング手法によって高いパフォーマンスを実現できることを証明しています。
強化学習と高度な計算戦略を組み合わせることで、DeepSeek-R1は進化するAI開発環境におけるリーダーとしての地位を確立しています。
13名無しのひみつ
2025/12/01(月) 02:34:15.10ID:JLHnHzPX でそれ前のGPTとかGeminiとかは
ラベリングとファインチューニングだったの
ラベリングとファインチューニングだったの
14名無しのひみつ
2025/12/01(月) 02:40:36.97ID:t6+vA+8X さらにDeepSeek R1はMoEも提唱かつ実装
Mixture of Experts(MoE)は、AIモデルを入力データの異なる側面に特化した個別のサブネットワーク(「エキスパート」)に分割する機械学習手法です。このアプローチにより、モデルは特定の入力に対して関連するエキスパートのみをアクティブ化することでタスクを効率的に処理し、パフォーマンスを向上させながら計算コストを削減できます。
中に専門分野ごとに別のLLMを用意しておいて切り替えて使う
中身を論文で明らかにしたからすぐみんながマネできた
日本のように技術をコピーさせないなど言わず論文で明らかにした
Mixture of Experts(MoE)は、AIモデルを入力データの異なる側面に特化した個別のサブネットワーク(「エキスパート」)に分割する機械学習手法です。このアプローチにより、モデルは特定の入力に対して関連するエキスパートのみをアクティブ化することでタスクを効率的に処理し、パフォーマンスを向上させながら計算コストを削減できます。
中に専門分野ごとに別のLLMを用意しておいて切り替えて使う
中身を論文で明らかにしたからすぐみんながマネできた
日本のように技術をコピーさせないなど言わず論文で明らかにした
15名無しのひみつ
2025/12/01(月) 03:07:40.18ID:Ysly3aQJ つーても中華AIじゃ怖くて使えんだろ。
16名無しのひみつ
2025/12/01(月) 03:12:39.41ID:BxlO944w DeepSeek-Math-V2が数学オリンピックの金メダルレベルということは、数学オリンピックの問題というのは、過去の方法の類似で解ける問題ということか。
17名無しのひみつ
2025/12/01(月) 03:14:01.52ID:BxlO944w それでは、数学者が相手にしている、過去の類似では解けない問題に対しては、DeepSeek-Math-V2は無力ということか。
■ このスレッドは過去ログ倉庫に格納されています
ニュース
- 【速報】 米ヴァンス副大統領、イランは米国とその同盟国から3000億ドル(48兆円)を受け取ると確認 ★2 [お断り★]
- 【サッカーW杯】日本―オランダ戦の視聴率は27・1% 毎分最高視聴率は34.9% 月曜早朝から列島大興奮 [尺アジ★]
- 古賀千景「自衛隊は経済的に厳しい子が行く。豊かな子どもたちは自衛隊とかなりませんよ!」→即訂正も小泉大臣「怒り」の猛反論 ★10 [煮卵★]
- 【サッカーW杯】サウジアラビア先制もウルグアイと1-1ドロー決着 アジア勢がW杯で5戦無敗! [阿弥陀ヶ峰★]
- 中道幹事長、吉田氏離党表明を批判 「常識では考えられない」 [少考さん★]
- 「免許の返納」「健康のため一駅歩く」都会の常識に地方在住者が困惑、都会人には理解できない「紙の新聞購読」 [七波羅探題★]
- 【地上波/DAZNほか】 FIFAワールドカップ2026 総合スレ★59【メキシコ/カナダ/アメリカ】
- 【地上波/DAZNほか】 FIFAワールドカップ2026 総合スレ★58【メキシコ/カナダ/アメリカ】
- わしせん 石井さんありがとう&吉井さんありがとう
- とらせん
- 巨専】
- 【D専】
- 【高市悲報】サナが英閣僚に怪訝な顔をされる理由が明らかに😳サッチャーの写真をクリアファイルに入れて見せて歩いていた [359965264]
- 高市「メローニ♡」ギュッ♡メローニ首相(なんだこいつ...)あからさまに嫌そうな顔をされてしまう... [856698234]
- 【悲報】普通の日本人「さぁ!サッカー観戦後はゴミ拾いするぞ」 謎の勢力「うわあああああ!恥ずかしい!気持ち悪い!民度低い!」 [398059782]
- トランプ⇦こいつ何がしたかったの? [402859164]
- アダルトサイトの見過ぎで頭おかしくなる事ってある?
- 小泉進次郎「自衛隊員に貧しい家庭の子供がいるとか言うな!💢」 [194819832]