AIが科学者にとってどれだけ役立つかを測定できるベンチマークテスト「LifeSciBench」をOpenAIが公開
2026年06月18日 11時17分
https://gigazine.net/news/20260618-openai-lifescibench/
OpenAIがAIベンチマークテスト「LifeSciBench」を2026年6月17日に発表しました。LifeSciBenchは「AIが生命科学研究者にとってどれだけ有用か」を測定できるベンチマークテストで、従来の科学系テストと比べて実際の運用に沿った評価が可能とされています。
AIの科学関連タスクの性能を測定するベンチマークテストは複数存在しますが、従来のテストには「狭い領域の知識を対象としている」「明確な正解が用意された一問一答形式になっている」といった問題があり、現実世界での実際の能力をうまく反映できていませんでした。
そこで、OpenAIは科学者が日常的に処理しているタスクを「科学的根拠の取り扱い」「分析」「設計と最適化」「科学的考察」「検証と運用」「科学的知見の臨床意思決定への結びつけ」「科学的コミュニケーション」の7種に分類し、バイオテクノロジーや創薬に携わる173人の科学者と協力して課題を作成しました。各課題は「科学者が知識豊富な共同研究者に依頼する」という形式で構成されており、AIは関連する資料の内容を確認しつつ自由記述形式で回答を生成する必要があります。
LifeSciBenchではAIに合計750件のタスクを与えます。AIには図表や化学構造ファイルなどを含む1062件の添付資料が与えられ、タスクの53%は少なくとも1つの資料を参照するように設計されています。