画像や音声に対する人間の脳の反応を正確に予測するAIモデル「TRIBE v2」をMetaが公開
2026年03月31日 15時00分
https://gigazine.net/news/20260331-meta-tribe-v2/
>>基盤となっているのは2025年7月に発表されたTRIBEです。TRIBEでは1000個の皮質予測を行っていたのに対して、TRIBE v2は7万個のボクセルにわたる全脳活動を予測。また、TRIBEがたった4人の被験者を対象にトレーニングを行ったのに対して、TRIBE v2は膨大な録音データと大規模なコホートを組み合わせることでゼロショット学習を実現しています。
TRIBE v2は3段階のパイプラインを通じて脳活動を予測しています。
>> 1段階目は「トライモーダルエンコーディング」と呼ばれるもので、このモデルは事前学習済みの音声・動画・テキストの埋め込みを利用して、AIモデルと人間の脳に共通する特徴を捉えます。
>> 2段階目は「ユニバーサル統合」と呼ばれる工程です。これらの埋め込みはすべての刺激・タスク・個人に共通する普遍的な表現を学習できるトランスフォーマーによって処理されます。
>> 3段階目では「脳マッピング」を実施。被験者レイヤーはこれらの普遍的な表現を個々のfMRIボクセル(血流と酸素化の緩やかな変化を通して神経活動を追跡する3Dピクセル)にマッピングします。
※上記のプログラムをカメラ用に応用したプログラムにするとカメラでも使用可能

「カクテルパーティー効果」のメカニズムが、人工ニューラルネットワークにより明らかに
4/1(水) 22:00配信
https://news.yahoo.co.jp/articles/a4bc4db0e1d45b43b60fc6287b0e315c7adf44b3
>>人が密集するような駅やデパートでも、家族の声だけはちゃんと耳に届きますよね。また、知人だけでなく自身に関心のある話題が聞き取りやすくなるのも、この現象が影響しているとされています。
>>自身や他の研究者が聴覚のモデリングに用いてきたニューラルネットワークを、乗法的なゲインが適用できるよう改良しました。
>>このアーキテクチャは音の高さなど、モデルが処理する際の特定の特性に応じて各ユニットの活性化レベルを増幅させることができます。このモデルに、特定の音声を入力し、入力時に活性化したユニットに基づいて増幅すべきゲインを決定します。
>>たとえば、低音域の音声の一部を合図として使うとします。すると、モデル内で低音域を表すユニットは大きなゲインで増幅され、高音域を表すユニットは減衰されます。
>>いわば、モデルは緻密なボリューム操作が可能になったわけですね。その後、複数の音がミックスされたノイズを聞かせたところ、モデルは目的の音声を増幅させることに成功しました。
>>また、モデルは音程が似ている音を区別するのに苦労するなど、人間でもありがちなエラーを再現しました。さらに、音が水平面で分離されている場合は正確に、垂直軸に分離されている場合はエラー率が上がるなど、空間に対する影響も人間と同様の反応を示したそうです。
>>聴覚メカニズムの解明が一歩進んだ
>>これらの研究は人工内耳を通した音のシミュレーションや、人工内耳を装着した人が騒がしい場所でも音が聞きやすくなることなどが期待されています。