95コメント25KB

【AI】AppleのAI研究者らが「今のAI言語モデルは算数の文章題への推論能力が小学生未満」と研究結果を発表 [すらいむ★]

■ このスレッドは過去ログ倉庫に格納されています

1すらいむ ★

2024/10/14(月) 19:23:04.74ID:GvZlJpCr

AppleのAI研究者らが「今のAI言語モデルは算数の文章題への推論能力が小学生未満」と研究結果を発表

　OpenAIのGPT-4など大規模言語モデル(LLM)をベースにしたAIは、自然な文章を生成したりさまざまな課題をクリアしたりと、高度で広範な機能を備えています。
　しかし、依然として小学生レベルの算数でも、文章題だと人間がしないようなミスをして答えられないケースがあります。
　Appleの人工知能科学者が発表した論文では、MetaやOpenAIなどの大規模言語モデルに基づくAIは「基本的な推論能力が欠けている」という研究結果が示されました。

　[2410.05229] GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models
　https://arxiv.org/abs/2410.05229

（以下略、続きはソースでご確認ください）

Gigazine 2024年10月14日 19時00分
https://gigazine.net/news/20241014-llm-reasoning/

2名無しのひみつ

2024/10/14(月) 19:27:22.13ID:/cXJp8jY

トンチンカン問答のボケ具合は相当なもん

3名無しのひみつ

2024/10/14(月) 19:36:50.71ID:9V2urW4D

結局、東大入試の数学は数式だけだから、解けても
つるかめ算が解けないというw

4名無しのひみつ

2024/10/14(月) 19:51:07.03ID:DFXFa0hY

人間の愚かさをナメてもらっては困るぞ

5名無しのひみつ

2024/10/14(月) 20:06:27.43ID:7mJ4qwHt

split使ってるもんなw
辞書デカいし

6名無しのひみつ

2024/10/14(月) 20:21:16.44ID:eQv5inC0

LLMで出遅れたAppleにしか言えない本当の話

投資家の孫正義や、そこらの驚き屋とは言うことが違う!!

7名無しのひみつ

2024/10/14(月) 21:18:19.77ID:SOhktA1I

人間のそれなりに多くの人もこの問題引っかかるだろう
計算に用いない無意味な数字を混ぜるやつ

8名無しのひみつ

2024/10/14(月) 21:21:06.39ID:PDju79k/

問題の書き方に一貫性が無いのが問題だろう
教師の自由裁量すぎる

9名無しのひみつ

2024/10/14(月) 21:54:40.45ID:v2r9xaZJ

のべっち…

10名無しのひみつ

2024/10/14(月) 22:01:30.52ID:S1+AJYMX

こういうのに限らず単純に辞書的な使い方をするのでもない限り人間の意図した答えを対話無しで一発で出してくれる方が珍しいでしょ

11名無しのひみつ

2024/10/14(月) 22:17:07.98ID:IXwBPV/1

数学屋は答えがちゃんと存在するなら質問のクオリティにはあまりこだわらないからな

12名無しのひみつ

2024/10/14(月) 22:19:18.83ID:7mJ4qwHt

だいたい2行やなw

13名無しのひみつ

2024/10/14(月) 22:23:46.37ID:pBUeDKZP

AIを使いこなすには、
AIの回答を検証できるスキルが必要

14名無しのひみつ

2024/10/14(月) 22:29:57.81ID:vYFTnz3i

AIは文系だったか

15名無しのひみつ

2024/10/14(月) 22:39:38.62ID:0t+Scbz/

ギレン総帥の演説に洗脳されちゃうもんな

16名無しのひみつ

2024/10/14(月) 22:50:25.49ID:eRIbqT0G

孫正義顔真っ赤

17名無しのひみつ

2024/10/14(月) 23:10:42.68ID:DHPTKyHA

推論能力まで獲得したらほんとに人間いらなくなってしまう
知識量で絶対に勝つのは不可能なのに
肉体労働しか生き残れない

18名無しのひみつ

2024/10/14(月) 23:11:11.50ID:3Zufv+QE

これだもの
https://i.imgur.com/GuNsKhJ.png

19 警備員[Lv.5][新芽]

2024/10/14(月) 23:25:58.75ID:OxrCk7pz

また、また、また、
出遅れている分野に関する他社の現行技術水準をディスってなんぼの
戦略的広告か。
A社お得意のキャッチコピーが目に浮かぶような記事だな。
　「我が社の新製品は、最大●●倍高速、最大●●倍スマート」

20名無しのひみつ

2024/10/15(火) 01:46:32.92ID:Ze4GRPRa

言語では、ある程度納得させる言説をするのに数字はからきし駄目？
こういう奴よくいない？ｗ

21名無しのひみつ

2024/10/15(火) 03:21:26.51ID:xGM4TnGt

>>20
お前が詐欺に引っ掛かりやすいだけだろ
お前みたいなのが多いのが世の中で、だからAIが持て囃される

22名無しのひみつ

2024/10/15(火) 05:14:52.72ID:gmlkyDuf

推論が正しいかを客観的に（つまり外部モジュール的に）評価することがないからなあ
まあ、でも、1年しないうちに次のバージョンで出来るようになるんじゃね？

23名無しのひみつ

2024/10/15(火) 05:45:13.05ID:/H51SSE+

>>18
ああああs３桁数字入ってた方が大きいんだね
うんうんw

24名無しのひみつ

2024/10/15(火) 05:52:40.06ID:6fYn+bm0

推論能力は大事だよね
https://i.imgur.com/xReuA7Y.jpeg

25名無しのひみつ

2024/10/15(火) 06:01:25.44ID:w/NLU3xY

まあ人間とAIとでは得手不得手も違うさ

26 警備員[Lv.7][芽]

2024/10/15(火) 06:10:27.23ID:7wrZl5Sj

算数の文章題って別に文章としての難易度が高いわけじゃないだろ
ただ正解が一つしかないからとんちんかんな答え返すとそれが間違っているのがばれる

普通の問いでも同じくらいとんちんかんな答え返してると思うぞ
気づきにくいだけで

27名無しのひみつ

2024/10/15(火) 06:24:49.69ID:4XuQW3ML

たまに話題になる掛け算の順番で✖されてそう
個人的には結果が合ってりゃいいとは思うけどw

28名無しのひみつ

2024/10/15(火) 06:31:53.63ID:YucTXq83

>>24
「問題文の“チョコレート”は“クッキー”であるべきじゃね？」と
推論する能力を求められてるのか？

画像下端の「求大加法の問題」ってのを見ると
現役教師か教育学部の学生あたりが使う資料かな。

AIさんだと「ここに示された情報だけでは分かりません」と答えるのかねぇ。
それともガムとクッキーの値段に現実世界の商品市況の情報を加味して
チョコレートのそれらしい値段を提案する(デッチ上げる)のか。

29名無しのひみつ

2024/10/15(火) 07:05:11.90ID:BOnKbF9q

ソース原文にらAIという言葉は使われてない
LLMだ

これをAIと丸める元記事

それをしれっと引用しただけの>>1

どこが科学板なんだ
似非科学

それに釣られてAIガーと言ってるのはさらにアホ

大規模言語モデル (LLM) の最近の進歩により、特に数学において、その形式的推論能力に対する関心が高まっています。
GSM8K ベンチマークは、小学校レベルの質問に対するモデルの数学的推論を評価するために広く使用されています。
GSM8K での LLM のパフォーマンスは近年大幅に向上していますが、その数学的推論能力が本当に向上したかどうかは不明のままであり、報告された指標の信頼性について疑問が生じています。
これらの懸念に対処するため、いくつかの SOTA オープンモデルとクローズドモデルに関する大規模な調査を実施しました。
既存の評価の制限を克服するために、多様な質問セットの生成を可能にするシンボリックテンプレートから作成された改良ベンチマークである GSM-Symbolic を導入しました。
GSM-Symbolic は、より制御可能な評価を可能にし、この http URL の推論能力を測定するための重要な洞察とより信頼性の高い指標を提供します。
調査結果から、同じ質問の異なるインスタンス化に応答するときに、LLM が顕著な変動を示すことが明らかになっています。
具体的には、GSM-Symbolic ベンチマークで質問内の数値のみが変更されると、すべてのモデルのパフォーマンスが低下します。
さらに、これらのモデルにおける数学的推論の脆弱性を調査し、質問内の節の数が増えるとパフォーマンスが大幅に低下することを示しています。
この低下は、現在の LLM が真の論理的推論を実行できないためであると仮定しています。現在の LLM は、トレーニングデータから推論手順を複製します。
質問に関連していると思われる節を 1 つ追加すると、その節が最終的な回答に必要な推論チェーンに寄与していないにもかかわらず、すべての最新モデルでパフォーマンスが大幅に低下します (最大 65%)。全体として、私たちの研究は、数学的推論における LLM の機能と限界について、より微妙な理解を提供します。

30名無しのひみつ

2024/10/15(火) 07:06:14.83ID:BOnKbF9q

LLMはgenAIだ
生成するものだ
推論するものじゃない

31名無しのひみつ

2024/10/15(火) 09:11:10.02ID:0Pv1pnEZ

性能大した事ないよとか論文出されてもな
何が原因でどうやったら改善できるかの展望でも出して欲しいもんだ

32名無しのひみつ

2024/10/15(火) 10:19:03.08ID:7bAK7O2y

Fラン連中よりは有能ってことか

33名無しのひみつ

2024/10/15(火) 10:19:45.70ID:CWq6b1LL

>>18
オレがやってもそうなった
なおかつオレが何言ってもなかなか訂正しようとしなかった
ChatGPTには再教育キャンプ送りを命じてやった

34名無しのひみつ

2024/10/15(火) 10:29:40.20ID:fiX/rbFz

大規模自然言語処理でも歯が立たない数学（算数）の問題さん側にも落ち度がある

が法律や約款はもっと面倒だろ

35名無しのひみつ

2024/10/15(火) 10:47:59.32ID:hFx23M2j

こういうのにこだわってたらいつまで経っても製品化できないわな

36名無しのひみつ

2024/10/15(火) 11:40:23.30ID:wedpFClf

今のディープラーニングが脳の模倣をできているとは到底思えない
何らかのブレイクスルーが必要

37名無しのひみつ

2024/10/15(火) 11:55:34.64ID:ZuuLU5Xk

半人前のアイアイ

38名無しのひみつ

2024/10/15(火) 12:04:50.32ID:T/X1dWMI

せめて他と同じ土俵に立ってから、こういう事は言ってくれ
これじゃただの負け惜しみじゃねーか

39名無しのひみつ

2024/10/15(火) 12:19:37.38ID:86FlFhB5

なるほどw

40名無しのひみつ

2024/10/15(火) 12:20:31.92ID:86FlFhB5

バカがゲーム作ってもしょうがないw

41名無しのひみつ

2024/10/15(火) 12:23:13.23ID:3L0oPUoQ

メジャーじゃない仮定を加えた論考だと、
自分が述べてる前後の矛盾も解らなかったり

よくある問へのよくある回答には向いてる

42名無しのひみつ

2024/10/15(火) 12:45:13.95ID:2bXkaHRP

単純計算できないもんな
「理解する」ていう仕組みがまだ出来ていないんだろうな
統計のこねくり回しだけではやっぱ限界があるんじゃないか？

43名無しのひみつ

2024/10/15(火) 12:56:17.81ID:Ze4GRPRa

世界中の算数義務教育レベルテキストをすべてぶち込むところから始めてみては。

44名無しのひみつ

2024/10/15(火) 13:04:55.68ID:ATCjRR8y

大抵の大人は小学生未満の頭脳だろ？

45名無しのひみつ

2024/10/15(火) 13:08:24.07ID:B+1mpjQc

そんなことよりAppleJAPANは
漢字変換能力を小学生よりマシなレベルに引き上げろよ
「令和」が3年も変換できなかったのは怠慢すぎた

46名無しのひみつ

2024/10/15(火) 14:41:10.00ID:NPPdgkM/

憎い憎いApple憎いだけでコメントしてる奴がいて笑える

47名無しのひみつ

2024/10/15(火) 16:37:28.71ID:UTnEwvFN

三段論法を駆使できないうちは小学生レベルから脱することはないだろう

48名無しのひみつ

2024/10/15(火) 16:49:08.93ID:0NAGFzbQ

2位の人を追い抜くとあなたは何位？
の答えが凄かった

49名無しのひみつ

2024/10/15(火) 17:18:18.38ID:s0ih8nFZ

理系のやつ良かったな
暫く仕事とられなくて済むぞ

50名無しのひみつ

2024/10/15(火) 19:15:29.47ID:sAWho+MY

>>47
その三段論法からして大問題があるんだよ。

大前提：人間はみな死ぬ
小前提：ソクラテスは人間である
結論：ゆえにソクラテスは死ぬ

一体全体、ソクラテスは不死だ、と信じて疑わない奴が「人間はみな死ぬ」という命題を正しいと認めるか？？

51名無しのひみつ

2024/10/15(火) 20:00:23.41ID:YucTXq83

>>50
結論：ゆえにソクラテスは死ぬ
に対して

しかし(事実として)ソクラテスは不死だ、これは矛盾。
よって「小前提：ソクラテスは人間である」は誤っている。
すなわち「主張：ソクラテスは人間でない」が証明された。

……これは正当な背理法だよね。

52名無しのひみつ

2024/10/15(火) 20:47:44.20ID:WYwJQizv

>>1
一々調べんでも見てれば分かるだろｗ
まともに日本語すら書けないAIに何を求めてんだよｗ

53名無しのひみつ

2024/10/15(火) 20:56:15.14ID:V8XIa0Tj

ダークウェブ情報を吸い上げて闇の質問に回答するダークGPT作ってくれw

54名無しのひみつ

2024/10/16(水) 00:06:17.55ID:k6jdJdU9

まだ生まれたばかりと言う事

55名無しのひみつ

2024/10/16(水) 00:26:53.43ID:KPS7+/j6

AIにケーキ三等分させたらどうなる？

56名無しのひみつ

2024/10/16(水) 12:12:21.58ID:joHOPL2n

既存AIの欠点をあげつらうだけなら素人でもできるだろ
AppleほどのIT企業ならその欠点を改良してから発表しろよ

57名無しのひみつ

2024/10/16(水) 13:10:03.84ID:zVlehPWi

自分たちで作ってないから言いたい放題

58名無しのひみつ

2024/10/16(水) 13:20:14.74ID:R1BWM7TB

憎い憎いApple憎い

59名無しのひみつ

2024/10/16(水) 13:49:30.21ID:3/6GGQAd

AIの未解決問題の一つ、フレーム問題が解決できていないからねぇ…
今の弱いAIは人工知能じゃなくて人工無能ってやつだよ

60名無しのひみつ

2024/10/16(水) 14:13:02.02ID:PN01nnbt

>>56
確かに

61名無しのひみつ

2024/10/16(水) 14:40:52.92ID:IfVRjvka

>>28
正解は、教師の機嫌を損なわない様ミスを指摘せず忖度してチョコレートをクッキーに読み替える

62名無しのひみつ

2024/10/16(水) 15:18:22.66ID:kdw87IRu

>>14
90年代までは理系のように一つ一つルールを学習させる方式だったけど上手くいかなかったらしい

63名無しのひみつ

2024/10/16(水) 16:16:44.03ID:dL05Rnxq

ひとつひとつルールを学習って、文系の数学（問題のパターンを全部覚えるらしい）じゃん

64名無しのひみつ

2024/10/16(水) 16:55:35.65ID:dS58hcEj

フレーム問題の解決には身体（性）が必須だ
なんて言ってたな昔は　懐かしい

65名無しのひみつ

2024/10/17(木) 19:14:58.24ID:9lp5xsfR

愚門だから回答がおかしくなるのでは?

66名無しのひみつ

2024/10/17(木) 19:16:19.61ID:9lp5xsfR

>>65

あまたの言葉を使用してその問いかけになるようにすれば正解率が跳ね上がるのでは

67名無しのひみつ

2024/10/17(木) 19:18:59.71ID:9lp5xsfR

オープン・クエスチョンとクローズド・クエスチョン

前者って人間でも回答が各個人でかなり差が出る
後者で聞かないと駄目

話の中間などにオープン・クエスチョンが入ると話がこじれる

68名無しのひみつ

2024/10/17(木) 19:22:05.54ID:9lp5xsfR

人間でもクローズド・クエスチョンで聞いているのに

話の筋はあっているが別のことを話し出す人がいるのですよ

周囲で聞いていたら何を聞いていたのだろうと思う人多数でる

69名無しのひみつ

2024/10/17(木) 19:55:01.65ID:0ZOTFflf

日本の運転免許のペーパーテストの悪問はＡＩは正答無理じゃないか？

①「夜間の道路は危険なので気を付けて運転しなければならない」
②「赤信号では必ず停車しなければならない」
③「原動機付き自転車は公道で５０ｋｍ／ｈ以上で走ってはならない」
④「公道を普通自動車で運転する際には必ずシートベルトを装着する必要がある」
⑤「制限速度３０ｋｍ／ｈの道路では、その制限速度を超えて走行してはいけない」

（ちなみに正答は全て「×」）

70名無しのひみつ

2024/10/17(木) 20:00:51.42ID:P32HfES+

産まれたばかりという意味で小学生並というのは当たってる

71名無しのひみつ

2024/10/18(金) 00:58:42.45ID:PAZgU3Jf

免許の学科試験問題作成にＡＩを活用しようという試みはあったけど、
人間が作る「悪問」のようなヒッカケ問題をＡＩが作れず試みは放棄された

72名無しのひみつ

2024/10/18(金) 21:00:08.65ID:N5McyG3q

いや、そこは普通に問題を作らせればさらっと間違いの入った問題を作ってくれるだろ
大半の馬鹿な人が騙されるような
今はそういうレベルだろ

73名無しのひみつ

2024/10/19(土) 01:53:45.81ID:VgYkgS08

還暦ですが50才年下の女性と結婚できますか
ときいたら大丈夫年の差婚頑張ってと言われたからなぁ

74名無しのひみつ

2024/10/19(土) 03:07:41.36ID:zifOzePG

LLMに騙されてることに気付かずありがたがってる人達って境界知能だよね

75名無しのひみつ

2024/10/19(土) 05:14:15.16ID:rhSFL5Pk

他社のAIに圧倒されて
siriのショボさ(´･ω･｀)を
誤魔化すのに必死な感

76名無しのひみつ

2024/10/19(土) 11:15:21.87ID:h+Xst+tI

>>69のような学科試験の悪問をＡＩに答えさせたらどうなるかな

>>69まんまだとネットで答え出てるので正答しちゃうけどね

77 警備員[Lv.6][芽]

2024/10/19(土) 14:58:54.62ID:rhSFL5Pk

>>74
騙されまい利用しまい（騙されずに利用する自信がない）、と思うなら、
騙されて利用した気になる者のことを、そう思うだろうなぁ。

この新時代のツールを騙されずに利用する者より

78名無しのひみつ

2024/10/20(日) 17:05:39.80ID:50ROSo28

>>77
憎い憎いApple憎いだけでコメントするような奴のレベルなんてこんなもん

79名無しのひみつ

2024/10/21(月) 11:11:51.06ID:4NQP504E

>>78
非Apple儲というだけでコメントするような奴のレベルなんてこんなもん

80名無しのひみつ

2024/10/21(月) 11:45:50.10ID:SfJ9XlSq

>>62
人間の曖昧な感覚とか自然言語の処理には失敗したけど、数学のような論理の厳密性が問われる分野ではどっちが成功するか分からん
少なくとも大規模言語モデルのアプローチは数学には全く向かない

81名無しのひみつ

2024/10/21(月) 12:33:40.37ID:RmxdaMTe

>>80
そこでベイズ

82名無しのひみつ

2024/10/24(木) 00:17:36.79ID:Ftcj57FN

>>18
これが現実
騙される奴らって‥

83名無しのひみつ

2024/10/24(木) 19:38:45.23ID:EhoJzYGp

AirDropとかいうクソ無能の極み！虫食い毒林檎！死ね！！

84名無しのひみつ

2024/10/25(金) 16:55:16.62ID:zJVlm+qi

反論できなくなるとAppleの悪口を書くだけ
チーズ牛丼食ってそうだな

85名無しのひみつ

2024/10/25(金) 16:59:39.84ID:APtTiTkv

Appleの時価がNvidiaに抜かれそう
象徴的なイベント

86名無しのひみつ

2024/10/28(月) 14:01:34.43ID:ZBINgW4K

AIは文系脳。

87名無しのひみつ

2024/11/05(火) 21:31:04.14ID:rcv9BH2t

得手不得手があるなんて
むしろ優秀なのである

88名無しのひみつ

2024/11/08(金) 21:14:44.25ID:WbYDGkK3

>>86
知識の引き出しで勝負してるだけだもんな

89名無しのひみつ

2024/11/08(金) 21:42:07.60ID:yjkwtjUf

昭和50年は平成何年ですかと聞くと
昭和は平成ではないと答えてくるが、
昭和50年は平成マイナス何年かと聞くと
西暦に変換して計算して答えてくれる。

つまり問題の文章次第、出題者の文章力次第なのではないかな？

90名無しのひみつ

2024/11/08(金) 21:54:33.46ID:Ek5rH+yD

誘導してやると答えてくれる

91名無しのひみつ

2024/11/08(金) 23:15:52.59ID:wgGDDWbU

少なくとも小学生は誘導しても答えられない

92名無しのひみつ

2024/11/09(土) 19:12:46.15ID:W01juSZS

>>18
ChatGPTに散々文句垂れて
昨日やっと一発で正解したけど
今日はどうなるか分からない

93名無しのひみつ

2024/11/09(土) 19:15:52.69ID:W01juSZS

>>88
AIは知識問題はむしろ苦手

94名無しのひみつ

2024/11/11(月) 20:38:33.72ID:sBOyav4T

以前は山手線の駅を書き出してと頼むと熱海や名古屋まで出てきたしな

人工知能は日本が苦手なのです

95名無しのひみつ

2024/12/14(土) 15:36:58.45ID:MLGwpCk2

まあAppleはAI競争降りたからAIネガキャンに走るだろうな
そうして市場価値下げた方が端末に載せやすいリーズナブルな価格に落ちるから

スレをまとめに
5ch即うp → gzo.ai

■ このスレッドは過去ログ倉庫に格納されています