探検


【AI】AppleのAI研究者らが「今のAI言語モデルは算数の文章題への推論能力が小学生未満」と研究結果を発表 [すらいむ★]

■ このスレッドは過去ログ倉庫に格納されています
1すらいむ ★
垢版 |
2024/10/14(月) 19:23:04.74ID:GvZlJpCr
AppleのAI研究者らが「今のAI言語モデルは算数の文章題への推論能力が小学生未満」と研究結果を発表

 OpenAIのGPT-4など大規模言語モデル(LLM)をベースにしたAIは、自然な文章を生成したりさまざまな課題をクリアしたりと、高度で広範な機能を備えています。
 しかし、依然として小学生レベルの算数でも、文章題だと人間がしないようなミスをして答えられないケースがあります。
 Appleの人工知能科学者が発表した論文では、MetaやOpenAIなどの大規模言語モデルに基づくAIは「基本的な推論能力が欠けている」という研究結果が示されました。

 [2410.05229] GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models
 https://arxiv.org/abs/2410.05229

(以下略、続きはソースでご確認ください)

Gigazine 2024年10月14日 19時00分
https://gigazine.net/news/20241014-llm-reasoning/
2024/10/14(月) 19:27:22.13ID:/cXJp8jY
トンチンカン問答のボケ具合は相当なもん
3名無しのひみつ
垢版 |
2024/10/14(月) 19:36:50.71ID:9V2urW4D
結局、東大入試の数学は数式だけだから、解けても
つるかめ算が解けないというw
4名無しのひみつ
垢版 |
2024/10/14(月) 19:51:07.03ID:DFXFa0hY
人間の愚かさをナメてもらっては困るぞ
2024/10/14(月) 20:06:27.43ID:7mJ4qwHt
split使ってるもんなw
辞書デカいし
6名無しのひみつ
垢版 |
2024/10/14(月) 20:21:16.44ID:eQv5inC0
LLMで出遅れたAppleにしか言えない本当の話

投資家の孫正義や、そこらの驚き屋とは言うことが違う!!
2024/10/14(月) 21:18:19.77ID:SOhktA1I
人間のそれなりに多くの人もこの問題引っかかるだろう
計算に用いない無意味な数字を混ぜるやつ
8名無しのひみつ
垢版 |
2024/10/14(月) 21:21:06.39ID:PDju79k/
問題の書き方に一貫性が無いのが問題だろう
教師の自由裁量すぎる
2024/10/14(月) 21:54:40.45ID:v2r9xaZJ
のべっち…
2024/10/14(月) 22:01:30.52ID:S1+AJYMX
こういうのに限らず単純に辞書的な使い方をするのでもない限り人間の意図した答えを対話無しで一発で出してくれる方が珍しいでしょ
2024/10/14(月) 22:17:07.98ID:IXwBPV/1
数学屋は答えがちゃんと存在するなら質問のクオリティにはあまりこだわらないからな
2024/10/14(月) 22:19:18.83ID:7mJ4qwHt
だいたい2行やなw
13名無しのひみつ
垢版 |
2024/10/14(月) 22:23:46.37ID:pBUeDKZP
AIを使いこなすには、
AIの回答を検証できるスキルが必要
14名無しのひみつ
垢版 |
2024/10/14(月) 22:29:57.81ID:vYFTnz3i
AIは文系だったか
2024/10/14(月) 22:39:38.62ID:0t+Scbz/
ギレン総帥の演説に洗脳されちゃうもんな
16名無しのひみつ
垢版 |
2024/10/14(月) 22:50:25.49ID:eRIbqT0G
孫正義顔真っ赤
2024/10/14(月) 23:10:42.68ID:DHPTKyHA
推論能力まで獲得したらほんとに人間いらなくなってしまう
知識量で絶対に勝つのは不可能なのに
肉体労働しか生き残れない
18名無しのひみつ
垢版 |
2024/10/14(月) 23:11:11.50ID:3Zufv+QE
これだもの
https://i.imgur.com/GuNsKhJ.png
19 警備員[Lv.5][新芽]
垢版 |
2024/10/14(月) 23:25:58.75ID:OxrCk7pz
また、また、また、
出遅れている分野に関する他社の現行技術水準をディスってなんぼの
戦略的広告か。
A社お得意のキャッチコピーが目に浮かぶような記事だな。
 「我が社の新製品は、最大●●倍高速、最大●●倍スマート」
2024/10/15(火) 01:46:32.92ID:Ze4GRPRa
言語では、ある程度納得させる言説をするのに数字はからきし駄目?
こういう奴よくいない?w
21名無しのひみつ
垢版 |
2024/10/15(火) 03:21:26.51ID:xGM4TnGt
>>20
お前が詐欺に引っ掛かりやすいだけだろ
お前みたいなのが多いのが世の中で、だからAIが持て囃される
2024/10/15(火) 05:14:52.72ID:gmlkyDuf
推論が正しいかを客観的に(つまり外部モジュール的に)評価することがないからなあ
まあ、でも、1年しないうちに次のバージョンで出来るようになるんじゃね?
2024/10/15(火) 05:45:13.05ID:/H51SSE+
>>18
ああああs3桁数字入ってた方が大きいんだね
うんうんw
24名無しのひみつ
垢版 |
2024/10/15(火) 05:52:40.06ID:6fYn+bm0
推論能力は大事だよね
https://i.imgur.com/xReuA7Y.jpeg
2024/10/15(火) 06:01:25.44ID:w/NLU3xY
まあ人間とAIとでは得手不得手も違うさ
26 警備員[Lv.7][芽]
垢版 |
2024/10/15(火) 06:10:27.23ID:7wrZl5Sj
算数の文章題って別に文章としての難易度が高いわけじゃないだろ
ただ正解が一つしかないからとんちんかんな答え返すとそれが間違っているのがばれる

普通の問いでも同じくらいとんちんかんな答え返してると思うぞ
気づきにくいだけで
2024/10/15(火) 06:24:49.69ID:4XuQW3ML
たまに話題になる掛け算の順番で✖されてそう
個人的には結果が合ってりゃいいとは思うけどw
2024/10/15(火) 06:31:53.63ID:YucTXq83
>>24
「問題文の“チョコレート”は“クッキー”であるべきじゃね?」と
推論する能力を求められてるのか?

画像下端の「求大加法の問題」ってのを見ると
現役教師か教育学部の学生あたりが使う資料かな。

AIさんだと「ここに示された情報だけでは分かりません」と答えるのかねぇ。
それともガムとクッキーの値段に現実世界の商品市況の情報を加味して
チョコレートのそれらしい値段を提案する(デッチ上げる)のか。
29名無しのひみつ
垢版 |
2024/10/15(火) 07:05:11.90ID:BOnKbF9q
ソース原文にらAIという言葉は使われてない
LLMだ

これをAIと丸める元記事

それをしれっと引用しただけの>>1

どこが科学板なんだ
似非科学

それに釣られてAIガーと言ってるのはさらにアホ

大規模言語モデル (LLM) の最近の進歩により、特に数学において、その形式的推論能力に対する関心が高まっています。
GSM8K ベンチマークは、小学校レベルの質問に対するモデルの数学的推論を評価するために広く使用されています。
GSM8K での LLM のパフォーマンスは近年大幅に向上していますが、その数学的推論能力が本当に向上したかどうかは不明のままであり、報告された指標の信頼性について疑問が生じています。
これらの懸念に対処するため、いくつかの SOTA オープン モデルとクローズド モデルに関する大規模な調査を実施しました。
既存の評価の制限を克服するために、多様な質問セットの生成を可能にするシンボリック テンプレートから作成された改良ベンチマークである GSM-Symbolic を導入しました。
GSM-Symbolic は、より制御可能な評価を可能にし、この http URL の推論能力を測定するための重要な洞察とより信頼性の高い指標を提供します。
調査結果から、同じ質問の異なるインスタンス化に応答するときに、LLM が顕著な変動を示すことが明らかになっています。
具体的には、GSM-Symbolic ベンチマークで質問内の数値のみが変更されると、すべてのモデルのパフォーマンスが低下します。
さらに、これらのモデルにおける数学的推論の脆弱性を調査し、質問内の節の数が増えるとパフォーマンスが大幅に低下することを示しています。
この低下は、現在の LLM が真の論理的推論を実行できないためであると仮定しています。現在の LLM は、トレーニング データから推論手順を複製します。
質問に関連していると思われる節を 1 つ追加すると、その節が最終的な回答に必要な推論チェーンに寄与していないにもかかわらず、すべての最新モデルでパフォーマンスが大幅に低下します (最大 65%)。全体として、私たちの研究は、数学的推論における LLM の機能と限界について、より微妙な理解を提供します。
30名無しのひみつ
垢版 |
2024/10/15(火) 07:06:14.83ID:BOnKbF9q
LLMはgenAIだ
生成するものだ
推論するものじゃない
2024/10/15(火) 09:11:10.02ID:0Pv1pnEZ
性能大した事ないよとか論文出されてもな
何が原因でどうやったら改善できるかの展望でも出して欲しいもんだ
32名無しのひみつ
垢版 |
2024/10/15(火) 10:19:03.08ID:7bAK7O2y
Fラン連中よりは有能ってことか
33名無しのひみつ
垢版 |
2024/10/15(火) 10:19:45.70ID:CWq6b1LL
>>18
オレがやってもそうなった
なおかつオレが何言ってもなかなか訂正しようとしなかった
ChatGPTには再教育キャンプ送りを命じてやった
2024/10/15(火) 10:29:40.20ID:fiX/rbFz
大規模自然言語処理でも歯が立たない数学(算数)の問題さん側にも落ち度がある

が法律や約款はもっと面倒だろ
2024/10/15(火) 10:47:59.32ID:hFx23M2j
こういうのにこだわってたらいつまで経っても製品化できないわな
2024/10/15(火) 11:40:23.30ID:wedpFClf
今のディープラーニングが脳の模倣をできているとは到底思えない
何らかのブレイクスルーが必要
37名無しのひみつ
垢版 |
2024/10/15(火) 11:55:34.64ID:ZuuLU5Xk
半人前のアイアイ
2024/10/15(火) 12:04:50.32ID:T/X1dWMI
せめて他と同じ土俵に立ってから、こういう事は言ってくれ
これじゃただの負け惜しみじゃねーか
39名無しのひみつ
垢版 |
2024/10/15(火) 12:19:37.38ID:86FlFhB5
なるほどw
40名無しのひみつ
垢版 |
2024/10/15(火) 12:20:31.92ID:86FlFhB5
バカがゲーム作ってもしょうがないw
2024/10/15(火) 12:23:13.23ID:3L0oPUoQ
メジャーじゃない仮定を加えた論考だと、
自分が述べてる前後の矛盾も解らなかったり

よくある問へのよくある回答には向いてる
2024/10/15(火) 12:45:13.95ID:2bXkaHRP
単純計算できないもんな
「理解する」ていう仕組みがまだ出来ていないんだろうな
統計のこねくり回しだけではやっぱ限界があるんじゃないか?
2024/10/15(火) 12:56:17.81ID:Ze4GRPRa
世界中の算数義務教育レベルテキストをすべてぶち込むところから始めてみては。
2024/10/15(火) 13:04:55.68ID:ATCjRR8y
大抵の大人は小学生未満の頭脳だろ?
45名無しのひみつ
垢版 |
2024/10/15(火) 13:08:24.07ID:B+1mpjQc
そんなことよりAppleJAPANは
漢字変換能力を小学生よりマシなレベルに引き上げろよ
「令和」が3年も変換できなかったのは怠慢すぎた
46名無しのひみつ
垢版 |
2024/10/15(火) 14:41:10.00ID:NPPdgkM/
憎い憎いApple憎いだけでコメントしてる奴がいて笑える
2024/10/15(火) 16:37:28.71ID:UTnEwvFN
三段論法を駆使できないうちは小学生レベルから脱することはないだろう
48名無しのひみつ
垢版 |
2024/10/15(火) 16:49:08.93ID:0NAGFzbQ
2位の人を追い抜くとあなたは何位?
の答えが凄かった
49名無しのひみつ
垢版 |
2024/10/15(火) 17:18:18.38ID:s0ih8nFZ
理系のやつ良かったな
暫く仕事とられなくて済むぞ
2024/10/15(火) 19:15:29.47ID:sAWho+MY
>>47
その三段論法からして大問題があるんだよ。

大前提:人間はみな死ぬ
小前提:ソクラテスは人間である
結論:ゆえにソクラテスは死ぬ

一体全体、ソクラテスは不死だ、と信じて疑わない奴が「人間はみな死ぬ」という命題を正しいと認めるか??
2024/10/15(火) 20:00:23.41ID:YucTXq83
>>50
結論:ゆえにソクラテスは死ぬ
に対して

しかし(事実として)ソクラテスは不死だ、これは矛盾。
よって「小前提:ソクラテスは人間である」は誤っている。
すなわち「主張:ソクラテスは人間でない」が証明された。

……これは正当な背理法だよね。
52名無しのひみつ
垢版 |
2024/10/15(火) 20:47:44.20ID:WYwJQizv
>>1
一々調べんでも見てれば分かるだろw
まともに日本語すら書けないAIに何を求めてんだよw
53名無しのひみつ
垢版 |
2024/10/15(火) 20:56:15.14ID:V8XIa0Tj
ダークウェブ情報を吸い上げて闇の質問に回答するダークGPT作ってくれw
54名無しのひみつ
垢版 |
2024/10/16(水) 00:06:17.55ID:k6jdJdU9
まだ生まれたばかりと言う事
2024/10/16(水) 00:26:53.43ID:KPS7+/j6
AIにケーキ三等分させたらどうなる?
56名無しのひみつ
垢版 |
2024/10/16(水) 12:12:21.58ID:joHOPL2n
既存AIの欠点をあげつらうだけなら素人でもできるだろ
AppleほどのIT企業ならその欠点を改良してから発表しろよ
2024/10/16(水) 13:10:03.84ID:zVlehPWi
自分たちで作ってないから 言いたい放題
58名無しのひみつ
垢版 |
2024/10/16(水) 13:20:14.74ID:R1BWM7TB
憎い憎いApple憎い
59名無しのひみつ
垢版 |
2024/10/16(水) 13:49:30.21ID:3/6GGQAd
AIの未解決問題の一つ、フレーム問題が解決できていないからねぇ…
今の弱いAIは人工知能じゃなくて人工無能ってやつだよ
2024/10/16(水) 14:13:02.02ID:PN01nnbt
>>56
確かに
61名無しのひみつ
垢版 |
2024/10/16(水) 14:40:52.92ID:IfVRjvka
>>28
正解は、教師の機嫌を損なわない様ミスを指摘せず忖度してチョコレートをクッキーに読み替える
2024/10/16(水) 15:18:22.66ID:kdw87IRu
>>14
90年代までは理系のように一つ一つルールを学習させる方式だったけど上手くいかなかったらしい
63名無しのひみつ
垢版 |
2024/10/16(水) 16:16:44.03ID:dL05Rnxq
ひとつひとつルールを学習って、文系の数学(問題のパターンを全部覚えるらしい)じゃん
2024/10/16(水) 16:55:35.65ID:dS58hcEj
フレーム問題の解決には身体(性)が必須だ
なんて言ってたな昔は 懐かしい
65名無しのひみつ
垢版 |
2024/10/17(木) 19:14:58.24ID:9lp5xsfR
愚門だから回答がおかしくなるのでは?
66名無しのひみつ
垢版 |
2024/10/17(木) 19:16:19.61ID:9lp5xsfR
>>65

あまたの言葉を使用してその問いかけになるようにすれば正解率が跳ね上がるのでは
67名無しのひみつ
垢版 |
2024/10/17(木) 19:18:59.71ID:9lp5xsfR
オープン・クエスチョンとクローズド・クエスチョン

前者って人間でも回答が各個人でかなり差が出る
後者で聞かないと駄目

話の中間などにオープン・クエスチョンが入ると話がこじれる
68名無しのひみつ
垢版 |
2024/10/17(木) 19:22:05.54ID:9lp5xsfR
人間でもクローズド・クエスチョンで聞いているのに

話の筋はあっているが別のことを話し出す人がいるのですよ

周囲で聞いていたら何を聞いていたのだろうと思う人多数でる
69名無しのひみつ
垢版 |
2024/10/17(木) 19:55:01.65ID:0ZOTFflf
日本の運転免許のペーパーテストの悪問はAIは正答無理じゃないか?

@「夜間の道路は危険なので気を付けて運転しなければならない」
A「赤信号では必ず停車しなければならない」
B「原動機付き自転車は公道で50km/h以上で走ってはならない」
C「公道を普通自動車で運転する際には必ずシートベルトを装着する必要がある」
D「制限速度30km/hの道路では、その制限速度を超えて走行してはいけない」

(ちなみに正答は全て「×」)
2024/10/17(木) 20:00:51.42ID:P32HfES+
産まれたばかりという意味で小学生並というのは当たってる
71名無しのひみつ
垢版 |
2024/10/18(金) 00:58:42.45ID:PAZgU3Jf
免許の学科試験問題作成にAIを活用しようという試みはあったけど、
人間が作る「悪問」のようなヒッカケ問題をAIが作れず試みは放棄された
72名無しのひみつ
垢版 |
2024/10/18(金) 21:00:08.65ID:N5McyG3q
いや、そこは普通に問題を作らせればさらっと間違いの入った問題を作ってくれるだろ
大半の馬鹿な人が騙されるような
今はそういうレベルだろ
2024/10/19(土) 01:53:45.81ID:VgYkgS08
還暦ですが50才年下の女性と結婚できますか
ときいたら大丈夫年の差婚頑張ってと言われたからなぁ
74名無しのひみつ
垢版 |
2024/10/19(土) 03:07:41.36ID:zifOzePG
LLMに騙されてることに気付かずありがたがってる人達って境界知能だよね
75名無しのひみつ
垢版 |
2024/10/19(土) 05:14:15.16ID:rhSFL5Pk
他社のAIに圧倒されて
siriのショボさ(´・ω・`)を
誤魔化すのに必死な感
76名無しのひみつ
垢版 |
2024/10/19(土) 11:15:21.87ID:h+Xst+tI
>>69のような学科試験の悪問をAIに答えさせたらどうなるかな

>>69まんまだとネットで答え出てるので正答しちゃうけどね
77 警備員[Lv.6][芽]
垢版 |
2024/10/19(土) 14:58:54.62ID:rhSFL5Pk
>>74
騙されまい利用しまい(騙されずに利用する自信がない)、と思うなら、
騙されて利用した気になる者のことを、そう思うだろうなぁ。

この新時代のツールを騙されずに利用する者より
78名無しのひみつ
垢版 |
2024/10/20(日) 17:05:39.80ID:50ROSo28
>>77
憎い憎いApple憎いだけでコメントするような奴のレベルなんてこんなもん
79名無しのひみつ
垢版 |
2024/10/21(月) 11:11:51.06ID:4NQP504E
>>78
非Apple儲というだけでコメントするような奴のレベルなんてこんなもん
80名無しのひみつ
垢版 |
2024/10/21(月) 11:45:50.10ID:SfJ9XlSq
>>62
人間の曖昧な感覚とか自然言語の処理には失敗したけど、数学のような論理の厳密性が問われる分野ではどっちが成功するか分からん
少なくとも大規模言語モデルのアプローチは数学には全く向かない
81名無しのひみつ
垢版 |
2024/10/21(月) 12:33:40.37ID:RmxdaMTe
>>80
そこでベイズ
82名無しのひみつ
垢版 |
2024/10/24(木) 00:17:36.79ID:Ftcj57FN
>>18
これが現実
騙される奴らって‥
2024/10/24(木) 19:38:45.23ID:EhoJzYGp
AirDropとかいうクソ無能の極み!虫食い毒林檎!死ね!!
84名無しのひみつ
垢版 |
2024/10/25(金) 16:55:16.62ID:zJVlm+qi
反論できなくなるとAppleの悪口を書くだけ
チーズ牛丼食ってそうだな
2024/10/25(金) 16:59:39.84ID:APtTiTkv
Appleの時価がNvidiaに抜かれそう
象徴的なイベント
86名無しのひみつ
垢版 |
2024/10/28(月) 14:01:34.43ID:ZBINgW4K
AIは文系脳。
2024/11/05(火) 21:31:04.14ID:rcv9BH2t
得手不得手があるなんて
むしろ優秀なのである
88名無しのひみつ
垢版 |
2024/11/08(金) 21:14:44.25ID:WbYDGkK3
>>86
知識の引き出しで勝負してるだけだもんな
2024/11/08(金) 21:42:07.60ID:yjkwtjUf
昭和50年は平成何年ですかと聞くと
昭和は平成ではないと答えてくるが、
昭和50年は平成マイナス何年かと聞くと
西暦に変換して計算して答えてくれる。

つまり問題の文章次第、出題者の文章力次第なのではないかな?
2024/11/08(金) 21:54:33.46ID:Ek5rH+yD
誘導してやると答えてくれる
2024/11/08(金) 23:15:52.59ID:wgGDDWbU
少なくとも小学生は誘導しても答えられない
92名無しのひみつ
垢版 |
2024/11/09(土) 19:12:46.15ID:W01juSZS
>>18
ChatGPTに散々文句垂れて
昨日やっと一発で正解したけど
今日はどうなるか分からない
93名無しのひみつ
垢版 |
2024/11/09(土) 19:15:52.69ID:W01juSZS
>>88
AIは知識問題はむしろ苦手
2024/11/11(月) 20:38:33.72ID:sBOyav4T
以前は山手線の駅を書き出してと頼むと熱海や名古屋まで出てきたしな

人工知能は日本が苦手なのです
2024/12/14(土) 15:36:58.45ID:MLGwpCk2
まあAppleはAI競争降りたからAIネガキャンに走るだろうな
そうして市場価値下げた方が端末に載せやすいリーズナブルな価格に落ちるから
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況