LINE、日本語特化の汎用言語モデルを開発へ--NAVERと共同で
飯塚 直
LINEは11月25日、NAVERと共同で日本語に特化した超巨大言語モデル(膨大なデータから生成された汎用言語モデル)の開発を発表した。
日本語に特化した超巨大言語モデル開発は、世界でも初めての試みになるとしている。
特化型言語モデルなど、従来の言語モデルでは、各ユースケース(Q&A、対話など)に対して自然言語処理エンジニアが個別に学習する必要があった一方、汎用言語モデルは、AIでより自然な言語処理・言語表が可能。
同モデルは、OpenAIが開発した「GPT」やGoogleの「T5」などが代表例となる。
新聞記事や百科事典、小説、コーディングなどといった膨大な言語データを学習させた言語モデルを構築し、コンテキストを設定するFew-Shot learning(ブログの書き出しやプログラミングコードの一部などを与えること)を実行すると、対話、翻訳、入力補完、文書生成、プログラミングコードといったさまざまな言語処理により、個々のユースケースを実現できるとしている。
同社では、日本語に特化した独自の汎用言語モデルを開発。
1750億以上のパラメーターと、100億ページ以上の日本語データを学習データとして利用する予定という。
現在世界に存在する日本語をベースにした言語モデルのパラメーター量と学習量を大きく超えるものであり、パラメーター量と学習量については、今後も拡大するとしている。
(以下略、続きはソースでご確認下さい)
Cnet 2020年11月25日 17時53分
https://japan.cnet.com/article/35162922/
【日本語特化型超巨大言語モデル】LINE、日本語特化の汎用言語モデルを開発へ--NAVERと共同で [すらいむ★]
■ このスレッドは過去ログ倉庫に格納されています
1すらいむ ★
2020/11/26(木) 12:45:24.36ID:CAP_USER2名無しのひみつ
2020/11/26(木) 12:48:06.66ID:S8++SHJB 個人情報をタダで取れて言いニダ。日本の政治家はアホニダw
3名無しのひみつ
2020/11/26(木) 12:49:21.28ID:jBrqvq25自民党のコミュニケーションツールはLINE
2020/11/26(木) 12:49:55.70ID:15IMw+LN
韓国語も提案して欲しい
5名無しのひみつ
2020/11/26(木) 13:01:31.26ID:2TLwXVgY 汎用NLPなんてそう簡単にできないでしょ
分野や用法を限ってもうまくいかないことが多いのに
分野や用法を限ってもうまくいかないことが多いのに
2020/11/26(木) 13:01:52.39ID:8hURkfdx
これで日本語の文章を自動生成し放題
それもLINEが
韓国擁護が捗るだろうね
日本人が多く使うSNSがこのモジュールの生成する
韓国宣伝だらけになる可能性がある
日本政府はこういうことが出来なかったか
それもLINEが
韓国擁護が捗るだろうね
日本人が多く使うSNSがこのモジュールの生成する
韓国宣伝だらけになる可能性がある
日本政府はこういうことが出来なかったか
2020/11/26(木) 13:04:58.65ID:8hURkfdx
GPT-3なんて既に指示に基づいてWebサイトを作ってるくらいだからな
日本の頭脳労働の大半をLINEが持っていくかもな
日本の頭脳労働の大半をLINEが持っていくかもな
8名無しのひみつ
2020/11/26(木) 13:09:39.16ID:x5Bij3159名無しのひみつ
2020/11/26(木) 13:12:13.65ID:/5c15q8n 日本語プログラミングを高度化・完成度を高めることが急務
10名無しのひみつ
2020/11/26(木) 13:12:21.30ID:CUN3FR7E ナニコレ怖い
11名無しのひみつ
2020/11/26(木) 13:32:10.19ID:KN4ntP5v 自民党のLINE推しは朝鮮人の犬ってことなんやろなあ
12名無しのひみつ
2020/11/26(木) 13:39:45.55ID:8hURkfdx LINEには日本語のサンプルがサーバーに山のようにあるから開発のための材料は揃ってるよな
アジアの他の国でもLINEが多く使われているところがあったな
アジアの他の国でもLINEが多く使われているところがあったな
13名無しのひみつ
2020/11/26(木) 13:41:31.09ID:54ADCcw9 当然、白丁・不逞鮮人・馬鹿チョン・キムチ野郎とかも覚えさせるんだろ?
14名無しのひみつ
2020/11/26(木) 14:01:16.46ID:Ag0AYRcK オジサン、オバサンが使ってるから仕方なくアプリ入れてるの気づいて。
16名無しのひみつ
2020/11/26(木) 18:55:17.74ID:8Rmp579z 日本語が地球語になるからな
18名無しのひみつ
2020/11/27(金) 08:04:33.32ID:T840qkY0 PCのフロントエンドの表示や機能や動作もGPT-3では自然言語で指示して作れてたなあ
このLINEのシステムで同じことができたら、Webデザイナーが大量解雇か
サーバー側の作業でも同様だな
簡単なコマンド打ちとその組み合わせだけなら代替されてしまう
このLINEのシステムで同じことができたら、Webデザイナーが大量解雇か
サーバー側の作業でも同様だな
簡単なコマンド打ちとその組み合わせだけなら代替されてしまう
19名無しのひみつ
2020/11/27(金) 21:01:06.11ID:oEbJhxh2 このプロジェクトに使うスパコンは
700PFLOPSか
700PFLOPSか
20名無しのひみつ
2020/11/27(金) 22:14:43.55ID:SdolRjEc 日本語と韓国語を言語的に考察してみると、
韓国語は、日本語の漢字かな交じり文をベースに意味論解釈したほうがやりやすいと思う。
NAVERが韓国語の基礎研究として日本語をやっているのだと思われる。
まぁ、それだけじゃなく、日本人の情報収集も目的の一つだろうが…
韓国語は、日本語の漢字かな交じり文をベースに意味論解釈したほうがやりやすいと思う。
NAVERが韓国語の基礎研究として日本語をやっているのだと思われる。
まぁ、それだけじゃなく、日本人の情報収集も目的の一つだろうが…
21名無しのひみつ
2020/12/02(水) 01:41:35.63ID:8QWyMHZa 集めた日本語のデーターの大部分が実は5chの下らない会話やつぶやきだとしたら?
22名無しのひみつ
2020/12/02(水) 07:09:44.31ID:zhfhJu9d 言語のライブラリやミドルウエアが提供する高級機能に頼り
それがどれだけ資源を浪費しているかしらずに、コード量を減らすことが
もっとも重要だという信仰が、まぬけなコードで超重量級のそれが生まれる、
メモリが余っているだから使わないライブラリとか糞だとレッテルをはり、
それお前だけのコードがシステム全体を占有できると過信するところにつながる、
いまの全てのアプリが肥大化して、必要なメモリやらストレージが桁が指数的に
消費されていく進化を自分のコードとは関係ないと思うとき。
糞遅いPCなんて作業効率が悪い言い出すわけだ、それはお前が糞遅いコードの
原因を作っているからだ。
昔のそれと比べてどんだけ資源量が爆発的に増えたとおもっている?
ちょっと隣のコンビニゆくのに、NASAのサターンVデルタロケットを使うような豪華な
状況になれすぎている。
それがどれだけ資源を浪費しているかしらずに、コード量を減らすことが
もっとも重要だという信仰が、まぬけなコードで超重量級のそれが生まれる、
メモリが余っているだから使わないライブラリとか糞だとレッテルをはり、
それお前だけのコードがシステム全体を占有できると過信するところにつながる、
いまの全てのアプリが肥大化して、必要なメモリやらストレージが桁が指数的に
消費されていく進化を自分のコードとは関係ないと思うとき。
糞遅いPCなんて作業効率が悪い言い出すわけだ、それはお前が糞遅いコードの
原因を作っているからだ。
昔のそれと比べてどんだけ資源量が爆発的に増えたとおもっている?
ちょっと隣のコンビニゆくのに、NASAのサターンVデルタロケットを使うような豪華な
状況になれすぎている。
24名無しのひみつ
2020/12/02(水) 20:38:33.17ID:WMmvgFD6 >日本語に特化した超巨大言語モデル
なにをどうするどんなもの なのかさっぱりわからん・・・
なにをどうするどんなもの なのかさっぱりわからん・・・
25名無しのひみつ
2020/12/02(水) 20:47:13.69ID:mwLjjFj3 >>24
これが目指しているのと同じ方向性の言語モデルが
英語版で既にできている
GPT-3とかな
https://cubeglb.com/media/2020/07/22/gpt-3-gamechanger/
「GPT-3」は思ってたより「やばい」ものだった。話し言葉でプログラミングまでこなすAI
僅かな文章から、妙ちくりんなフェイクニュースを作ったり
Googleのトップページと同じデザインのソースコードが欲しいと
簡単な英文の命令を与えるだけで、「GPT-3」はGoogleとほぼ見た目が同じ
デザインとソースコードを再現したり
(HTMLやCSSがそっくりのものを作ってしまった)
カメラアイコン、「写真」タイトル、およびメッセージアイコンが付いたナビゲーションバーがあるアプリ。
各写真にユーザーアイコン、写真、ハートアイコン、およびチャットバブルアイコンがある写真のフィード
と命令したら、そういうサイトを作ったり
更にJavaScriptによる簡単なプログラムが動くページまで作ってしまう!
これを、日本語で出来るようになる
最近では、GPT-3でWebサーバーを完全自動で設定してしまったという話まである
もうちょっとしたら、シリアル通信でロボットまで動かしかねんな
これが目指しているのと同じ方向性の言語モデルが
英語版で既にできている
GPT-3とかな
https://cubeglb.com/media/2020/07/22/gpt-3-gamechanger/
「GPT-3」は思ってたより「やばい」ものだった。話し言葉でプログラミングまでこなすAI
僅かな文章から、妙ちくりんなフェイクニュースを作ったり
Googleのトップページと同じデザインのソースコードが欲しいと
簡単な英文の命令を与えるだけで、「GPT-3」はGoogleとほぼ見た目が同じ
デザインとソースコードを再現したり
(HTMLやCSSがそっくりのものを作ってしまった)
カメラアイコン、「写真」タイトル、およびメッセージアイコンが付いたナビゲーションバーがあるアプリ。
各写真にユーザーアイコン、写真、ハートアイコン、およびチャットバブルアイコンがある写真のフィード
と命令したら、そういうサイトを作ったり
更にJavaScriptによる簡単なプログラムが動くページまで作ってしまう!
これを、日本語で出来るようになる
最近では、GPT-3でWebサーバーを完全自動で設定してしまったという話まである
もうちょっとしたら、シリアル通信でロボットまで動かしかねんな
26名無しのひみつ
2020/12/02(水) 21:09:28.61ID:cD/nlkW2 まだLINEなんか使ってんのか?
日本人だけだぞこれ使ってるの
日本人だけだぞこれ使ってるの
27名無しのひみつ
2020/12/02(水) 21:12:43.33ID:TT+xE6Kh 日本はほんとソフトに弱いんだな
28名無しのひみつ
2020/12/02(水) 21:39:12.83ID:JSMCxsCQ 国立大情報科の就職先は、ITじゃなくて金融だからな
、
日本のITは専門学校卒の偏差値28の連中がやる職業や
、
日本のITは専門学校卒の偏差値28の連中がやる職業や
29名無しのひみつ
2020/12/02(水) 22:39:54.86ID:MkH3uydQ 検閲用か
30名無しのひみつ
2020/12/02(水) 23:47:19.91ID:mwLjjFj331名無しのひみつ
2020/12/03(木) 08:50:12.52ID:iEuK8mm6 LINEはタイと台湾で使用人口が多い
という去年のデータはあるな
今年はどうなった
もうすぐ2021年だが
という去年のデータはあるな
今年はどうなった
もうすぐ2021年だが
32名無しのひみつ
2020/12/07(月) 13:59:09.61ID:5iEbeTgn■ このスレッドは過去ログ倉庫に格納されています
ニュース
- 佐藤二朗 ハラスメント報道にコメント「大変残念。全ての事実が明らかになることを望みます」所属事務所「到底受け入れられない」★17 [Ailuropoda melanoleuca★]
- 日本サッカー協会の田嶋幸三名誉会長、森保監督の続投報道に「妥当な判断」 [阿弥陀ヶ峰★]
- “フェイク情報”を信じやすい人の特徴とは? 視野を狭くするSNS空間の“三重構造” (『嘘で満ちていく社会』朝日新書) [少考さん★]
- 【W杯】先制弾のバログンが一発退場も 開催国アメリカがラウンド16に進出! ボスニア・ヘルツェゴビナを下す [阿弥陀ヶ峰★]
- 「維新落とす」参政・神谷代表 定数削減強行なら全面対決 [蚤の市★]
- 【調査】50~70代未婚男女の9割が「孤独」 半数以上がパートナー求めるも大半が行動せず 肉体関係含む交際求める割合、女性は0% [ぐれ★]
- 【高市悲報】コンビニで落語の時そばを実践した者が現れる [817260143]
- 三菱UFJ銀行、円安加速の日本をあきらめる「もはや次の節目となる水準ない」 [256556981]
- キオクシア民、もう助からないと鳴く… [667744927]
- ブラジル人、試合終了後早速得意の人種差別で日本人を煽るwwwwwwwwwwwwwwwwwwwwwwww [903775116]
- 【超緊急】「佐藤二朗・擁護おじさん」の正体wwwwwwwwwwwww [344263159]
- 後先考えなかった結果……🏡