AIで日本史研究者やマニアが狂喜乱舞する「くずし字」の翻訳ツールが開発(記事全文は、ソースをご覧ください。)
https://pc.watch.impress.co.jp/docs/news/1195499.html
2019年7月11日 12:12
PC Watch,Impress,インプレス,笠原 一輝
【科学(学問)ニュース+】
https://pc.watch.impress.co.jp/img/pcw/docs/1195/499/001_l.jpg
(画像)くずし字で書かれた古文書を手に持つ情報・システム研究機構 データサイエンス共同利用基盤施設ROIS-DS人文学オープンデータ共同利用センター 特任研究員 および 国立情報学研究所 タリン・カラーヌワット氏
Googleは都内のオフィスにおいて、「Solve....with AI」というアジア太平洋地域の記者などを集めたイベントを開催し、Google Cloud Platform(GCP、Googleのパブリッククラウドサービス事業)などを通じて提供している各種のAIサービスやTensorFlowなどの機械学習(マシンラーニング)ベースのAIを開発するツールなどのソリューションや、その具体的な利用事例などを紹介した。
このなかで、情報・システム研究機構 データサイエンス共同利用基盤施設ROIS-DS人文学オープンデータ共同利用センター特任研究員および国立情報学研究所のタリン・カラーヌワット氏は、日本語の古文書で一般的に使われている「くずし字」を自動で読み取って現代語に翻訳(正確には翻刻)するOCR「KuroNet」を開発し、Webブラウザ上で実行可能な機械学習ライブラリとなるTensorFlow.jsとしてくずし字の文字認識が可能になるようにしたと説明した。
【お詫びと訂正】本AIの開発にはGoogleの技術も用いられていますが、AI自体をGoogleが開発したと誤解を招く表現がありましたので、お詫びして訂正させていただきます。また、このプロジェクトの作業内容は正確には翻訳ではなく翻刻と呼ぶのが正しいので、その旨付記をいたしました。
・百数十年前までは皆が読めていた「くずし字」。今は人口の0.01%以下しか読めないという現実
https://pc.watch.impress.co.jp/img/pcw/docs/1195/499/002_l.jpg
(画像)くずし字と現代語、確かに現代人からすると日本語なのに読めない
7月10日にGoogleの東京オフィスで行なわれたイベントに登壇した情報・システム研究機構 データサイエンス共同利用基盤施設ROIS-DS人文学オープンデータ共同利用センター 特任研究員 および 国立情報学研究所 タリン・カラーヌワット氏は、「日本では1千年にわたりくずし字という筆記体の文字を使ってきた。しかし、現代の印刷システムではそれを使うことは難しく、20世紀に入って現代語へと変換が進められてきた。その結果、くずし字で書かれた数百万の古文書や古書が現存するが、それらは人口の0.01%以下の人しか読むことができない」という問題を指摘した。
https://pc.watch.impress.co.jp/img/pcw/docs/1195/499/003_l.jpg
明治時代に印刷システムの要求から筆記体のくずし字から現代語への転換が図られた
たとえば江戸時代の古典籍はくずし字と呼ばれる筆記体の日本語で書かれている。文法などは現代語と大きな違いはない(厳密に言うと主語が省略されることが多いなど微妙な違いはある)のだが、そもそも文字が識別できないので読めないという問題がある。
https://pc.watch.impress.co.jp/img/pcw/docs/1195/499/004_l.jpg
(画像)数百万のくずし字で書かれた古文書があるのに人口の0.01%以下の人しか読めないという現実
大学などで専門に歴史を研究している研究者であれば、まずはそのくずし字に関して勉強をして読めるようになる(つまり0.01%以下の1人になる)だろうが、民間の研究者が歴史について学び、研究したいと考えて、1次資料である古文書を読もうとしても、まずはこの「くずし字」が読めないというハードルがある。
■■以下、略
【AI/画像処理/古文書】AIで日本史研究者やマニアが狂喜乱舞する「くずし字」の翻訳ツールが開発[07/12]
■ このスレッドは過去ログ倉庫に格納されています
2019/07/12(金) 04:35:09.76ID:CAP_USER
2ニュースソース検討中@自治議論スレ
2019/07/12(金) 04:39:28.03ID:taourUqC 読めないようにしてきたんじゃないかね
3ニュースソース検討中@自治議論スレ
2019/07/12(金) 04:54:14.32ID:jFOmPVIq タリン・カラーヌワット女史
タイ生まれ、若い時によんだあさきゆめみしを見て源氏物語にぞっこん
日本語学科を通して日本に留学、くずし字を勉強するも挫折するが
自分で書いてみれば習得できるのではと思いつき、実際に書くことで
くずし字を習得する
タイ生まれ、若い時によんだあさきゆめみしを見て源氏物語にぞっこん
日本語学科を通して日本に留学、くずし字を勉強するも挫折するが
自分で書いてみれば習得できるのではと思いつき、実際に書くことで
くずし字を習得する
4ニュースソース検討中@自治議論スレ
2019/07/12(金) 05:22:04.40ID:/3s2Oryf くずし字の変体仮名は似た字が多いけどちゃんと区別できてるならすごいな
5ニュースソース検討中@自治議論スレ
2019/07/12(金) 05:53:45.63ID:9lfd8ap3 >>3
ネトウヨホルホル?
ネトウヨホルホル?
6ニュースソース検討中@自治議論スレ
2019/07/12(金) 06:03:39.12ID:PbHZXaOR 何処で翻訳してくれるんだよ
7ニュースソース検討中@自治議論スレ
2019/07/12(金) 06:04:08.75ID:l3OtA+BB >>5
パヨクって日本語しか話せないから日本から出て行けと言われたら自殺するしかないんだね
パヨクって日本語しか話せないから日本から出て行けと言われたら自殺するしかないんだね
8ニュースソース検討中@自治議論スレ
2019/07/12(金) 06:07:59.28ID:rM6SITwv まあ 読めるようになるのはいいけど 一般人が閲覧できるように
しっかりなるかが課題だな 日本はそこが弱いし 隠す傾向が強いwwww
しっかりオープンソースでそうして欲しいねw
わたしからは以上だな ミカエル(悟ったもの)より。
しっかりなるかが課題だな 日本はそこが弱いし 隠す傾向が強いwwww
しっかりオープンソースでそうして欲しいねw
わたしからは以上だな ミカエル(悟ったもの)より。
9ニュースソース検討中@自治議論スレ
2019/07/12(金) 06:09:52.58ID:MDxFwwFe 直接英訳した方が早そうだな
10ニュースソース検討中@自治議論スレ
2019/07/12(金) 06:24:09.13ID:z7V4WmKC >>2
権威主義の専門家が自己の読み間違えを理屈こねて正当化定着とかさせちゃったりしてきたからね。
権威主義の専門家が自己の読み間違えを理屈こねて正当化定着とかさせちゃったりしてきたからね。
11ニュースソース検討中@自治議論スレ
2019/07/12(金) 06:24:22.78ID:topiQE+E2019/07/12(金) 06:30:44.39ID:ng+bSJdz
俺んちもそんな巻物があるんだけど解読できなくてなあ
とにかく在野の歴史マニア歓喜だろ
とにかく在野の歴史マニア歓喜だろ
13ニュースソース検討中@自治議論スレ
2019/07/12(金) 06:34:20.92ID:mNaeYk7+ くずし字って英語の筆記体みたいなもんだろ
14ニュースソース検討中@自治議論スレ
2019/07/12(金) 06:43:20.97ID:oFUsX1nA2019/07/12(金) 06:49:38.41ID:wKkPQ5Nx
>>1
一般公開されれば、いずれ神田の古書街が大にぎわいになるな
一般公開されれば、いずれ神田の古書街が大にぎわいになるな
16ニュースソース検討中@自治議論スレ
2019/07/12(金) 06:56:58.44ID:YVRCJJml 一回だけ、この研究員の得意技である松葉くずしをやってみたい。
2019/07/12(金) 07:09:08.42ID:fhu+pVUO
棋士vs将棋ソフトみたいに磯田vs翻訳ソフトを
2019/07/12(金) 07:10:16.70ID:JLPhqpLB
19ニュースソース検討中@自治議論スレ
2019/07/12(金) 07:12:19.74ID:HauSnpME 英語も筆記体見なくなったよな
20ニュースソース検討中@自治議論スレ
2019/07/12(金) 07:15:58.63ID:MshbsGTn >>3
素晴らしい。
素晴らしい。
2019/07/12(金) 07:18:38.04ID:WfSjGxJF
変態少女
2019/07/12(金) 07:21:52.89ID:Ru4lYaKe
狂喜乱舞って久々に聞いた
2019/07/12(金) 07:41:11.77ID:CXUjQHor
すごいなAI。翻訳ツールが何を開発したのか気になる
2019/07/12(金) 07:54:50.06ID:rzv8Dyz5
昔の人はよく読めてたなってほんと思う
2019/07/12(金) 08:06:50.69ID:WNz8Ffr9
すごいけど日本語で外国人に先越されるなんて日本人なにやってんだよほんと
2019/07/12(金) 08:13:30.83ID:6RY+2KLd
これは素晴らしい
文化勲章を差し上げたい
文化勲章を差し上げたい
27ニュースソース検討中@自治議論スレ
2019/07/12(金) 08:16:17.25ID:Rp1g37ao これは素晴らしい、でもこれは文字を解析しただけで翻訳と言えるのだろうか
次は本当の意味での翻訳だな
次は本当の意味での翻訳だな
28ニュースソース検討中@自治議論スレ
2019/07/12(金) 08:19:29.23ID:Ju87KtXY 地味だけどこれは素晴らしい技術ですね
過去の資産を十分に生かせるようになる
焚書したり文字を捨てたりする国は滅ぶ
過去の資産を十分に生かせるようになる
焚書したり文字を捨てたりする国は滅ぶ
29ニュースソース検討中@自治議論スレ
2019/07/12(金) 08:27:31.41ID:eJo2rLSF30ニュースソース検討中@自治議論スレ
2019/07/12(金) 08:44:25.36ID:5773tsx3 古文書片っ端から解読して青空文庫に上げてほしい。
で口語訳もAIでやってできるようにして。
で、それらの成果物の著作権とかはどうなるんかな。
で口語訳もAIでやってできるようにして。
で、それらの成果物の著作権とかはどうなるんかな。
31ニュースソース検討中@自治議論スレ
2019/07/12(金) 08:44:48.70ID:2/uPUTnv2019/07/12(金) 09:37:24.43ID:csupAlXt
日本人研究者は日本語をAIで解読することを邪道と思ってたとか?
あるいは文系研究者はAIで何ができるかわかっていなかったとか
ありがちな話だけどどーなの
あるいは文系研究者はAIで何ができるかわかっていなかったとか
ありがちな話だけどどーなの
33ニュースソース検討中@自治議論スレ
2019/07/12(金) 09:43:28.69ID:CHBCtbh1 ネットの認証セキュリティで日本語のくずし字を記入するサイトがあるけれども
あれもやっぱり近い将来にAIに判読されそうだな
あれもやっぱり近い将来にAIに判読されそうだな
34ニュースソース検討中@自治議論スレ
2019/07/12(金) 09:43:29.26ID:KAjIdVl5 明治大正時代の外交文書なんか見てても
官僚が墨で自筆で書いたものは判読が結構厳しい
活字印刷は隔世の感があるね
官僚が墨で自筆で書いたものは判読が結構厳しい
活字印刷は隔世の感があるね
35ニュースソース検討中@自治議論スレ
2019/07/12(金) 09:44:02.95ID:xcnBq66z >>32
どっちかいうと後者じゃないかなぁ
どっちかいうと後者じゃないかなぁ
36ニュースソース検討中@自治議論スレ
2019/07/12(金) 09:55:40.86ID:O06XyrAk 欲しい!
今欲しい!
今欲しい!
37ニュースソース検討中@自治議論スレ
2019/07/12(金) 09:57:04.64ID:+fas7KGb これが正しいAIの使い方だな。
ただ、10年位英翻訳があのままなの見ると絶望だが
ただ、10年位英翻訳があのままなの見ると絶望だが
38ニュースソース検討中@自治議論スレ
2019/07/12(金) 10:00:36.69ID:lNne9+0c 現代日本人が読めなくなったくずし字をタイ人が解決するって面白いなぁ
読めないから書くところから始めるとか
めっちゃ地味だけどほんとに好きなんだろうな
感謝
読めないから書くところから始めるとか
めっちゃ地味だけどほんとに好きなんだろうな
感謝
2019/07/12(金) 10:07:34.49ID:Nwhtdr6Y
40ニュースソース検討中@自治議論スレ
2019/07/12(金) 10:09:30.10ID:wBoGyUge >>25
おまえは部屋から出ろ。
おまえは部屋から出ろ。
41ニュースソース検討中@自治議論スレ
2019/07/12(金) 10:16:28.94ID:CfJTQR9r 韓国は漢字を廃止したから過去の文献を読めないなんてのはウソだから
韓国人だって専門家は読める
また日本人だって専門家しか過去の文献は読めない
韓国人だって専門家は読める
また日本人だって専門家しか過去の文献は読めない
42ニュースソース検討中@自治議論スレ
2019/07/12(金) 10:34:08.94ID:ZHjaGhcZ 磯田道史がダメ出しの嵐
43ニュースソース検討中@自治議論スレ
2019/07/12(金) 10:34:16.89ID:YVOEsxgx AIといっても、
大量の古文書の画像データを集めて、マッチングしたものを現代語に変換する、
そんな総当たり的なやり方なんでしょ?
大量の古文書の画像データを集めて、マッチングしたものを現代語に変換する、
そんな総当たり的なやり方なんでしょ?
44うひょのふ
2019/07/12(金) 10:39:58.86ID:2/+l8nzr ぶっちゃけ、本能寺で信ちゃんやったの、俺なんだよねwww
竜馬、すまん。暗殺の首謀者な、実は俺、的な大発見来るか??
竜馬、すまん。暗殺の首謀者な、実は俺、的な大発見来るか??
45ニュースソース検討中@自治議論スレ
2019/07/12(金) 10:41:50.63ID:xQEYT0PT そういえば、英語の筆記体も、知ってるのは日本人くらいらしいな。
ネイティブは筆記体でなんか書かないし、読めない。
ネイティブは筆記体でなんか書かないし、読めない。
46ニュースソース検討中@自治議論スレ
2019/07/12(金) 10:44:06.91ID:sAr4mNCl2019/07/12(金) 10:44:25.47ID:mFHlnqv9
解読する必要性を教えてくれ
48ニュースソース検討中@自治議論スレ
2019/07/12(金) 10:47:35.70ID:E1xARvS9 これで戦国の世にタイムスリップしても一安心だ
49ニュースソース検討中@自治議論スレ
2019/07/12(金) 10:47:59.15ID:sAr4mNCl50ニュースソース検討中@自治議論スレ
2019/07/12(金) 10:50:56.18ID:aTIm5XFr アホには翻訳後の翻訳が必要なんだが
2019/07/12(金) 10:55:47.14ID:lNne9+0c
2019/07/12(金) 11:15:08.12ID:nE6EdNwz
>>43
だから?
だから?
53ニュースソース検討中@自治議論スレ
2019/07/12(金) 11:23:03.06ID:c+QE6OO7 くずし字読む入門書買ったことあるけどすぐ挫折した
崩し方の幅がありすぎ
崩し方の幅がありすぎ
54ニュースソース検討中@自治議論スレ
2019/07/12(金) 12:03:11.05ID:Ui262f28 日本ファンのタイ人研究者さん、ありがとう。
55ニュースソース検討中@自治議論スレ
2019/07/12(金) 12:07:01.44ID:t8wp7mb7 マイルドな暗号通信に使えるかな
56ニュースソース検討中@自治議論スレ
2019/07/12(金) 12:08:08.26ID:2ZBwq/7d >>32
日本語は 漢字 ひらがな カタカナ English 0123...9 などから成る
英語は 0123...9 abc...z ABC...Z と少ない
そして現在の書かれた文字の認識は統計アルゴリズム、つまり数学によって実装されている
数学的には、分類する種類の数が大きいほど指数関数的にサンプルデータ必要です
つまり数が必要だったから現実的じゃなかった
日本語は 漢字 ひらがな カタカナ English 0123...9 などから成る
英語は 0123...9 abc...z ABC...Z と少ない
そして現在の書かれた文字の認識は統計アルゴリズム、つまり数学によって実装されている
数学的には、分類する種類の数が大きいほど指数関数的にサンプルデータ必要です
つまり数が必要だったから現実的じゃなかった
57ニュースソース検討中@自治議論スレ
2019/07/12(金) 12:08:09.86ID:WaLRWOIQ 文字を判読できるのと意味がわかるのはまた別だからな
今では使わない単語や別の意味で使っている単語があるから
現代語に翻訳する機能も必要
今では使わない単語や別の意味で使っている単語があるから
現代語に翻訳する機能も必要
2019/07/12(金) 12:08:21.32ID:ogtEBmZY
2019/07/12(金) 12:08:37.06ID:gk7VSkL0
ど素人の大量参入により
日本史学会壊滅w
日本史学会壊滅w
60ニュースソース検討中@自治議論スレ
2019/07/12(金) 12:10:50.25ID:2ZBwq/7d61ニュースソース検討中@自治議論スレ
2019/07/12(金) 12:32:14.47ID:MxwoV/4r2019/07/12(金) 12:33:52.68ID:48MDVFk6
アラビア語翻訳システム作ってくれよ
2019/07/12(金) 12:36:55.38ID:Rs+2x9VG
狂喜乱舞ってバカじゃねえか
日本の学界はなーーーんにもやってこなかったんだろ
なんでガイジンに先越されてんだ
ほんとうにバカの集まりだから学会なんて解体しろよ
日本の学界はなーーーんにもやってこなかったんだろ
なんでガイジンに先越されてんだ
ほんとうにバカの集まりだから学会なんて解体しろよ
64ニュースソース検討中@自治議論スレ
2019/07/12(金) 12:46:59.86ID:eJo2rLSF65ニュースソース検討中@自治議論スレ
2019/07/12(金) 12:47:20.68ID:cfNjtDjw グーグルドキュメントのOCR精度はここ数年で眼を見張るほど上がって行ってるからな
どんどん便利になるなあ
どんどん便利になるなあ
2019/07/12(金) 12:47:45.52ID:f8gtXaBL
>>7 J( 'ー`)し「出ていけ。」
67ニュースソース検討中@自治議論スレ
2019/07/12(金) 12:56:36.65ID:G5UX1/nz 古文書って古民家に結構眠ってるけど状態悪いと引き取り手は無いし
修復するのに金も掛かるんで結局ゴミとして捨てられることが多い
修復するのに金も掛かるんで結局ゴミとして捨てられることが多い
68ニュースソース検討中@自治議論スレ
2019/07/12(金) 12:59:11.59ID:3r99fJWG しかし、考えてみると人間の分析能力ってすごいよな。
個人ごとに癖があって異なっている崩し字を昔の日本人は何の苦労もすることなく
スラスラ読めていたんだから。
個人ごとに癖があって異なっている崩し字を昔の日本人は何の苦労もすることなく
スラスラ読めていたんだから。
69ニュースソース検討中@自治議論スレ
2019/07/12(金) 12:59:39.59ID:bMQfYDvj これで古文書の研究者が失業するのか?
だとしたら大きな改善になるな
だとしたら大きな改善になるな
2019/07/12(金) 13:00:42.61ID:786TTjbe
昔は読み書きできた人はごく一部の気がする
71ニュースソース検討中@自治議論スレ
2019/07/12(金) 13:04:26.41ID:DgiyrrGG >百数十年前までは皆が読めていた「くずし字」。
識字率凄いな
>今は人口の0.01%以下しか読めないという現実
人数として十分じゃね?
識字率凄いな
>今は人口の0.01%以下しか読めないという現実
人数として十分じゃね?
72ニュースソース検討中@自治議論スレ
2019/07/12(金) 13:07:29.64ID:Yjo+99xF2019/07/12(金) 13:12:00.23ID:h/0+bYnS
2019/07/12(金) 13:12:30.82ID:lNne9+0c
破顔
2019/07/12(金) 13:13:04.73ID:h/0+bYnS
>>70
江戸時代は89%超えだよ
江戸時代は89%超えだよ
2019/07/12(金) 13:13:58.55ID:h/0+bYnS
77ニュースソース検討中@自治議論スレ
2019/07/12(金) 13:24:58.04ID:3r99fJWG78ニュースソース検討中@自治議論スレ
2019/07/12(金) 13:26:19.35ID:lpWL5JY0 春画で試してみたい
2019/07/12(金) 13:47:17.67ID:K/MQT4bj
マジすげぇ
読める人かなり希少だから今読める人の仕事奪わないし、解読する時間を研究に回せるし、マジすげぇ
読める人かなり希少だから今読める人の仕事奪わないし、解読する時間を研究に回せるし、マジすげぇ
80ニュースソース検討中@自治議論スレ
2019/07/12(金) 13:58:06.75ID:YVRCJJml >>18
「紅葉合わせ」って「貝合わせ」のこと??
「紅葉合わせ」って「貝合わせ」のこと??
2019/07/12(金) 14:14:00.47ID:xIY+ej2k
素人目に圧倒的に凄い。だって読めないもん。
むしろ素人向きな気がする。
プロにとっては稀にある読み取りミスが鬱陶しいだろなぁ。
ちょっとでも誤りがあると全部チェックするしかないしかなりしんどい。
変に文脈・単語から修正とかすると意味が正反対になったりしそう。
むしろ素人向きな気がする。
プロにとっては稀にある読み取りミスが鬱陶しいだろなぁ。
ちょっとでも誤りがあると全部チェックするしかないしかなりしんどい。
変に文脈・単語から修正とかすると意味が正反対になったりしそう。
2019/07/12(金) 14:21:54.54ID:N3EVhujM
2019/07/12(金) 14:26:54.15ID:vILUWq4Y
すげえな
ありがたい
ありがたい
2019/07/12(金) 14:33:05.27ID:ZISKyxTg
2019/07/12(金) 14:52:33.47ID:PxI9HLT3
唯一座学分野でこれだけは母親に負けてるわ。
あの糞ババア草書書けるからな。
あの糞ババア草書書けるからな。
2019/07/12(金) 14:54:04.86ID:PxI9HLT3
女手のひらがな自体草書で崩した書体の表音文字化に過ぎんからな。
87ニュースソース検討中@自治議論スレ
2019/07/12(金) 15:16:06.85ID:eTTJMA0H 崩し字と只単に字が汚い場合の区別もつきそうだなw
88ニュースソース検討中@自治議論スレ
2019/07/12(金) 15:19:57.30ID:XFqD/GLA 古文書解読習得アプリって、これまでも出ていたよね。
2019/07/12(金) 15:26:53.59ID:pIjmw3tX
タリン・カラーヌワット女史じゃねえよ!
90ニュースソース検討中@自治議論スレ
2019/07/12(金) 15:35:04.45ID:PnTVp8Hd 手書きハングルも読みにくい。
2019/07/12(金) 15:52:49.75ID:Y+hrN0yF
92ニュースソース検討中@自治議論スレ
2019/07/12(金) 16:13:25.10ID:Ek0qpc3R 磯田先生も愛用
93ニュースソース検討中@自治議論スレ
2019/07/12(金) 16:36:42.48ID:ch4vsYUH なんでも鑑定団ご推薦だといいが
2019/07/12(金) 18:03:37.77ID:y4wefbNr
>>3
タイ語って読み書きするのがかなり難しいんだよね
文字の発音に法則はあるけど、「結局スペルを丸ごと覚えた方が早い」
とまで言われる
タイ人って特に女性は物凄く勉強するからなあ
そしてハイテクの使いこなしもかなり強い
タイ語って読み書きするのがかなり難しいんだよね
文字の発音に法則はあるけど、「結局スペルを丸ごと覚えた方が早い」
とまで言われる
タイ人って特に女性は物凄く勉強するからなあ
そしてハイテクの使いこなしもかなり強い
95ニュースソース検討中@自治議論スレ
2019/07/12(金) 18:38:04.48ID:gdM6P/3Z 昔の知識層は達筆すぎてなぁ
全く歯が立たん
全く歯が立たん
96ニュースソース検討中@自治議論スレ
2019/07/12(金) 19:10:34.07ID:t8u5o44297ニュースソース検討中@自治議論スレ
2019/07/12(金) 20:50:59.31ID:WaLRWOIQ ちょいちょい間違えてるな
https://www.nihu.jp/ja/publication/nihu_magazine/037
https://pc.watch.impress.co.jp/img/pcw/docs/1195/499/002_l.jpg
1行目 給は → 給ける
6行目 更し → 更衣
7行目 みやづか人 → みやづかへ
7〜8行目 うちみを → うらみを
9行目 いよく →いよいよ
https://www.nihu.jp/ja/publication/nihu_magazine/037
https://pc.watch.impress.co.jp/img/pcw/docs/1195/499/002_l.jpg
1行目 給は → 給ける
6行目 更し → 更衣
7行目 みやづか人 → みやづかへ
7〜8行目 うちみを → うらみを
9行目 いよく →いよいよ
98ニュースソース検討中@自治議論スレ
2019/07/12(金) 20:51:47.82ID:WaLRWOIQ2019/07/12(金) 20:59:25.86ID:UCfaIxFd
この一人の名前見て
ぬわーーっっ!!
を思い出した人は結構いるはず
ぬわーーっっ!!
を思い出した人は結構いるはず
100ニュースソース検討中@自治議論スレ
2019/07/12(金) 21:12:03.64ID:8Ei+B7ya 更科日記みたいな…でもないか
101ニュースソース検討中@自治議論スレ
2019/07/12(金) 21:29:09.91ID:fcbIpJ0l 専門家の反応はどーなの?
2019/07/12(金) 22:11:06.40ID:LejC9tba
ぶっさ
2019/07/13(土) 02:16:04.87ID:kkYsHTk/
>>13
筆記体なんて今さら覚える必要あるのかよって中坊の頃に思ってたけど
大学入ったら英語圏の先生は筆記体で板書きするから読めなかったら講義受けられねーぞって脅されてた
でも80年代にはもう博士様すらブロック体で書くと言われていた現実
筆記体なんて今さら覚える必要あるのかよって中坊の頃に思ってたけど
大学入ったら英語圏の先生は筆記体で板書きするから読めなかったら講義受けられねーぞって脅されてた
でも80年代にはもう博士様すらブロック体で書くと言われていた現実
2019/07/13(土) 02:22:21.80ID:kx9kPjN2
活字の普及で筆記体が廃れるだけじゃなくて
英語圏では小文字を使わず大文字だけの人も出てきてるらしい
小文字が大文字を小さくしただけのフォントもあるしね
これは日本語だとカタカナを使わないみたいなものかな?
英語圏では小文字を使わず大文字だけの人も出てきてるらしい
小文字が大文字を小さくしただけのフォントもあるしね
これは日本語だとカタカナを使わないみたいなものかな?
2019/07/13(土) 04:06:38.19ID:uHwXMZ6b
足利義昭の御内書は楷書で読みやすかった
武田信玄直筆の書状は読みづらかった
くずし字の上、信玄さん明らかに字が下手
武田信玄直筆の書状は読みづらかった
くずし字の上、信玄さん明らかに字が下手
106ニュースソース検討中@自治議論スレ
2019/07/13(土) 07:12:47.51ID:3cXUBq5+ >>32時代や人によってくずし字って特徴変わると思うんだけど何でも対応できるんかね?
2019/07/13(土) 10:09:22.45ID:5uZfEwj8
>>35
日本だと文系はあくまでも文系って人ばっかりだからね。
日本だと文系はあくまでも文系って人ばっかりだからね。
2019/07/13(土) 10:34:07.22ID:K7zhzrqX
>>106
AIだから、学習次第じゃないの。
AIだから、学習次第じゃないの。
2019/07/13(土) 10:41:11.30ID:1ace9LgV
Clanuwat T. et al. (2018) Deep Learning for Classical Japanese Literature
ttps://nips2018creativity.github.io/doc/deep_learning_for_classical_japanese_literature.pdf
ttps://nips2018creativity.github.io/doc/deep_learning_for_classical_japanese_literature.pdf
2019/07/13(土) 11:44:48.03ID:U9pO8CqE
TBSドラマの「JIN−仁−」で、現代から江戸時代末期にタイムスリップした主人公がくずし字を読めないため、彼の周囲の人々が主人公でも読める字体で文章を書いたはず。
番組公式設定だったのか、知恵袋などに「現代人がくずし字を読めるのか?」といった質問が投稿されてそんな答えが投稿されたのかは、覚えてないけど。
すでにあったくずし字の文章は、周囲の人々が主人公に説明してあげたのだろう。
番組公式設定だったのか、知恵袋などに「現代人がくずし字を読めるのか?」といった質問が投稿されてそんな答えが投稿されたのかは、覚えてないけど。
すでにあったくずし字の文章は、周囲の人々が主人公に説明してあげたのだろう。
111ニュースソース検討中@自治議論スレ
2019/07/13(土) 11:59:58.51ID:dhKuQ1IS くずし字をOCRできるアプリはどこに置いてあるの。
Googleレンズとかで使えれば便利なんだけど。
Googleレンズとかで使えれば便利なんだけど。
2019/07/13(土) 12:08:39.27ID:1ace9LgV
おかげ様で、AIによるくずし字の現代文字への翻刻の最新研究状況を把握できたかな
情報・システム研究機構 データサイエンス共同利用基盤施設(略称 ROIS-DS)
人文学オープンデータ共同利用センター 特任研究員 で、国立情報学研究所にも籍を持つ
タリン・カラーヌワットさんが、今回、「くずし字」を自動で読み取って現代文字に翻刻する
OCR「KuroNet」の開発を紹介。
くずし字チャレンジ!は、人文学オープンデータ共同利用センターのプロジェクトのようです。
国文学研究資料館が持つくずし字のデータを学習させて、くずし字を現代語に推論できる
システム
情報・システム研究機構 データサイエンス共同利用基盤施設(略称 ROIS-DS)
人文学オープンデータ共同利用センター 特任研究員 で、国立情報学研究所にも籍を持つ
タリン・カラーヌワットさんが、今回、「くずし字」を自動で読み取って現代文字に翻刻する
OCR「KuroNet」の開発を紹介。
くずし字チャレンジ!は、人文学オープンデータ共同利用センターのプロジェクトのようです。
国文学研究資料館が持つくずし字のデータを学習させて、くずし字を現代語に推論できる
システム
2019/07/13(土) 12:51:36.81ID:88B2bDhE
>>96
留学生とか超金持ちだったりするしな
留学生とか超金持ちだったりするしな
2019/07/13(土) 15:05:04.61ID:kx9kPjN2
>>107
高学歴って意味で言えば海外では数学と英語はできて当たり前
その上で何を専攻するかなんだろうけど…
日本は「数学ができないから文系になりました」って人が多いもんね
その延長の妄想で「英語のできない奴が理系になる」と言い出す人が多すぎ
高学歴って意味で言えば海外では数学と英語はできて当たり前
その上で何を専攻するかなんだろうけど…
日本は「数学ができないから文系になりました」って人が多いもんね
その延長の妄想で「英語のできない奴が理系になる」と言い出す人が多すぎ
2019/07/13(土) 15:20:15.58ID:k1I2Sewe
>>3
すげーな、感心するよ
すげーな、感心するよ
116ニュースソース検討中@自治議論スレ
2019/07/13(土) 15:37:19.73ID:g2t4Ti7o117ニュースソース検討中@自治議論スレ
2019/07/13(土) 15:38:59.02ID:g2t4Ti7o >>69
さらに需要が高まるだろう
さらに需要が高まるだろう
118ニュースソース検討中@自治議論スレ
2019/07/13(土) 16:52:27.99ID:9ww9TwZQ >>1
もう
・4年前の、凸版印刷Webビューア「ふみのは」とか
・奈良文化財研究所、東京大史料編纂所の
くずし字解読システム「MOJIZO」(モジゾー)利用無料 とか
・くずし字学習支援アプリKuLA
とかあるみたいだけど
どう違うんだろ
もう
・4年前の、凸版印刷Webビューア「ふみのは」とか
・奈良文化財研究所、東京大史料編纂所の
くずし字解読システム「MOJIZO」(モジゾー)利用無料 とか
・くずし字学習支援アプリKuLA
とかあるみたいだけど
どう違うんだろ
2019/07/13(土) 17:19:29.05ID:akXpAOAu
120ニュースソース検討中@自治議論スレ
2019/07/13(土) 18:29:40.66ID:U0b3nuiN 誰でも読めてないから素読を習うんだよ
121ニュースソース検討中@自治議論スレ
2019/07/13(土) 19:50:55.70ID:+ftw9nkm 草書をAIで文字識別できるんだな。
122ニュースソース検討中@自治議論スレ
2019/07/13(土) 20:48:45.01ID:mzclO4A8 松葉崩しか
123崩し字挫折者@自治議論スレ
2019/07/13(土) 21:05:59.19ID:mCqbt+IR 憶えた!と思っても一晩経つとすぐに忘れている。それが崩し字。
124ニュースソース検討中@自治議論スレ
2019/07/14(日) 00:16:30.49ID:gxfDCHfh2019/07/14(日) 08:04:27.03ID:GKcNfG0x
126崩し字挫折者@自治議論スレ
2019/07/14(日) 19:13:35.25ID:YqW793Bw 西夏文字学の権威の西田龍雄氏が「西夏文字というのは覚えにくく、覚えたと思っても忘れやすい文字だ。」といっていた。
崩し字も全く同じだよ…。俺は崩し字をマスターするにはもう歳なのかな。
江戸時代の人は子供の頃から寺子屋で崩し字を学んできたんだから、こっちは絶対に敵わん。
崩し字も全く同じだよ…。俺は崩し字をマスターするにはもう歳なのかな。
江戸時代の人は子供の頃から寺子屋で崩し字を学んできたんだから、こっちは絶対に敵わん。
127ニュースソース検討中@自治議論スレ
2019/07/15(月) 06:51:01.35ID:5FuYZ2QA >>121
AIにできるなら、日本人がちょっと(かなり)頑張ればできそうだけどな
AIにできるなら、日本人がちょっと(かなり)頑張ればできそうだけどな
2019/07/15(月) 11:11:46.49ID:vRir/oIN
汚い字とくずし字って違う?
汚いじゃなくても「個性」とかゆらぎとか
統一されたものが存在するようには思えないんだが
そうすると文字の意味がなくなるし
やっぱ当時の人がたいてい認識できる程度にはお手本があったんかな
汚いじゃなくても「個性」とかゆらぎとか
統一されたものが存在するようには思えないんだが
そうすると文字の意味がなくなるし
やっぱ当時の人がたいてい認識できる程度にはお手本があったんかな
129ニュースソース検討中@自治議論スレ
2019/07/15(月) 11:46:54.55ID:hesyCvM8130ニュースソース検討中@自治議論スレ
2019/07/15(月) 12:19:00.56ID:xSMcvc/3131ニュースソース検討中@自治議論スレ
2019/07/15(月) 12:42:30.74ID:aQc3EvBD 崩し字って何パターンどころじゃなくあるから
それ解ったら凄いよなー
確率何%くらいなんだろう
それ解ったら凄いよなー
確率何%くらいなんだろう
2019/07/15(月) 13:13:41.95ID:IiQS/260
見た目はまったく同じでも、前後の文脈で決まるものもあるからなあ
とはいえ崩した「馬」とひらがなの「つる」は同じ生き物で判断に悩むがw
とはいえ崩した「馬」とひらがなの「つる」は同じ生き物で判断に悩むがw
133ニュースソース検討中@自治議論スレ
2019/07/15(月) 20:17:45.56ID:MwGtQQNp 勉強すれば8割ぐらいは読めるようになるんだよ
で、残り2割の読めないのをAIで解読しようと思ってもたぶん読めない
で、残り2割の読めないのをAIで解読しようと思ってもたぶん読めない
134ニュースソース検討中@自治議論スレ
2019/07/15(月) 20:31:36.42ID:LUY/15as 日本史専攻の従姉妹は、ゼミの予習に、おばあちゃんに古文書を読んでもらってた
135ニュースソース検討中@自治議論スレ
2019/07/15(月) 20:49:53.52ID:SFxKNnzx >タリン・カラーヌワット
まぁこの人が優秀なんだろうがタイ人?に先越される日本の研究者とかやっぱ雑魚いな。ジャップwwww
まぁこの人が優秀なんだろうがタイ人?に先越される日本の研究者とかやっぱ雑魚いな。ジャップwwww
136ニュースソース検討中@自治議論スレ
2019/07/15(月) 21:19:20.66ID:ySH/2hPu 現代語のOCRですら完璧ではないのに、それよりはるかに偏差が激しいと思われる
昔のくずし字を読めるのかねえ。
昔のくずし字を読めるのかねえ。
2019/07/16(火) 09:10:08.92ID:iwkjtiPj
データベースの精度次第でどんどんよくなる
2019/07/16(火) 09:29:43.71ID:jsoqhFiR
2019/07/16(火) 10:55:13.26ID:Zf5CtglZ
古気象学は国文学者がくずし字を読めなくて
結局、気象学者がくずし字の読み方を覚えて過去の記録を集めたって言うなあ
結局、気象学者がくずし字の読み方を覚えて過去の記録を集めたって言うなあ
2019/07/16(火) 11:25:03.38ID:iwkjtiPj
縦割りっていうより深堀しかしない弊害あるよね
無視されてきた貴重な資料がこれで日の目を見るかも知れない
無視されてきた貴重な資料がこれで日の目を見るかも知れない
141ニュースソース検討中@自治議論スレ
2019/07/17(水) 19:27:49.91ID:o3Ejsi+Q くずし字(草書?)のくずしかたのルールは、
くずし字を書いていた人たちは当時どうやって学んだのだろうか?
それぞれ勝手に崩して書いていたのだとしたら、統一性がなくて
お互いのコミュニケーションの役には立たない(自分だけのための
覚え書きとか秘密の日記などなら、どういう具合に崩すかを
勝手にしていても構わないだろうが)。
崩し方の十分な量の見本を与える手本があったのか、
それともそういった規則を系統的に教える教本があったのだろうか?
くずし字を書いていた人たちは当時どうやって学んだのだろうか?
それぞれ勝手に崩して書いていたのだとしたら、統一性がなくて
お互いのコミュニケーションの役には立たない(自分だけのための
覚え書きとか秘密の日記などなら、どういう具合に崩すかを
勝手にしていても構わないだろうが)。
崩し方の十分な量の見本を与える手本があったのか、
それともそういった規則を系統的に教える教本があったのだろうか?
2019/07/17(水) 19:39:25.75ID:lCL59h6k
143崩し字挫折者@自治議論スレ
2019/07/17(水) 20:37:31.62ID:S0s2Jt1k144ニュースソース検討中@自治議論スレ
2019/07/17(水) 20:47:32.06ID:o3Ejsi+Q 中国からもたらされた漢字で書かれたお経の経典は、どういう字体でやってきたのか。
またそれを日本の寺院で写筆したときには、同じ字体で書いたのだろうか、それとも
やはり崩し字にしていたのだろうか?
あとの方の時代になって、日本で適当にでっちあげた仏教の宗派のお経は、
くだけた文字で書かれていたかもしれないなとは思う。(よく知らない)
でも、立派な石碑とか木版活字の本は、崩さずに書いてるよね。
浮世絵などの添え書きの文字はミミズが這っているようなので私には読めない。
いま当時の浮世絵を知るためには、あれを活字に直して絵を修正したバージョンを
出版して欲しい。そうすればもっと今よりも売れるだろう。原作の著作権は切れて
いるから、原稿はローコスト、デジタルにすればオールカラーでもコストはそれほど
高くないだろう。
またそれを日本の寺院で写筆したときには、同じ字体で書いたのだろうか、それとも
やはり崩し字にしていたのだろうか?
あとの方の時代になって、日本で適当にでっちあげた仏教の宗派のお経は、
くだけた文字で書かれていたかもしれないなとは思う。(よく知らない)
でも、立派な石碑とか木版活字の本は、崩さずに書いてるよね。
浮世絵などの添え書きの文字はミミズが這っているようなので私には読めない。
いま当時の浮世絵を知るためには、あれを活字に直して絵を修正したバージョンを
出版して欲しい。そうすればもっと今よりも売れるだろう。原作の著作権は切れて
いるから、原稿はローコスト、デジタルにすればオールカラーでもコストはそれほど
高くないだろう。
2019/07/17(水) 22:36:54.26ID:fRk4tXSX
お経は文字そのものからありがたいものだから
崩すことより装飾性というか美しさを追求したんじゃない?
崩すことより装飾性というか美しさを追求したんじゃない?
2019/07/31(水) 06:40:56.93ID:Wjjn8VHj
>>84
門外漢からしたら、万葉集なんてまだ研究する余地あるんだ?って感じ
門外漢からしたら、万葉集なんてまだ研究する余地あるんだ?って感じ
2019/09/18(水) 17:57:03.27ID:N1c5Olws
古文書の講習会を受けたことあるけど難易度高いわ
候が点々だもん
候が点々だもん
148ニュースソース検討中@自治議論スレ
2019/09/18(水) 18:19:52.30ID:JsXHC6lI ぶっちゃけくずし字、大半は読めるだろ。
2019/09/19(木) 09:30:37.25ID:j/RQ00bP
行書までならね
さすがに草書まで崩されたら読めんわ
さすがに草書まで崩されたら読めんわ
2019/09/29(日) 13:35:29.96ID:yU6FqWbJ
AI技術って一時騒がれてたのが嘘かってくらい進歩しなくなったな
151ニュースソース検討中@自治議論スレ
2019/10/01(火) 13:08:45.35ID:dqISEr/P ねぇ、あんた!
…「あんた」…ヘブライ語でも「あなた」って意味なんだよ。どうなってんだよ、古代の言語は。
神道っていったい何なの、本当に不可解だよ、ユダヤ人や、世界の人が見たら、これ何、どうゆうこと。
さらにもっと大変なことは、宮司や神主、いったいあれは誰なの、あの服装、私たちと繋がりはないです。
なんでご神体を皆が担いでワッショイ、ワッショイと言うんですか、ヘブライ語ですよ、ワッショイというのは。
://www.youtube.com/watch?v=4YvD2TDOZJM
紀元前にすでに文字が存在?
://twitter.com/nhk_news/status/1171181541319499776
ベルギー人 「気味が悪いくらい似てる理由をどう説明するんだ」
アメリカ人 「日本人はユダヤ人の子孫かって? この類似性をみれば一目瞭然だ」
イスラエル人「ゾクッとした、奇妙な感じ。なぜに俺はこんな情報を今までしらなかったんだ」
イスラエル人「発音まで同じだとしたら、ちょっと凄すぎじゃないか?」
ロシア人 「日本人はヘブライ文字を簡単に覚えられそうじゃん」
http://lavender.5ch.net/test/read.cgi/gengo/1564551857/l50
https://twitter.com/5chan_nel (5ch newer account)
…「あんた」…ヘブライ語でも「あなた」って意味なんだよ。どうなってんだよ、古代の言語は。
神道っていったい何なの、本当に不可解だよ、ユダヤ人や、世界の人が見たら、これ何、どうゆうこと。
さらにもっと大変なことは、宮司や神主、いったいあれは誰なの、あの服装、私たちと繋がりはないです。
なんでご神体を皆が担いでワッショイ、ワッショイと言うんですか、ヘブライ語ですよ、ワッショイというのは。
://www.youtube.com/watch?v=4YvD2TDOZJM
紀元前にすでに文字が存在?
://twitter.com/nhk_news/status/1171181541319499776
ベルギー人 「気味が悪いくらい似てる理由をどう説明するんだ」
アメリカ人 「日本人はユダヤ人の子孫かって? この類似性をみれば一目瞭然だ」
イスラエル人「ゾクッとした、奇妙な感じ。なぜに俺はこんな情報を今までしらなかったんだ」
イスラエル人「発音まで同じだとしたら、ちょっと凄すぎじゃないか?」
ロシア人 「日本人はヘブライ文字を簡単に覚えられそうじゃん」
http://lavender.5ch.net/test/read.cgi/gengo/1564551857/l50
https://twitter.com/5chan_nel (5ch newer account)
152ニュースソース検討中@自治議論スレ
2019/10/01(火) 19:30:27.52ID:g5Ia4YSH2019/10/01(火) 20:57:39.92ID:DFPCPoz9
まあくずし字サンプルを多数集めてそれぞれにラベル振った
データセット作ればいい「だけ」の話
とはいっても、毎日毎日文字を集めるだけでも大変だっただろう
データセット作ればいい「だけ」の話
とはいっても、毎日毎日文字を集めるだけでも大変だっただろう
154ニュースソース検討中@自治議論スレ
2019/10/01(火) 21:44:58.91ID:+KdOHwDI >>41
>韓国人だって専門家は読める
これは嘘 朝鮮半島の文語体は支那語で漢字で書いた 朝鮮語の漢字は一切無い
だから
X 韓国人だって専門家は読める
○ 繁体字が読めれば チョンが読めなくても支那人は読める
>韓国人だって専門家は読める
これは嘘 朝鮮半島の文語体は支那語で漢字で書いた 朝鮮語の漢字は一切無い
だから
X 韓国人だって専門家は読める
○ 繁体字が読めれば チョンが読めなくても支那人は読める
155ニュースソース検討中@自治議論スレ
2019/10/01(火) 21:49:16.53ID:+KdOHwDI 計算機がまともに動き出したころの50年前に、源氏物語の全文を計算機に打ち込んだ奴がいる
統計的な検索分析をして分析した結果
昔からそれとなく言われていた 宇治十条が 紫式部とは 別人が書いた文体というのが明確になった
統計的な検索分析をして分析した結果
昔からそれとなく言われていた 宇治十条が 紫式部とは 別人が書いた文体というのが明確になった
156ニュースソース検討中@自治議論スレ
2019/10/01(火) 22:05:03.12ID:84rnoObM あんな癖のある字、当時の人も読めたのかな?って思う。
157ニュースソース検討中@自治議論スレ
2019/10/01(火) 22:52:08.38ID:8vqe/yp8 その時代の人間が一番合理的な情報伝達手段として「崩し」を選択した
と言う信念のもと20年以上古文書やってる
けれど何とか江戸期の「お家流」が苦もせず読める程度
近世以外の例えば信長や秀吉の往来物となると取っ掛かりを掴むのさえ苦労する
さらには最も難解と言われる明治以降の「女筆」に至っては見るのも億劫だ
たぶんAIさんがいくら頑張ってもこれらパターンの埒外の解読は不可能
断言するが筆者の癖字や符丁的言い回しが介入したものには歯が立たないと思う
と言う信念のもと20年以上古文書やってる
けれど何とか江戸期の「お家流」が苦もせず読める程度
近世以外の例えば信長や秀吉の往来物となると取っ掛かりを掴むのさえ苦労する
さらには最も難解と言われる明治以降の「女筆」に至っては見るのも億劫だ
たぶんAIさんがいくら頑張ってもこれらパターンの埒外の解読は不可能
断言するが筆者の癖字や符丁的言い回しが介入したものには歯が立たないと思う
■ このスレッドは過去ログ倉庫に格納されています
ニュース
- 【サッカーW杯】開催国アメリカ、パラグアイに4発快勝! プリシッチが無双…バログンは2ゴールの活躍 [鉄チーズ烏★]
- アンソロピック、Fable 5などミュトス級AIモデルを公開停止 米国政府が指令 [少考さん★]
- 【🚻】女性用トイレの行列解消へ、便器の数「男性用以上に」…国交省が初めて指針 [ぐれ★]
- Mrs. GREEN APPLE、イベントに“グラドル集団招待”で物議「繋がり目的だろ」「下心丸見え」の声…過去にはギター若井がグラドルと熱愛 [Ailuropoda melanoleuca★]
- 【共産党】ポスター・看板への落が仙台で書き止まらない 「1人で書き、バイクで走り去った」目撃情報も [蚤の市★]
- 資産17兆円、サッカーW杯中継に億万長者が映り込み 「コーラ飲んでる」「え?」ネット騒然 [阿弥陀ヶ峰★]
- 【地上波/DAZNほか】 FIFAワールドカップ2026 総合スレ★14【メキシコ/カナダ/アメリカ】
- 【無料放送】JリーグオールスターDAZNカップ
- 函館競馬1回1日目
- 東京競馬 3回3日
- とらせん 勝ちにいく執念
- 【地上波/DAZNほか】 FIFAワールドカップ2026 総合スレ★15【メキシコ/カナダ/アメリカ】
- 🏡すこっていいとも😎
- 【高市悲報】政府「いやすまん、クールジャパン機構がマジですごい赤字だから廃止するかもしれん……一体何がダメだったんだ……?」 [714769305]
- 【悲報】作曲家「AIの導入で案件仕事がなくなりました」 [394133584]
- 電車で女のチャック空いてたwww
- うんちいる🥺?
- 【高市悲報】横浜米軍基地の米兵、腹ばいになり市街地に向けて銃を向ける😨どうなっとんやこの国 [359965264]