まず、考え得る限りの最高の精度でアナログ画像としてデジタルで記録をとり、
それを1次データーとしてから、文字認識や画像認識によってテキストに変えたり
したものを2次データーとすべき。手描きで自動判読が今はできなくても、将来は
認識精度が上がるかもしれないし、人間が介在してこの文献のこの字はこの文字
なんだと教え込んだり手動で補正、訂正を加えることで直せる。
もしも1次データーの段階で既に文字認識などをいれてしまうと、疑問に思ったり
したらまたもや原典である紙の資料をあたらなければならなくなってしまう。
活字の薄れ、印刷のかすれ、紙の汚れ、虫食い、裏写り、読者の書き込み、
などなどいろいろな困難が待ち構えている。
【AI】国立国会図書館、来春までに247万点・2億2300万枚超の資料を全文テキストデータ化へ LINE [すらいむ★]
■ このスレッドは過去ログ倉庫に格納されています
77名無しのひみつ
2021/07/18(日) 02:34:18.52ID:CJHrzHsk■ このスレッドは過去ログ倉庫に格納されています
ニュース
- 17歳の女子高校生を車で連れ去り覚醒剤注射し性的暴行をして負傷させる 無職男(49)に懲役18年求刑 福岡 [Hitzeschleier★]
- ニューヨーク嶋佐が持論「女性の8割は漫画を読めない。漫画のページをめくれない」霜降りせいや「男の方が頭の回転が速い」 [Anonymous★]
- 村上春樹を10ページで断念…人々が本を「読まない」ではなく「読めない体になった」深刻な影響 [ネギうどん★]
- 出産中の女性を腕時計型カメラで盗撮容疑 元研修医を書類送検へ [どどん★]
- 【チャッピー】チャットGPTに相談し恐喝額「15万円」決める 元交際相手の男子高校生に暴行・恐喝未遂疑いで少女ら5人逮捕 東京・八王子 [ぐれ★]
- 【速報】SNS詐欺疑いで41人逮捕、大阪府警 [蚤の市★]
- 【高市解散】昆虫日本人の目覚めか?「高市さん国会答弁で嘘をついたと言うこと?」「嘘で掴んだ地位でさらに嘘をつく」Xで続々 [169920436]
- 藤井聡「高市は知らん言うてますが秘書に松井を紹介しました。あと国民の玉木もトークン作ろうとしてました」ネトウヨ四面楚歌へ [832129989]
- ラムとレムがいるのにリムとかルムとかロムがいないのはおかしい
- 山下智久とかいう超絶イケメンが天下取れなかった理由wwwwwwwwww
- 【悲報】本を“読めなくなった”日本人。村上春樹も10ページで断念 [354616885]
- セブンイレブン半額スムージー、案の定作成待ち行列&買い溜めトラブル発生 [256556981]