NDL-OCR事業の資料
https://www.nijl.ac.jp/pages/cijproject/info/img/event/r04/nijl_sympo2022_handouts_3.pdf
https://lab.ndl.go.jp/data_set/ocr/r3_software/
https://lab.ndl.go.jp/data_set/r4ocr/r4_software/
https://github.com/ndl-lab/pdmocrdataset-part2
bunkoOCRの資料
https://github.com/lithium0003/findtextCenterNet
https://huggingface.co/datasets/lithium0003/findtextCenterNet_dataset/tree/main
学習データで、レイアウト認識は実地のデータでやらなきゃなので、けっこうデータ数がいるはず。
国会図書館のやつは約247万点(約2.2億画像)だって。
bunkoOCRのやつは、基本的にfontから生成したテキスト画像を元に学習してる。100*1024枚くらい
後は実地のデータとして手元でスキャンした画像を追加して失敗しそうなやつを修正してる。
findtextCenterNetは、条件確定したらA100で数日くらいやれば十分だった。
BatchNormarizationのせいでバッチサイズを大きくしなきゃなのでA100とか使ってるけど、
そこさえなんとかできれば、もっと小さいGPUでも学習出来ると思う。
【文字認識】OCRソフト(3文字目)【 自炊 】
776名無しさん@お腹いっぱい。
2026/03/05(木) 21:04:42.75ID:QybuKv8+0レスを投稿する
ニュース
- 【🔫】日本共産党、新宿駅・東南口前で高市首相を撃つ「新しいゲーム」開始 「流石におかしい」と非難の声相次ぐ [少考さん★]
- 【速報】内田梨瑚被告(23)に懲役27年を求刑 判決は22日【旭川女子高校生殺害】 ★3 [Hitzeschleier★]
- 総裁選で小泉氏批評動画 首相秘書から相談と作成者ー共同通信インタビュー ★4 [蚤の市★]
- 【野球】巨人・坂本勇人が〝風紀委員長〟に!「巨人軍は紳士たれ」の伝統を受け継ぐ [Ailuropoda melanoleuca★]
- AI生成、女児の性的画像所持も有罪 [お断り★]
- 「子どもに惨めな思いさせたくない」出生数が過去最少 なぜ若者は結婚せず、子どもを持たなくなったのか ★3 [煮卵★]
- 【高市悲報】津波、まもなく! [219241683]
- ぼくシーフード担当大臣、「シーフードカレーとカップ麺のシーフード味禁止」「グラタンに小さいエビ入れるの禁止」を即時決定😤 [268718286]
- 【悲報】トランプ「この国は腐ってる」NBCキャスターと大喧嘩して退席 [834922174]
- 【🏡】ゴミライブのクソチューバー全員下痢便食わせて殺す【🏡】
- 🌊🏡👩🏾💦すいちゃんの家が危ない!!
- ポケモン最新作「ポケットモンスター 安倍/高市」👈どっち買う? [268718286]