探検

890コメント309KB

【文字認識】OCRソフト（3文字目）【自炊】

673名無しさん＠お腹いっぱい。

2025/10/17(金) 16:40:11.01ID:RuTaM5ue0

bunkoOCR on macOSで、旧字が大量にある縦書き文書のPDFをOCRしました
認識率がすごいですね、感動しました

で、これをPDFのテキストデータとして戻したいのですが、元のPDFの描画はそのまま
保持することはできますかね? 現行は書き出すとPDFのページは画像化するようですが
画像化でもかなりいけてますが、より高い解像度（600dpiとかそれ以上）って選べます?

あと、処理中はCPUが200％ぐらいしかいきませんが、もっと並列化とかもできる
ものなんですかね

674名無しさん＠お腹いっぱい。

2025/10/18(土) 01:32:44.93ID:sL8FEi0V0

>>673
画像の部分だけを処理したい場合は、「PDFから画像を抽出する」の方を選んで
画像の部分だけを処理して、エクスポートのボタンから
「全てのページ」「PDF（元の画像を保持する、ふりがなを無視する）」で出力すると
テキストで元々ある部分はそのままにされて、画像の部分にだけ透明テキスト埋め込みになるはずです。

Windows版に反映しようとしている途中に、ロジックにバグが見つかり
直している途中で、別のタスクが割り込んできてちょっと時間が取れていません。
お待たせして申し訳ない。

675名無しさん＠お腹いっぱい。

2025/10/18(土) 01:35:17.01ID:sL8FEi0V0

並列度はわざと落として、iPadとかでkillされないように調整してたのを元に戻すの忘れてますね。
次いじるときに調整できるようにするか、もっと並列度あげておきます。

676名無しさん＠お腹いっぱい。

2025/10/21(火) 19:15:01.75ID:oUl8PwmQ0

いくつか試したのでレポ

DeepSeek OCR
一応日本語読める。いくつかのサンプルで試したところ、画像によっては途中でLLMが崩壊してしまうこともある。
英語は精度よさそうだけど、日本語の精度はちょいちょいミスがある感じがする。

dots.ocr
日本語も対応してて精度も良いんだけど、LLMに起因する「嘘」が時々混じるのが残念ポイント
少々の誤差を許容できるなら、精度よさそうでいい感じ

677名無しさん＠お腹いっぱい。

2025/10/21(火) 21:09:05.68ID:4p/wAbxG0

bunkoOCRやyomitokuとどっちが精度が高いのよ
それが問題だ
PaddleOCRも新しいの出したよね

特化型vsリソース食いのごり押しVLMの戦い

678名無しさん＠お腹いっぱい。

2025/10/22(水) 00:35:00.94ID:Q8EWz51f0

PaddleOCR
日本語の縦書きで試してみた。
合っているところはほぼ合ってるけど、なぜか認識に失敗しているところが所々ある。
認識結果が所々飛ぶイメージ。ふりがなは律儀に認識してるけど、多分座標で自前で何とかしないとだめっぽ。

認識結果は失敗の出方に特性があって評価が難しいけど、独断と偏見でいうと
dots.ocr > PaddleOCR > DeepSeek OCR
の順に精度がよさそう。ただし、自前で環境構築するのはどれもちょい面倒。
Dockerイメージあるならそれ使った方が楽できる。

なお、独断と偏見によるとbunkoOCRやyomitokuの方が日本語性能はずっと高そう。
多言語対応すると、個別の性能はチューンされきってない感じがしますね。

679名無しさん＠お腹いっぱい。

2025/10/22(水) 10:45:15.53ID:QmjHWyGj0

参考になった。ありがとう
今DoclingやVLM OCRとか流行りだけど期待のDeepseek OCRしょぼーんやな
ローカルLLMとかも性能向上そろそろ限界かな

680名無しさん＠お腹いっぱい。

2025/10/22(水) 19:38:07.66ID:YZI2zzo60

精度90%って高そうだけど10文字に1文字はずっこけるってことだから使えんよな
95%は20文字に1文字はずっこけ　これもきっつ
98%は50文字に1文字はずっこけ　ここら辺になると実用的やな

681名無しさん＠お腹いっぱい。

2025/10/22(水) 22:11:37.43ID:q0StTNJ80

もう全部DeepSeekOCRでいいや
bunko も yomitoku もバイバイ

682名無しさん＠お腹いっぱい。

2025/10/23(木) 18:57:28.03ID:zLYIM62O0

DeepSeek 中国製だから漢字圏では勝ってしまう可能性大有り

683名無しさん＠お腹いっぱい。

2025/10/23(木) 22:55:35.97ID:Sj2lpXBu0

>>682
なお字体

684名無しさん＠お腹いっぱい。

2025/10/23(木) 23:59:05.09ID:F491YrjO0

依然としてbunkoOCRがトップ

685名無しさん＠お腹いっぱい。

2025/10/24(金) 06:27:27.27ID:Cv7etXwJ0

欧米製：Tesseract、EasyOCR
中国製：dots.ocr、PaddleOCR、DeepSeek OCR
日本製：bunkoOCR、yomitoku、NDL OCR

フリーのOCRをまとめてみたが実行・利用するにはプログラミング知識（可能ならGPUも）が必須なのが多い印象
フロントエンドができればTesseractやbunkoOCR以外も少しは普及しそう

686名無しさん＠お腹いっぱい。

2025/10/24(金) 06:59:00.70ID:5Fw7+vc80

日本製は日本語だけ?
せねて、英語やフランス語とか西洋だけでもいけるといい

687名無しさん＠お腹いっぱい。

2025/10/24(金) 07:00:55.18ID:5Fw7+vc80

まか、日本製はモデルサイズが圧倒的に小さくて日本語性能優秀ってのが特徴であるが

688名無しさん＠お腹いっぱい。

2025/10/29(水) 10:41:12.98ID:kULpbrQP0

pythonとかわかんね。これならdeepseek ocr簡単に使えるの？　https://github.com/TimmyOVO/deepseek-ocr.rs　https://egg.5ch.net/test/read.cgi/software/1711002779/l50

689名無しさん＠お腹いっぱい。

2025/11/03(月) 03:43:04.79ID:xDQZqNcO0

DeepSeek-OCRはvLLM版じゃないと本気出してくれなさそう
ってことらしい。また試すか

690名無しさん＠お腹いっぱい。

2025/11/06(木) 06:29:20.69ID:RXGQOp/A0

YomiTokuがCPUでも高速に動くように進化したらしい

691名無しさん＠お腹いっぱい。

2025/11/16(日) 19:48:56.44ID:UMKxDmno0

bunkoOCRで三桁の数字がバラバラになってしまうのが結構あった
123が132や231になったり二桁や四桁は問題ないけど

692名無しさん＠お腹いっぱい。

2025/11/16(日) 20:13:58.10ID:+ptPvWyC0

なんで3桁だけなんやろ
ちょっとテストしてみるわ。よければサンプルいただけますか

693名無しさん＠お腹いっぱい。

2025/11/16(日) 20:32:03.06ID:UMKxDmno0

>>544のとこに送っておきました

694名無しさん＠お腹いっぱい。

2025/11/16(日) 21:08:13.64ID:+ptPvWyC0

>>693
ありがとうございます。

手元の最新の開発中バージョンでは、101のところが上手くいっているみたいなので、早くリリースできるようにします。
割注と縦中横の判定をいじって上手くいくようになった気がする

695名無しさん＠お腹いっぱい。

2025/12/13(土) 21:24:20.24ID:CooDqDh20

yomitokuでpdfファイル入力、PDF出力したら、17.5 x 24.5 cm, 400 dpiが、97.3 x 136 cm, 72 dpiになった。ディスプレイで見るぶんには問題ないが、やや気持ち悪い。仕様でしょうか？

696名無しさん＠お腹いっぱい。

2025/12/15(月) 00:19:00.46ID:HkUrNMAy0

使ってるライブラリの、デフォルトdpiが72なんだと思う。ソースのdpiを引き継ぐようにすればよさそう

697名無しさん＠お腹いっぱい。

2025/12/15(月) 13:09:53.21ID:i7n4OxSM0

読み取り解像度は指定できるけど、ソースのdpiが引き継げそうなやり方はなさそう？に思いました。

698名無しさん＠お腹いっぱい。

2025/12/15(月) 13:40:14.61ID:HkUrNMAy0

ソース読んでみたけど、一発で出力のdpi設定できなさそう。
canvasの設定で、ちゃんと換算して設定しないとだめっぽ。githubにissue立てるか、
Twitterアカウントに突撃して報告したら直してくれそうではある。

reportlab.pdfgen の Canvasを使ってるみたいだけど、このライブラリは72dpi前提で
簡単には変わらないっぽい。画像のサイズの方をPixelから実サイズに調整する必要があって
けっこうめんどくさそう。
後から変換するソフトとか(あれば)調整した方が早そう

699名無しさん＠お腹いっぱい。

2025/12/15(月) 18:23:34.34ID:i7n4OxSM0

詳しくありがとうございます。私には難しそうなので、印刷する必要がある場合はどうなるのか考えて継続して使えるか検討してみます。縮小印刷したら普通に印刷できそうな気もする。
bunkoOCRならこういう問題は生じないと思うので、必要あればiPad airでOCRも検討です。遅いし電池が減るけど、、、。Windowsの新版に期待。

700名無しさん＠お腹いっぱい。

2025/12/16(火) 05:20:20.23ID:hS1pgzP70

ocrarena
https://www.ocrarena.ai/battle
ちょっと試しただけだけどgpt5と5.2でだいぶ認識率が向上してるみたい

701名無しさん＠お腹いっぱい。

2025/12/24(水) 11:13:31.85ID:7/TyzqGE0

それによるとdots ocrとQwen 8Bが優秀ってことかな

702名無しさん＠お腹いっぱい。

2025/12/25(木) 09:58:36.11ID:TOqZu5lG0

初見。OCRソフトが欲しい。アドバイス下さい。

・紙の本を電子化してOCRを掛けるのが主目的。理系学術書(従って数式多数)が過半数。他はPC関係の図表の多い書籍。
・現状、Acrobat 9を使っている。文章のレイアウトがちょっとでも非定型となると即座に精度悪化。数式なんておよそ認識しない。
・Amazonで読取革命v17が7870円だったが、★2.9。ソースネクストでFineReader v15が27500円。Acrobat最新版は高すぎ。

703名無しさん＠お腹いっぱい。

2025/12/25(木) 10:24:38.64ID:KlbY4T//0

読取革命はマジでクソゴミだからやめとけ

704名無しさん＠お腹いっぱい。

2025/12/25(木) 11:29:51.80ID:ac9LOP4P0

Thanks 質問者と別人だけど

705名無しさん＠お腹いっぱい。

2025/12/25(木) 18:33:25.03ID:3uDKEtEP0

数式をTeXで認識したいとかなら、なんかモデルあったはず。
それとは別に図版多いならYomitokuが強かったような

706名無しさん＠お腹いっぱい。

2025/12/25(木) 18:36:31.31ID:3uDKEtEP0

数式混じりの日本語の本で、図版入っているやつ
私もスキャンしてOCRしたいんだけど、最終形態としてどうするのがいいんだろうか。
単なるテキストにすると、数式辛いし図版飛ぶし
図だけjpgで持っとくとしても、どの部分に入ってたかとかmdにするとかかなぁ
数式はTeX形式にするとしても、ふつうの人間はそのままで読めないという
結局レンダリングするなら、画像でよくねとかも思う

707名無しさん＠お腹いっぱい。

2025/12/25(木) 19:36:32.32ID:TlC6gcR80

画像と透明テキストのpdfはどうかな
>>625～のbunkoOCRのpdf作成に期待してる
図表や数式を誤OCRしてても目で見る分には正しい画像だから問題ない気がする

708名無しさん＠お腹いっぱい。

2025/12/26(金) 07:03:25.73ID:xqkq3/EC0

bunkoocrのwindows板って最新になってないんだっけ?
iosでやれってことか

709名無しさん＠お腹いっぱい。

2025/12/26(金) 19:06:20.17ID:d42PNyW00

ごめんまだwindowsのやつ作業できてない。お正月に作業してみるわ

710名無しさん＠お腹いっぱい。

2025/12/27(土) 00:21:40.07ID:assWHIWY0

>>709
楽しみにしてます

711名無しさん＠お腹いっぱい。

2026/01/07(水) 21:39:31.93ID:Uui5N1w20

bunkoOCR、雑誌記事とか順番がややこしくなくても、単純な段組の小説でも何故か文章の順番がめちゃくちゃになることがあるなあ

どうも章番号があるところで変な処理がががる感じがする
アラビア数字だと何があるんだろうか？
単純に右から処理してくれるだけでいいんだが、どうすりゃいいんだろ

712名無しさん＠お腹いっぱい。

2026/01/07(水) 21:40:00.55ID:Uui5N1w20

>>711
ios版ね

713名無しさん＠お腹いっぱい。

2026/01/07(水) 23:01:26.10ID:01gd07n90

気付いたので、今直してるところです。
単純に右からでいいんですけど、いろいろとややこしい処理になってるのが敗因
正月休みは、「なんの進捗もありませんでしたーーー！！」だったので、もうちょいかかりそう

714名無しさん＠お腹いっぱい。

2026/01/08(木) 22:27:36.76ID:uq55VzS50

>>713
ありがとうございます。
精度の高さが商用の製品と比べても段違いなのでとても重宝しています。
パラメータを色々いじってみてたのですが上手くいかなかったので、アップデートしていただけるのは助かります。
忙しいと思いますが、よろしくお願いします。

715名無しさん＠お腹いっぱい。

2026/01/14(水) 11:47:07.05ID:Irw/CP/n0

bunkoOCRの作者さんが居るみたいで伸びてるけど
図表を取り込めるようにはする予定ないですかね？

手元のデータをみると図表の全くない本はほとんどなくて
市販の電書みたいにテキスト部分はテキスト、図表は画像で取り込めると便利だなぁと思いながら見ています

716名無しさん＠お腹いっぱい。

2026/01/14(水) 18:33:26.81ID:AdPi3iSY0

>>715
それは文字のOCRというアプリケーションの機能自体を変更することになるのでは
機械学習自体を見直す必要があったりして今のモデルを使ってまでやることではないような

717名無しさん＠お腹いっぱい。

2026/01/14(水) 19:03:22.22ID:/daTZM3e0

欄外のページ番号とかを弾くのに、どこが本文でどこが欄外か判定する新たな機械学習モデルを導入する予定。その時に、図版の場所も判定できるようになるかも
でも図版をjpgとかで抜き出すとして、座標とか本文との位置関係とかはどう扱うべきなんやろう。最終の出力フォーマットの形式が見えないので、いい方法募集中ではある

718名無しさん＠お腹いっぱい。

2026/01/24(土) 12:45:34.61ID:j4vN6MCq0

国会図書館デジタルアーカイブの古い書籍をＰＤＦでダウンロードしてテキスト化するのに
よいＯＣＲソフトがあればどなたか教えてくれませんか？
もちろん読み取り後に修正は大前提でそれなりに文字興し出来たらいいです。

719名無しさん＠お腹いっぱい。

2026/01/30(金) 20:53:03.28ID:bT0j9jx+0

>>718
間が良いねえ、お客さん。

SoftEtherVPNで有名な登大遊老師が、いまいちスキャンコンディションの良くなかったPDFファイルでもいわば高精細リマスター化するようなツールに更に日本語OCRのYomiTokuを合体させた飛び道具を作ってくださったばかりなんですよ。

スキャン書籍PDFをデジタル書籍並みに大変クリアにするAI-PDF高品質化・各種調整ツールDN_SuperBook_PDF_Converter
ttps://github.com/dnobori/DN_SuperBook_PDF_Converter

コレを更に別な開発者の手により改良されたWindows/Linux/macで動作する別バージョン
Rust_DN_SuperBook_PDF_Converter
ttps://github.com/clearclown/Rust_DN_SuperBook_PDF_Converter

メモリーたんまりなPCとハイスペックなGPUさえあれば極楽だね！

720名無しさん＠お腹いっぱい。

2026/02/03(火) 14:30:51.86ID:j4duS0FQ0

初心者なんだけど本をスキャンした画像にOCRかけて、図が入ったMarkdownに変換して、epubに変換してタブレットで読むみたいなことできる？ PDFにocr掛けただけだとページめくりが重くてね

721名無しさん＠お腹いっぱい。

2026/02/03(火) 16:14:35.91ID:CXaP7f6V0

Google Docs の OCR 機能を駆使して自分で Markdown にすれば良いんじゃね

722名無しさん＠お腹いっぱい。

2026/02/03(火) 19:21:52.87ID:oUtWL9La0

AIエージェントにお任せできそうなお題

723名無しさん＠お腹いっぱい。

2026/02/07(土) 12:09:09.62ID:jV/iWV3r0

GLM-OCR使った人いる？ Ollamaから起動して画像投げてもうんともスンとも言わねえ
Ollamaのバージョンが0.15.5なんだけどrc2じゃないとダメなんかねえ

724名無しさん＠お腹いっぱい。

2026/02/07(土) 13:34:33.76ID:eceBN2Zp0

さっきpre releaseに入った0.15.6でcontext値？を上げたカスタムモデル使ったらいけたわ

725名無しさん＠お腹いっぱい。

2026/02/09(月) 22:30:14.17ID:fR8PcbnG0

色々試したけどgeminiにpdf投げつけるのが一番手っ取り早くて綺麗

726名無しさん＠お腹いっぱい。

2026/02/12(木) 10:20:07.47ID:8FfJLpjU0

と自分も思ったけれど、
gemini（に限らずLLM）は、長い文章の
途中を気づかないうちに省略したりする
コンテキストウィンドウ溢れとは
また少し違う挙動で、バリデーションが大変

というわけでbunkoOCRには大変期待し
応援しております

727名無しさん＠お腹いっぱい。

2026/02/12(木) 11:29:20.89ID:sYy1Oc3R0

geminiくんは、文庫の見開きくらいの文章量だと完璧に近いけど、ちょっと多くなると諦めが早い

728名無しさん＠お腹いっぱい。

2026/02/12(木) 16:03:56.69ID:X4aiNJ8X0

Win11 の Snipping Tool でちょこちょこOCRかけているけど、一昔前の絵を見ながら手打ちと比べて神。
単語のみだと読まなかったり、狭い範囲だと言語間違える動きするけど。

729名無しさん＠お腹いっぱい。

2026/02/13(金) 16:12:02.81ID:8SQWCsXX0

江戸時代に書かれた手書きの本（楷書）とかをOCRしたいのですが
思ったより識字率がよくない模様

字をよく見るとへんやつくりなどに書いた人毎の省略癖があり、
人が見れば文脈などから「ああこれはあれかな」というのがわかるのだが
そういうのが拾えてないような

730名無しさん＠お腹いっぱい。

2026/02/13(金) 21:57:44.38ID:L0+Vf7UF0

そりゃ、古文書用に学習させてなければ識字できなくて当然なのでは？

731名無しさん＠お腹いっぱい。

2026/02/13(金) 23:02:43.60ID:9SD3RUcU0

> 思ったより識字率がよくない模様

こういうのは、どのソフトの事なのか書かないと

732名無しさん＠お腹いっぱい。

2026/02/13(金) 23:13:21.54ID:iM+d3mjR0

いま NDL古典籍OCR-Lite Web版てのを試してみたが、結構しっかり認識してるな
...かなり時間がかかったが
Web版でもローカルに処理させてんのか、これ？

733名無しさん＠お腹いっぱい。

2026/02/14(土) 05:47:14.06ID:Y/0JH6Qz0

>>731
とりあえずbunkoOCR と >>732 のなどを。どちらも特に崩された文字が弱いかも
活字ならいいんでしょうけど

ぶっちゃけ、私の場合もGeminiが一番いいかもしれない。OCRもともかく、OCR後の
古文への現代語訳も付き、さらに「これは〇〇の分野の文書ですね」とか言って
その分野特有の語彙なども拾って訳したり。うわー

734名無しさん＠お腹いっぱい。

2026/02/16(月) 20:27:07.00ID:BxNhwrQZ0

geminiで変になる言うてる人はチャットにそのままPDF貼ってるの？
pythonでgemini 3 flash previewのapi指定してPDF処理させてるけど変になったことはないぞ

735名無しさん＠お腹いっぱい。

2026/02/16(月) 20:50:09.89ID:4hXu1/Cy0

ここはプログラム板じゃなくてソフトウェア板

736名無しさん＠お腹いっぱい。

2026/02/17(火) 06:28:32.98ID:DUNfQPll0

そもそも古文書ってどこで手に入れてくるの？

737名無しさん＠お腹いっぱい。

2026/02/17(火) 20:04:28.98ID:pgX//0co0

ヤフオク

738名無しさん＠お腹いっぱい。

2026/02/18(水) 08:03:33.56ID:v18UXAn60

国会図書館のネット公開とかじゃないの？

739名無しさん＠お腹いっぱい。

2026/02/18(水) 15:25:29.15ID:pFU6TbL30

今は色々画像で公開されたりしているので
古墳から発掘された木簡とか

740名無しさん＠お腹いっぱい。

2026/02/18(水) 23:08:54.18ID:PuQu601B0

あちこちの大学図書館で漢方古典の医学書の画像が公開されてるんで集めてるわ
漢文の医書は日本のも含めて中国でほとんどがText化されてるけど和文のは全然ないんだよなー
完璧じゃなくてもOCRがかけられるようになったのは有り難い

741名無しさん＠お腹いっぱい。

2026/02/20(金) 19:18:49.26ID:kTjvqN8R0

gemini 3 flashのレイアウト認識は頭一つ抜けてるけどテキストのアンダーラインやオーバーラインは上手く認識してくれないな。
良いプロンプトはないだろうか

742名無しさん＠お腹いっぱい。

2026/02/20(金) 19:51:43.30ID:q62ODX1Q0

>>740
そういうマニアもいるのなー
今だとデジタルスキャン→AIなりOCR解析みたいな手法になるのかな？
そういう技術も有用度高そうだな

743名無しさん＠お腹いっぱい。

2026/02/25(水) 02:38:47.67ID:ZJr07njm0

https://github.com/ndl-lab/ndlocr-lite
お上謹製のOCRこと、NDL-OCRのデスクトップアプリ版が出たぞ。
ほぼ元の精度で、簡単に使えるようになってる。

試したところ、ちゃんと撮影する国会図書館のデータに合わせてつくられてるので
ズボラして斜めった画像を与えたりすると、ちょっと失敗するけど、ほぼ完璧にいける

744名無しさん＠お腹いっぱい。

2026/02/25(水) 07:25:27.02ID:zCkXGPru0

同じだけど
https://lab.ndl.go.jp/news/2025/2026-02-24/

745名無しさん＠お腹いっぱい。

2026/02/25(水) 21:47:13.49ID:3ZKPgf3a0

GPUなしで動作する軽量なAI OCRツール「NDLOCR-Lite」、国会図書館のラボから無償公開
https://forest.watch.impress.co.jp/docs/news/2088188.html

746名無しさん＠お腹いっぱい。

2026/02/25(水) 21:54:32.49ID:xIvvVlUB0

bunkoOCRのように段落は空けてくれないけど段違いに速いし正確だし
PDFも作ってくれるし十分実用的だね

747名無しさん＠お腹いっぱい。

2026/02/25(水) 23:06:28.50ID:ZJr07njm0

>>746
たしか、行の座標が取れるので、1行空いているのを検出したら改行を追加するとかいけそう

748名無しさん＠お腹いっぱい。

2026/02/26(木) 09:52:40.61ID:o3DclnLi0

>>743-745

https://github.com/ndl-lab/ndlocr-lite
の最後の段階を画面キャプチャOCRした

Windows11 25H2組み込み(Win+Shift+T)

技術情報について(開発者向け情報)NDLOCR - Lite は「レイアウト認識」、「文字列認識」、「読み順整序」の 3 つの機能(モジュール)を組み合わせて実現しています。レイアウト認識には D 日 Mv2 [ 1 ]、文字列認識には PARSeq [ 2 ]をそれぞれ用いており、読み順整序については当館が公開している NDLOCR と同様のモジュールを用いています。[1]Shihua Huang and Yongie Hou and Longfei Liu and XuanIong Yu and Xi Shen. Real-Time Object Detection Meets[2]Darwin Bautista, RoweI Atienza. Scene text recognition with permuted autoregressive sequence models.arXiv:2212.06966 , 2022. ( ps :〃 a 「 x ⅳ .0r9 / abs / 2207.06966 )レイアウト認識及び文字列認識の機械学習モデルは、いずれも p 。「 ch をフレームワークとした学習を行った後に ONNX 形式に変換して利用しています。詳しくは学習及びモデル変換手順をご覧ください。団 NOv3. arXiv preprint arXiv:2509.20787. 2025. い ps :〃 arx ⅳ .0r9 / abs / 2509.20787 )

ndlocr-lite

技術情報について(開発者向け情報)
NDLOCR-Liteは「レイアウト認識」、「文字列認識」、「読み順整序」の3つの機能(モジュール)を組み合わせて実現していま
す。
レイアウト認識にはDEIMv2111、文字列認識にはPARSeal2]をそれ用いており、読み順整序については当館が公開して
いるNDLOCRと同様のモジュールを用いています。
[1]Shihua Huand Hou Liu Lonqfei Liu Liu and Liu and Xu.anlong Yu and Xi Shen. Real-Time Object Detection Meets
DINOv3. arXiv print arXiv:2509.20787,2025.(https://////arxiv.orabs/2509.20787)
[2]Darwin Bautista, Rowel Atienza. Scene text recognition with permuted autoregressive sequence models.
arXiv:2212.06966,2022.(https://arxiv.org/abs/2207.06966)
レイアウト認識及び文字列認識の機械学習モデルは、いずれもpytorchをフレームワークとした学習を行った後にONNNA
式に変換して利用しています。詳しくは学習及びモデル変換手順をご覧ください。

749名無しさん＠お腹いっぱい。

2026/02/26(木) 11:31:54.84ID:6naji6860

bunkoOCRはしばらく使っていなかったが久しぶりに使ったら処理がかなり速くなった気がした
Core i7のIris Xe使用でDirectML GPU id=0という設定
Windowsやグラフィックスドライバのアップデートで何か改善されたのかな

750名無しさん＠お腹いっぱい。

2026/02/26(木) 16:28:05.10ID:55/m0B8c0

ndl系って古文書系かと思っててスルーしてたわ
lite使って見たけど想定以上に正確やん。凄い
英文も実験的に対応ね

751名無しさん＠お腹いっぱい。

2026/02/26(木) 17:04:58.10ID:6naji6860

bunkoOCRが書き出すjsonとNDLOCRのxml共元画像の行の座標位置がピクセル数で書かれているね
それなのにNDLOCRのPDF出力はベータ版とは言え透明テキストの位置がどうしてこんなにずれているのかな

752名無しさん＠お腹いっぱい。

2026/02/26(木) 19:15:33.72ID:55/m0B8c0

PDF出力は試してないが、バウンディングボックスか書かれた出力された画像みると隙間ないから、PDFへの書き出しでその現象発生してるのかね
つかliteがいい感じなのでliteなしの方が気になってきた。
もっとすごいか？

753名無しさん＠お腹いっぱい。

2026/02/27(金) 12:01:40.62ID:7VgHRg+u0

liteなしは「清」や「教」の旧字が「〓（ゲタ）」に丸められるので良くない

754名無しさん＠お腹いっぱい。

2026/02/27(金) 14:02:02.88ID:wcOxZ7260

>>751
pdfは透明でも青色テキストでも同じ位置(オフセット)にオーバーレイされるね

755名無しさん＠お腹いっぱい。

2026/02/27(金) 18:49:46.45ID:YkRd4Yko0

>>754
こんなに位置がずれるのですけど・・・
ttps://87.gigafile.nu/0329-c0a7cbae326c84c412bfa5b80371ff98d

756名無しさん＠お腹いっぱい。

2026/02/27(金) 19:04:17.31ID:B+eJUE1p0

>>755
行の中で文字の幅を合わせるのは、実はpdfのフォーマット上めっちゃ難しいのです。
フォントで設定されている文字幅と、認識した文字Boxの大きさとの倍率を調整して誤魔化さないといけない。
bunkoOCRでやってる位置合わせも、だいたいしか合わないのです。
行として文字列の検索を当てやすく文字列にするか、完璧に位置を合わせるために一文字ずつ置いていくか
のうち前者を採用すると、比率をでっち上げて行の末尾を合わせるくらいしか出来ないのです。

757名無しさん＠お腹いっぱい。

2026/02/27(金) 20:59:41.17ID:TRxmHEQF0

文字単位で配置するとコピペが不便になりそう

758名無しさん＠お腹いっぱい。

2026/02/27(金) 21:00:30.31ID:WUUBmoNa0

ルビまではとりあえずいらないけどNDLのXMLにルビの位置情報があるがテキスト自体が含まれてないところみると解析まではしてないのかコレ
たまに本文あたりにルビが紛れこんだりしてるが、このルビの位置情報と照らし合わせて捨てればいいのかな

759名無しさん＠お腹いっぱい。

2026/02/27(金) 21:04:05.64ID:WUUBmoNa0

複雑なレイアウト解析まではyomitokuにまかせてNDLは単純な構造の解析をいかに高精度にやるかを頑張ってほしい

760名無しさん＠お腹いっぱい。

2026/02/27(金) 21:06:19.42ID:YkRd4Yko0

>>756
そうですか。それでとりあえずpdfはベータ版としてリリースしたのかな
bunkoOCRはWindows版しか使っていないのでpdfがどうなっているかは見ていません

今のAcrobat Readerは透明テキストの途中にスペースや改行が入っていてもそれらを取り除いた文字列で
検索できるようなので、透明テキストは文字列にしてスペースを混ぜたりしてごまかしてもらうのがいいのかな
検索できなければ意味ないですしね

761名無しさん＠お腹いっぱい。

2026/02/27(金) 21:15:33.56ID:YkRd4Yko0

Acrobat Readerは行またぎの検索はできるけどページをまたぐと検索できないのが残念
ワードとかではできるのにね

762名無しさん＠お腹いっぱい。

2026/02/28(土) 10:21:18.87ID:jfcTDRQe0

pdfのiFilterはいつのまにかAdobeが勝手に削除していることに気付いたのでサイトに残っていたPDFFilter64Setup.msiをインストールした
消される前のiFilterは何だったのかは気にしていなかったがその時にはできなかった行またぎ検索ができるようになった
スレチごめん

763名無しさん＠お腹いっぱい。

2026/02/28(土) 17:44:40.56ID:/FLXJTsI0

NDLOCRLiteの出力pdf解像度下がらない？

764名無しさん＠お腹いっぱい。

2026/02/28(土) 20:26:36.26ID:o0pmURml0

NDLOCRはブロック化が優秀なんやな。しっかりまとめてくれる

765名無しさん＠お腹いっぱい。

2026/02/28(土) 21:49:16.55ID:jfcTDRQe0

NDLOCRで縦書き中の横書き「22」は「2」になってしまい「23」は「」(スペース)になってしまった
縦書きで横書き数字2桁という書き方は割と使われるように思うのだが・・・

766名無しさん＠お腹いっぱい。

2026/02/28(土) 22:14:08.62ID:o0pmURml0

知ったかすると縦中横とかいうやつね。そこら辺はNDLだめだめぽっい。いろんな組版頑張ってるのはbunkoocr？

767名無しさん＠お腹いっぱい。

2026/02/28(土) 22:17:09.96ID:o0pmURml0

1とかIとかの区別はLLMとか組み合わせんと無理やね。超ミニミニSLMとかで修正

768名無しさん＠お腹いっぱい。

2026/03/01(日) 18:49:01.60ID:eb5T3cOI0

>>763
PDFは72dpiで作られるみたいだからソース画像をそれに合わせてサイズ変更すればいいんじゃないのかな

769名無しさん＠お腹いっぱい。

2026/03/01(日) 20:51:39.36ID:fjE0/PmN0

NDLOCR-lite、なかなかいいです
一番面倒だった章タイトル、ページ番号を最初にクロップ処理で指定しておくと
残りのファイルも全部自動で処理してくれる
この処理は自炊なり拾ったPDFなりjpg変換したあとで手動で色んなソフト使ってやってたけど
時間も手間もかかるしスキャン時のズレもあるから自動化できずに最後は目視で確認でとにかく大変だった
これをやらずに済むだけでかなり助かる

まぁ、GPU使ってないので速度は遅いけどね
750ページの文庫本で30分ぐらいかかった
bunkoocrの作者様には悪いけどこちらに浮気してしまいそう
速度が遅くても前述の処理の時間がいらないので合計時間だと多分早い
それでもbunkoocrのバージョンアップに期待です

770名無しさん＠お腹いっぱい。

2026/03/01(日) 22:44:47.06ID:KbtUy7qu0

ndlocrliteはベータだけどnvidia gpuあればcudaでうごかせるんじゃないかな

771名無しさん＠お腹いっぱい。

2026/03/01(日) 22:46:29.17ID:KbtUy7qu0

--device cudaオプションがある

772名無しさん＠お腹いっぱい。

2026/03/02(月) 18:14:17.15ID:Po5hG4h+0

NDLOCRが作成するPDFはストリームがASCIIで書かれていてサイズが大きいので
qpdfでバイナリに変えたらサイズを小さくできた

773名無しさん＠お腹いっぱい。

2026/03/02(月) 23:32:32.38ID:hDWsmZIE0

NDL系ってどんどんいろんな技術とりいれてるのか？
bunkoocrの作者はやる気触発されたかな

774名無しさん＠お腹いっぱい。

2026/03/05(木) 19:44:57.89ID:3m+hS/Py0

NDLOCR-lite使ってみた
精度も速度も良い感じだけど欠落が多い

775名無しさん＠お腹いっぱい。

2026/03/05(木) 20:16:58.72ID:+I9T8ZSu0

ndlocrって学習データは公開されてないんだよね？
bunkoocrもそうだけど学習する場合どれくらいのスペックのどれぐらいぶん回せばいいんだろう

776名無しさん＠お腹いっぱい。

2026/03/05(木) 21:04:42.75ID:QybuKv8+0

NDL-OCR事業の資料
https://www.nijl.ac.jp/pages/cijproject/info/img/event/r04/nijl_sympo2022_handouts_3.pdf
https://lab.ndl.go.jp/data_set/ocr/r3_software/
https://lab.ndl.go.jp/data_set/r4ocr/r4_software/
https://github.com/ndl-lab/pdmocrdataset-part2

bunkoOCRの資料
https://github.com/lithium0003/findtextCenterNet
https://huggingface.co/datasets/lithium0003/findtextCenterNet_dataset/tree/main

学習データで、レイアウト認識は実地のデータでやらなきゃなので、けっこうデータ数がいるはず。
国会図書館のやつは約247万点（約2.2億画像）だって。

bunkoOCRのやつは、基本的にfontから生成したテキスト画像を元に学習してる。100*1024枚くらい
後は実地のデータとして手元でスキャンした画像を追加して失敗しそうなやつを修正してる。
findtextCenterNetは、条件確定したらA100で数日くらいやれば十分だった。
BatchNormarizationのせいでバッチサイズを大きくしなきゃなのでA100とか使ってるけど、
そこさえなんとかできれば、もっと小さいGPUでも学習出来ると思う。

777名無しさん＠お腹いっぱい。

2026/03/05(木) 21:36:42.68ID:+I9T8ZSu0

>>776
おお、詳しくありがとうございます
A100か。調べたら定価300万のやつか。だからiOSアプリでGPU借りるようの募集してたんですね。
ocrの技術調べてたらおもしろくなって学習について興味を持った次第です

778名無しさん＠お腹いっぱい。

2026/03/05(木) 22:42:22.08ID:QybuKv8+0

短冊状に認識行の画像を取ってきて、文字列を生成するモデルに入れて、OCR結果を得るというタイプと
文字の場所を特定して、一文字ずつ文字を生成するモデルに入れて、OCR結果を得るというタイプがあると思う。

アラビア語とか行書とかは、前者の方式が強いと思う。
日本語みたいに一文字ずつ切れてる言語は、後者の方がよさそうに感じてる。

779名無しさん＠お腹いっぱい。

2026/03/06(金) 06:30:03.06ID:uR2qc6Lu0

ocrした後の誤認識修正して再pdf化するのになんのソフト使ってますか？

780名無しさん＠お腹いっぱい。

2026/03/07(土) 20:54:25.47ID:yj5nzJok0

>>778
そこらへんもちょっとだけ日本の3大OCRを比較して勉強してました
ndlocrとYomiTokuはレイアウト解析で行を求めて、その行ごとPARSeqになげて言語知識(ViTrasfomer?)なども踏まえてテキスト認識
bunkoOCRはCenterNet+EfficentNetで文字レベルの位置と特徴をもとめて、特徴を後段のTransfomerにぶんなげて言語知識が補正?

アラビア語とかつなってるやつ、文字レベルで分割が大変そうだからPARSeqとかの方がよさそうですよね

781名無しさん＠お腹いっぱい。

2026/03/07(土) 22:11:29.71ID:HlNeLmoJ0

>>780
bunkoOCRで、文字レベルの位置でやってるのは、文字の横についてるふりがながどの部分にかかってるかを
検出したいというのと、そもそも日本語と英語くらいしか知らなかったからというのがあります。
くっついてる文字の言語や、筆記体や速記みたいな文字も、それぞれの文字部分に分割は可能っぽいので
やろうと思えば不可能では無い感じです。
(Unicodeからフォントで生成するとそれぞれの文字の領域が取れるので、ある程度自動生成でアノテーション出来る)
文字ごとの位置を求めると、文字の属性を別途与えることができるので、文字空きとかふりがな文字とかのマークとか
文字のコードとかを直接生成出来るのが利点です。

PARSeqの手法では、短冊状（にかぎらず行を取って来れればいい)に取ってきた画像を、直接文字列に起こすので
行を取り損ねるとミスると思うので、曲がった文字列をどう切り抜くかがポイントなのかなと思います。
この手法の利点は、少々ノイズが入っていてもこの時点で前後から補正出来るということです。

782名無しさん＠お腹いっぱい。

2026/03/15(日) 19:27:52.55ID:8cvEDRaD0

初見。どもこん。
Rust_DN_SuperBook_PDF_Converter　(及び必須な関連ツール)をWindows 11下に環境構築したいんですが、全くわからないです。
どこを探しても、Mac系(？)の解説サイトばかりでコマンドラインの操作を説明しててWindows 11ユーザーにはわからないです。
Windows 11ユーザーでも分かる解説サイト教えてください

783名無しさん＠お腹いっぱい。

2026/03/19(木) 22:59:28.19ID:kXSDIq6X0

rust版は何やっても動かんから諦めたわ
大人しく本家の使うがよろし

784名無しさん＠お腹いっぱい。

2026/03/20(金) 11:27:51.92ID:m+1vm1j80

レイアウト解析やOCR精度はgeminiがぶっちぎりで最強なんだけどサーチャブルpdf作れないのが難点
geminiでテキスト抽出したのにyomitokuでもう一回ocrかけるのも二度手間感あるし

785名無しさん＠お腹いっぱい。

2026/03/20(金) 11:40:23.16ID:7MBlxrVy0

語彙力ぅ.....OCRも色々あるけどAIのOCRが一番精度いいの？
しらんけど

786名無しさん＠お腹いっぱい。

2026/03/20(金) 12:15:51.01ID:HbXXySVR0

一番かは知らんけど格安でもそこそこ認識してくれるよ

787名無しさん＠お腹いっぱい。

2026/03/20(金) 12:19:59.90ID:m+1vm1j80

語彙力…？文章中に気に障るところでもあったか？
やってみれば分かるが、マルチモーダルLLMは複雑な表や手書き、特殊文字への対応が比較にならないほど優れている

788名無しさん＠お腹いっぱい。

2026/03/20(金) 12:20:05.73ID:m+1vm1j80

789名無しさん＠お腹いっぱい。

2026/03/20(金) 12:23:50.25ID:HbXXySVR0

いうて流石に外部Aiに社内の内部情報とか読ませるわけにはいかんから言うほど使えない

790名無しさん＠お腹いっぱい。

2026/03/20(金) 12:41:23.92ID:m+1vm1j80

それはそう。ローカルで回すとなるとgemini3より何段階か劣るのになる
Qwen3.5とかね

791名無しさん＠お腹いっぱい。

2026/03/20(金) 13:22:46.93ID:tfMqb0ET0

NDLOCRliteもアップデート期待できなさそうやな
お役所仕事で予算とかあるのか？
liteは外部委託じゃないっぽいけど

792名無しさん＠お腹いっぱい。

2026/03/20(金) 16:13:35.03ID:ZHMxGrEi0

ndlocrは振り仮名がつかないのが問題
たいして試してないので実は付けられるんだったら謝るけど
２冊ほど読み込ませたら振り仮名ついてなかったよ

793名無しさん＠お腹いっぱい。

2026/03/20(金) 22:40:46.23ID:7MBlxrVy0

>>788
大事な事なので2回いいました？？？ｗｗｗ

794名無しさん＠お腹いっぱい。

2026/03/21(土) 01:24:28.55ID:nkUhtf9B0

初見、どもこん
~5日後~
語彙力ぅ⋯
大事なことなので2回いいました？？？wwww

この間3レス
久々に大物来たな

795名無しさん＠お腹いっぱい。

2026/03/21(土) 06:00:33.92ID:jX3e2Ush0

>>792
ルビは座標取れてて、わざと除外してる様子

796名無しさん＠お腹いっぱい。

2026/03/21(土) 07:06:45.85ID:gyS8kjhK0

>>794
初見、どもこんは明らかに別のやつだろｗｗ
一々監視してるお前もきもいわｗ

797名無しさん＠お腹いっぱい。

2026/03/21(土) 11:18:16.26ID:p9jQzUSc0

どうでもいいです
生産性のない生ゴミは焼却場に飛び込んでどうぞ

798名無しさん＠お腹いっぱい。

2026/03/21(土) 13:38:41.70ID:W/T96/aI0

単なる漢字に対する振り仮名なら無くても読むのは可能だけど
当て字になってたり、英語表記になってたりする場合はあったほうがいいな
そうするとやはりbunkoocrに期待してしまう
もう１年ぐらいバージョンアップしてないしずっと楽しみにしてる
ページ番号と章タイトルを自動でトリミングしてくれる機能があれば
一冊辺りの本の電子化にかかる時間が大幅に短くなるんだけど

799名無しさん＠お腹いっぱい。

2026/03/21(土) 13:41:50.93ID:jX3e2Ush0

>>798
いらないところを分類するモデルができたっぽいので、ご期待ください。
ページ番号とかの本文じゃないところを検出出来るようになった気がしてる。
枠線とかも認識して、新聞とかの段組を順序正しく読めるようにがんばってるところ。
もうちょいかかりそうなので、まっててください

800名無しさん＠お腹いっぱい。

2026/03/21(土) 14:11:39.91ID:/laXTQI50

>>797
自殺教唆の💩製造機くんは一生畑の肥料作っててどうぞｗｗｗ

801名無しさん＠お腹いっぱい。

2026/03/24(火) 16:07:14.59ID:XM4nHajp0

NDLOCRバズってるよな
githubスター一気に1,000とか
他と性能的に大差ないと思うが
国家機関？だからか？

802名無しさん＠お腹いっぱい。

2026/03/24(火) 16:44:33.33ID:agEAPnCu0

NDLOCR-Lite が試し易いからでしょう。
他のOCRと同じ間違い方をするので、本のフォントが悪いくて正しく読めないかな、と私は諦めた。

803名無しさん＠お腹いっぱい。

2026/03/24(火) 19:06:34.28ID:Uby+IYvO0

文庫本のOCRでだが
NDLOCRは欠落が多く、難しい漢字の誤字も多い印象
bunkoOCRは修正する必要が少なく優秀さが際立ってる

804名無しさん＠お腹いっぱい。

2026/03/30(月) 10:07:35.64ID:eHzbigw30

bunkoOCRやYomiTokuもCPUで高速に動作かつプログラミング知識なしで利用できるようになったら普及しそう

805名無しさん＠お腹いっぱい。

2026/03/30(月) 17:13:12.44ID:As6a3ehU0

プログラミング知識はなくても利用できるでしょう

806名無しさん＠お腹いっぱい。

2026/03/30(月) 23:56:00.19ID:7vQuwiGC0

NDLOCR liteはテキスト認識の縦が16ピクセルしかないから精度悪め？

807名無しさん＠お腹いっぱい。

2026/03/31(火) 10:50:15.54ID:HLtLUv1m0

ちょっとスレチだが以前話が出ていたので・・・

エディタでテキストを印刷して作ったPDFをSumatraPDFで開いてみたら行またぎだけでなくてページまたぎも検索できた
Acrobat Readerではできない

808名無しさん＠お腹いっぱい。

2026/04/01(水) 10:07:31.44ID:lHJ/ezAc0

>>807
>>エディタでテキストを印刷して作ったPDFをSumatraPDFで開いてみたら行またぎだけでなくてページまたぎも検索できた
この時、印刷（PDF）したドライバーは何でしたか？
エディタの名前は？
エディタの表示モードは「縦書き」でしたか？
縦書きPDFが難しいと言う事なのでこういった情報がヒントになるかもです。

809名無しさん＠お腹いっぱい。

2026/04/01(水) 10:57:52.39ID:wOxOsCGl0

プリンタはMicrosft Print to PDFです
自分はいまだにSJISをメインに使っているのでWZ Editor 3の横書きです
ヘッダー・フッター・ページは除いて印刷
SumatraPDFはまだテスト中ですが縦書きではフォントが埋め込まれていないと
句読点が横書き用になってしまうという話は聞いています
PDFのフォント情報を見たら CIDFont+F1 (TrueType (CID); Identity-H; embedded) になっていました

810名無しさん＠お腹いっぱい。

2026/04/02(木) 10:56:18.26ID:tCtJUKBM0

スキャナに付いていた古いPower PDFとNDL_OCL_liteで作成した縦書きPDFを試したところSumatraPDFではページまたぎ検索ができた
ファイルの右クリックメニューにまでサブスク機能を出すようになったウザいAcrobat Readerはアンインストールした
SumatraPDFはIFilterがインストールできるようになっているが機能しなかった
レジストリを見たらHKCR\.pdf\PersistentHandlerからPdfFilter.dllまでつながっていなかったので動作するはずがない
自分はウィンドウズサーチをよく使うので探しておいたAdobe製の古い64bit IFilterを再インストールした
但しIFilterでは原理的に行またぎ検索はできないが

811名無しさん＠お腹いっぱい。

2026/04/02(木) 22:31:10.33ID:tCtJUKBM0

すみません　レジストリは読み間違えてました
「すべてのユーザーに対してインストール」にチェックを付けてみたらIfilterは機能した
Adobe製より検索の取りこぼしが多いと作者も書いていたので使わないけど

812名無しさん＠お腹いっぱい。

2026/04/06(月) 11:19:30.79ID:zny/GZ620

NDL OCR liteはpngで画像を保存してしまうから元画像を不可逆圧縮しておくことは無用だね
bunko-ocrがpdf作成をサポートしてくれる時にはOCRmyPDFのように元画像を保存できるようにして頂きたいです
pdfのサイズは自分で調整したいので

813名無しさん＠お腹いっぱい。

2026/04/07(火) 08:08:45.38ID:4DZR3e+C0

Gemma4出たけどローカルでこれに勝てるオープンソース無くない？

814名無しさん＠お腹いっぱい。

2026/04/07(火) 10:06:11.81ID:EKkOXqGO0

書き起こしAIの進化もいいけど
リアルタイムで読み込んでログに吐き出すとかそういうUI・IOレベルのの機能性の進化が中々行われない

815名無しさん＠お腹いっぱい。

2026/04/07(火) 15:53:00.88ID:0Rfp6UAV0

テキストや画像を音声読み上げして、それを聴いてテキスト変換？？？

816名無しさん＠お腹いっぱい。

2026/04/07(火) 18:26:21.24ID:hyVUsmZv0

>>814
プライバシーもあるからじゃない？監視資本主義とか最近言われてるじゃんｗ
Enter押してから情報が送信される方がプライバシー的にも安全かと

817名無しさん＠お腹いっぱい。

2026/04/07(火) 21:46:54.68ID:xRgkipfH0

bunkoOCRのjsonには１文字ずつの座標も書かれているようだから透明テキスト付きPDFを自分で作れるかな
作者様が作ってくれるにこしたことはないけど

818名無しさん＠お腹いっぱい。

2026/04/18(土) 10:57:51.85ID:f5IKLL5o0

bunkoOCRが出力するjsonと元画像から画像を変更しない日本語透明テキスト付きPDFを作ってみた
画像は電子テキストのスクショ
使い物になる既存ツールがなくPythonのライブラリを使う必要があるようだ
自分はPythonに慣れていないのでGeminiにhOCRをPDFに変換するスクリプトを書いてもらった
hOCRへの変換はjsonに書かれている数値をそのま使った
ちょっと位置がずれたけど検索できるPDFができた
jpegの他に圧縮率が高いモノクロのJBIG2にも対応
https://62.gigafile.nu/0727-c07f987827af7af3cbb2aaf524bdffeef

819名無しさん＠お腹いっぱい。

2026/04/18(土) 23:19:45.71ID:f5IKLL5o0

透明テキストなのでフォント埋め込みは不要ではないのかとGeminiに聞いたら
スクリプトを少し変更してくれました
事前に画像を加工してからJBIG2に変換すれば写真部分も少しは見やすくなるのかな？
https://68.gigafile.nu/0727-bd023607a527ef2fd34c772d8d09e56fb

820名無しさん＠お腹いっぱい。

2026/04/19(日) 00:01:51.24ID:MMNHHY5o0

>>818
> ちょっと位置がずれたけど検索できるPDFができた

sample.png.jsonの一文字目の座標をGimpに入れて見たら最初から文字の位置がずれている気がする
しかもPDFに埋め込む段階でそのずれが大きくなっている

https://i.imgur.com/1YZ83Oh.png

"box": [
{
"blockidx": 0,
"lineidx": 0,
"subidx": 0,
"vertical": 0,
"ruby": 0,
"rubybase": 0,
"emphasis": 0,
"cx": 244,
"cy": 738,
"w": 23.1483002,
"h": 21.8736,
"text": "菅"
},

821名無しさん＠お腹いっぱい。

2026/04/19(日) 00:20:02.27ID:XUCFyv//0

>>820
ごめんドキュメントにないな、cx, cyは中心位置なので、boxは(cx-w/2,cy-h/2,cx+w/2,cy+h/2)で書いてください。

822名無しさん＠お腹いっぱい。

2026/04/19(日) 00:24:05.32ID:MMNHHY5o0

>>821
なるほど、cから想像が出来てもよさそうで、こちらが早とちりしました

>>818,819
そのような扱いになっているのかGeminiに確認してみてはどうでしょう

823名無しさん＠お腹いっぱい。

2026/04/19(日) 19:34:41.33ID:lUovggkO0

>>818,819
BunkoOCRのJsonを直接処理するように改造した
効率悪そうだけど横書きはぴったり

https://pastebin.com/aeB9HnPk
https://i.imgur.com/v0lErte.png
https://i.imgur.com/qUjtgzA.png

824名無しさん＠お腹いっぱい。

2026/04/19(日) 21:49:58.31ID:59Z+Sbod0

>>820
ありがとうございます　ぴったり合いました
bunkoOCRではテキスト出力で行が変になっていても文字単位でPDFにすれば問題なしですね
PDFリーダーは意外と賢くて縦横混在ページでも段組みがあるページでも検索できて便利

GeminiにhOCRを使うように作っておいてもらったのは後でNDLでも使おうと思っていたためです
そちらは文字単位の座標がないので縦書きは面倒だし正確にはできないけどね
NDLのPDF画像を任意の不可逆圧縮画像に差し替えたい

825名無しさん＠お腹いっぱい。

2026/04/19(日) 22:33:02.48ID:59Z+Sbod0

>>823
専用スクリプトありがとうございます
あいにくJBIG2ではエラーになってしまいました
対応していただくことはできますか
Pythonはほとんどわからなくてお願いするしかないのですが・・・

826名無しさん＠お腹いっぱい。

2026/04/19(日) 23:40:07.62ID:A6R7mGhy0

>>825
自分も詳しく無いけどAIがなんとかしてくれた
https://pastebin.com/dNmnVHmn
https://i.imgur.com/HOCkho7.png

$ pip install pymupdf --only-binary :all:

827名無しさん＠お腹いっぱい。

2026/04/20(月) 08:37:15.68ID:d1Ae8gJx0

>>826
ありがとう　JBIG2も読み取れました
近くKindleのDRM解除ができなくなると予想されているので替わりに
白黒2値だが非常に高圧縮のJBIG2でpdf化しようかと考えていました
サイズが変えられないのは難点だがいつも同じ大きさで読んでいるのでそれに合わせてスキャン

828名無しさん＠お腹いっぱい。

2026/04/20(月) 18:49:01.53ID:d1Ae8gJx0

「NDLのPDF画像を任意の不可逆圧縮画像に差し替えたい」と書きましたがAIに聞いたら826さんが使った
pymupdfを使うとサイズが同じ画像で置換できるという回答でした
巨大なNDLOCRのPDFを好きなように圧縮できるので安心しました
https://36.gigafile.nu/0729-dc8d1a276928acdad7ea69853d4c83555

829名無しさん＠お腹いっぱい。

2026/04/20(月) 23:34:18.49ID:FeSo6viZ0

block情報も利用して縦書きのラインを揃えた
https://pastebin.com/7rWVsnNT
https://i.imgur.com/3aywECH.png
BunkoOCR専用度増し増し

830名無しさん＠お腹いっぱい。

2026/04/21(火) 00:02:11.99ID:GaUBEntQ0

>>827
pdf化はどうやって?

831名無しさん＠お腹いっぱい。

2026/04/21(火) 08:34:57.24ID:WyQp2wYZ0

>>830
823-826-829さんのツールを使うのであれば
bunkoOCRは品質のよい画像で使って、サイズを落とした画像に変換をしておいて、
ツールでそれを指定してpdfを作るだけです
pdfはページごとになるけど結合ツールは色々あるでしょう

832名無しさん＠お腹いっぱい。

2026/04/21(火) 09:15:34.15ID:6UofQAeG0

>>831
いえ、Kindle書籍から作るのは自明ではないような（そういう話じゃないのかな）
もしかしてスクショを撮ってそれを変換とか? という気素朴な疑問です

833名無しさん＠お腹いっぱい。

2026/04/21(火) 10:02:33.07ID:WyQp2wYZ0

>>829
画像→PDFのオーバーヘッドが819よりも少し大きいので10個まとめてpdfを作ったらどうか試そうとしていたら
途中でエラーが発生しました
指定画像はpngでもjbig2でも発生
https://74.gigafile.nu/0730-b986119e63a9000debde011fa8daf0c4f

834名無しさん＠お腹いっぱい。

2026/04/21(火) 10:16:47.33ID:WyQp2wYZ0

>>832
近くKindle for PCは使えなくされてDRM解除はできなくなりそうです
新リーダーでスクショがブロックされたらアウトですがスクショが取れればUWSCのスクリプトとかで
まとめてスクショを取って変換するつもりです

835833

2026/04/21(火) 10:59:42.93ID:WyQp2wYZ0

エラーにならなかった9個を1つのPDFにまとめてみました

jbig2のサイズ合計86.5KB
819のpdf 129KB
829のpdf 185KB

今までepubで保存できていたのができなくなるので代替としてできるだけ小さく
保存しておきたいという特殊用途には向かないようでした

836名無しさん＠お腹いっぱい。

2026/04/21(火) 11:50:03.10ID:WEoRxsCr0

>>833,835
パブリックドメインや所有物(紙の本)に対する個人的な利用範囲内での使用を想定してました
別の人との話の流れ的に電子書籍の権限外利用に使われそうなので一旦打ち止めにしようと思います

837名無しさん＠お腹いっぱい。

2026/04/22(水) 01:00:25.01ID:MZ83qPGU0

ndlocrlite改善きたー
もう精度あのまんまかと思ってたわ

838名無しさん＠お腹いっぱい。

2026/04/22(水) 01:44:42.91ID:GdakDMll0

おお。モデルの修正入ってるやん
試そう

839名無しさん＠お腹いっぱい。

2026/04/22(水) 11:27:12.10ID:dsfTz/Us0

縦中横検出ができるようになったのか

840名無しさん＠お腹いっぱい。

2026/04/22(水) 14:37:47.41ID:llCGQj5X0

振り仮名は付けてくれるの？

841名無しさん＠お腹いっぱい。

2026/04/22(水) 14:48:36.01ID:dsfTz/Us0

ndlocrliteのjsonは縦書き横書きどちらのテキストにも
"isVertical": "true"
と書かれているのはどうしてなのかな

842名無しさん＠お腹いっぱい。

2026/04/23(木) 22:42:00.09ID:DIU9BuVo0

縦中横直ってないじゃん
https://www.toyobijutsu-prt.co.jp/com-design/dtp-63/
の例をためしたけど一番最初の
最初の「帝国の支配は52年続いた。」からデタラメ。

843名無しさん＠お腹いっぱい。

2026/04/23(木) 22:47:59.62ID:2E75QEEx0

>>842
https://i.imgur.com/WcJingk.jpeg

844名無しさん＠お腹いっぱい。

2026/04/24(金) 00:07:14.56ID:vqm7uVxH0

>>842
--enable-tcy --tcy-min-line-width 25 --tcy-seg-min-gap 3 --tcy-max-aspect-ratio 0.82 --tcy-ocr-margin-ratio 0.2

数字・位取り・小数点について
・連数字、適用する数字の桁数
(例)
(1)帝国の支配は、52年続いた。
(2) 気温が氷点下になったのは112年ぶりのこと。
(3) 気温が氷点下になったのは112年ぶりのこと。
・漢数字とアラビア数字の統一 (西暦など)
(例)
(4)二〇一一年九月から続いた●●内閣は五ヶ月あまりで
終了し、 2012年1月に××内閣が誕生した。
数字4桁以上の時の位取り
(例)
(5)静岡県浜松市の面積は約一五五八kmiである。
(6) 静岡県浜松市の面積は約一、五五八kmiである。
(7) 静岡県浜松市の面積は約一.五五八kmiである。
・小数点
(例)
(8)濃度0・5%の食塩水
(9)濃度0.5%の食塩水
(1)濃度0.5%の食塩水

845名無しさん＠お腹いっぱい。

2026/04/24(金) 04:29:14.75ID:Rtjh03dh0

流石に㎢は2がちっちゃすぎて出ないか

846名無しさん＠お腹いっぱい。

2026/04/24(金) 09:55:54.19ID:XIgeEDes0

コマンドラインで指定する必要があるのね
２桁の数字くらいGUI版デフォルトで対応してほしいな

847名無しさん＠お腹いっぱい。

2026/04/24(金) 09:58:37.62ID:B2jNbBOS0

Win+Shift+Tの画面OCRは自動で縦中横認識出来る

848名無しさん＠お腹いっぱい。

2026/04/28(火) 12:27:01.92ID:Xjje+GWF0

というか横しか対応してないオチとか

849名無しさん＠お腹いっぱい。

2026/04/30(木) 11:59:11.44ID:oA/GtW7W0

bunkoOCRはテキストの行が入れ替わるだけでなく、テキストのブロックが丸々抜けてしまうことがあり、
そういう時にはjsonにもそのテキストのブロックは記録されていない
それでも文字は全部精度よく記録されているのでjsonでPDFも作っておくのがよさそう

850名無しさん＠お腹いっぱい。

2026/04/30(木) 12:17:40.74ID:SNaEtCHY0

>>849
あれやこれや処理してる時にバグが取れてなくて飛ぶことがあるので、失敗する画像例を作者に送りつけてくれると
バグの発見が速くなるのでもしよければ送っておいてください。
だいぶ直したけど、まだリリースできてなくてすみません

851名無しさん＠お腹いっぱい。

2026/04/30(木) 17:41:58.41ID:oA/GtW7W0

>>850
作者様に以前メールでお送りしたブロック順がメチャクチャになり横を縦と認識された部分もあるサンプル
https://i.imgur.com/rr8qttx.jpeg
でPDFを作ってみました
「テキストのブロックが丸々抜けてしまう」は見間違いでした　すみません
SumatraPDFはページまたぎ検索もできてでPDFでもリフローテキストと同様に使えますがこの例では
bunkoOCRでの誤認識と同じく「竹藁」と「原料となっている。竹紙は」がヒットしてしまいました
「竹」と「藁」がつながってしまうのは理解できますが、「原料となっている。」と「竹紙は」が
つながってしまうのはちょっと不思議です

852名無しさん＠お腹いっぱい。

2026/04/30(木) 18:06:54.07ID:oA/GtW7W0

透明テキストを可視化したものを一応アップします
https://3.gigafile.nu/0808-cf784ae298abe230af3d5df929a4f435c

853名無しさん＠お腹いっぱい。

2026/04/30(木) 19:27:32.05ID:SNaEtCHY0

>>851
あれかー。めちゃ難易度高いやつで、まだ完全にはクリアできてないです。
近い所を連結するようにしてるのが悪さしてるんですよね。
表っぽい、枠線がないやつは順序が難しい

いまのところこれくらい
https://120.gigafile.nu/0505-babdafae4f15de5d1577424efe06b6342

854名無しさん＠お腹いっぱい。

2026/04/30(木) 22:51:34.32ID:oA/GtW7W0

bunkoOCRの書き出したテキストが、

「・・・現在、日本紙幣の主原料となっているほか、ティーバッグ、掃除機の紙パック
の原料となっている。

竹紙は、中国で唐時代（7世紀）から作られ、宋時代（10世紀以降）には竹が紙
の主原料となった。・・・」

となっていますが、１文字ずつ書き込んだだけのPDFをどうテキストとしてつなげるかはリーダーの判断だと思うのですが、
OCRテキストとSumatraのどちらも「原料となっている。」と「竹紙は」がつながっていたのがどうしてかなと思いました

レイアウトを維持しようという意図のないNDLOCRはテキストの順序だけは正しいですね
文字化けもいくつかあるしbunkoOCRに期待しています

855名無しさん＠お腹いっぱい。

2026/05/01(金) 01:06:36.59ID:RQBXBvV60

内部的に、「竹」と「藁」のタイトルの後の空白が、段落の区切れと誤認していて
「竹　藁」で一つにしちゃってて、その後ろの本文が、空行区切りで連続している本文とみなして
繋げて出力してしまっています。
https://i.imgur.com/EnzPhEQ.png

これを解決するには、表のヘッダーと本文の部分に分けて認識できる構文解析が必要なので
結構難しい

856名無しさん＠お腹いっぱい。

2026/05/01(金) 04:38:23.22ID:4dgFFWM80

普段ほとんど見ないようなレアな漢字や段組みまでケアした完璧なものよりも
普通の文庫やハードカバーのOCRなら問題なく出来る程度のバージョンでもいいので出してほしいです

857名無しさん＠お腹いっぱい。

2026/05/01(金) 06:09:03.28ID:Paf9p86Q0

それな
いいとこ取りしてndlocrliteにレイアウトまかせて、文字認識はbunkoocrとか出来ない？のが残念

858名無しさん＠お腹いっぱい。

2026/05/01(金) 09:43:33.87ID:RQBXBvV60

普通の文庫というか、私が今読んでる文庫本の小説を読みながら、ミスってるところを修正してるので
読書の時間が律速過程になっているという。
自分で読む本くらいちゃんとスキャンできないと意味がないのでな

ndlocrliteのやってるPARSeqと、bunkoOCRで使ってるfindtextCenterNetは、文字のデコードの仕方が異なるので
なかなか合わせにくい

PARSeqの方式は、先に文字列のあるBoxを見つけておいて、短冊状の文字列の画像をテキストにするやり方。
findtextCenterNetの方式は、文字の座標とその連結方向を見つけておいて、文字を順番に連結してテキストにするやり方。

PARSeqはTransformer系なので、文字を落としたりする。
findtextCenterNetは文字ごとにデコードするので、あとから文脈で補正できるようにTransformerで修正してる。

859名無しさん＠お腹いっぱい。

2026/05/01(金) 20:27:42.78ID:5O1n87Gj0

bunkoOCR作者に画像送るURLがサーバーエラーになってない？

860名無しさん＠お腹いっぱい。

2026/05/01(金) 20:50:14.32ID:RQBXBvV60

>>859
ほんまや。直しておきます

861名無しさん＠お腹いっぱい。

2026/05/01(金) 21:11:16.37ID:RQBXBvV60

動くようになったです。だいぶ止まってたっぽ

862名無しさん＠お腹いっぱい。

2026/05/01(金) 21:34:02.95ID:5O1n87Gj0

対応ありがとうございます
漢字の一が認識されないのがちょいちょいあったので送っときました

863名無しさん＠お腹いっぱい。

2026/05/01(金) 21:40:33.64ID:RQBXBvV60

>>862
ありがとうございます。
手元の最新の開発版では上手くいけているので、バグがあったのがどこかで直ったっぽいです。
現在の修正が一段落ついたらリリースしたいと思います。

864名無しさん＠お腹いっぱい。

2026/05/01(金) 21:51:46.87ID:K98nN0p10

漢数字の「一」と同様にカタカナの「ー」も欠落することがありますね

865名無しさん＠お腹いっぱい。

2026/05/01(金) 21:53:35.94ID:BDPCeRc20

横だけどテスト画像提供者が作者最新版でのテスト結果を受け取れるように
画像のハッシュ値か何かをキーとしてダウンロード出来る仕組みがあったら良いのに
と思いました。

866名無しさん＠お腹いっぱい。

2026/05/02(土) 12:00:33.04ID:A2FGbi8r0

確かに。こっちから結果送りたい時に困ってたんですよね。
仕組み考えておきます。

867名無しさん＠お腹いっぱい。

2026/05/03(日) 13:10:57.10ID:dpfsbASQ0

gemma4試したけどマルチモーダルのLLMがOCRで座標返すのが意味わからなすぎる
E4Bはスマホで動かしたけど一つ上をパソコンで動かしかったが30GBとかとびすぎやろ

868名無しさん＠お腹いっぱい。

2026/05/15(金) 11:09:25.59ID:uxVN+/B90

NDLOCR-Liteが作成するpdfはUniJIS-UCS2を使っているので認識できる文字範囲は
それ以下だと想像しますがbunkoOCRの認識文字範囲はどれくらいなんでしょうか

869名無しさん＠お腹いっぱい。

2026/05/15(金) 18:04:20.60ID:sJn+LSnP0

>>868
学習自体は、Unicodeコードポイントが単独で振られている漢字は対応できるようにしたはず。（異体字フラグは未対応）なので、学習に使ったフォントに、文字が収録されてたら反応すると思います。
しかし、ちょっとバグがあって、transformerで文脈補正すると新字体になってしまう文字があるので、今直してます。今のところこの部分をオフにしたら多分出そう。

870名無しさん＠お腹いっぱい。

2026/05/15(金) 19:42:48.80ID:iF+n6JkY0

NDLOCR試してみたけどDocument intelligenceよりは落ちるね。取り敢えずonnx直接叩いて出力まで行けたけど
レイアウト解析はLayoutモデルより使いかって良さそう

Bunko OCRはキャラクターの中心検出だっけ？Document intelligenceでキャラ単位配置までできたけど元々のポリゴンが若干ずれてるみたいなんよね
Macで使う場合モデルとengineのc++ソースだけあればいいんかな？

871名無しさん＠お腹いっぱい。

2026/05/15(金) 20:13:44.60ID:xfSS0l590

あ、findtextcenternetの方見ればいいのか
上に書いてあった

872名無しさん＠お腹いっぱい。

2026/05/15(金) 21:14:34.09ID:uxVN+/B90

https://kanji.jitenon.jp/cat/jisdai3 のJIS第3水準一番上の表をbunkoOCRで試してみましたが完璧ですね
NDOCR-Liteは古い本のために作ったはずなのに誤認識も多いし期待外れ

873名無しさん＠お腹いっぱい。

2026/05/15(金) 21:56:20.94ID:FCGZ18Ho0

NDLOCR-Liteはここに列挙されている7千文字余り以外は出力されない(認識しない)のでは？
https://github.com/ndl-lab/ndlocr-lite/blob/master/train/parseqcode/configs/NDLmoji.yaml

874名無しさん＠お腹いっぱい。

2026/05/16(土) 11:58:38.21ID:qeWQmLQu0

textcenternet、macで使ってみてるけどなんかメチャクチャ時間かかってる
図表付きレイアウト600dpi高解像度だと対応してなかったりします？
単に自分の実装が悪いだけだと思うけど、どのくらいの速度が普通なんだろう

875名無しさん＠お腹いっぱい。

2026/05/16(土) 21:45:12.49ID:TgRbPeEj0

>>874
Macでやるなら、coreMLに変換してあげて。macのMPSはそんなに速くない

876名無しさん＠お腹いっぱい。

2026/05/17(日) 17:06:13.04ID:4yIaDp5X0

>>875
調べてみる
ありがとう

877名無しさん＠お腹いっぱい。

2026/06/02(火) 10:25:05.25ID:97LXg5/h0

NDL OCRなんか＆がエスケープなのか&って取得されるな...
あと全角アルファベットが半角にされる
bunko ocrは少し全角で拾ってくれるけど、それでも半角が多い印象

配置するときにズレる原因になるんだよな
座標から推測してもいいけど自動認識できるモデルないかな
とくにndlはline座標だから

878名無しさん＠お腹いっぱい。

2026/06/02(火) 10:25:26.15ID:97LXg5/h0

エスケープは&だったわ

879名無しさん＠お腹いっぱい。

2026/06/02(火) 10:25:54.50ID:97LXg5/h0

あれここでもされるんか
& ampてなる

880名無しさん＠お腹いっぱい。

2026/06/02(火) 10:53:29.82ID:97LXg5/h0

xmlの仕様だったみたいだわ
パーサー通したら元に戻るから問題無かった
全角半角問題はまだあるけど

881名無しさん＠お腹いっぱい。

2026/06/02(火) 14:37:08.93ID:uBCAbqZ40

全角半角は本質的に形が一緒なので、判定はむずい
補正判定するとしたら、文字の幅が全角なのを使うか、文字送りが全角幅なのを使うか

882名無しさん＠お腹いっぱい。

2026/06/02(火) 14:53:28.06ID:haE6UAe70

全角文字が複数あればともかく
Mとかは全角でもプロポーショナルでも横幅が同じようなものなので1文字だと人間でもAIでも厳密な区別は不可能
前後の文脈とか縦書きか横書きかとか他の場所でどう現れてるかとかフォントの癖とか、より上位のコンテキストから判断する必要がある
全角と半角は使用フォントの違いであってテキストの違いではないと捉えるべき

883名無しさん＠お腹いっぱい。

2026/06/02(火) 18:39:34.20ID:QccPy7qd0

まぁ、その通りでテキスト抽出するだけなｒら問題にならないんだが、PDFに戻すと結構ずれて気になることがあるんだよね
コンテキスト判断必要なところからしてAI向けだとは思う

884名無しさん＠お腹いっぱい。

2026/06/02(火) 20:21:33.85ID:haE6UAe70

>>883
それをきちんとやろうとしたら全角半角以外でもフォントのサイズやイタリックやボールドなど他の字形要素でも同じ問題が起きるので
「OCRでテキストだけじゃなく各文字の使用フォントとサイズまで識別する。透明テキストを埋め込む際に同じフォントとサイズで埋め込む」までやらないといけない

フォント識別してもそのフォント持ってない問題とかもあって、裏技としてはOCRしながら画像から新しくフォントを生成してそのフォントで埋め込むみたいなのもできるんだろうけど普通はコストに見合わない

885名無しさん＠お腹いっぱい。

2026/06/02(火) 20:31:29.21ID:64umnu5E0

英文専用OCRではイタリックやボールド、飾り文字も認識出来るのがあったかと

886名無しさん＠お腹いっぱい。

2026/06/03(水) 09:16:04.40ID:/Nv6QzpK0

>>884
Document intelligence ではフォントとスタイル認識できるからやってみてるけど、あっちはあっちでポリゴンが実際の文字の位置とちょっとずれてるっぽくて面倒くさいのよね

887名無しさん＠お腹いっぱい。

2026/06/03(水) 10:16:52.63ID:FUE8x4HF0

NDLOCR-Lite v.1.2.1 で本に載っているC言語系のソースコードを OCR でテキストファイルに出すと関数の終わりのカッコ } で謎の数字が入っている。
記号やプログラムで使われる特定のキーワードだと、プログラム的に解釈して、その時持っている変数をOCRの結果に出してそう。
変換精度は満足。
1と小文字Lを間違えるのと、スペース区切りを間違えるのは仕方がない。

888名無しさん＠お腹いっぱい。

2026/06/04(木) 00:05:48.27ID:rR1rcJJ70

中国語日本語の専門用語辞典をNDLにかけてみたら時々謎の英語ぽい無意味なアルファベット文字列が出力されてた

889名無しさん＠お腹いっぱい。

2026/06/06(土) 22:42:05.88ID:yoBQqSOK0

ndlocr-liteにプレビューとして1.2.2が出ていた
PDFの透明テキストの位置が改善されていた
PDFの画像は今まで可逆のFlateエンコードだったのが品質75のDCTエンコードに変えられた
初期版の時のようにASCIIのPDFになってしまったのでcpdf -squeezeとかしないとサイズがでかい

890名無しさん＠お腹いっぱい。

2026/06/07(日) 14:00:09.86ID:RxhR464W0

OCRが作成するPDFの画像を差し替えるために透明テキストを抽出してみた
https://yoshitan98.github.io/ocrtextlayer
既成プログラムしか使わないバッチファイル

スレをまとめに
5ch即うp → gzo.ai

新着レスの表示

レスを投稿する

ニュース

スポーツ

なんでも

実況

【文字認識】OCRソフト（3文字目）【 自炊 】

【文字認識】OCRソフト（3文字目）【自炊】