890コメント309KB

【文字認識】OCRソフト（3文字目）【自炊】

855名無しさん＠お腹いっぱい。

2026/05/01(金) 01:06:36.59ID:RQBXBvV60

内部的に、「竹」と「藁」のタイトルの後の空白が、段落の区切れと誤認していて
「竹　藁」で一つにしちゃってて、その後ろの本文が、空行区切りで連続している本文とみなして
繋げて出力してしまっています。
https://i.imgur.com/EnzPhEQ.png

これを解決するには、表のヘッダーと本文の部分に分けて認識できる構文解析が必要なので
結構難しい

856名無しさん＠お腹いっぱい。

2026/05/01(金) 04:38:23.22ID:4dgFFWM80

普段ほとんど見ないようなレアな漢字や段組みまでケアした完璧なものよりも
普通の文庫やハードカバーのOCRなら問題なく出来る程度のバージョンでもいいので出してほしいです

857名無しさん＠お腹いっぱい。

2026/05/01(金) 06:09:03.28ID:Paf9p86Q0

それな
いいとこ取りしてndlocrliteにレイアウトまかせて、文字認識はbunkoocrとか出来ない？のが残念

858名無しさん＠お腹いっぱい。

2026/05/01(金) 09:43:33.87ID:RQBXBvV60

普通の文庫というか、私が今読んでる文庫本の小説を読みながら、ミスってるところを修正してるので
読書の時間が律速過程になっているという。
自分で読む本くらいちゃんとスキャンできないと意味がないのでな

ndlocrliteのやってるPARSeqと、bunkoOCRで使ってるfindtextCenterNetは、文字のデコードの仕方が異なるので
なかなか合わせにくい

PARSeqの方式は、先に文字列のあるBoxを見つけておいて、短冊状の文字列の画像をテキストにするやり方。
findtextCenterNetの方式は、文字の座標とその連結方向を見つけておいて、文字を順番に連結してテキストにするやり方。

PARSeqはTransformer系なので、文字を落としたりする。
findtextCenterNetは文字ごとにデコードするので、あとから文脈で補正できるようにTransformerで修正してる。

859名無しさん＠お腹いっぱい。

2026/05/01(金) 20:27:42.78ID:5O1n87Gj0

bunkoOCR作者に画像送るURLがサーバーエラーになってない？

860名無しさん＠お腹いっぱい。

2026/05/01(金) 20:50:14.32ID:RQBXBvV60

>>859
ほんまや。直しておきます

861名無しさん＠お腹いっぱい。

2026/05/01(金) 21:11:16.37ID:RQBXBvV60

動くようになったです。だいぶ止まってたっぽ

862名無しさん＠お腹いっぱい。

2026/05/01(金) 21:34:02.95ID:5O1n87Gj0

対応ありがとうございます
漢字の一が認識されないのがちょいちょいあったので送っときました

863名無しさん＠お腹いっぱい。

2026/05/01(金) 21:40:33.64ID:RQBXBvV60

>>862
ありがとうございます。
手元の最新の開発版では上手くいけているので、バグがあったのがどこかで直ったっぽいです。
現在の修正が一段落ついたらリリースしたいと思います。

864名無しさん＠お腹いっぱい。

2026/05/01(金) 21:51:46.87ID:K98nN0p10

漢数字の「一」と同様にカタカナの「ー」も欠落することがありますね

865名無しさん＠お腹いっぱい。

2026/05/01(金) 21:53:35.94ID:BDPCeRc20

横だけどテスト画像提供者が作者最新版でのテスト結果を受け取れるように
画像のハッシュ値か何かをキーとしてダウンロード出来る仕組みがあったら良いのに
と思いました。

866名無しさん＠お腹いっぱい。

2026/05/02(土) 12:00:33.04ID:A2FGbi8r0

確かに。こっちから結果送りたい時に困ってたんですよね。
仕組み考えておきます。

867名無しさん＠お腹いっぱい。

2026/05/03(日) 13:10:57.10ID:dpfsbASQ0

gemma4試したけどマルチモーダルのLLMがOCRで座標返すのが意味わからなすぎる
E4Bはスマホで動かしたけど一つ上をパソコンで動かしかったが30GBとかとびすぎやろ

868名無しさん＠お腹いっぱい。

2026/05/15(金) 11:09:25.59ID:uxVN+/B90

NDLOCR-Liteが作成するpdfはUniJIS-UCS2を使っているので認識できる文字範囲は
それ以下だと想像しますがbunkoOCRの認識文字範囲はどれくらいなんでしょうか

869名無しさん＠お腹いっぱい。

2026/05/15(金) 18:04:20.60ID:sJn+LSnP0

>>868
学習自体は、Unicodeコードポイントが単独で振られている漢字は対応できるようにしたはず。（異体字フラグは未対応）なので、学習に使ったフォントに、文字が収録されてたら反応すると思います。
しかし、ちょっとバグがあって、transformerで文脈補正すると新字体になってしまう文字があるので、今直してます。今のところこの部分をオフにしたら多分出そう。

870名無しさん＠お腹いっぱい。

2026/05/15(金) 19:42:48.80ID:iF+n6JkY0

NDLOCR試してみたけどDocument intelligenceよりは落ちるね。取り敢えずonnx直接叩いて出力まで行けたけど
レイアウト解析はLayoutモデルより使いかって良さそう

Bunko OCRはキャラクターの中心検出だっけ？Document intelligenceでキャラ単位配置までできたけど元々のポリゴンが若干ずれてるみたいなんよね
Macで使う場合モデルとengineのc++ソースだけあればいいんかな？

871名無しさん＠お腹いっぱい。

2026/05/15(金) 20:13:44.60ID:xfSS0l590

あ、findtextcenternetの方見ればいいのか
上に書いてあった

872名無しさん＠お腹いっぱい。

2026/05/15(金) 21:14:34.09ID:uxVN+/B90

https://kanji.jitenon.jp/cat/jisdai3 のJIS第3水準一番上の表をbunkoOCRで試してみましたが完璧ですね
NDOCR-Liteは古い本のために作ったはずなのに誤認識も多いし期待外れ

873名無しさん＠お腹いっぱい。

2026/05/15(金) 21:56:20.94ID:FCGZ18Ho0

NDLOCR-Liteはここに列挙されている7千文字余り以外は出力されない(認識しない)のでは？
https://github.com/ndl-lab/ndlocr-lite/blob/master/train/parseqcode/configs/NDLmoji.yaml

874名無しさん＠お腹いっぱい。

2026/05/16(土) 11:58:38.21ID:qeWQmLQu0

textcenternet、macで使ってみてるけどなんかメチャクチャ時間かかってる
図表付きレイアウト600dpi高解像度だと対応してなかったりします？
単に自分の実装が悪いだけだと思うけど、どのくらいの速度が普通なんだろう

875名無しさん＠お腹いっぱい。

2026/05/16(土) 21:45:12.49ID:TgRbPeEj0

>>874
Macでやるなら、coreMLに変換してあげて。macのMPSはそんなに速くない

876名無しさん＠お腹いっぱい。

2026/05/17(日) 17:06:13.04ID:4yIaDp5X0

>>875
調べてみる
ありがとう

877名無しさん＠お腹いっぱい。

2026/06/02(火) 10:25:05.25ID:97LXg5/h0

NDL OCRなんか＆がエスケープなのか&って取得されるな...
あと全角アルファベットが半角にされる
bunko ocrは少し全角で拾ってくれるけど、それでも半角が多い印象

配置するときにズレる原因になるんだよな
座標から推測してもいいけど自動認識できるモデルないかな
とくにndlはline座標だから

878名無しさん＠お腹いっぱい。

2026/06/02(火) 10:25:26.15ID:97LXg5/h0

エスケープは&だったわ

879名無しさん＠お腹いっぱい。

2026/06/02(火) 10:25:54.50ID:97LXg5/h0

あれここでもされるんか
& ampてなる

880名無しさん＠お腹いっぱい。

2026/06/02(火) 10:53:29.82ID:97LXg5/h0

xmlの仕様だったみたいだわ
パーサー通したら元に戻るから問題無かった
全角半角問題はまだあるけど

881名無しさん＠お腹いっぱい。

2026/06/02(火) 14:37:08.93ID:uBCAbqZ40

全角半角は本質的に形が一緒なので、判定はむずい
補正判定するとしたら、文字の幅が全角なのを使うか、文字送りが全角幅なのを使うか

882名無しさん＠お腹いっぱい。

2026/06/02(火) 14:53:28.06ID:haE6UAe70

全角文字が複数あればともかく
Mとかは全角でもプロポーショナルでも横幅が同じようなものなので1文字だと人間でもAIでも厳密な区別は不可能
前後の文脈とか縦書きか横書きかとか他の場所でどう現れてるかとかフォントの癖とか、より上位のコンテキストから判断する必要がある
全角と半角は使用フォントの違いであってテキストの違いではないと捉えるべき

883名無しさん＠お腹いっぱい。

2026/06/02(火) 18:39:34.20ID:QccPy7qd0

まぁ、その通りでテキスト抽出するだけなｒら問題にならないんだが、PDFに戻すと結構ずれて気になることがあるんだよね
コンテキスト判断必要なところからしてAI向けだとは思う

884名無しさん＠お腹いっぱい。

2026/06/02(火) 20:21:33.85ID:haE6UAe70

>>883
それをきちんとやろうとしたら全角半角以外でもフォントのサイズやイタリックやボールドなど他の字形要素でも同じ問題が起きるので
「OCRでテキストだけじゃなく各文字の使用フォントとサイズまで識別する。透明テキストを埋め込む際に同じフォントとサイズで埋め込む」までやらないといけない

フォント識別してもそのフォント持ってない問題とかもあって、裏技としてはOCRしながら画像から新しくフォントを生成してそのフォントで埋め込むみたいなのもできるんだろうけど普通はコストに見合わない

885名無しさん＠お腹いっぱい。

2026/06/02(火) 20:31:29.21ID:64umnu5E0

英文専用OCRではイタリックやボールド、飾り文字も認識出来るのがあったかと

886名無しさん＠お腹いっぱい。

2026/06/03(水) 09:16:04.40ID:/Nv6QzpK0

>>884
Document intelligence ではフォントとスタイル認識できるからやってみてるけど、あっちはあっちでポリゴンが実際の文字の位置とちょっとずれてるっぽくて面倒くさいのよね

887名無しさん＠お腹いっぱい。

2026/06/03(水) 10:16:52.63ID:FUE8x4HF0

NDLOCR-Lite v.1.2.1 で本に載っているC言語系のソースコードを OCR でテキストファイルに出すと関数の終わりのカッコ } で謎の数字が入っている。
記号やプログラムで使われる特定のキーワードだと、プログラム的に解釈して、その時持っている変数をOCRの結果に出してそう。
変換精度は満足。
1と小文字Lを間違えるのと、スペース区切りを間違えるのは仕方がない。

888名無しさん＠お腹いっぱい。

2026/06/04(木) 00:05:48.27ID:rR1rcJJ70

中国語日本語の専門用語辞典をNDLにかけてみたら時々謎の英語ぽい無意味なアルファベット文字列が出力されてた

889名無しさん＠お腹いっぱい。

2026/06/06(土) 22:42:05.88ID:yoBQqSOK0

ndlocr-liteにプレビューとして1.2.2が出ていた
PDFの透明テキストの位置が改善されていた
PDFの画像は今まで可逆のFlateエンコードだったのが品質75のDCTエンコードに変えられた
初期版の時のようにASCIIのPDFになってしまったのでcpdf -squeezeとかしないとサイズがでかい

890名無しさん＠お腹いっぱい。

2026/06/07(日) 14:00:09.86ID:RxhR464W0

OCRが作成するPDFの画像を差し替えるために透明テキストを抽出してみた
https://yoshitan98.github.io/ocrtextlayer
既成プログラムしか使わないバッチファイル

スレをまとめに
5ch即うp → gzo.ai

新着レスの表示

レスを投稿する

【文字認識】OCRソフト（3文字目）【 自炊 】

【文字認識】OCRソフト（3文字目）【自炊】