内部的に、「竹」と「藁」のタイトルの後の空白が、段落の区切れと誤認していて
「竹 藁」で一つにしちゃってて、その後ろの本文が、空行区切りで連続している本文とみなして
繋げて出力してしまっています。
https://i.imgur.com/EnzPhEQ.png
これを解決するには、表のヘッダーと本文の部分に分けて認識できる構文解析が必要なので
結構難しい
【文字認識】OCRソフト(3文字目)【 自炊 】
855名無しさん@お腹いっぱい。
2026/05/01(金) 01:06:36.59ID:RQBXBvV602026/05/01(金) 04:38:23.22ID:4dgFFWM80
普段ほとんど見ないようなレアな漢字や段組みまでケアした完璧なものよりも
普通の文庫やハードカバーのOCRなら問題なく出来る程度のバージョンでもいいので出してほしいです
普通の文庫やハードカバーのOCRなら問題なく出来る程度のバージョンでもいいので出してほしいです
2026/05/01(金) 06:09:03.28ID:Paf9p86Q0
それな
いいとこ取りしてndlocrliteにレイアウトまかせて、文字認識はbunkoocrとか出来ない?のが残念
いいとこ取りしてndlocrliteにレイアウトまかせて、文字認識はbunkoocrとか出来ない?のが残念
858名無しさん@お腹いっぱい。
2026/05/01(金) 09:43:33.87ID:RQBXBvV60 普通の文庫というか、私が今読んでる文庫本の小説を読みながら、ミスってるところを修正してるので
読書の時間が律速過程になっているという。
自分で読む本くらいちゃんとスキャンできないと意味がないのでな
ndlocrliteのやってるPARSeqと、bunkoOCRで使ってるfindtextCenterNetは、文字のデコードの仕方が異なるので
なかなか合わせにくい
PARSeqの方式は、先に文字列のあるBoxを見つけておいて、短冊状の文字列の画像をテキストにするやり方。
findtextCenterNetの方式は、文字の座標とその連結方向を見つけておいて、文字を順番に連結してテキストにするやり方。
PARSeqはTransformer系なので、文字を落としたりする。
findtextCenterNetは文字ごとにデコードするので、あとから文脈で補正できるようにTransformerで修正してる。
読書の時間が律速過程になっているという。
自分で読む本くらいちゃんとスキャンできないと意味がないのでな
ndlocrliteのやってるPARSeqと、bunkoOCRで使ってるfindtextCenterNetは、文字のデコードの仕方が異なるので
なかなか合わせにくい
PARSeqの方式は、先に文字列のあるBoxを見つけておいて、短冊状の文字列の画像をテキストにするやり方。
findtextCenterNetの方式は、文字の座標とその連結方向を見つけておいて、文字を順番に連結してテキストにするやり方。
PARSeqはTransformer系なので、文字を落としたりする。
findtextCenterNetは文字ごとにデコードするので、あとから文脈で補正できるようにTransformerで修正してる。
2026/05/01(金) 20:27:42.78ID:5O1n87Gj0
bunkoOCR作者に画像送るURLがサーバーエラーになってない?
860名無しさん@お腹いっぱい。
2026/05/01(金) 20:50:14.32ID:RQBXBvV60 >>859
ほんまや。直しておきます
ほんまや。直しておきます
861名無しさん@お腹いっぱい。
2026/05/01(金) 21:11:16.37ID:RQBXBvV60 動くようになったです。だいぶ止まってたっぽ
2026/05/01(金) 21:34:02.95ID:5O1n87Gj0
対応ありがとうございます
漢字の一が認識されないのがちょいちょいあったので送っときました
漢字の一が認識されないのがちょいちょいあったので送っときました
863名無しさん@お腹いっぱい。
2026/05/01(金) 21:40:33.64ID:RQBXBvV602026/05/01(金) 21:51:46.87ID:K98nN0p10
漢数字の「一」と同様にカタカナの「ー」も欠落することがありますね
2026/05/01(金) 21:53:35.94ID:BDPCeRc20
横だけどテスト画像提供者が作者最新版でのテスト結果を受け取れるように
画像のハッシュ値か何かをキーとしてダウンロード出来る仕組みがあったら良いのに
と思いました。
画像のハッシュ値か何かをキーとしてダウンロード出来る仕組みがあったら良いのに
と思いました。
866名無しさん@お腹いっぱい。
2026/05/02(土) 12:00:33.04ID:A2FGbi8r0 確かに。こっちから結果送りたい時に困ってたんですよね。
仕組み考えておきます。
仕組み考えておきます。
2026/05/03(日) 13:10:57.10ID:dpfsbASQ0
gemma4試したけどマルチモーダルのLLMがOCRで座標返すのが意味わからなすぎる
E4Bはスマホで動かしたけど一つ上をパソコンで動かしかったが30GBとかとびすぎやろ
E4Bはスマホで動かしたけど一つ上をパソコンで動かしかったが30GBとかとびすぎやろ
2026/05/15(金) 11:09:25.59ID:uxVN+/B90
NDLOCR-Liteが作成するpdfはUniJIS-UCS2を使っているので認識できる文字範囲は
それ以下だと想像しますがbunkoOCRの認識文字範囲はどれくらいなんでしょうか
それ以下だと想像しますがbunkoOCRの認識文字範囲はどれくらいなんでしょうか
869名無しさん@お腹いっぱい。
2026/05/15(金) 18:04:20.60ID:sJn+LSnP0 >>868
学習自体は、Unicodeコードポイントが単独で振られている漢字は対応できるようにしたはず。(異体字フラグは未対応)なので、学習に使ったフォントに、文字が収録されてたら反応すると思います。
しかし、ちょっとバグがあって、transformerで文脈補正すると新字体になってしまう文字があるので、今直してます。今のところこの部分をオフにしたら多分出そう。
学習自体は、Unicodeコードポイントが単独で振られている漢字は対応できるようにしたはず。(異体字フラグは未対応)なので、学習に使ったフォントに、文字が収録されてたら反応すると思います。
しかし、ちょっとバグがあって、transformerで文脈補正すると新字体になってしまう文字があるので、今直してます。今のところこの部分をオフにしたら多分出そう。
870名無しさん@お腹いっぱい。
2026/05/15(金) 19:42:48.80ID:iF+n6JkY0 NDLOCR試してみたけどDocument intelligenceよりは落ちるね。取り敢えずonnx直接叩いて出力まで行けたけど
レイアウト解析はLayoutモデルより使いかって良さそう
Bunko OCRはキャラクターの中心検出だっけ?Document intelligenceでキャラ単位配置までできたけど元々のポリゴンが若干ずれてるみたいなんよね
Macで使う場合モデルとengineのc++ソースだけあればいいんかな?
レイアウト解析はLayoutモデルより使いかって良さそう
Bunko OCRはキャラクターの中心検出だっけ?Document intelligenceでキャラ単位配置までできたけど元々のポリゴンが若干ずれてるみたいなんよね
Macで使う場合モデルとengineのc++ソースだけあればいいんかな?
871名無しさん@お腹いっぱい。
2026/05/15(金) 20:13:44.60ID:xfSS0l590 あ、findtextcenternetの方見ればいいのか
上に書いてあった
上に書いてあった
2026/05/15(金) 21:14:34.09ID:uxVN+/B90
https://kanji.jitenon.jp/cat/jisdai3 のJIS第3水準一番上の表をbunkoOCRで試してみましたが完璧ですね
NDOCR-Liteは古い本のために作ったはずなのに誤認識も多いし期待外れ
NDOCR-Liteは古い本のために作ったはずなのに誤認識も多いし期待外れ
2026/05/15(金) 21:56:20.94ID:FCGZ18Ho0
NDLOCR-Liteはここに列挙されている7千文字余り以外は出力されない(認識しない)のでは?
https://github.com/ndl-lab/ndlocr-lite/blob/master/train/parseqcode/configs/NDLmoji.yaml
https://github.com/ndl-lab/ndlocr-lite/blob/master/train/parseqcode/configs/NDLmoji.yaml
874名無しさん@お腹いっぱい。
2026/05/16(土) 11:58:38.21ID:qeWQmLQu0 textcenternet、macで使ってみてるけどなんかメチャクチャ時間かかってる
図表付きレイアウト600dpi高解像度だと対応してなかったりします?
単に自分の実装が悪いだけだと思うけど、どのくらいの速度が普通なんだろう
図表付きレイアウト600dpi高解像度だと対応してなかったりします?
単に自分の実装が悪いだけだと思うけど、どのくらいの速度が普通なんだろう
875名無しさん@お腹いっぱい。
2026/05/16(土) 21:45:12.49ID:TgRbPeEj0 >>874
Macでやるなら、coreMLに変換してあげて。macのMPSはそんなに速くない
Macでやるなら、coreMLに変換してあげて。macのMPSはそんなに速くない
876名無しさん@お腹いっぱい。
2026/05/17(日) 17:06:13.04ID:4yIaDp5X0877名無しさん@お腹いっぱい。
2026/06/02(火) 10:25:05.25ID:97LXg5/h0 NDL OCRなんか&がエスケープなのか&って取得されるな...
あと全角アルファベットが半角にされる
bunko ocrは少し全角で拾ってくれるけど、それでも半角が多い印象
配置するときにズレる原因になるんだよな
座標から推測してもいいけど自動認識できるモデルないかな
とくにndlはline座標だから
あと全角アルファベットが半角にされる
bunko ocrは少し全角で拾ってくれるけど、それでも半角が多い印象
配置するときにズレる原因になるんだよな
座標から推測してもいいけど自動認識できるモデルないかな
とくにndlはline座標だから
878名無しさん@お腹いっぱい。
2026/06/02(火) 10:25:26.15ID:97LXg5/h0 エスケープは&だったわ
879名無しさん@お腹いっぱい。
2026/06/02(火) 10:25:54.50ID:97LXg5/h0 あれここでもされるんか
& ampてなる
& ampてなる
880名無しさん@お腹いっぱい。
2026/06/02(火) 10:53:29.82ID:97LXg5/h0 xmlの仕様だったみたいだわ
パーサー通したら元に戻るから問題無かった
全角半角問題はまだあるけど
パーサー通したら元に戻るから問題無かった
全角半角問題はまだあるけど
881名無しさん@お腹いっぱい。
2026/06/02(火) 14:37:08.93ID:uBCAbqZ40 全角半角は本質的に形が一緒なので、判定はむずい
補正判定するとしたら、文字の幅が全角なのを使うか、文字送りが全角幅なのを使うか
補正判定するとしたら、文字の幅が全角なのを使うか、文字送りが全角幅なのを使うか
882名無しさん@お腹いっぱい。
2026/06/02(火) 14:53:28.06ID:haE6UAe70 全角文字が複数あればともかく
Mとかは全角でもプロポーショナルでも横幅が同じようなものなので1文字だと人間でもAIでも厳密な区別は不可能
前後の文脈とか縦書きか横書きかとか他の場所でどう現れてるかとかフォントの癖とか、より上位のコンテキストから判断する必要がある
全角と半角は使用フォントの違いであってテキストの違いではないと捉えるべき
Mとかは全角でもプロポーショナルでも横幅が同じようなものなので1文字だと人間でもAIでも厳密な区別は不可能
前後の文脈とか縦書きか横書きかとか他の場所でどう現れてるかとかフォントの癖とか、より上位のコンテキストから判断する必要がある
全角と半角は使用フォントの違いであってテキストの違いではないと捉えるべき
883名無しさん@お腹いっぱい。
2026/06/02(火) 18:39:34.20ID:QccPy7qd0 まぁ、その通りでテキスト抽出するだけなrら問題にならないんだが、PDFに戻すと結構ずれて気になることがあるんだよね
コンテキスト判断必要なところからしてAI向けだとは思う
コンテキスト判断必要なところからしてAI向けだとは思う
884名無しさん@お腹いっぱい。
2026/06/02(火) 20:21:33.85ID:haE6UAe70 >>883
それをきちんとやろうとしたら全角半角以外でもフォントのサイズやイタリックやボールドなど他の字形要素でも同じ問題が起きるので
「OCRでテキストだけじゃなく各文字の使用フォントとサイズまで識別する。透明テキストを埋め込む際に同じフォントとサイズで埋め込む」までやらないといけない
フォント識別してもそのフォント持ってない問題とかもあって、裏技としてはOCRしながら画像から新しくフォントを生成してそのフォントで埋め込むみたいなのもできるんだろうけど普通はコストに見合わない
それをきちんとやろうとしたら全角半角以外でもフォントのサイズやイタリックやボールドなど他の字形要素でも同じ問題が起きるので
「OCRでテキストだけじゃなく各文字の使用フォントとサイズまで識別する。透明テキストを埋め込む際に同じフォントとサイズで埋め込む」までやらないといけない
フォント識別してもそのフォント持ってない問題とかもあって、裏技としてはOCRしながら画像から新しくフォントを生成してそのフォントで埋め込むみたいなのもできるんだろうけど普通はコストに見合わない
2026/06/02(火) 20:31:29.21ID:64umnu5E0
英文専用OCRではイタリックやボールド、飾り文字も認識出来るのがあったかと
886名無しさん@お腹いっぱい。
2026/06/03(水) 09:16:04.40ID:/Nv6QzpK0 >>884
Document intelligence ではフォントとスタイル認識できるからやってみてるけど、あっちはあっちでポリゴンが実際の文字の位置とちょっとずれてるっぽくて面倒くさいのよね
Document intelligence ではフォントとスタイル認識できるからやってみてるけど、あっちはあっちでポリゴンが実際の文字の位置とちょっとずれてるっぽくて面倒くさいのよね
887名無しさん@お腹いっぱい。
2026/06/03(水) 10:16:52.63ID:FUE8x4HF0 NDLOCR-Lite v.1.2.1 で本に載っているC言語系のソースコードを OCR でテキストファイルに出すと関数の終わりのカッコ } で謎の数字が入っている。
記号やプログラムで使われる特定のキーワードだと、プログラム的に解釈して、その時持っている変数をOCRの結果に出してそう。
変換精度は満足。
1と小文字Lを間違えるのと、スペース区切りを間違えるのは仕方がない。
記号やプログラムで使われる特定のキーワードだと、プログラム的に解釈して、その時持っている変数をOCRの結果に出してそう。
変換精度は満足。
1と小文字Lを間違えるのと、スペース区切りを間違えるのは仕方がない。
888名無しさん@お腹いっぱい。
2026/06/04(木) 00:05:48.27ID:rR1rcJJ70 中国語日本語の専門用語辞典をNDLにかけてみたら時々謎の英語ぽい無意味なアルファベット文字列が出力されてた
2026/06/06(土) 22:42:05.88ID:yoBQqSOK0
ndlocr-liteにプレビューとして1.2.2が出ていた
PDFの透明テキストの位置が改善されていた
PDFの画像は今まで可逆のFlateエンコードだったのが品質75のDCTエンコードに変えられた
初期版の時のようにASCIIのPDFになってしまったのでcpdf -squeezeとかしないとサイズがでかい
PDFの透明テキストの位置が改善されていた
PDFの画像は今まで可逆のFlateエンコードだったのが品質75のDCTエンコードに変えられた
初期版の時のようにASCIIのPDFになってしまったのでcpdf -squeezeとかしないとサイズがでかい
2026/06/07(日) 14:00:09.86ID:RxhR464W0
レスを投稿する
ニュース
- TBS・山本恵里伽アナウンサーが“事実婚”を公表 「法律婚ではなく、なぜ事実婚にしたのかと言うと…」 [冬月記者★]
- 高市首相、子どもの自殺対策に意欲 [首都圏の虎★]
- 【JR東日本】磁気切符廃止 来春QRコードに変更 [蚤の市★]
- 【芸能】藤田ニコルのお宮参り写真に批判の声「病気で産めない人の気持ちは?」 乙武洋匡が論破「手足ない人の気持ち考えたことある?」 [冬月記者★]
- 【W杯】イランのW杯チケット割り当て取り消し、連盟は政治介入を非難 [征夷大将軍★]
- 「ホストクラブで遊ぶため借金」返済求められた会社社長を殺害し400万円奪う 強盗殺人など問われた元風俗店店員の女(29)初公判 [Hitzeschleier★]
- 【実況】博衣こよりのえちえちForza Horizon 7🧪
- ⚡🌪🏡👊😅👊🏡🌪⚡
- クソネトウヨ、インド人が楽しく踊ったことに激怒…反日カルトが日本人破産させても文句言わないくせにクソ右翼 [819729701]
- 高市首相「名刺交換してない」中傷動画疑惑で衝撃の「言い訳」に国民憤慨 [303493227]
- 専門家「クマの襲撃は『力士がナイフ持って原付で走ってくる』ようなものです」 [573472858]
- 宇都宮の熊が出現した場所、ガチでおわるwwwwwwwwwwwwwwwwwwwww 🐻 [398059782]