普段ほとんど見ないようなレアな漢字や段組みまでケアした完璧なものよりも
普通の文庫やハードカバーのOCRなら問題なく出来る程度のバージョンでもいいので出してほしいです
【文字認識】OCRソフト(3文字目)【 自炊 】
2026/05/01(金) 04:38:23.22ID:4dgFFWM80
2026/05/01(金) 06:09:03.28ID:Paf9p86Q0
それな
いいとこ取りしてndlocrliteにレイアウトまかせて、文字認識はbunkoocrとか出来ない?のが残念
いいとこ取りしてndlocrliteにレイアウトまかせて、文字認識はbunkoocrとか出来ない?のが残念
858名無しさん@お腹いっぱい。
2026/05/01(金) 09:43:33.87ID:RQBXBvV60 普通の文庫というか、私が今読んでる文庫本の小説を読みながら、ミスってるところを修正してるので
読書の時間が律速過程になっているという。
自分で読む本くらいちゃんとスキャンできないと意味がないのでな
ndlocrliteのやってるPARSeqと、bunkoOCRで使ってるfindtextCenterNetは、文字のデコードの仕方が異なるので
なかなか合わせにくい
PARSeqの方式は、先に文字列のあるBoxを見つけておいて、短冊状の文字列の画像をテキストにするやり方。
findtextCenterNetの方式は、文字の座標とその連結方向を見つけておいて、文字を順番に連結してテキストにするやり方。
PARSeqはTransformer系なので、文字を落としたりする。
findtextCenterNetは文字ごとにデコードするので、あとから文脈で補正できるようにTransformerで修正してる。
読書の時間が律速過程になっているという。
自分で読む本くらいちゃんとスキャンできないと意味がないのでな
ndlocrliteのやってるPARSeqと、bunkoOCRで使ってるfindtextCenterNetは、文字のデコードの仕方が異なるので
なかなか合わせにくい
PARSeqの方式は、先に文字列のあるBoxを見つけておいて、短冊状の文字列の画像をテキストにするやり方。
findtextCenterNetの方式は、文字の座標とその連結方向を見つけておいて、文字を順番に連結してテキストにするやり方。
PARSeqはTransformer系なので、文字を落としたりする。
findtextCenterNetは文字ごとにデコードするので、あとから文脈で補正できるようにTransformerで修正してる。
2026/05/01(金) 20:27:42.78ID:5O1n87Gj0
bunkoOCR作者に画像送るURLがサーバーエラーになってない?
860名無しさん@お腹いっぱい。
2026/05/01(金) 20:50:14.32ID:RQBXBvV60 >>859
ほんまや。直しておきます
ほんまや。直しておきます
861名無しさん@お腹いっぱい。
2026/05/01(金) 21:11:16.37ID:RQBXBvV60 動くようになったです。だいぶ止まってたっぽ
2026/05/01(金) 21:34:02.95ID:5O1n87Gj0
対応ありがとうございます
漢字の一が認識されないのがちょいちょいあったので送っときました
漢字の一が認識されないのがちょいちょいあったので送っときました
863名無しさん@お腹いっぱい。
2026/05/01(金) 21:40:33.64ID:RQBXBvV602026/05/01(金) 21:51:46.87ID:K98nN0p10
漢数字の「一」と同様にカタカナの「ー」も欠落することがありますね
2026/05/01(金) 21:53:35.94ID:BDPCeRc20
横だけどテスト画像提供者が作者最新版でのテスト結果を受け取れるように
画像のハッシュ値か何かをキーとしてダウンロード出来る仕組みがあったら良いのに
と思いました。
画像のハッシュ値か何かをキーとしてダウンロード出来る仕組みがあったら良いのに
と思いました。
866名無しさん@お腹いっぱい。
2026/05/02(土) 12:00:33.04ID:A2FGbi8r0 確かに。こっちから結果送りたい時に困ってたんですよね。
仕組み考えておきます。
仕組み考えておきます。
2026/05/03(日) 13:10:57.10ID:dpfsbASQ0
gemma4試したけどマルチモーダルのLLMがOCRで座標返すのが意味わからなすぎる
E4Bはスマホで動かしたけど一つ上をパソコンで動かしかったが30GBとかとびすぎやろ
E4Bはスマホで動かしたけど一つ上をパソコンで動かしかったが30GBとかとびすぎやろ
2026/05/15(金) 11:09:25.59ID:uxVN+/B90
NDLOCR-Liteが作成するpdfはUniJIS-UCS2を使っているので認識できる文字範囲は
それ以下だと想像しますがbunkoOCRの認識文字範囲はどれくらいなんでしょうか
それ以下だと想像しますがbunkoOCRの認識文字範囲はどれくらいなんでしょうか
869名無しさん@お腹いっぱい。
2026/05/15(金) 18:04:20.60ID:sJn+LSnP0 >>868
学習自体は、Unicodeコードポイントが単独で振られている漢字は対応できるようにしたはず。(異体字フラグは未対応)なので、学習に使ったフォントに、文字が収録されてたら反応すると思います。
しかし、ちょっとバグがあって、transformerで文脈補正すると新字体になってしまう文字があるので、今直してます。今のところこの部分をオフにしたら多分出そう。
学習自体は、Unicodeコードポイントが単独で振られている漢字は対応できるようにしたはず。(異体字フラグは未対応)なので、学習に使ったフォントに、文字が収録されてたら反応すると思います。
しかし、ちょっとバグがあって、transformerで文脈補正すると新字体になってしまう文字があるので、今直してます。今のところこの部分をオフにしたら多分出そう。
870名無しさん@お腹いっぱい。
2026/05/15(金) 19:42:48.80ID:iF+n6JkY0 NDLOCR試してみたけどDocument intelligenceよりは落ちるね。取り敢えずonnx直接叩いて出力まで行けたけど
レイアウト解析はLayoutモデルより使いかって良さそう
Bunko OCRはキャラクターの中心検出だっけ?Document intelligenceでキャラ単位配置までできたけど元々のポリゴンが若干ずれてるみたいなんよね
Macで使う場合モデルとengineのc++ソースだけあればいいんかな?
レイアウト解析はLayoutモデルより使いかって良さそう
Bunko OCRはキャラクターの中心検出だっけ?Document intelligenceでキャラ単位配置までできたけど元々のポリゴンが若干ずれてるみたいなんよね
Macで使う場合モデルとengineのc++ソースだけあればいいんかな?
871名無しさん@お腹いっぱい。
2026/05/15(金) 20:13:44.60ID:xfSS0l590 あ、findtextcenternetの方見ればいいのか
上に書いてあった
上に書いてあった
2026/05/15(金) 21:14:34.09ID:uxVN+/B90
https://kanji.jitenon.jp/cat/jisdai3 のJIS第3水準一番上の表をbunkoOCRで試してみましたが完璧ですね
NDOCR-Liteは古い本のために作ったはずなのに誤認識も多いし期待外れ
NDOCR-Liteは古い本のために作ったはずなのに誤認識も多いし期待外れ
2026/05/15(金) 21:56:20.94ID:FCGZ18Ho0
NDLOCR-Liteはここに列挙されている7千文字余り以外は出力されない(認識しない)のでは?
https://github.com/ndl-lab/ndlocr-lite/blob/master/train/parseqcode/configs/NDLmoji.yaml
https://github.com/ndl-lab/ndlocr-lite/blob/master/train/parseqcode/configs/NDLmoji.yaml
874名無しさん@お腹いっぱい。
2026/05/16(土) 11:58:38.21ID:qeWQmLQu0 textcenternet、macで使ってみてるけどなんかメチャクチャ時間かかってる
図表付きレイアウト600dpi高解像度だと対応してなかったりします?
単に自分の実装が悪いだけだと思うけど、どのくらいの速度が普通なんだろう
図表付きレイアウト600dpi高解像度だと対応してなかったりします?
単に自分の実装が悪いだけだと思うけど、どのくらいの速度が普通なんだろう
875名無しさん@お腹いっぱい。
2026/05/16(土) 21:45:12.49ID:TgRbPeEj0 >>874
Macでやるなら、coreMLに変換してあげて。macのMPSはそんなに速くない
Macでやるなら、coreMLに変換してあげて。macのMPSはそんなに速くない
876名無しさん@お腹いっぱい。
2026/05/17(日) 17:06:13.04ID:4yIaDp5X0877名無しさん@お腹いっぱい。
2026/06/02(火) 10:25:05.25ID:97LXg5/h0 NDL OCRなんか&がエスケープなのか&って取得されるな...
あと全角アルファベットが半角にされる
bunko ocrは少し全角で拾ってくれるけど、それでも半角が多い印象
配置するときにズレる原因になるんだよな
座標から推測してもいいけど自動認識できるモデルないかな
とくにndlはline座標だから
あと全角アルファベットが半角にされる
bunko ocrは少し全角で拾ってくれるけど、それでも半角が多い印象
配置するときにズレる原因になるんだよな
座標から推測してもいいけど自動認識できるモデルないかな
とくにndlはline座標だから
878名無しさん@お腹いっぱい。
2026/06/02(火) 10:25:26.15ID:97LXg5/h0 エスケープは&だったわ
879名無しさん@お腹いっぱい。
2026/06/02(火) 10:25:54.50ID:97LXg5/h0 あれここでもされるんか
& ampてなる
& ampてなる
880名無しさん@お腹いっぱい。
2026/06/02(火) 10:53:29.82ID:97LXg5/h0 xmlの仕様だったみたいだわ
パーサー通したら元に戻るから問題無かった
全角半角問題はまだあるけど
パーサー通したら元に戻るから問題無かった
全角半角問題はまだあるけど
881名無しさん@お腹いっぱい。
2026/06/02(火) 14:37:08.93ID:uBCAbqZ40 全角半角は本質的に形が一緒なので、判定はむずい
補正判定するとしたら、文字の幅が全角なのを使うか、文字送りが全角幅なのを使うか
補正判定するとしたら、文字の幅が全角なのを使うか、文字送りが全角幅なのを使うか
882名無しさん@お腹いっぱい。
2026/06/02(火) 14:53:28.06ID:haE6UAe70 全角文字が複数あればともかく
Mとかは全角でもプロポーショナルでも横幅が同じようなものなので1文字だと人間でもAIでも厳密な区別は不可能
前後の文脈とか縦書きか横書きかとか他の場所でどう現れてるかとかフォントの癖とか、より上位のコンテキストから判断する必要がある
全角と半角は使用フォントの違いであってテキストの違いではないと捉えるべき
Mとかは全角でもプロポーショナルでも横幅が同じようなものなので1文字だと人間でもAIでも厳密な区別は不可能
前後の文脈とか縦書きか横書きかとか他の場所でどう現れてるかとかフォントの癖とか、より上位のコンテキストから判断する必要がある
全角と半角は使用フォントの違いであってテキストの違いではないと捉えるべき
883名無しさん@お腹いっぱい。
2026/06/02(火) 18:39:34.20ID:QccPy7qd0 まぁ、その通りでテキスト抽出するだけなrら問題にならないんだが、PDFに戻すと結構ずれて気になることがあるんだよね
コンテキスト判断必要なところからしてAI向けだとは思う
コンテキスト判断必要なところからしてAI向けだとは思う
884名無しさん@お腹いっぱい。
2026/06/02(火) 20:21:33.85ID:haE6UAe70 >>883
それをきちんとやろうとしたら全角半角以外でもフォントのサイズやイタリックやボールドなど他の字形要素でも同じ問題が起きるので
「OCRでテキストだけじゃなく各文字の使用フォントとサイズまで識別する。透明テキストを埋め込む際に同じフォントとサイズで埋め込む」までやらないといけない
フォント識別してもそのフォント持ってない問題とかもあって、裏技としてはOCRしながら画像から新しくフォントを生成してそのフォントで埋め込むみたいなのもできるんだろうけど普通はコストに見合わない
それをきちんとやろうとしたら全角半角以外でもフォントのサイズやイタリックやボールドなど他の字形要素でも同じ問題が起きるので
「OCRでテキストだけじゃなく各文字の使用フォントとサイズまで識別する。透明テキストを埋め込む際に同じフォントとサイズで埋め込む」までやらないといけない
フォント識別してもそのフォント持ってない問題とかもあって、裏技としてはOCRしながら画像から新しくフォントを生成してそのフォントで埋め込むみたいなのもできるんだろうけど普通はコストに見合わない
2026/06/02(火) 20:31:29.21ID:64umnu5E0
英文専用OCRではイタリックやボールド、飾り文字も認識出来るのがあったかと
886名無しさん@お腹いっぱい。
2026/06/03(水) 09:16:04.40ID:/Nv6QzpK0 >>884
Document intelligence ではフォントとスタイル認識できるからやってみてるけど、あっちはあっちでポリゴンが実際の文字の位置とちょっとずれてるっぽくて面倒くさいのよね
Document intelligence ではフォントとスタイル認識できるからやってみてるけど、あっちはあっちでポリゴンが実際の文字の位置とちょっとずれてるっぽくて面倒くさいのよね
887名無しさん@お腹いっぱい。
2026/06/03(水) 10:16:52.63ID:FUE8x4HF0 NDLOCR-Lite v.1.2.1 で本に載っているC言語系のソースコードを OCR でテキストファイルに出すと関数の終わりのカッコ } で謎の数字が入っている。
記号やプログラムで使われる特定のキーワードだと、プログラム的に解釈して、その時持っている変数をOCRの結果に出してそう。
変換精度は満足。
1と小文字Lを間違えるのと、スペース区切りを間違えるのは仕方がない。
記号やプログラムで使われる特定のキーワードだと、プログラム的に解釈して、その時持っている変数をOCRの結果に出してそう。
変換精度は満足。
1と小文字Lを間違えるのと、スペース区切りを間違えるのは仕方がない。
888名無しさん@お腹いっぱい。
2026/06/04(木) 00:05:48.27ID:rR1rcJJ70 中国語日本語の専門用語辞典をNDLにかけてみたら時々謎の英語ぽい無意味なアルファベット文字列が出力されてた
2026/06/06(土) 22:42:05.88ID:yoBQqSOK0
ndlocr-liteにプレビューとして1.2.2が出ていた
PDFの透明テキストの位置が改善されていた
PDFの画像は今まで可逆のFlateエンコードだったのが品質75のDCTエンコードに変えられた
初期版の時のようにASCIIのPDFになってしまったのでcpdf -squeezeとかしないとサイズがでかい
PDFの透明テキストの位置が改善されていた
PDFの画像は今まで可逆のFlateエンコードだったのが品質75のDCTエンコードに変えられた
初期版の時のようにASCIIのPDFになってしまったのでcpdf -squeezeとかしないとサイズがでかい
2026/06/07(日) 14:00:09.86ID:RxhR464W0
レスを投稿する
ニュース
- 【🔫】日本共産党、新宿駅・東南口前で高市首相を撃つ「新しいゲーム」開始 「流石におかしい」と非難の声相次ぐ ★2 [少考さん★]
- 「子どもに惨めな思いさせたくない」出生数が過去最少 なぜ若者は結婚せず、子どもを持たなくなったのか ★4 [煮卵★]
- 【野球】巨人・坂本勇人が〝風紀委員長〟に!「巨人軍は紳士たれ」の伝統を受け継ぐ [Ailuropoda melanoleuca★]
- 【野球】バット直撃で頭部負傷から1か月半 川上拓斗審判員の容体を家族が明かす意識回復せずも「まばたきで反応」「腕を動かす」 [Ailuropoda melanoleuca★]
- AI生成、女児の性的画像所持も有罪 [お断り★]
- 【株価】日経平均終値2563円安、AI熱冷ます米雇用統計 今年2番目の下落幅 [蚤の市★]
- 同姓同名で同じ生年月日、町税滞納者をうっかり誤って差し押さえ [256556981]
- 内田リコ被告「今後も反省、謝罪、償いの日々を送ります。以上でふ(笑うな···まだ笑うな私···)」 [551743856]
- 【🏡】ゴミライブのクソチューバー全員下痢便食わせて殺す【🏡】
- 安倍晋三の銅像除幕式、開催!!!昭恵も参加 [744361492]
- 【朗報】富士通「日本の国産AIはネットにはない日本のビジネス文書を学習する」 [673057929]
- ラーメンの「メンマ」つて誰が望んでるんだよ 9割の人間は要らないと思ってる [126026562]