NDL-OCR事業の資料
https://www.nijl.ac.jp/pages/cijproject/info/img/event/r04/nijl_sympo2022_handouts_3.pdf
https://lab.ndl.go.jp/data_set/ocr/r3_software/
https://lab.ndl.go.jp/data_set/r4ocr/r4_software/
https://github.com/ndl-lab/pdmocrdataset-part2
bunkoOCRの資料
https://github.com/lithium0003/findtextCenterNet
https://huggingface.co/datasets/lithium0003/findtextCenterNet_dataset/tree/main
学習データで、レイアウト認識は実地のデータでやらなきゃなので、けっこうデータ数がいるはず。
国会図書館のやつは約247万点(約2.2億画像)だって。
bunkoOCRのやつは、基本的にfontから生成したテキスト画像を元に学習してる。100*1024枚くらい
後は実地のデータとして手元でスキャンした画像を追加して失敗しそうなやつを修正してる。
findtextCenterNetは、条件確定したらA100で数日くらいやれば十分だった。
BatchNormarizationのせいでバッチサイズを大きくしなきゃなのでA100とか使ってるけど、
そこさえなんとかできれば、もっと小さいGPUでも学習出来ると思う。
【文字認識】OCRソフト(3文字目)【 自炊 】
776名無しさん@お腹いっぱい。
2026/03/05(木) 21:04:42.75ID:QybuKv8+02026/03/05(木) 21:36:42.68ID:+I9T8ZSu0
>>776
おお、詳しくありがとうございます
A100か。調べたら定価300万のやつか。だからiOSアプリでGPU借りるようの募集してたんですね。
ocrの技術調べてたらおもしろくなって学習について興味を持った次第です
おお、詳しくありがとうございます
A100か。調べたら定価300万のやつか。だからiOSアプリでGPU借りるようの募集してたんですね。
ocrの技術調べてたらおもしろくなって学習について興味を持った次第です
778名無しさん@お腹いっぱい。
2026/03/05(木) 22:42:22.08ID:QybuKv8+0 短冊状に認識行の画像を取ってきて、文字列を生成するモデルに入れて、OCR結果を得るというタイプと
文字の場所を特定して、一文字ずつ文字を生成するモデルに入れて、OCR結果を得るというタイプがあると思う。
アラビア語とか行書とかは、前者の方式が強いと思う。
日本語みたいに一文字ずつ切れてる言語は、後者の方がよさそうに感じてる。
文字の場所を特定して、一文字ずつ文字を生成するモデルに入れて、OCR結果を得るというタイプがあると思う。
アラビア語とか行書とかは、前者の方式が強いと思う。
日本語みたいに一文字ずつ切れてる言語は、後者の方がよさそうに感じてる。
779名無しさん@お腹いっぱい。
2026/03/06(金) 06:30:03.06ID:uR2qc6Lu0 ocrした後の誤認識修正して再pdf化するのになんのソフト使ってますか?
2026/03/07(土) 20:54:25.47ID:yj5nzJok0
>>778
そこらへんもちょっとだけ日本の3大OCRを比較して勉強してました
ndlocrとYomiTokuはレイアウト解析で行を求めて、その行ごとPARSeqになげて言語知識(ViTrasfomer?)なども踏まえてテキスト認識
bunkoOCRはCenterNet+EfficentNetで文字レベルの位置と特徴をもとめて、特徴を後段のTransfomerにぶんなげて言語知識が補正?
アラビア語とかつなってるやつ、文字レベルで分割が大変そうだからPARSeqとかの方がよさそうですよね
そこらへんもちょっとだけ日本の3大OCRを比較して勉強してました
ndlocrとYomiTokuはレイアウト解析で行を求めて、その行ごとPARSeqになげて言語知識(ViTrasfomer?)なども踏まえてテキスト認識
bunkoOCRはCenterNet+EfficentNetで文字レベルの位置と特徴をもとめて、特徴を後段のTransfomerにぶんなげて言語知識が補正?
アラビア語とかつなってるやつ、文字レベルで分割が大変そうだからPARSeqとかの方がよさそうですよね
781名無しさん@お腹いっぱい。
2026/03/07(土) 22:11:29.71ID:HlNeLmoJ0 >>780
bunkoOCRで、文字レベルの位置でやってるのは、文字の横についてるふりがながどの部分にかかってるかを
検出したいというのと、そもそも日本語と英語くらいしか知らなかったからというのがあります。
くっついてる文字の言語や、筆記体や速記みたいな文字も、それぞれの文字部分に分割は可能っぽいので
やろうと思えば不可能では無い感じです。
(Unicodeからフォントで生成するとそれぞれの文字の領域が取れるので、ある程度自動生成でアノテーション出来る)
文字ごとの位置を求めると、文字の属性を別途与えることができるので、文字空きとかふりがな文字とかのマークとか
文字のコードとかを直接生成出来るのが利点です。
PARSeqの手法では、短冊状(にかぎらず行を取って来れればいい)に取ってきた画像を、直接文字列に起こすので
行を取り損ねるとミスると思うので、曲がった文字列をどう切り抜くかがポイントなのかなと思います。
この手法の利点は、少々ノイズが入っていてもこの時点で前後から補正出来るということです。
bunkoOCRで、文字レベルの位置でやってるのは、文字の横についてるふりがながどの部分にかかってるかを
検出したいというのと、そもそも日本語と英語くらいしか知らなかったからというのがあります。
くっついてる文字の言語や、筆記体や速記みたいな文字も、それぞれの文字部分に分割は可能っぽいので
やろうと思えば不可能では無い感じです。
(Unicodeからフォントで生成するとそれぞれの文字の領域が取れるので、ある程度自動生成でアノテーション出来る)
文字ごとの位置を求めると、文字の属性を別途与えることができるので、文字空きとかふりがな文字とかのマークとか
文字のコードとかを直接生成出来るのが利点です。
PARSeqの手法では、短冊状(にかぎらず行を取って来れればいい)に取ってきた画像を、直接文字列に起こすので
行を取り損ねるとミスると思うので、曲がった文字列をどう切り抜くかがポイントなのかなと思います。
この手法の利点は、少々ノイズが入っていてもこの時点で前後から補正出来るということです。
782名無しさん@お腹いっぱい。
2026/03/15(日) 19:27:52.55ID:8cvEDRaD0 初見。どもこん。
Rust_DN_SuperBook_PDF_Converter (及び必須な関連ツール)をWindows 11下に環境構築したいんですが、全くわからないです。
どこを探しても、Mac系(?)の解説サイトばかりでコマンドラインの操作を説明しててWindows 11ユーザーにはわからないです。
Windows 11ユーザーでも分かる解説サイト教えてください
Rust_DN_SuperBook_PDF_Converter (及び必須な関連ツール)をWindows 11下に環境構築したいんですが、全くわからないです。
どこを探しても、Mac系(?)の解説サイトばかりでコマンドラインの操作を説明しててWindows 11ユーザーにはわからないです。
Windows 11ユーザーでも分かる解説サイト教えてください
783名無しさん@お腹いっぱい。
2026/03/19(木) 22:59:28.19ID:kXSDIq6X0 rust版は何やっても動かんから諦めたわ
大人しく本家の使うがよろし
大人しく本家の使うがよろし
2026/03/20(金) 11:27:51.92ID:m+1vm1j80
レイアウト解析やOCR精度はgeminiがぶっちぎりで最強なんだけどサーチャブルpdf作れないのが難点
geminiでテキスト抽出したのにyomitokuでもう一回ocrかけるのも二度手間感あるし
geminiでテキスト抽出したのにyomitokuでもう一回ocrかけるのも二度手間感あるし
2026/03/20(金) 11:40:23.16ID:7MBlxrVy0
語彙力ぅ.....OCRも色々あるけどAIのOCRが一番精度いいの?
しらんけど
しらんけど
786名無しさん@お腹いっぱい。
2026/03/20(金) 12:15:51.01ID:HbXXySVR0 一番かは知らんけど格安でもそこそこ認識してくれるよ
2026/03/20(金) 12:19:59.90ID:m+1vm1j80
語彙力…?文章中に気に障るところでもあったか?
やってみれば分かるが、マルチモーダルLLMは複雑な表や手書き、特殊文字への対応が比較にならないほど優れている
やってみれば分かるが、マルチモーダルLLMは複雑な表や手書き、特殊文字への対応が比較にならないほど優れている
2026/03/20(金) 12:20:05.73ID:m+1vm1j80
語彙力…?文章中に気に障るところでもあったか?
やってみれば分かるが、マルチモーダルLLMは複雑な表や手書き、特殊文字への対応が比較にならないほど優れている
やってみれば分かるが、マルチモーダルLLMは複雑な表や手書き、特殊文字への対応が比較にならないほど優れている
2026/03/20(金) 12:23:50.25ID:HbXXySVR0
いうて流石に外部Aiに社内の内部情報とか読ませるわけにはいかんから言うほど使えない
790名無しさん@お腹いっぱい。
2026/03/20(金) 12:41:23.92ID:m+1vm1j80 それはそう。ローカルで回すとなるとgemini3より何段階か劣るのになる
Qwen3.5とかね
Qwen3.5とかね
2026/03/20(金) 13:22:46.93ID:tfMqb0ET0
NDLOCRliteもアップデート期待できなさそうやな
お役所仕事で予算とかあるのか?
liteは外部委託じゃないっぽいけど
お役所仕事で予算とかあるのか?
liteは外部委託じゃないっぽいけど
2026/03/20(金) 16:13:35.03ID:ZHMxGrEi0
ndlocrは振り仮名がつかないのが問題
たいして試してないので実は付けられるんだったら謝るけど
2冊ほど読み込ませたら振り仮名ついてなかったよ
たいして試してないので実は付けられるんだったら謝るけど
2冊ほど読み込ませたら振り仮名ついてなかったよ
2026/03/20(金) 22:40:46.23ID:7MBlxrVy0
>>788
大事な事なので2回いいました???www
大事な事なので2回いいました???www
2026/03/21(土) 01:24:28.55ID:nkUhtf9B0
初見、どもこん
~5日後~
語彙力ぅ⋯
大事なことなので2回いいました???wwww
この間3レス
久々に大物来たな
~5日後~
語彙力ぅ⋯
大事なことなので2回いいました???wwww
この間3レス
久々に大物来たな
795名無しさん@お腹いっぱい。
2026/03/21(土) 06:00:33.92ID:jX3e2Ush0 >>792
ルビは座標取れてて、わざと除外してる様子
ルビは座標取れてて、わざと除外してる様子
2026/03/21(土) 07:06:45.85ID:gyS8kjhK0
2026/03/21(土) 11:18:16.26ID:p9jQzUSc0
どうでもいいです
生産性のない生ゴミは焼却場に飛び込んでどうぞ
生産性のない生ゴミは焼却場に飛び込んでどうぞ
2026/03/21(土) 13:38:41.70ID:W/T96/aI0
単なる漢字に対する振り仮名なら無くても読むのは可能だけど
当て字になってたり、英語表記になってたりする場合はあったほうがいいな
そうするとやはりbunkoocrに期待してしまう
もう1年ぐらいバージョンアップしてないしずっと楽しみにしてる
ページ番号と章タイトルを自動でトリミングしてくれる機能があれば
一冊辺りの本の電子化にかかる時間が大幅に短くなるんだけど
当て字になってたり、英語表記になってたりする場合はあったほうがいいな
そうするとやはりbunkoocrに期待してしまう
もう1年ぐらいバージョンアップしてないしずっと楽しみにしてる
ページ番号と章タイトルを自動でトリミングしてくれる機能があれば
一冊辺りの本の電子化にかかる時間が大幅に短くなるんだけど
799名無しさん@お腹いっぱい。
2026/03/21(土) 13:41:50.93ID:jX3e2Ush0 >>798
いらないところを分類するモデルができたっぽいので、ご期待ください。
ページ番号とかの本文じゃないところを検出出来るようになった気がしてる。
枠線とかも認識して、新聞とかの段組を順序正しく読めるようにがんばってるところ。
もうちょいかかりそうなので、まっててください
いらないところを分類するモデルができたっぽいので、ご期待ください。
ページ番号とかの本文じゃないところを検出出来るようになった気がしてる。
枠線とかも認識して、新聞とかの段組を順序正しく読めるようにがんばってるところ。
もうちょいかかりそうなので、まっててください
2026/03/21(土) 14:11:39.91ID:/laXTQI50
>>797
自殺教唆の💩製造機くんは一生畑の肥料作っててどうぞwww
自殺教唆の💩製造機くんは一生畑の肥料作っててどうぞwww
2026/03/24(火) 16:07:14.59ID:XM4nHajp0
NDLOCRバズってるよな
githubスター一気に1,000とか
他と性能的に大差ないと思うが
国家機関?だからか?
githubスター一気に1,000とか
他と性能的に大差ないと思うが
国家機関?だからか?
802名無しさん@お腹いっぱい。
2026/03/24(火) 16:44:33.33ID:agEAPnCu0 NDLOCR-Lite が試し易いからでしょう。
他のOCRと同じ間違い方をするので、本のフォントが悪いくて正しく読めないかな、と私は諦めた。
他のOCRと同じ間違い方をするので、本のフォントが悪いくて正しく読めないかな、と私は諦めた。
2026/03/24(火) 19:06:34.28ID:Uby+IYvO0
文庫本のOCRでだが
NDLOCRは欠落が多く、難しい漢字の誤字も多い印象
bunkoOCRは修正する必要が少なく優秀さが際立ってる
NDLOCRは欠落が多く、難しい漢字の誤字も多い印象
bunkoOCRは修正する必要が少なく優秀さが際立ってる
804名無しさん@お腹いっぱい。
2026/03/30(月) 10:07:35.64ID:eHzbigw30 bunkoOCRやYomiTokuもCPUで高速に動作かつプログラミング知識なしで利用できるようになったら普及しそう
2026/03/30(月) 17:13:12.44ID:As6a3ehU0
プログラミング知識はなくても利用できるでしょう
2026/03/30(月) 23:56:00.19ID:7vQuwiGC0
NDLOCR liteはテキスト認識の縦が16ピクセルしかないから精度悪め?
2026/03/31(火) 10:50:15.54ID:HLtLUv1m0
ちょっとスレチだが以前話が出ていたので・・・
エディタでテキストを印刷して作ったPDFをSumatraPDFで開いてみたら行またぎだけでなくてページまたぎも検索できた
Acrobat Readerではできない
エディタでテキストを印刷して作ったPDFをSumatraPDFで開いてみたら行またぎだけでなくてページまたぎも検索できた
Acrobat Readerではできない
808名無しさん@お腹いっぱい。
2026/04/01(水) 10:07:31.44ID:lHJ/ezAc0 >>807
>>エディタでテキストを印刷して作ったPDFをSumatraPDFで開いてみたら行またぎだけでなくてページまたぎも検索できた
この時、印刷(PDF)したドライバーは何でしたか?
エディタの名前は?
エディタの表示モードは「縦書き」でしたか?
縦書きPDFが難しいと言う事なのでこういった情報がヒントになるかもです。
>>エディタでテキストを印刷して作ったPDFをSumatraPDFで開いてみたら行またぎだけでなくてページまたぎも検索できた
この時、印刷(PDF)したドライバーは何でしたか?
エディタの名前は?
エディタの表示モードは「縦書き」でしたか?
縦書きPDFが難しいと言う事なのでこういった情報がヒントになるかもです。
2026/04/01(水) 10:57:52.39ID:wOxOsCGl0
プリンタはMicrosft Print to PDFです
自分はいまだにSJISをメインに使っているのでWZ Editor 3の横書きです
ヘッダー・フッター・ページは除いて印刷
SumatraPDFはまだテスト中ですが縦書きではフォントが埋め込まれていないと
句読点が横書き用になってしまうという話は聞いています
PDFのフォント情報を見たら CIDFont+F1 (TrueType (CID); Identity-H; embedded) になっていました
自分はいまだにSJISをメインに使っているのでWZ Editor 3の横書きです
ヘッダー・フッター・ページは除いて印刷
SumatraPDFはまだテスト中ですが縦書きではフォントが埋め込まれていないと
句読点が横書き用になってしまうという話は聞いています
PDFのフォント情報を見たら CIDFont+F1 (TrueType (CID); Identity-H; embedded) になっていました
2026/04/02(木) 10:56:18.26ID:tCtJUKBM0
スキャナに付いていた古いPower PDFとNDL_OCL_liteで作成した縦書きPDFを試したところSumatraPDFではページまたぎ検索ができた
ファイルの右クリックメニューにまでサブスク機能を出すようになったウザいAcrobat Readerはアンインストールした
SumatraPDFはIFilterがインストールできるようになっているが機能しなかった
レジストリを見たらHKCR\.pdf\PersistentHandlerからPdfFilter.dllまでつながっていなかったので動作するはずがない
自分はウィンドウズサーチをよく使うので探しておいたAdobe製の古い64bit IFilterを再インストールした
但しIFilterでは原理的に行またぎ検索はできないが
ファイルの右クリックメニューにまでサブスク機能を出すようになったウザいAcrobat Readerはアンインストールした
SumatraPDFはIFilterがインストールできるようになっているが機能しなかった
レジストリを見たらHKCR\.pdf\PersistentHandlerからPdfFilter.dllまでつながっていなかったので動作するはずがない
自分はウィンドウズサーチをよく使うので探しておいたAdobe製の古い64bit IFilterを再インストールした
但しIFilterでは原理的に行またぎ検索はできないが
2026/04/02(木) 22:31:10.33ID:tCtJUKBM0
すみません レジストリは読み間違えてました
「すべてのユーザーに対してインストール」にチェックを付けてみたらIfilterは機能した
Adobe製より検索の取りこぼしが多いと作者も書いていたので使わないけど
「すべてのユーザーに対してインストール」にチェックを付けてみたらIfilterは機能した
Adobe製より検索の取りこぼしが多いと作者も書いていたので使わないけど
2026/04/06(月) 11:19:30.79ID:zny/GZ620
NDL OCR liteはpngで画像を保存してしまうから元画像を不可逆圧縮しておくことは無用だね
bunko-ocrがpdf作成をサポートしてくれる時にはOCRmyPDFのように元画像を保存できるようにして頂きたいです
pdfのサイズは自分で調整したいので
bunko-ocrがpdf作成をサポートしてくれる時にはOCRmyPDFのように元画像を保存できるようにして頂きたいです
pdfのサイズは自分で調整したいので
2026/04/07(火) 08:08:45.38ID:4DZR3e+C0
Gemma4出たけどローカルでこれに勝てるオープンソース無くない?
814名無しさん@お腹いっぱい。
2026/04/07(火) 10:06:11.81ID:EKkOXqGO0 書き起こしAIの進化もいいけど
リアルタイムで読み込んでログに吐き出すとかそういうUI・IOレベルのの機能性の進化が中々行われない
リアルタイムで読み込んでログに吐き出すとかそういうUI・IOレベルのの機能性の進化が中々行われない
2026/04/07(火) 15:53:00.88ID:0Rfp6UAV0
テキストや画像を音声読み上げして、それを聴いてテキスト変換???
2026/04/07(火) 18:26:21.24ID:hyVUsmZv0
2026/04/07(火) 21:46:54.68ID:xRgkipfH0
bunkoOCRのjsonには1文字ずつの座標も書かれているようだから透明テキスト付きPDFを自分で作れるかな
作者様が作ってくれるにこしたことはないけど
作者様が作ってくれるにこしたことはないけど
2026/04/18(土) 10:57:51.85ID:f5IKLL5o0
bunkoOCRが出力するjsonと元画像から画像を変更しない日本語透明テキスト付きPDFを作ってみた
画像は電子テキストのスクショ
使い物になる既存ツールがなくPythonのライブラリを使う必要があるようだ
自分はPythonに慣れていないのでGeminiにhOCRをPDFに変換するスクリプトを書いてもらった
hOCRへの変換はjsonに書かれている数値をそのま使った
ちょっと位置がずれたけど検索できるPDFができた
jpegの他に圧縮率が高いモノクロのJBIG2にも対応
https://62.gigafile.nu/0727-c07f987827af7af3cbb2aaf524bdffeef
画像は電子テキストのスクショ
使い物になる既存ツールがなくPythonのライブラリを使う必要があるようだ
自分はPythonに慣れていないのでGeminiにhOCRをPDFに変換するスクリプトを書いてもらった
hOCRへの変換はjsonに書かれている数値をそのま使った
ちょっと位置がずれたけど検索できるPDFができた
jpegの他に圧縮率が高いモノクロのJBIG2にも対応
https://62.gigafile.nu/0727-c07f987827af7af3cbb2aaf524bdffeef
2026/04/18(土) 23:19:45.71ID:f5IKLL5o0
透明テキストなのでフォント埋め込みは不要ではないのかとGeminiに聞いたら
スクリプトを少し変更してくれました
事前に画像を加工してからJBIG2に変換すれば写真部分も少しは見やすくなるのかな?
https://68.gigafile.nu/0727-bd023607a527ef2fd34c772d8d09e56fb
スクリプトを少し変更してくれました
事前に画像を加工してからJBIG2に変換すれば写真部分も少しは見やすくなるのかな?
https://68.gigafile.nu/0727-bd023607a527ef2fd34c772d8d09e56fb
2026/04/19(日) 00:01:51.24ID:MMNHHY5o0
>>818
> ちょっと位置がずれたけど検索できるPDFができた
sample.png.jsonの一文字目の座標をGimpに入れて見たら最初から文字の位置がずれている気がする
しかもPDFに埋め込む段階でそのずれが大きくなっている
https://i.imgur.com/1YZ83Oh.png
"box": [
{
"blockidx": 0,
"lineidx": 0,
"subidx": 0,
"vertical": 0,
"ruby": 0,
"rubybase": 0,
"emphasis": 0,
"cx": 244,
"cy": 738,
"w": 23.1483002,
"h": 21.8736,
"text": "菅"
},
> ちょっと位置がずれたけど検索できるPDFができた
sample.png.jsonの一文字目の座標をGimpに入れて見たら最初から文字の位置がずれている気がする
しかもPDFに埋め込む段階でそのずれが大きくなっている
https://i.imgur.com/1YZ83Oh.png
"box": [
{
"blockidx": 0,
"lineidx": 0,
"subidx": 0,
"vertical": 0,
"ruby": 0,
"rubybase": 0,
"emphasis": 0,
"cx": 244,
"cy": 738,
"w": 23.1483002,
"h": 21.8736,
"text": "菅"
},
821名無しさん@お腹いっぱい。
2026/04/19(日) 00:20:02.27ID:XUCFyv//0 >>820
ごめんドキュメントにないな、cx, cyは中心位置なので、boxは(cx-w/2,cy-h/2,cx+w/2,cy+h/2)で書いてください。
ごめんドキュメントにないな、cx, cyは中心位置なので、boxは(cx-w/2,cy-h/2,cx+w/2,cy+h/2)で書いてください。
2026/04/19(日) 00:24:05.32ID:MMNHHY5o0
2026/04/19(日) 19:34:41.33ID:lUovggkO0
>>818,819
BunkoOCRのJsonを直接処理するように改造した
効率悪そうだけど横書きはぴったり
https://pastebin.com/aeB9HnPk
https://i.imgur.com/v0lErte.png
https://i.imgur.com/qUjtgzA.png
BunkoOCRのJsonを直接処理するように改造した
効率悪そうだけど横書きはぴったり
https://pastebin.com/aeB9HnPk
https://i.imgur.com/v0lErte.png
https://i.imgur.com/qUjtgzA.png
2026/04/19(日) 21:49:58.31ID:59Z+Sbod0
>>820
ありがとうございます ぴったり合いました
bunkoOCRではテキスト出力で行が変になっていても文字単位でPDFにすれば問題なしですね
PDFリーダーは意外と賢くて縦横混在ページでも段組みがあるページでも検索できて便利
GeminiにhOCRを使うように作っておいてもらったのは後でNDLでも使おうと思っていたためです
そちらは文字単位の座標がないので縦書きは面倒だし正確にはできないけどね
NDLのPDF画像を任意の不可逆圧縮画像に差し替えたい
ありがとうございます ぴったり合いました
bunkoOCRではテキスト出力で行が変になっていても文字単位でPDFにすれば問題なしですね
PDFリーダーは意外と賢くて縦横混在ページでも段組みがあるページでも検索できて便利
GeminiにhOCRを使うように作っておいてもらったのは後でNDLでも使おうと思っていたためです
そちらは文字単位の座標がないので縦書きは面倒だし正確にはできないけどね
NDLのPDF画像を任意の不可逆圧縮画像に差し替えたい
2026/04/19(日) 22:33:02.48ID:59Z+Sbod0
2026/04/19(日) 23:40:07.62ID:A6R7mGhy0
>>825
自分も詳しく無いけどAIがなんとかしてくれた
https://pastebin.com/dNmnVHmn
https://i.imgur.com/HOCkho7.png
$ pip install pymupdf --only-binary :all:
自分も詳しく無いけどAIがなんとかしてくれた
https://pastebin.com/dNmnVHmn
https://i.imgur.com/HOCkho7.png
$ pip install pymupdf --only-binary :all:
2026/04/20(月) 08:37:15.68ID:d1Ae8gJx0
>>826
ありがとう JBIG2も読み取れました
近くKindleのDRM解除ができなくなると予想されているので替わりに
白黒2値だが非常に高圧縮のJBIG2でpdf化しようかと考えていました
サイズが変えられないのは難点だがいつも同じ大きさで読んでいるのでそれに合わせてスキャン
ありがとう JBIG2も読み取れました
近くKindleのDRM解除ができなくなると予想されているので替わりに
白黒2値だが非常に高圧縮のJBIG2でpdf化しようかと考えていました
サイズが変えられないのは難点だがいつも同じ大きさで読んでいるのでそれに合わせてスキャン
2026/04/20(月) 18:49:01.53ID:d1Ae8gJx0
「NDLのPDF画像を任意の不可逆圧縮画像に差し替えたい」と書きましたがAIに聞いたら826さんが使った
pymupdfを使うとサイズが同じ画像で置換できるという回答でした
巨大なNDLOCRのPDFを好きなように圧縮できるので安心しました
https://36.gigafile.nu/0729-dc8d1a276928acdad7ea69853d4c83555
pymupdfを使うとサイズが同じ画像で置換できるという回答でした
巨大なNDLOCRのPDFを好きなように圧縮できるので安心しました
https://36.gigafile.nu/0729-dc8d1a276928acdad7ea69853d4c83555
2026/04/20(月) 23:34:18.49ID:FeSo6viZ0
block情報も利用して縦書きのラインを揃えた
https://pastebin.com/7rWVsnNT
https://i.imgur.com/3aywECH.png
BunkoOCR専用度増し増し
https://pastebin.com/7rWVsnNT
https://i.imgur.com/3aywECH.png
BunkoOCR専用度増し増し
2026/04/21(火) 00:02:11.99ID:GaUBEntQ0
>>827
pdf化はどうやって?
pdf化はどうやって?
2026/04/21(火) 08:34:57.24ID:WyQp2wYZ0
>>830
823-826-829さんのツールを使うのであれば
bunkoOCRは品質のよい画像で使って、サイズを落とした画像に変換をしておいて、
ツールでそれを指定してpdfを作るだけです
pdfはページごとになるけど結合ツールは色々あるでしょう
823-826-829さんのツールを使うのであれば
bunkoOCRは品質のよい画像で使って、サイズを落とした画像に変換をしておいて、
ツールでそれを指定してpdfを作るだけです
pdfはページごとになるけど結合ツールは色々あるでしょう
2026/04/21(火) 09:15:34.15ID:6UofQAeG0
2026/04/21(火) 10:02:33.07ID:WyQp2wYZ0
>>829
画像→PDFのオーバーヘッドが819よりも少し大きいので10個まとめてpdfを作ったらどうか試そうとしていたら
途中でエラーが発生しました
指定画像はpngでもjbig2でも発生
https://74.gigafile.nu/0730-b986119e63a9000debde011fa8daf0c4f
画像→PDFのオーバーヘッドが819よりも少し大きいので10個まとめてpdfを作ったらどうか試そうとしていたら
途中でエラーが発生しました
指定画像はpngでもjbig2でも発生
https://74.gigafile.nu/0730-b986119e63a9000debde011fa8daf0c4f
2026/04/21(火) 10:16:47.33ID:WyQp2wYZ0
>>832
近くKindle for PCは使えなくされてDRM解除はできなくなりそうです
新リーダーでスクショがブロックされたらアウトですがスクショが取れればUWSCのスクリプトとかで
まとめてスクショを取って変換するつもりです
近くKindle for PCは使えなくされてDRM解除はできなくなりそうです
新リーダーでスクショがブロックされたらアウトですがスクショが取れればUWSCのスクリプトとかで
まとめてスクショを取って変換するつもりです
835833
2026/04/21(火) 10:59:42.93ID:WyQp2wYZ0 エラーにならなかった9個を1つのPDFにまとめてみました
jbig2のサイズ合計86.5KB
819のpdf 129KB
829のpdf 185KB
今までepubで保存できていたのができなくなるので代替としてできるだけ小さく
保存しておきたいという特殊用途には向かないようでした
jbig2のサイズ合計86.5KB
819のpdf 129KB
829のpdf 185KB
今までepubで保存できていたのができなくなるので代替としてできるだけ小さく
保存しておきたいという特殊用途には向かないようでした
2026/04/21(火) 11:50:03.10ID:WEoRxsCr0
2026/04/22(水) 01:00:25.01ID:MZ83qPGU0
ndlocrlite改善きたー
もう精度あのまんまかと思ってたわ
もう精度あのまんまかと思ってたわ
838名無しさん@お腹いっぱい。
2026/04/22(水) 01:44:42.91ID:GdakDMll0 おお。モデルの修正入ってるやん
試そう
試そう
2026/04/22(水) 11:27:12.10ID:dsfTz/Us0
縦中横検出ができるようになったのか
2026/04/22(水) 14:37:47.41ID:llCGQj5X0
振り仮名は付けてくれるの?
2026/04/22(水) 14:48:36.01ID:dsfTz/Us0
ndlocrliteのjsonは縦書き横書きどちらのテキストにも
"isVertical": "true"
と書かれているのはどうしてなのかな
"isVertical": "true"
と書かれているのはどうしてなのかな
2026/04/23(木) 22:42:00.09ID:DIU9BuVo0
縦中横直ってないじゃん
https://www.toyobijutsu-prt.co.jp/com-design/dtp-63/
の例をためしたけど一番最初の
最初の「帝国の支配は52年続いた。」からデタラメ。
https://www.toyobijutsu-prt.co.jp/com-design/dtp-63/
の例をためしたけど一番最初の
最初の「帝国の支配は52年続いた。」からデタラメ。
2026/04/23(木) 22:47:59.62ID:2E75QEEx0
2026/04/24(金) 00:07:14.56ID:vqm7uVxH0
>>842
--enable-tcy --tcy-min-line-width 25 --tcy-seg-min-gap 3 --tcy-max-aspect-ratio 0.82 --tcy-ocr-margin-ratio 0.2
数字・位取り・小数点について
・連数字、適用する数字の桁数
(例)
(1)帝国の支配は、52年続いた。
(2) 気温が氷点下になったのは112年ぶりのこと。
(3) 気温が氷点下になったのは112年ぶりのこと。
・漢数字とアラビア数字の統一 (西暦など)
(例)
(4)二〇一一年九月から続いた●●内閣は五ヶ月あまりで
終了し、 2012年1月に××内閣が誕生した。
数字4桁以上の時の位取り
(例)
(5)静岡県浜松市の面積は約一五五八kmiである。
(6) 静岡県浜松市の面積は約一、五五八kmiである。
(7) 静岡県浜松市の面積は約一.五五八kmiである。
・小数点
(例)
(8)濃度0・5%の食塩水
(9)濃度0.5%の食塩水
(1)濃度0.5%の食塩水
--enable-tcy --tcy-min-line-width 25 --tcy-seg-min-gap 3 --tcy-max-aspect-ratio 0.82 --tcy-ocr-margin-ratio 0.2
数字・位取り・小数点について
・連数字、適用する数字の桁数
(例)
(1)帝国の支配は、52年続いた。
(2) 気温が氷点下になったのは112年ぶりのこと。
(3) 気温が氷点下になったのは112年ぶりのこと。
・漢数字とアラビア数字の統一 (西暦など)
(例)
(4)二〇一一年九月から続いた●●内閣は五ヶ月あまりで
終了し、 2012年1月に××内閣が誕生した。
数字4桁以上の時の位取り
(例)
(5)静岡県浜松市の面積は約一五五八kmiである。
(6) 静岡県浜松市の面積は約一、五五八kmiである。
(7) 静岡県浜松市の面積は約一.五五八kmiである。
・小数点
(例)
(8)濃度0・5%の食塩水
(9)濃度0.5%の食塩水
(1)濃度0.5%の食塩水
845名無しさん@お腹いっぱい。
2026/04/24(金) 04:29:14.75ID:Rtjh03dh0 流石に㎢は2がちっちゃすぎて出ないか
2026/04/24(金) 09:55:54.19ID:XIgeEDes0
コマンドラインで指定する必要があるのね
2桁の数字くらいGUI版デフォルトで対応してほしいな
2桁の数字くらいGUI版デフォルトで対応してほしいな
2026/04/24(金) 09:58:37.62ID:B2jNbBOS0
Win+Shift+Tの画面OCRは自動で縦中横認識出来る
2026/04/28(火) 12:27:01.92ID:Xjje+GWF0
というか横しか対応してないオチとか
2026/04/30(木) 11:59:11.44ID:oA/GtW7W0
bunkoOCRはテキストの行が入れ替わるだけでなく、テキストのブロックが丸々抜けてしまうことがあり、
そういう時にはjsonにもそのテキストのブロックは記録されていない
それでも文字は全部精度よく記録されているのでjsonでPDFも作っておくのがよさそう
そういう時にはjsonにもそのテキストのブロックは記録されていない
それでも文字は全部精度よく記録されているのでjsonでPDFも作っておくのがよさそう
850名無しさん@お腹いっぱい。
2026/04/30(木) 12:17:40.74ID:SNaEtCHY0 >>849
あれやこれや処理してる時にバグが取れてなくて飛ぶことがあるので、失敗する画像例を作者に送りつけてくれると
バグの発見が速くなるのでもしよければ送っておいてください。
だいぶ直したけど、まだリリースできてなくてすみません
あれやこれや処理してる時にバグが取れてなくて飛ぶことがあるので、失敗する画像例を作者に送りつけてくれると
バグの発見が速くなるのでもしよければ送っておいてください。
だいぶ直したけど、まだリリースできてなくてすみません
2026/04/30(木) 17:41:58.41ID:oA/GtW7W0
>>850
作者様に以前メールでお送りしたブロック順がメチャクチャになり横を縦と認識された部分もあるサンプル
https://i.imgur.com/rr8qttx.jpeg
でPDFを作ってみました
「テキストのブロックが丸々抜けてしまう」は見間違いでした すみません
SumatraPDFはページまたぎ検索もできてでPDFでもリフローテキストと同様に使えますがこの例では
bunkoOCRでの誤認識と同じく「竹藁」と「原料となっている。竹紙は」がヒットしてしまいました
「竹」と「藁」がつながってしまうのは理解できますが、「原料となっている。」と「竹紙は」が
つながってしまうのはちょっと不思議です
作者様に以前メールでお送りしたブロック順がメチャクチャになり横を縦と認識された部分もあるサンプル
https://i.imgur.com/rr8qttx.jpeg
でPDFを作ってみました
「テキストのブロックが丸々抜けてしまう」は見間違いでした すみません
SumatraPDFはページまたぎ検索もできてでPDFでもリフローテキストと同様に使えますがこの例では
bunkoOCRでの誤認識と同じく「竹藁」と「原料となっている。竹紙は」がヒットしてしまいました
「竹」と「藁」がつながってしまうのは理解できますが、「原料となっている。」と「竹紙は」が
つながってしまうのはちょっと不思議です
2026/04/30(木) 18:06:54.07ID:oA/GtW7W0
透明テキストを可視化したものを一応アップします
https://3.gigafile.nu/0808-cf784ae298abe230af3d5df929a4f435c
https://3.gigafile.nu/0808-cf784ae298abe230af3d5df929a4f435c
853名無しさん@お腹いっぱい。
2026/04/30(木) 19:27:32.05ID:SNaEtCHY0 >>851
あれかー。めちゃ難易度高いやつで、まだ完全にはクリアできてないです。
近い所を連結するようにしてるのが悪さしてるんですよね。
表っぽい、枠線がないやつは順序が難しい
いまのところこれくらい
https://120.gigafile.nu/0505-babdafae4f15de5d1577424efe06b6342
あれかー。めちゃ難易度高いやつで、まだ完全にはクリアできてないです。
近い所を連結するようにしてるのが悪さしてるんですよね。
表っぽい、枠線がないやつは順序が難しい
いまのところこれくらい
https://120.gigafile.nu/0505-babdafae4f15de5d1577424efe06b6342
2026/04/30(木) 22:51:34.32ID:oA/GtW7W0
bunkoOCRの書き出したテキストが、
「・・・現在、日本紙幣の主原料となっているほか、ティーバッグ、掃除機の紙パック
の原料となっている。
竹紙は、中国で唐時代(7世紀)から作られ、宋時代(10世紀以降)には竹が紙
の主原料となった。・・・」
となっていますが、1文字ずつ書き込んだだけのPDFをどうテキストとしてつなげるかはリーダーの判断だと思うのですが、
OCRテキストとSumatraのどちらも「原料となっている。」と「竹紙は」がつながっていたのがどうしてかなと思いました
レイアウトを維持しようという意図のないNDLOCRはテキストの順序だけは正しいですね
文字化けもいくつかあるしbunkoOCRに期待しています
「・・・現在、日本紙幣の主原料となっているほか、ティーバッグ、掃除機の紙パック
の原料となっている。
竹紙は、中国で唐時代(7世紀)から作られ、宋時代(10世紀以降)には竹が紙
の主原料となった。・・・」
となっていますが、1文字ずつ書き込んだだけのPDFをどうテキストとしてつなげるかはリーダーの判断だと思うのですが、
OCRテキストとSumatraのどちらも「原料となっている。」と「竹紙は」がつながっていたのがどうしてかなと思いました
レイアウトを維持しようという意図のないNDLOCRはテキストの順序だけは正しいですね
文字化けもいくつかあるしbunkoOCRに期待しています
855名無しさん@お腹いっぱい。
2026/05/01(金) 01:06:36.59ID:RQBXBvV60 内部的に、「竹」と「藁」のタイトルの後の空白が、段落の区切れと誤認していて
「竹 藁」で一つにしちゃってて、その後ろの本文が、空行区切りで連続している本文とみなして
繋げて出力してしまっています。
https://i.imgur.com/EnzPhEQ.png
これを解決するには、表のヘッダーと本文の部分に分けて認識できる構文解析が必要なので
結構難しい
「竹 藁」で一つにしちゃってて、その後ろの本文が、空行区切りで連続している本文とみなして
繋げて出力してしまっています。
https://i.imgur.com/EnzPhEQ.png
これを解決するには、表のヘッダーと本文の部分に分けて認識できる構文解析が必要なので
結構難しい
2026/05/01(金) 04:38:23.22ID:4dgFFWM80
普段ほとんど見ないようなレアな漢字や段組みまでケアした完璧なものよりも
普通の文庫やハードカバーのOCRなら問題なく出来る程度のバージョンでもいいので出してほしいです
普通の文庫やハードカバーのOCRなら問題なく出来る程度のバージョンでもいいので出してほしいです
2026/05/01(金) 06:09:03.28ID:Paf9p86Q0
それな
いいとこ取りしてndlocrliteにレイアウトまかせて、文字認識はbunkoocrとか出来ない?のが残念
いいとこ取りしてndlocrliteにレイアウトまかせて、文字認識はbunkoocrとか出来ない?のが残念
858名無しさん@お腹いっぱい。
2026/05/01(金) 09:43:33.87ID:RQBXBvV60 普通の文庫というか、私が今読んでる文庫本の小説を読みながら、ミスってるところを修正してるので
読書の時間が律速過程になっているという。
自分で読む本くらいちゃんとスキャンできないと意味がないのでな
ndlocrliteのやってるPARSeqと、bunkoOCRで使ってるfindtextCenterNetは、文字のデコードの仕方が異なるので
なかなか合わせにくい
PARSeqの方式は、先に文字列のあるBoxを見つけておいて、短冊状の文字列の画像をテキストにするやり方。
findtextCenterNetの方式は、文字の座標とその連結方向を見つけておいて、文字を順番に連結してテキストにするやり方。
PARSeqはTransformer系なので、文字を落としたりする。
findtextCenterNetは文字ごとにデコードするので、あとから文脈で補正できるようにTransformerで修正してる。
読書の時間が律速過程になっているという。
自分で読む本くらいちゃんとスキャンできないと意味がないのでな
ndlocrliteのやってるPARSeqと、bunkoOCRで使ってるfindtextCenterNetは、文字のデコードの仕方が異なるので
なかなか合わせにくい
PARSeqの方式は、先に文字列のあるBoxを見つけておいて、短冊状の文字列の画像をテキストにするやり方。
findtextCenterNetの方式は、文字の座標とその連結方向を見つけておいて、文字を順番に連結してテキストにするやり方。
PARSeqはTransformer系なので、文字を落としたりする。
findtextCenterNetは文字ごとにデコードするので、あとから文脈で補正できるようにTransformerで修正してる。
2026/05/01(金) 20:27:42.78ID:5O1n87Gj0
bunkoOCR作者に画像送るURLがサーバーエラーになってない?
860名無しさん@お腹いっぱい。
2026/05/01(金) 20:50:14.32ID:RQBXBvV60 >>859
ほんまや。直しておきます
ほんまや。直しておきます
861名無しさん@お腹いっぱい。
2026/05/01(金) 21:11:16.37ID:RQBXBvV60 動くようになったです。だいぶ止まってたっぽ
2026/05/01(金) 21:34:02.95ID:5O1n87Gj0
対応ありがとうございます
漢字の一が認識されないのがちょいちょいあったので送っときました
漢字の一が認識されないのがちょいちょいあったので送っときました
863名無しさん@お腹いっぱい。
2026/05/01(金) 21:40:33.64ID:RQBXBvV602026/05/01(金) 21:51:46.87ID:K98nN0p10
漢数字の「一」と同様にカタカナの「ー」も欠落することがありますね
2026/05/01(金) 21:53:35.94ID:BDPCeRc20
横だけどテスト画像提供者が作者最新版でのテスト結果を受け取れるように
画像のハッシュ値か何かをキーとしてダウンロード出来る仕組みがあったら良いのに
と思いました。
画像のハッシュ値か何かをキーとしてダウンロード出来る仕組みがあったら良いのに
と思いました。
866名無しさん@お腹いっぱい。
2026/05/02(土) 12:00:33.04ID:A2FGbi8r0 確かに。こっちから結果送りたい時に困ってたんですよね。
仕組み考えておきます。
仕組み考えておきます。
2026/05/03(日) 13:10:57.10ID:dpfsbASQ0
gemma4試したけどマルチモーダルのLLMがOCRで座標返すのが意味わからなすぎる
E4Bはスマホで動かしたけど一つ上をパソコンで動かしかったが30GBとかとびすぎやろ
E4Bはスマホで動かしたけど一つ上をパソコンで動かしかったが30GBとかとびすぎやろ
2026/05/15(金) 11:09:25.59ID:uxVN+/B90
NDLOCR-Liteが作成するpdfはUniJIS-UCS2を使っているので認識できる文字範囲は
それ以下だと想像しますがbunkoOCRの認識文字範囲はどれくらいなんでしょうか
それ以下だと想像しますがbunkoOCRの認識文字範囲はどれくらいなんでしょうか
869名無しさん@お腹いっぱい。
2026/05/15(金) 18:04:20.60ID:sJn+LSnP0 >>868
学習自体は、Unicodeコードポイントが単独で振られている漢字は対応できるようにしたはず。(異体字フラグは未対応)なので、学習に使ったフォントに、文字が収録されてたら反応すると思います。
しかし、ちょっとバグがあって、transformerで文脈補正すると新字体になってしまう文字があるので、今直してます。今のところこの部分をオフにしたら多分出そう。
学習自体は、Unicodeコードポイントが単独で振られている漢字は対応できるようにしたはず。(異体字フラグは未対応)なので、学習に使ったフォントに、文字が収録されてたら反応すると思います。
しかし、ちょっとバグがあって、transformerで文脈補正すると新字体になってしまう文字があるので、今直してます。今のところこの部分をオフにしたら多分出そう。
870名無しさん@お腹いっぱい。
2026/05/15(金) 19:42:48.80ID:iF+n6JkY0 NDLOCR試してみたけどDocument intelligenceよりは落ちるね。取り敢えずonnx直接叩いて出力まで行けたけど
レイアウト解析はLayoutモデルより使いかって良さそう
Bunko OCRはキャラクターの中心検出だっけ?Document intelligenceでキャラ単位配置までできたけど元々のポリゴンが若干ずれてるみたいなんよね
Macで使う場合モデルとengineのc++ソースだけあればいいんかな?
レイアウト解析はLayoutモデルより使いかって良さそう
Bunko OCRはキャラクターの中心検出だっけ?Document intelligenceでキャラ単位配置までできたけど元々のポリゴンが若干ずれてるみたいなんよね
Macで使う場合モデルとengineのc++ソースだけあればいいんかな?
871名無しさん@お腹いっぱい。
2026/05/15(金) 20:13:44.60ID:xfSS0l590 あ、findtextcenternetの方見ればいいのか
上に書いてあった
上に書いてあった
2026/05/15(金) 21:14:34.09ID:uxVN+/B90
https://kanji.jitenon.jp/cat/jisdai3 のJIS第3水準一番上の表をbunkoOCRで試してみましたが完璧ですね
NDOCR-Liteは古い本のために作ったはずなのに誤認識も多いし期待外れ
NDOCR-Liteは古い本のために作ったはずなのに誤認識も多いし期待外れ
2026/05/15(金) 21:56:20.94ID:FCGZ18Ho0
NDLOCR-Liteはここに列挙されている7千文字余り以外は出力されない(認識しない)のでは?
https://github.com/ndl-lab/ndlocr-lite/blob/master/train/parseqcode/configs/NDLmoji.yaml
https://github.com/ndl-lab/ndlocr-lite/blob/master/train/parseqcode/configs/NDLmoji.yaml
874名無しさん@お腹いっぱい。
2026/05/16(土) 11:58:38.21ID:qeWQmLQu0 textcenternet、macで使ってみてるけどなんかメチャクチャ時間かかってる
図表付きレイアウト600dpi高解像度だと対応してなかったりします?
単に自分の実装が悪いだけだと思うけど、どのくらいの速度が普通なんだろう
図表付きレイアウト600dpi高解像度だと対応してなかったりします?
単に自分の実装が悪いだけだと思うけど、どのくらいの速度が普通なんだろう
875名無しさん@お腹いっぱい。
2026/05/16(土) 21:45:12.49ID:TgRbPeEj0 >>874
Macでやるなら、coreMLに変換してあげて。macのMPSはそんなに速くない
Macでやるなら、coreMLに変換してあげて。macのMPSはそんなに速くない
876名無しさん@お腹いっぱい。
2026/05/17(日) 17:06:13.04ID:4yIaDp5X0877名無しさん@お腹いっぱい。
2026/06/02(火) 10:25:05.25ID:97LXg5/h0 NDL OCRなんか&がエスケープなのか&って取得されるな...
あと全角アルファベットが半角にされる
bunko ocrは少し全角で拾ってくれるけど、それでも半角が多い印象
配置するときにズレる原因になるんだよな
座標から推測してもいいけど自動認識できるモデルないかな
とくにndlはline座標だから
あと全角アルファベットが半角にされる
bunko ocrは少し全角で拾ってくれるけど、それでも半角が多い印象
配置するときにズレる原因になるんだよな
座標から推測してもいいけど自動認識できるモデルないかな
とくにndlはline座標だから
878名無しさん@お腹いっぱい。
2026/06/02(火) 10:25:26.15ID:97LXg5/h0 エスケープは&だったわ
879名無しさん@お腹いっぱい。
2026/06/02(火) 10:25:54.50ID:97LXg5/h0 あれここでもされるんか
& ampてなる
& ampてなる
880名無しさん@お腹いっぱい。
2026/06/02(火) 10:53:29.82ID:97LXg5/h0 xmlの仕様だったみたいだわ
パーサー通したら元に戻るから問題無かった
全角半角問題はまだあるけど
パーサー通したら元に戻るから問題無かった
全角半角問題はまだあるけど
881名無しさん@お腹いっぱい。
2026/06/02(火) 14:37:08.93ID:uBCAbqZ40 全角半角は本質的に形が一緒なので、判定はむずい
補正判定するとしたら、文字の幅が全角なのを使うか、文字送りが全角幅なのを使うか
補正判定するとしたら、文字の幅が全角なのを使うか、文字送りが全角幅なのを使うか
882名無しさん@お腹いっぱい。
2026/06/02(火) 14:53:28.06ID:haE6UAe70 全角文字が複数あればともかく
Mとかは全角でもプロポーショナルでも横幅が同じようなものなので1文字だと人間でもAIでも厳密な区別は不可能
前後の文脈とか縦書きか横書きかとか他の場所でどう現れてるかとかフォントの癖とか、より上位のコンテキストから判断する必要がある
全角と半角は使用フォントの違いであってテキストの違いではないと捉えるべき
Mとかは全角でもプロポーショナルでも横幅が同じようなものなので1文字だと人間でもAIでも厳密な区別は不可能
前後の文脈とか縦書きか横書きかとか他の場所でどう現れてるかとかフォントの癖とか、より上位のコンテキストから判断する必要がある
全角と半角は使用フォントの違いであってテキストの違いではないと捉えるべき
883名無しさん@お腹いっぱい。
2026/06/02(火) 18:39:34.20ID:QccPy7qd0 まぁ、その通りでテキスト抽出するだけなrら問題にならないんだが、PDFに戻すと結構ずれて気になることがあるんだよね
コンテキスト判断必要なところからしてAI向けだとは思う
コンテキスト判断必要なところからしてAI向けだとは思う
884名無しさん@お腹いっぱい。
2026/06/02(火) 20:21:33.85ID:haE6UAe70 >>883
それをきちんとやろうとしたら全角半角以外でもフォントのサイズやイタリックやボールドなど他の字形要素でも同じ問題が起きるので
「OCRでテキストだけじゃなく各文字の使用フォントとサイズまで識別する。透明テキストを埋め込む際に同じフォントとサイズで埋め込む」までやらないといけない
フォント識別してもそのフォント持ってない問題とかもあって、裏技としてはOCRしながら画像から新しくフォントを生成してそのフォントで埋め込むみたいなのもできるんだろうけど普通はコストに見合わない
それをきちんとやろうとしたら全角半角以外でもフォントのサイズやイタリックやボールドなど他の字形要素でも同じ問題が起きるので
「OCRでテキストだけじゃなく各文字の使用フォントとサイズまで識別する。透明テキストを埋め込む際に同じフォントとサイズで埋め込む」までやらないといけない
フォント識別してもそのフォント持ってない問題とかもあって、裏技としてはOCRしながら画像から新しくフォントを生成してそのフォントで埋め込むみたいなのもできるんだろうけど普通はコストに見合わない
2026/06/02(火) 20:31:29.21ID:64umnu5E0
英文専用OCRではイタリックやボールド、飾り文字も認識出来るのがあったかと
886名無しさん@お腹いっぱい。
2026/06/03(水) 09:16:04.40ID:/Nv6QzpK0 >>884
Document intelligence ではフォントとスタイル認識できるからやってみてるけど、あっちはあっちでポリゴンが実際の文字の位置とちょっとずれてるっぽくて面倒くさいのよね
Document intelligence ではフォントとスタイル認識できるからやってみてるけど、あっちはあっちでポリゴンが実際の文字の位置とちょっとずれてるっぽくて面倒くさいのよね
887名無しさん@お腹いっぱい。
2026/06/03(水) 10:16:52.63ID:FUE8x4HF0 NDLOCR-Lite v.1.2.1 で本に載っているC言語系のソースコードを OCR でテキストファイルに出すと関数の終わりのカッコ } で謎の数字が入っている。
記号やプログラムで使われる特定のキーワードだと、プログラム的に解釈して、その時持っている変数をOCRの結果に出してそう。
変換精度は満足。
1と小文字Lを間違えるのと、スペース区切りを間違えるのは仕方がない。
記号やプログラムで使われる特定のキーワードだと、プログラム的に解釈して、その時持っている変数をOCRの結果に出してそう。
変換精度は満足。
1と小文字Lを間違えるのと、スペース区切りを間違えるのは仕方がない。
888名無しさん@お腹いっぱい。
2026/06/04(木) 00:05:48.27ID:rR1rcJJ70 中国語日本語の専門用語辞典をNDLにかけてみたら時々謎の英語ぽい無意味なアルファベット文字列が出力されてた
2026/06/06(土) 22:42:05.88ID:yoBQqSOK0
ndlocr-liteにプレビューとして1.2.2が出ていた
PDFの透明テキストの位置が改善されていた
PDFの画像は今まで可逆のFlateエンコードだったのが品質75のDCTエンコードに変えられた
初期版の時のようにASCIIのPDFになってしまったのでcpdf -squeezeとかしないとサイズがでかい
PDFの透明テキストの位置が改善されていた
PDFの画像は今まで可逆のFlateエンコードだったのが品質75のDCTエンコードに変えられた
初期版の時のようにASCIIのPDFになってしまったのでcpdf -squeezeとかしないとサイズがでかい
2026/06/07(日) 14:00:09.86ID:RxhR464W0
レスを投稿する
ニュース
- 【🔫】日本共産党、新宿駅・東南口前で高市首相を撃つ「新しいゲーム」開始 「流石におかしい」と非難の声相次ぐ ★2 [少考さん★]
- 「子どもに惨めな思いさせたくない」出生数が過去最少 なぜ若者は結婚せず、子どもを持たなくなったのか ★4 [煮卵★]
- 「戦争をする国になってしまう」 憲法9条の保持訴え、埼玉で4800人が集会 オール埼玉総行動 [少考さん★]
- 【野球】巨人・坂本勇人が〝風紀委員長〟に!「巨人軍は紳士たれ」の伝統を受け継ぐ [Ailuropoda melanoleuca★]
- 【野球】バット直撃で頭部負傷から1か月半 川上拓斗審判員の容体を家族が明かす意識回復せずも「まばたきで反応」「腕を動かす」 [Ailuropoda melanoleuca★]
- AI生成、女児の性的画像所持も有罪 [お断り★]
- 同姓同名で同じ生年月日、町税滞納者をうっかり誤って差し押さえ [256556981]
- 【🏡】ゴミライブのクソチューバー全員下痢便食わせて殺す【🏡】
- 内田リコ被告「今後も反省、謝罪、償いの日々を送ります。以上でふ(笑うな···まだ笑うな私···)」 [551743856]
- 助けて
- 外国人「日本は寺社仏閣しか見るものがなく退屈。相続税がない宗教以外は貧乏な街が広がっているだけ」 [819729701]
- お絵描きAIくん、ドスケベ魔王軍の侵略で可愛い女の子も作れる