bunkoOCRが出力するjsonと元画像から画像を変更しない日本語透明テキスト付きPDFを作ってみた
画像は電子テキストのスクショ
使い物になる既存ツールがなくPythonのライブラリを使う必要があるようだ
自分はPythonに慣れていないのでGeminiにhOCRをPDFに変換するスクリプトを書いてもらった
hOCRへの変換はjsonに書かれている数値をそのま使った
ちょっと位置がずれたけど検索できるPDFができた
jpegの他に圧縮率が高いモノクロのJBIG2にも対応
https://62.gigafile.nu/0727-c07f987827af7af3cbb2aaf524bdffeef