>>850
作者様に以前メールでお送りしたブロック順がメチャクチャになり横を縦と認識された部分もあるサンプル
https://i.imgur.com/rr8qttx.jpeg
でPDFを作ってみました
「テキストのブロックが丸々抜けてしまう」は見間違いでした すみません
SumatraPDFはページまたぎ検索もできてでPDFでもリフローテキストと同様に使えますがこの例では
bunkoOCRでの誤認識と同じく「竹藁」と「原料となっている。竹紙は」がヒットしてしまいました
「竹」と「藁」がつながってしまうのは理解できますが、「原料となっている。」と「竹紙は」が
つながってしまうのはちょっと不思議です