>>778
そこらへんもちょっとだけ日本の3大OCRを比較して勉強してました
ndlocrとYomiTokuはレイアウト解析で行を求めて、その行ごとPARSeqになげて言語知識(ViTrasfomer?)なども踏まえてテキスト認識
bunkoOCRはCenterNet+EfficentNetで文字レベルの位置と特徴をもとめて、特徴を後段のTransfomerにぶんなげて言語知識が補正?

アラビア語とかつなってるやつ、文字レベルで分割が大変そうだからPARSeqとかの方がよさそうですよね