根据您的经验,什么是最准确的开放源码光学字符识别(OCR)库/软件来读取日文文本?
我刚试过nhocr,它的错误率超过2%,即使是在一个非常干净的高清晰度文档上(2%用于大字体的超干净字符,对于扫描过的书籍则更糟糕,更不用说手写形式了)。
日本旧手机(特别是夏普手机)在10年前就有了很好的日本OCR,所以我想它在开源中也是可行的。
发布于 2016-07-05 16:23:20
您可以使用这些建议的参数可以提高手术的准确性。。
jtesseract
脚本中的示例用法:
tesseract "$@" -l jpn -c chop_enable=T -c use_new_state_cost=F -c segment_segcost_rating=F -c enable_new_segsearch=0 -c language_model_ngram_on=0 -c textord_force_make_prop_words=F -c edges_max_children_per_outline=40
发布于 2015-02-04 02:15:11
我不知道有任何好的开源软件,但如果这不是一个困难的要求,我已经使用了几年FineReader 9.0Express版,而且我对OCR结果的质量普遍感到满意。不知道我能不能说得比98%好,但好得很容易纠正。
我主要使用它从书籍或杂志的OCR日语文本。根据它的建议,以及我的尝试和错误,非常高的分辨率实际上比坚持300 and更糟糕。
我遇到的唯一一致的问题是:
( 1)有时它会返回一个类似于实际日本汉字的中国汉字。我不知道这是否可以被限制,或者仅仅因为OCR支持这两种语言。
( 2)某些字符可能通过整个文档被错误地解释。但是,在第一批之后,很容易找到和替换。
( 3)当混合在一页纸上时,它似乎无法读懂英语。我只是在打样的时候输入。现在看来这取决于v12。也许你能以一个好的价格找到以前的版本。
发布于 2015-02-03 09:50:52
根据我的经验,我可以推荐您两个软件,它们恰好是OCR领域中最好的软件,但它们不是开源软件。
我将此产品用于亚洲文档,因为它几乎支持所有亚洲语言。这是一款加农公司的软件,而且也不是开源软件。
我相信你会通过使用这两个软件中的任何一个得到你想要的结果。
https://softwarerecs.stackexchange.com/questions/16866
复制相似问题