我必须分析一个包含英语和日语文本的图像。当我默认运行tesseract (-l eng
)时,一些日语字符丢失。否则,如果我用日语(-l jpn
)运行tesseract,一些英文字符会丢失(例如,电子邮件)。
如何运行既能识别英语字符又能识别日语字符的进程?
发布于 2014-12-22 20:36:53
从tesseract 3.02开始,可以为-l参数指定多种语言。
-l lang要使用的语言。如果未指定,则假定为英语。可以指定多种语言,以加号分隔。Tesseract使用3个字符的ISO 639-2语言代码。
举个例子:
tesseract myscan.png out -l deu+eng
发布于 2020-10-15 15:34:13
试试这个:
custom_config = r'-l eng+jpn --psm 6'
txt = pytesseract.image_to_string(img, config=custom_config)
from langdetect import detect_langs
detect_langs(txt)
注意:您必须使用以下命令安装langdetect:
pip install langdetect
https://stackoverflow.com/questions/24379781
复制相似问题