文章/答案/技术大牛

发布

社区首页 >问答首页 >如何解决tessaract ocr中的新线路问题？

问如何解决tessaract ocr中的新线路问题？
EN

Stack Overflow用户

提问于 2021-12-30 16:23:56

回答 1查看 378关注 0票数 0

我有一张有文字的图片。我用ocr扫描图像，得到了正确的文本。只有一个问题:如果有一个新的行，ocr将不会在两个单词之间留下空间。

img = cv2.imread('cropped.png')
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'
result = pytesseract.image_to_string(img, lang='eng', config='--psm 6')
ret_str = ""
for letter in result:
    if letter.isalnum() or letter == " ":
        ret_str += letter.lower()
c_list = ret_str.strip()
print(c_list)

输出：

['gundam builddivers']

如您所见，在第一个元素中，build和divers之间没有空格。

图片：

python

opencv

tesseract

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-12-30 16:51:33

img = cv2.imread('cropped.png')
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'
result = pytesseract.image_to_string(img, lang='eng', config='--psm 6')
result = result.replace("\n", " ")
ret_str = ""
for letter in result:
    if letter.isalnum() or letter == " ":
        ret_str += letter.lower()
c_list = ret_str.strip()
print(c_list)

添加.replace()是解决方案

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/70534158

复制

相似问题

问如何解决tessaract ocr中的新线路问题？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何解决tessaract ocr中的新线路问题？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何解决tessaract ocr中的新线路问题？
EN