首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何解决tessaract ocr中的新线路问题?

如何解决tessaract ocr中的新线路问题?
EN

Stack Overflow用户
提问于 2021-12-30 16:23:56
回答 1查看 378关注 0票数 0

我有一张有文字的图片。我用ocr扫描图像,得到了正确的文本。只有一个问题:如果有一个新的行,ocr将不会在两个单词之间留下空间。

代码语言:javascript
运行
复制
img = cv2.imread('cropped.png')
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'
result = pytesseract.image_to_string(img, lang='eng', config='--psm 6')
ret_str = ""
for letter in result:
    if letter.isalnum() or letter == " ":
        ret_str += letter.lower()
c_list = ret_str.strip()
print(c_list)

输出:

代码语言:javascript
运行
复制
['gundam builddivers']

如您所见,在第一个元素中,builddivers之间没有空格。

图片:

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-12-30 16:51:33

代码语言:javascript
运行
复制
img = cv2.imread('cropped.png')
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'
result = pytesseract.image_to_string(img, lang='eng', config='--psm 6')
result = result.replace("\n", " ")
ret_str = ""
for letter in result:
    if letter.isalnum() or letter == " ":
        ret_str += letter.lower()
c_list = ret_str.strip()
print(c_list)

添加.replace()是解决方案

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/70534158

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档