我有一张有文字的图片。我用ocr扫描图像,得到了正确的文本。只有一个问题:如果有一个新的行,ocr将不会在两个单词之间留下空间。
img = cv2.imread('cropped.png')
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'
result = pytesseract.image_to_string(img, lang='eng', config='--psm 6')
ret_str = ""
for letter in result:
if letter.isalnum() or letter == " ":
ret_str += letter.lower()
c_list = ret_str.strip()
print(c_list)
输出:
['gundam builddivers']
如您所见,在第一个元素中,build
和divers
之间没有空格。
图片:
发布于 2021-12-30 16:51:33
img = cv2.imread('cropped.png')
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'
result = pytesseract.image_to_string(img, lang='eng', config='--psm 6')
result = result.replace("\n", " ")
ret_str = ""
for letter in result:
if letter.isalnum() or letter == " ":
ret_str += letter.lower()
c_list = ret_str.strip()
print(c_list)
添加.replace()是解决方案
https://stackoverflow.com/questions/70534158
复制相似问题