问将从每个图像检索到的OCR文本写入与每个图像对应的单独文本文件
EN

Stack Overflow用户

提问于 2019-06-19 02:36:47

回答 1查看 307关注 0票数 0

我正在读取一个pdf文件，并将每个页面转换为图像并保存，接下来我需要在每个图像上运行OCR，并识别每个图像文本并将其写入新的文本文件。

我知道如何从所有图像中获取所有文本，并将其转储到一个文本文件中。

pdf_dir = 'dir path'
os.chdir(pdf_dir)

for pdf_file in os.listdir(pdf_dir):
    if pdf_file.endswith(".pdf"):
        pages = convert_from_path(pdf_file, 300)
        pdf_file = pdf_file[:-4]
        for page in pages:
            page.save("%s-page%d.jpg" % (pdf_file,pages.index(page)), "JPEG") 

img_dir = 'dir path'
os.chdir(img_dir)

docs = []

for img_file in os.listdir(img_dir):
    if img_file.endswith(".jpg"):
        texts = str(((pytesseract.image_to_string(Image.open(img_file)))))
        text = texts.replace('-\n', '')  
        print(texts)
        img_file = img_file[:-4]
        for text in texts:
            file = img_file + ".txt"
#          create the new file with "w+" as open it
            with open(file, "w+") as f:
                for texts in docs:
                # write each element in my_list to file
                    f.write("%s" % str(texts))
                    print(file)

我需要一个文本文件，以写入对应的每个图像，已识别该图像内的文本。目前正在写入的文件都是空的，我不知道出了什么问题。有人能帮帮忙吗？

python

ocr

tesseract

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/56655133

复制

相似问题

问将从每个图像检索到的OCR文本写入与每个图像对应的单独文本文件
EN

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问将从每个图像检索到的OCR文本写入与每个图像对应的单独文本文件EN

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问将从每个图像检索到的OCR文本写入与每个图像对应的单独文本文件
EN