我在Tesseract上创建自定义OCR应用程序的过程中,我仍然在做研发工作,我遇到了训练多页tiff文档以从中提取特定字段的问题,我该如何实现呢?一旦它被训练,即将到来的相同文档将被自动提取,或者我们需要手动干预?
对不起,我还在研发阶段,我还没有着手编码,我已经谷歌了很多次,但没有找到合适的解决方案,请提前帮我解决这个问题谢谢!
发布于 2020-02-26 20:07:30
我使用PIL将tiff读取到ImageSequence
中,然后单独处理页面,因为如果需要,这可以并行完成。
from PIL import Image, ImageSequence
import pytesseract
im = Image.open(filename)
pages = ImageSequence.Iterator(im)
# n_pages = im.n_frames
for page in in pages:
im = im.convert('L')
pytesseract.image_to_data( ... )
https://stackoverflow.com/questions/60412488
复制相似问题