首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何使用Python从手写扫描的PDF中提取数据?

如何使用Python从手写扫描的PDF中提取数据?
EN

Stack Overflow用户
提问于 2019-08-04 19:51:50
回答 1查看 4.4K关注 0票数 0

所以我有这些PDF,它们是结构化反馈表的扫描副本。该表单具有用于手写备注的复选框和空白处。我正在尝试从这些PDF中提取数据并将其保存到非结构化的CSV文件中。现在使用pytesseract,我能够捕获打印的文本(首先将PDF转换为图像),但无法捕获手写内容。有没有人在做这件事。随函附上一份样本表格,以供参考。

EN

回答 1

Stack Overflow用户

发布于 2019-08-04 20:28:15

PyTesseract是一种光学字符识别程序。它没有经过训练或设计来识别手写。因此您有两个选择: 1)重新训练它用于手写(尽管这将非常耗时和复杂) 2)使用另一个实际上用于识别手写而不是打印文本的库:https://docs.microsoft.com/en-us/azure/cognitive-services/computer-vision/quickstarts/python-hand-text

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/57346304

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档