问如何使用Python从手写扫描的PDF中提取数据？
EN

Stack Overflow用户

提问于 2019-08-04 19:51:50

回答 1查看 4.4K关注 0票数 0

所以我有这些PDF，它们是结构化反馈表的扫描副本。该表单具有用于手写备注的复选框和空白处。我正在尝试从这些PDF中提取数据并将其保存到非结构化的CSV文件中。现在使用pytesseract，我能够捕获打印的文本(首先将PDF转换为图像)，但无法捕获手写内容。有没有人在做这件事。随函附上一份样本表格，以供参考。

python

ocr

python-tesseract

handwriting-recognition

回答 1

Stack Overflow用户

发布于 2019-08-04 20:28:15

PyTesseract是一种光学字符识别程序。它没有经过训练或设计来识别手写。因此您有两个选择: 1)重新训练它用于手写(尽管这将非常耗时和复杂) 2)使用另一个实际上用于识别手写而不是打印文本的库：https://docs.microsoft.com/en-us/azure/cognitive-services/computer-vision/quickstarts/python-hand-text

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/57346304

复制

相似问题

问如何使用Python从手写扫描的PDF中提取数据？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用Python从手写扫描的PDF中提取数据？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用Python从手写扫描的PDF中提取数据？
EN