所以我有这些PDF,它们是结构化反馈表的扫描副本。该表单具有用于手写备注的复选框和空白处。我正在尝试从这些PDF中提取数据并将其保存到非结构化的CSV文件中。现在使用pytesseract,我能够捕获打印的文本(首先将PDF转换为图像),但无法捕获手写内容。有没有人在做这件事。随函附上一份样本表格,以供参考。
发布于 2019-08-04 20:28:15
PyTesseract是一种光学字符识别程序。它没有经过训练或设计来识别手写。因此您有两个选择: 1)重新训练它用于手写(尽管这将非常耗时和复杂) 2)使用另一个实际上用于识别手写而不是打印文本的库:https://docs.microsoft.com/en-us/azure/cognitive-services/computer-vision/quickstarts/python-hand-text
https://stackoverflow.com/questions/57346304
复制相似问题