首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >使用Azure表单识别器提取PDF表格数据

使用Azure表单识别器提取PDF表格数据
EN

Stack Overflow用户
提问于 2020-09-15 05:27:21
回答 2查看 1.3K关注 0票数 0

我正在工作的发票处理项目使用Azure从识别器。所有发票都是PDF格式的。我正在使用一个自定义的表单识别器与标签。我可以从PDF中提取一些数据,如发票编号、发票日期、金额等,但我想使用Azure表单识别器从pdf中提取表格数据,但它没有正确读取表。

我已经标记了我需要的单元格,当表中的行数增加时,它正确地读取列,但是它无法将每一行的值彼此分开,并将整个列作为单个值返回。

我试图提供更多的示例,但它仍然未能检测到正确的表。是否有办法使用Azure表单识别器正确地从PDF中提取表数据?

扫描表是我们的应用程序的基本要求,它将决定我们是否使用Azure表单识别器作为应用程序的基础。

请查看下面的PDF表格图像,并希望从所有列中提取所有行数据。

如果你能用一些关于这方面的文档指出正确的方向,那将是有益的。

谢谢

EN

回答 2

Stack Overflow用户

发布于 2020-09-16 03:59:53

请试以下几点-

  1. 培训没有标签,并查看它是否检测和提取您需要的表。见这里的快速启动- https://learn.microsoft.com/en-us/azure/cognitive-services/form-recognizer/quickstarts/python-train-extract?tabs=v2-0

  1. ,如果他的表没有被没有标签的列车检测到,如果你使用的是带有标签的列车,而且该表不是自动检测的,那么我们还不支持对表进行本机标记。您可以尝试将表标记为键值对作为解决办法,以提取值。当将表标记为键值对时,将每个单元格标记为值,因此对于上面的表,每列应该有5个值-- Desc1、Desc2、Desc3...Desc5、Hours1、Hours2、Hours3、...Hours5。在这种情况下,您需要使用最大行数的表进行训练。
票数 0
EN

Stack Overflow用户

发布于 2022-03-11 21:13:59

表单识别器发布的发票特定模型,跨不同的发票布局工作。请看下面的文件:

https://learn.microsoft.com/en-us/azure/applied-ai-services/form-recognizer/concept-invoice

它允许提取标题字段以及行项及其详细信息。

您可以使用(需要Azure订阅和表单Recognizer资源)来尝试这个模型:https://formrecognizer.appliedai.azure.com/studio/prebuilt?formType=invoice

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/63895644

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档