我正在工作的发票处理项目使用Azure从识别器。所有发票都是PDF格式的。我正在使用一个自定义的表单识别器与标签。我可以从PDF中提取一些数据,如发票编号、发票日期、金额等,但我想使用Azure表单识别器从pdf中提取表格数据,但它没有正确读取表。
我已经标记了我需要的单元格,当表中的行数增加时,它正确地读取列,但是它无法将每一行的值彼此分开,并将整个列作为单个值返回。
我试图提供更多的示例,但它仍然未能检测到正确的表。是否有办法使用Azure表单识别器正确地从PDF中提取表数据?
扫描表是我们的应用程序的基本要求,它将决定我们是否使用Azure表单识别器作为应用程序的基础。
请查看下面的PDF表格图像,并希望从所有列中提取所有行数据。
如果你能用一些关于这方面的文档指出正确的方向,那将是有益的。
谢谢
发布于 2020-09-16 03:59:53
请试以下几点-
发布于 2022-03-11 21:13:59
表单识别器发布的发票特定模型,跨不同的发票布局工作。请看下面的文件:
https://learn.microsoft.com/en-us/azure/applied-ai-services/form-recognizer/concept-invoice
它允许提取标题字段以及行项及其详细信息。
您可以使用(需要Azure订阅和表单Recognizer资源)来尝试这个模型:https://formrecognizer.appliedai.azure.com/studio/prebuilt?formType=invoice
https://stackoverflow.com/questions/63895644
复制相似问题