我希望从PDF发票中提取特定的文本和数字,其中之一是总金额。事情是,的总金额的立场不断变化从pdf到pdf的是根据有多少个项目。如果有很多项目,那么总金额字段将在pdf中较低,如果项目的数量较少,那么总金额将更高在pdf中。参考图见下图。发票中只有两个项目,所以总字段位于较高的位置。但我也有发票,在发票中有15项,总字段在页面中较低或在下一页。
那我该怎么提取呢?我试过使用Anchor base,但它不起作用!

这是我迄今所做的工作:
1.)指定一个for循环来打开文件夹中的每个pdf。
2.)对于每一个pdf,我已经分配了一个热键,适合一整页窗口。
3.)然后我使用Anchor Base (在图像中,f=given是锚点,数量是要提取的值)。
4.)使用消息框打印值
5.)关闭pdf
发布于 2022-03-02 10:18:46
两种可能的解决方案。
使用UiPath文档理解
您可以在Community上获得一定数量的DU数据,然后可以设置模板并使用锚基、令牌选择、自定义区域选择器等。
读行逼近
将PDF转换为文本。查看提取的文本,并找到一个短语/关键字,您可以使用它作为锚。按照你的例子,你可能会说“总计:”
然后使用调用代码(下面的示例将使用C# )
参数: in_text (PDF文本)\ out_totalAmount
代码:
var invoiceTotal = File.ReadLines(in_text).Last(e => e.StartsWith("Total: ")).Trim();
out_totalAmount = invoiceTotal.Split(new []{":"}).LastOrDefault();https://stackoverflow.com/questions/71320447
复制相似问题