前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >PDF内容自动提取,想取哪些页面就取哪些页面! | PA实战案例

PDF内容自动提取,想取哪些页面就取哪些页面! | PA实战案例

作者头像
大海Power
发布2021-12-09 16:28:18
1.4K0
发布2021-12-09 16:28:18
举报
文章被收录于专栏:用户8950297的专栏

前面的文章《3分钟读取、汇总300个pdf文件内容!多简单!多快!| PA实战应用》讲了如何提取PDF文件里的内容,但是,提取的方法很是简单粗暴,不管内容多少,全部提取。

但是,在日常工作中,对于很多pdf文件,我们实际上只需要提取其中部分页面的内容即可,这要怎么办呢?

以下,分2种常见情况进行说明,其中隐藏一些技巧,值得注意。

- 1 -

明确单页或范围

首先,如果是要提取的页面是明确的,比如明确的某一页(如第3页)或某一段页码范围(如第8-10页)等,非常简单,在提取PDF文件内容的步骤里进行简单设置即可:

1、取某一页(如第3页)

在“要提取的页面”中选择“单个”,“单个页码”中输入具体页码即可:

2、取某一段页码范围(如第8-10页

在“要提取的页面”中选择“范围”,并在“起始页码”和“结束页码”中分别输入相应的数值即可:

- 2 -

非连续多页

理论上来说,如果要提取的页码支持类似用逗号分隔的形式输入,那就能轻松解决这个问题,比如输入“2,4”代表要提取第2和4页。

但是,遗憾的是,Power Automate的“从PDF提取文本”功能并不支持这样的设置:

这种情况下,一种方法是预先设置一个列表,然后通过循环控制来提取多个页面的内容,但是,个人认为这种方法并非最佳方式,而是还有更加简便的方法:

先“将 PDF 页面提取到新的 PDF”,然后再从新的pdf文件中提取所有页面——因为“将 PDF 页面提取到新的 PDF”功能直接支持非连续页面的提取:

- 3 -

更加复杂的情况

以上是两种在提取PDF文件多页内容时常见的情况,此外,还有朋友提出了一种比较特别的情况:如对于多个PDF文件,统一不要最后的某几页。

比如,很多企业的pdf报告,前面包含数据的页面不固定,最后几页都是一些例行的备注说明,这样,我们要动态地去取前面的数据页面,最关键的是能获取到整个pdf报告的页数。

但是,目前Power Automate里却没有支持获取pdf文件页数的操作或方法,结果导致这个问题需要通过Power Automate自动调用第三方的工具来实现,比较复杂,我将在后面专文讲解,并有重要资源推荐给大家!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-12-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Excel到PowerBI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档