首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >用Java实现PDF内容验证的自动化解决方案

用Java实现PDF内容验证的自动化解决方案
EN

Stack Exchange QA用户
提问于 2020-01-28 13:40:25
回答 1查看 1.4K关注 0票数 1

我正在做PDF内容验证的POC,这将基本上验证PDF文件的内容。但我没有找到任何解决办法。

我正在寻找的解决办法:

  1. 从特定位置读取PDF文件
  2. 提取PDF内容,并可能将其以某种结构化格式放入
  3. 根据预期值验证实际提取的内容
EN

回答 1

Stack Exchange QA用户

发布于 2020-01-28 15:13:24

首先,您提到了一些不同的标记,如Python和Java。你需要弄清楚你想用什么语言。我建议使用一种你已经知道和/或你的同事知道的语言,一种在你的项目中已经使用过的语言(S),以及一种在你的公司中通常使用的语言。在本例中,您所做的应该与其他项目和情况一致。

在Python中,有几种方法,其中之一是MyPDF2,更确切地说是方法extractText()。阅读文档并在您的示例中试用它,它可能不会在所有情况下都运行良好。这也取决于你想要检查的例子,文本可能比标题、页数、作者等要难一些。

然而,Selenium不是这里的解决方案,它是用于测试web应用程序的框架,而不是用于从PDF文件读取数据/文本的工具/框架/库。一些基本信息可以找到在维基百科上在维基百科上

票数 3
EN
页面原文内容由Stack Exchange QA提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://sqa.stackexchange.com/questions/42340

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档