我正在做PDF内容验证的POC,这将基本上验证PDF文件的内容。但我没有找到任何解决办法。
我正在寻找的解决办法:
发布于 2020-01-28 15:13:24
首先,您提到了一些不同的标记,如Python和Java。你需要弄清楚你想用什么语言。我建议使用一种你已经知道和/或你的同事知道的语言,一种在你的项目中已经使用过的语言(S),以及一种在你的公司中通常使用的语言。在本例中,您所做的应该与其他项目和情况一致。
在Python中,有几种方法,其中之一是MyPDF2,更确切地说是方法extractText()
。阅读文档并在您的示例中试用它,它可能不会在所有情况下都运行良好。这也取决于你想要检查的例子,文本可能比标题、页数、作者等要难一些。
然而,Selenium不是这里的解决方案,它是用于测试web应用程序的框架,而不是用于从PDF文件读取数据/文本的工具/框架/库。一些基本信息可以找到在维基百科上在维基百科上。
https://sqa.stackexchange.com/questions/42340
复制相似问题