我想使用python读取pdf文件,但在阅读时,我不想将表格包含在pdf文件中。我只想要除了那些表格之外的所有其他内容。
我尝试过像PyPDF2
和Tabula
这样的库,但我只是找到了提取表格或读取包括表格在内的内容的方法。
我也不想创建一个新文件并在其中添加页面。准确地说,除了表的内容之外,所有的内容都应该是strings
的list
格式。
发布于 2019-09-02 19:45:21
最近尝试了这个支持深度学习技术的文档文本提取工具(这实际上是亚马逊的OCR工具)。当涉及到从PDF或图像文件中提取文本时,这可以提供更准确的结果。
有关快速信息,请参阅;https://aws.amazon.com/textract/features/
有关示例和python SDK安装,请参阅下面的内容;https://docs.aws.amazon.com/textract/latest/dg/getting-started.html
有两个函数可以从PDF文件中提取文本,内容是字符串列表和Table/Forms/KeyValues格式的内容。
https://stackoverflow.com/questions/57755835
复制相似问题