首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何读取一些pdf文件中除表格以外的所有内容?

如何读取一些pdf文件中除表格以外的所有内容?
EN

Stack Overflow用户
提问于 2019-09-02 19:03:56
回答 1查看 53关注 0票数 0

我想使用python读取pdf文件,但在阅读时,我不想将表格包含在pdf文件中。我只想要除了那些表格之外的所有其他内容。

我尝试过像PyPDF2Tabula这样的库,但我只是找到了提取表格或读取包括表格在内的内容的方法。

我也不想创建一个新文件并在其中添加页面。准确地说,除了表的内容之外,所有的内容都应该是stringslist格式。

EN

回答 1

Stack Overflow用户

发布于 2019-09-02 19:45:21

最近尝试了这个支持深度学习技术的文档文本提取工具(这实际上是亚马逊的OCR工具)。当涉及到从PDF或图像文件中提取文本时,这可以提供更准确的结果。

有关快速信息,请参阅;https://aws.amazon.com/textract/features/

有关示例和python SDK安装,请参阅下面的内容;https://docs.aws.amazon.com/textract/latest/dg/getting-started.html

有两个函数可以从PDF文件中提取文本,内容是字符串列表和Table/Forms/KeyValues格式的内容。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/57755835

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档