前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >使用pdfminer提取PDF文件中的文字

使用pdfminer提取PDF文件中的文字

作者头像
生信修炼手册
发布2020-12-11 10:39:49
5.3K0
发布2020-12-11 10:39:49
举报
文章被收录于专栏:生信修炼手册

欢迎关注”生信修炼手册”!

和word文档一样,pdf文件也拥有强大的排版功能。对于pdf的编程操作而言,分为读和写两大类,其中读是相对简单的一种,比如读出pdf文件中的文字,写是比较难的,除了文字,图片等基本元素,最重要的是排版的样式控制,而编程还无法满足样式的灵活性。

本文主要介绍pdf读取操作中的一种应用,从PDF文件中提取文字,可以通过pdfminer模块来实现,安装方式如下

代码语言:javascript
复制
pip install pdfminer

该模块同时还提供了一种,命令行的脚本程序,可以方便的提取pdf中的文字,用法如下

代码语言:javascript
复制
python pdf2txt.py input.pdf

如果提取出文字之后,需要进一步操作,最好还是通过脚本对程序进行处理,在脚本中实现文字提取的代码如下

代码语言:javascript
复制
>>> from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
>>> from pdfminer.converter import TextConverter
>>> from pdfminer.pdfpage import PDFPage
>>> rsrcmgr = PDFResourceManager()
>>> outfp = open('pdf.text', 'w', encoding='utf-8')
>>> device = TextConverter(rsrcmgr, outfp)
>>> with open('input.pdf', 'rb') as fp:
...     interpreter = PDFPageInterpreter(rsrcmgr, device)
...     for page in PDFPage.get_pages(fp):
...         interpreter.process_page(page)
...
>>> device.close()
>>> outfp.close()

只需要简单的十几行代码,就可以提取出对应的文字,然后再根据需求进行后续处理,比如将提取出的文字, 利用python-docx模块输入到word文档中,从而实现pdf到word文档的转换,也可以提取pdf中的表格文字,写入到excel中。

·end·

—如果喜欢,快分享给你的朋友们吧—

原创不易,欢迎收藏,点赞,转发!生信知识浩瀚如海,在生信学习的道路上,让我们一起并肩作战!

本公众号深耕耘生信领域多年,具有丰富的数据分析经验,致力于提供真正有价值的数据分析服务,擅长个性化分析,欢迎有需要的老师和同学前来咨询。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-11-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信修炼手册 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档