前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >R语言提取PDF文件中的文本内容

R语言提取PDF文件中的文本内容

作者头像
一粒沙
发布2019-07-31 14:42:57
9.6K1
发布2019-07-31 14:42:57
举报
文章被收录于专栏:R语言交流中心R语言交流中心
有时候我们想提取PDF中的文本不得不借助一些转化软件,本次教程给大家介绍一下如何简单从pdf文件中提取文本的R包。
  1. 安装R包: install.packages("pdftools")。
  2. 当然如果在Windows以外的环境安装需要部署 poppler 环境。命令: Debian/ubuntu下: sudo apt-get installlibpoppler-cpp-dev CentOS: sudo yum installpoppler-cpp-devel Mac OS-X: brew install poppler
  3. 开始使用: library(pdftools)。
  4. 读取文本的命令: txt=pdf_txt(“文件路径”)。
  5. 获取每页的内容,命令:txt[n] 获取第n页的内容。
  6. 获取pdf文件目录: doc=pdf_toc(“文件路径”)。
  7. 当然doc变量中的目录还不是标准化的格式,那么我们需要一个通用json格式,需要安装R包jsoblite。文本转换命令:json=toJSON(toc, auto_unbox = TRUE, pretty = TRUE)。再利用函数fromJSON(json),我们就会把目录转化成为向量。也就拿到了文档的整个目录。

综上步骤,我们便可以随便获取任意章节的任意内容。那么接下来就是对这些文字的应用,各位集思广益吧。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-12-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 R语言交流中心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档