R语言提取PDF文件中的文本内容

有时候我们想提取PDF中的文本不得不借助一些转化软件,本次教程给大家介绍一下如何简单从pdf文件中提取文本的R包。
  1. 安装R包: install.packages("pdftools")。
  2. 当然如果在Windows以外的环境安装需要部署 poppler 环境。命令: Debian/ubuntu下: sudo apt-get installlibpoppler-cpp-dev CentOS: sudo yum installpoppler-cpp-devel Mac OS-X: brew install poppler
  3. 开始使用: library(pdftools)。
  4. 读取文本的命令: txt=pdf_txt(“文件路径”)。
  5. 获取每页的内容,命令:txt[n] 获取第n页的内容。
  6. 获取pdf文件目录: doc=pdf_toc(“文件路径”)。
  7. 当然doc变量中的目录还不是标准化的格式,那么我们需要一个通用json格式,需要安装R包jsoblite。文本转换命令:json=toJSON(toc, auto_unbox = TRUE, pretty = TRUE)。再利用函数fromJSON(json),我们就会把目录转化成为向量。也就拿到了文档的整个目录。

综上步骤,我们便可以随便获取任意章节的任意内容。那么接下来就是对这些文字的应用,各位集思广益吧。

本文分享自微信公众号 - R语言交流中心(R_statistics)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-12-18

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

扫码关注云+社区

领取腾讯云代金券