首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

如何使用 pdfgrep 从终端搜索 PDF 文件

顾名思义,pdfgrep 是一个可以在不打开文件的情况下搜索 PDF 中的文本的小命令行程序。它非常快速 —— 比几乎所有 PDF 浏览器提供的搜索更快。

-- Bruno Edoh

本文导航

◈ 安装

26%

◈ 测试运行

38%

◈ 其它

62%

◈ 总结

85%

编译自 | https://www.maketecheasier.com/search-pdf-files-pdfgrep/

作者 | Bruno Edoh

译者 | geekpi

诸如grep

[1]

和ack-grep

[2]

之类的命令行工具对于搜索匹配指定正则表达式

[3]

的纯文本非常有用。但是你有没有试过使用这些工具在 PDF 中搜索?不要这么做!由于这些工具无法读取PDF文件,因此你不会得到任何结果。它们只能读取纯文本文件。

顾名思义,pdfgrep

[4]

是一个可以在不打开文件的情况下搜索 PDF 中的文本的小命令行程序。它非常快速 —— 比几乎所有 PDF 浏览器提供的搜索更快。 和 的最大区别在于 对页进行操作,而 对行操作。 如果在一行上找到多个匹配项,它也会多次打印单行。让我们看看如何使用该工具。

安装

对于 Ubuntu 和其他基于 Ubuntu 的 Linux 发行版来说,这非常简单:

对于其他发行版,只要在包管理器

[5]

里输入 “pdfgrep” 查找,它就应该能够安装它。万一你想浏览其代码,你也可以查看项目的GitLab 页面

[6]

测试运行

现在你已经安装了这个工具,让我们去测试一下。 命令采用以下格式:

◈ 是一个额外的属性列表,给出诸如 或 这样的命令,这两者都会忽略匹配正则中的大小写。

是一个扩展正则表达式。

如果它在相同的工作目录就是文件的名称,或文件的路径。

我对 Python 3.6 官方文档运行该命令。下图是结果。

pdfgrep search

红色高亮显示所有遇到单词 “queue” 的地方。在命令中加入 选项将会匹配单词 “Queue”。请记住,当加入 时,大小写并不重要。

其它

有相当多的有趣的选项。不过,我只会在这里介绍几个。

◈ 或者 :这会抑制匹配的正常输出。它只显示在文件中遇到该单词的次数,而不是显示匹配的长输出。

◈ 或者 :这个选项打印页面上匹配的页码和页面上的该匹配模式出现次数。

◈ 或者 [number]:指定匹配的最大数目。这意味着当达到匹配次数时,该命令停止读取文件。

所支持的选项的完整列表可以在 man 页面或者 在线文档

[7]

中找到。如果你在批量处理一些文件,不要忘记, 可以同时搜索多个文件。可以通过更改 环境变量来更改默认的匹配高亮颜色。

总结

下一次你想在 PDF 中搜索一些东西。请考虑使用 。该工具会派上用场,并且节省你的时间。

via:https://www.maketecheasier.com/search-pdf-files-pdfgrep/

作者:Bruno Edoh

[9]

译者:geekpi校对:wxy

本文由LCTT原创编译,Linux中国荣誉推出

LCTT 译者

geekpi

共计翻译:638篇

贡献时间:1547 天

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180120B0A2QG00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券