有一些花哨的图形用户界面工具可以让你编辑 PDF,但我一直对命令行感到最舒服。在这个任务的许多命令行工具中,当我想修改一个 PDF 时,我使用的是 qpdf 和 poppler-utils。...安装 在 Linux 上,你可以用你的包管理器(如 apt 或 dnf)来安装 qpdf 和 poppler-utils。...qpdf qpdf 命令可以做很多事情,但我主要用它来: 将一个 PDF 分割成不同的页面 将多个 PDF 文件合并成一个文件 要将一个 PDF 分割成不同的页面: qpdf --split-pages...这些工具中的大多数也可以将文件保存为 PDF。 工作流程 我通常的工作流程是: 使用 qpdf 将 PDF 分割成若干页。 使用 poppler-utils 将需要修改的页面转换为图像。...其他工具 有许多很好的开源命令来处理 PDF,无论你是 缩小它们、从文本文件创建它们、转换文档,还是尽量 完全避免它们。你最喜欢的开源 PDF 工具是什么?请在评论中分享它们。
介绍日本计算机应急响应团队(JPCERT)分享了在2023年7月检测到的一种新的“PDF中的MalDoc”攻击,该攻击通过将恶意Word文件嵌入PDF中来绕过检测。...多数工具识别该文件为PDF,但办公软件程序可以将其作为常规Word文档打开,若文件具有配置的宏,并且Microsoft Office上没有禁用自动执行宏的安全设置,则将运行宏代码。...after the PDF file object and saves it. ”在PDF文件结构对象的后面,添加在Word中创建带有宏的mht文件并保存。...也就是将这个带有宏的MHT 内容添加到 PDF 的对象结构后面。最终生成出来是一个有效的PDF文件,但也可以在Word程序中打开。...图片图片该PDF中的MalDoc不会绕过禁用Microsoft Office上自动执行宏的安全设置,在实战过程中还需要结合一定的社工。
1. pdfimages PDF 其实本质上是一个文件包,比如某些 PDF 文件中有插图,这些插图都包含在这个 PDF 文件包中。...Linux 下可以使用 pdfimages 命令来从 PDF 文件中提取图片文件。如果你的 Linux 发行版上没有该命令,需要安装 poppler-utils 软件。...pdfimages 命令的语法格式如下: pdfimages -f -l -png # 指定范围页面从 PDF 文件中提取图片并输出为...png 格式 其中 为起始页号, 为终止页号,-png 指定输出图片格式, 为指定的输入文件名, 为输出文件名前缀,输出的所有图片文件名为该前缀加上数字序列号组成
在本教程中,您将学习如何: 从 PDF 中读取文本 将 PDF拆分为多个文件 连接和合并PDF 文件 在 PDF 文件中旋转和裁剪页面 使用密码加密和解密PDF文件 从头开始创建PDF 文件 注意:本教程改编自...您可以通过单击以下链接下载示例中使用的材料: 从 PDF 中提取文本 在本节中,您将学习如何阅读 PDF 文件并使用PyPDF2包提取文本。...但是,在您执行此操作之前,您需要使用以下命令安装它pip: $ python3 -m pip install PyPDF2 通过在终端中运行以下命令来验证安装: $ python3 -m pip show....merge()在 .pdf 文件中的特定页面之后插入现有 PDF 文档中的所有页面PdfFileMerger。 您将在本节中查看这两种方法,从.append()....当您从 IDLE 的编辑器窗口执行程序时,此输出将不可见。
PDF.js是一款使用HTML5 Canvas安全地渲染PDF文件以及遵从网页标准的网页浏览器渲染PDF文件的JavaScript库。...另外,为了在document中插入canvas元素,事先可以建立一个div元素,以便之后在该节点下插入canvas元素;同时为了界面中只有报表查看器,可以隐藏该div。...(提示:以上在icon 的content的属性中,使用了一个svg,这个示例代码中的svg来自网站:ikonate 。...如果大家有需要可自行下载,如果作为商用需要注意版权 ) 以上代码添加之后,我们就可以在报表预览界面的工具栏看到这样一个按钮: 实现导出PDF 在exportImageButton的action中定义一个...exportImage方法,在这个方法中首先实现导出PDF,导出的结果包含一个PDF文件的blob对象,大家可自行打印出来看一下导出结果: function exportImage() {
本上,OCR(光学字符识别)引擎可以让你从图片或文件(PDF)中扫描文本。默认情况下,它可以检测几种语言,还支持通过 Unicode 字符扫描。...直接通过应用扫描图像 能够一次性处理多个图像或文件 手动或自动识别区域定义 识别纯文本或 hOCR 文档 编辑器显示识别的文本 可对对提取的文本进行拼写检查 从 hOCR 文件转换/导出为 PDF 文件...将提取的文本导出为 .txt 文件 跨平台(Windows) 在 Linux 上安装 gImageReader 注意:你需要安装 Tesseract 语言包,才能从软件管理器中的图像/文件中进行检测。...当你尝试从 PDF 文件中提取文本时,它的效果非常好。 对于从智能手机拍摄的图片中提取,检测很接近,但有点不准确。也许当你进行扫描时,从文件中识别字符可能会更好。...我在 Linux Mint 20.1(基于 Ubuntu 20.04)上试过。 我只遇到了一个从设置中管理语言的问题,我没有得到一个快速的解决方案。
一个PDF文件中,有很多图片,想批量提取出来,可以借助kimi智能助手。...在借助kimi智能助手中输入提示词: 你是一个Python编程专家,要完成一个网页爬取Python脚本的任务,具体步骤如下: 打开文件夹:E:\6451 读取里面的PDF文件; 将PDF文件里面的图片都保存到...E:\6451 注意:图片体积较大,占用内存高,要将PDF文件中的图片分批次提取,而不是一次性提取所有图片 kim生成的Python源代码: import fitz # PyMuPDF import os...{folder_path} does not exist.") else: # 读取文件夹中的所有PDF文件 for filename in os.listdir(folder_path): if filename.lower...在vscode中运行Python程序,成功提取所有图片:
Linux Find命令是Linux系统管理员工具库中最强大的工具之一。...Find是一个命令行实用程序,它允许您根据用户给定的表达式搜索目录层次结构中的文件和目录,并对每个匹配的文件应用用户指定的操作。...您可以使用find命令根据文件权限,类型,日期,所有权,大小等搜索文件。它还可以与其他工具(如grep或sed)结合使用,以对这些文件执行操作。...Linux查找命令语法 在讨论如何使用find命令之前,让我们先回顾一下基本语法。...} \; 此命令包含一个参数-L(options),它允许find跟随符号链接,在/home/linuxidc/linuxmi/ (path…)下搜索所有以.js(expression)结尾的文件的整个目录树
当你在你的 Linux 桌面、服务器或任何应用中遇到问题时,你会首先查看各自的日志文件。日志文件通常是来自应用的文本和信息流,上面有一个时间戳。它可以帮助你缩小具体的实例,并帮助你找到任何问题的原因。...它也可以帮助从网络上获得援助。 一般来说,所有的日志文件都位于 /var/log 中。这个目录包含以 .log 为扩展名的特定应用、服务的日志文件,它还包含单独的其他目录,这些目录包含其日志文件。...实时监控 Linux 日志文件 使用 tail 命令 使用 tail 命令是实时跟踪日志文件的最基本方法。特别是,如果你所在的服务器只有一个终端,没有 GUI。这是很有帮助的。...在 Linux 系统中,它不是默认安装的。...甚至从 U 盘上也可以。它不需要设置,而且有很多功能。使用 lnav,你可以通过 SQL 查询日志文件,以及其他很酷的功能,你可以在它的 官方网站 上了解。
使用-v参数提供 scp 进程的详细信息 基础的scp不带参数的命令将在后台复制文件。除非该过程完成或出现某些错误,否则用户将看不到任何内容。 你可以使用 -v 参数将调试信息打印到屏幕中。...如果你执行自动化脚本来复制大量文件,这将很有用 rumenz@local $ scp -l 400 Label.pdf rumenz@192.168.1.110:....rumenz@202.x.x.x's password: Label.pdf 100% 3672KB 262.3KB/s 00:14 递归复制目录中的文件 有时我们需要复制目录和其中的所有文件,目录。...选择不同的ssh_config 文件 对于经常在公司网络和公共网络之间切换的移动用户来说,总是在scp中更改设置会很痛苦。 场景示例 代理在公司网络中使用,但不在公共网络中使用,并且你定期切换网络。...相关文章 Linux之scp命令 linux之rsync远程同步文件
MuPDF MuPDF 是一个轻量级的 PDF、XPS和电子书查看器。MuPDF 由软件库、命令行工具和各种平台的查看器组成。 MuPDF 中的渲染器专为高质量抗锯齿图形量身定制。...特别有趣的当然是布局保存,它生成的文本尽可能接近原始物理布局,周围有图像的区域,或者在表格和多列文本中复制文本。 2、安装 PyMuPDF可以从源码安装,也可以从wheels安装。...文件名必须是一个已经存在的文件的python字符串。也可以从内存数据打开文档,或创建新的空PDF。您还可以将文档用作上下文管理器。 3....将页面图像保存到文件中 我们可以简单地将图像存储在PNG文件中: pix.save("page-%i.png" % page.number) d....Document.select()将PDF压缩到选定页面,参数是要保留的页码序列。这些整数都必须在0<=i<page_ count范围内。执行时,此列表中缺少的所有页面都将被删除。
使用&&命令 在 Linux 上使用 & 符号执行组合命令并不是什么新鲜事,您可以使用以下格式在 Linux 上组合两个或多个类似类型的命令来执行,以下命令将更新系统存储库,然后升级存储库。...||在Linux命令中相当于是 OR 条件,如果先前的命令失败或为假,则逻辑 OR 运算符将决定要做什么。...例如,我们可以在创建新文件夹的命令中设置逻辑或操作,浏览该文件夹并打印目录详细信息,如果 mkdir 命令失败,则命令的下一部分也会失败。...4.使用;命令 在不同的编程语言中,分号(;)符号用于结束程序中的一行,在 Linux bash 中,您可以使用分号 (;) 符号在同一个 shell 命令中添加多个命令来运行多个 Linux 命令。...以下命令将在文件系统中创建一个新文件和新目录,并将创建的新文件移动到该文件夹中: touch wljslmz-file && mkdir wljslmz-sub3; mv wljslmz-file wljslmz-sub3
MuPDF MuPDF 是一个轻量级的 PDF、XPS和电子书查看器。MuPDF 由软件库、命令行工具和各种平台的查看器组成。 MuPDF 中的渲染器专为高质量抗锯齿图形量身定制。...2、安装 PyMuPDF可以从源码安装,也可以从wheels安装。 对于Windows, Linux和Mac OSX平台,在PyPI的下载部分有wheels。...文件名必须是一个已经存在的文件的python字符串。 也可以从内存数据打开文档,或创建新的空PDF。您还可以将文档用作上下文管理器。 3....将页面图像保存到文件中 我们可以简单地将图像存储在PNG文件中: pix.save("page-%i.png" % page.number) d....Document.select()将PDF压缩到选定页面,参数是要保留的页码序列。这些整数都必须在0<=i<page_ count范围内。执行时,此列表中缺少的所有页面都将被删除。
MuPDF MuPDF 是一个轻量级的 PDF、XPS和电子书查看器。MuPDF 由软件库、命令行工具和各种平台的查看器组成。 MuPDF 中的渲染器专为高质量抗锯齿图形量身定制。...# 2、安装 PyMuPDF可以从源码安装,也可以从wheels安装。 对于Windows, Linux和Mac OSX平台,在PyPI的下载部分有wheels。...文件名必须是一个已经存在的文件的python字符串。 也可以从内存数据打开文档,或创建新的空PDF。您还可以将文档用作上下文管理器。 3....将页面图像保存到文件中 我们可以简单地将图像存储在PNG文件中: pix.save("page-%i.png" % page.number) d....Document.select()将PDF压缩到选定页面,参数是要保留的页码序列。这些整数都必须在0<=i<page_ count范围内。执行时,此列表中缺少的所有页面都将被删除。
本文[1]是我们正在进行的有关 Linux 顶级工具系列的延续,在本系列中,我们将向您介绍最著名的 Linux 系统开源工具。...随着互联网上越来越多地使用可移植文档格式 (PDF) 文件来获取在线书籍和其他相关文档,拥有 PDF 查看器/阅读器对于桌面 Linux 发行版非常重要。...有几种可以在 Linux 上使用的 PDF 查看器/阅读器,它们都提供相关的基本和高级功能。...在本文中,我们将介绍 10 个重要的 PDF 查看器/阅读器,它们可以帮助您在 Linux 系统中处理 PDF 文件。 1....Evince Evince 是一个轻量级文档查看器,是 Gnome 桌面环境中的默认查看器。它支持 PDF、Postscript、Tiff、XPS、DjVu、DVI 等文档格式。
在基于 Debian 的系统上,运行以下命令以安装 FUSE: $ sudo apt install libfuse2 在 Fedora 上: $ sudo dnf install fuse 安装完所有必需的依赖项后...,运行以下命令以安装 dbxfs: $ pip3 install dbxfs 在本地挂载 Dropbox 文件夹 创建一个挂载点以将 Dropbox 文件夹挂载到本地文件系统中。...从现在开始,你可以看到你的 Dropbox 文件夹已挂载到本地文件系统中。 更改访问令牌存储路径 默认情况下,dbxfs 会将 Dropbox 访问令牌存储在系统密钥环或加密文件中。...但是,你可能希望将其存储在 gpg 加密文件或其他地方。如果是这样,请在 Dropbox 开发者应用控制台上创建个人应用来获取访问令牌。 创建应用后,单击下一步中的生成按钮。...,使用 dbxfs 在你的文件系统中本地挂载 Dropfox 文件夹并不复杂。
在数字时代,几乎大部分的书籍都有了电子版,因此,一款趁手的电子书阅读器对于我们来说非常的必要,特别是在 linux 系统上,接下来我们就盘点一下 linux 上比较好用的电子书阅读器。...MuPdf 它是一个轻量级的文档查看器,它包括软件库、命令行工具、文档注释,以及将文档编辑等功能,此外它还具有将文档转换为 HTML、PDF、CBZ 和各种其他文件格式的能力。...MuPDF 可以从 Ubuntu 软件中心下载或使用命令行安装。 MuPDF 的渲染器针对高分辨率抗锯齿视觉效果进行了优化。...这个 Linux PDF 查看器功能丰富,因为它配备了用于 PDF 增强的嵌入式 3D 模型,处理多种文件类型时的亚像素渲染,还包括一个表格选择工具,可以方便地选择文档上的内容。...Okular 中提供了页面注释、从 PDF 文件中提取内容到文本文件、书签等便捷功能。它可以在低端 PC 上高效运行,并且可以轻松处理巨大的 PDF 文件。
PDFminer PDFMiner内置pdf2txt.py和dumppdf.py。但是pdf2txt.py从PDF文件中提取所有文本内容。但不能识别画成图片的文本,这需要对图片特征进行识别。...MuPDF 中的渲染器专为高质量抗锯齿图形而设计。它通过度量和间距准确地呈现文本,以在屏幕上再现印刷页面的外观。...您可以使用移动查看器注释 PDF 文档和填写表格(此功能即将在桌面查看器上推出)。命令行工具允许您注释、编辑和将文档转换为其他格式,如 HTML、SVG、PDF 和 CBZ。...OfficeToPDF[24] 这个文本是在描述一个命令行工具,可以将Microsoft Office文档转换为PDF格式。...命令行工具是一种在计算机上通过命令行界面执行操作的工具。•docx2pdf[25] 这段文本介绍了如何使用Microsoft Word直接在Windows或macOS上将docx文件转换为pdf格式。
领取专属 10元无门槛券
手把手带您无忧上云