问从多页PDF的集合中提取页面级别的ASCII文本？
EN

Stack Overflow用户

提问于 2013-10-25 06:55:10

回答 1查看 229关注 0票数 1

我试图从一系列多页PDF中获取页面级别的ASCII文本。我目前的过程是将所有PDF与Sejda (一个很棒的工具)进行批处理，然后从已分割的PDF( Sejda作为批处理)中提取文本到相应的文本文件。是否有一种简单的方法可以绕过拆分阶段，直接转到页面级别的TXT文件？我只想输入一个多页PDF的集合，并输出对应的TXT文件每页的每一个PDF。如有任何意见或见解，将不胜感激。

我的过程

File.pdf --> File-001.pdf; File-002.pdf; etc. --> File-001.txt; File-002.txt; etc

sejda

回答 1

Stack Overflow用户

发布于 2013-10-26 11:47:51

Sejda版本1.0.0.M8有您要寻找的任务：ExtractTextByPages

命令行中的示例用法：

bin/sejda-console extracttextbypages -f /tmp/file.pdf -o /tmp -e "UTF-8" --pageNumbers 1 3 5

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/19583044

复制

相似问题

问从多页PDF的集合中提取页面级别的ASCII文本？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从多页PDF的集合中提取页面级别的ASCII文本？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从多页PDF的集合中提取页面级别的ASCII文本？
EN