首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >从多页PDF的集合中提取页面级别的ASCII文本?

从多页PDF的集合中提取页面级别的ASCII文本?
EN

Stack Overflow用户
提问于 2013-10-25 06:55:10
回答 1查看 229关注 0票数 1

我试图从一系列多页PDF中获取页面级别的ASCII文本。我目前的过程是将所有PDF与Sejda (一个很棒的工具)进行批处理,然后从已分割的PDF( Sejda作为批处理)中提取文本到相应的文本文件。是否有一种简单的方法可以绕过拆分阶段,直接转到页面级别的TXT文件?我只想输入一个多页PDF的集合,并输出对应的TXT文件每页的每一个PDF。如有任何意见或见解,将不胜感激。

我的过程

代码语言:javascript
运行
复制
File.pdf --> File-001.pdf; File-002.pdf; etc. --> File-001.txt; File-002.txt; etc
EN

回答 1

Stack Overflow用户

发布于 2013-10-26 11:47:51

Sejda版本1.0.0.M8有您要寻找的任务:ExtractTextByPages

命令行中的示例用法:

代码语言:javascript
运行
复制
bin/sejda-console extracttextbypages -f /tmp/file.pdf -o /tmp -e "UTF-8" --pageNumbers 1 3 5
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/19583044

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档