我试图从一系列多页PDF中获取页面级别的ASCII文本。我目前的过程是将所有PDF与Sejda (一个很棒的工具)进行批处理,然后从已分割的PDF( Sejda作为批处理)中提取文本到相应的文本文件。是否有一种简单的方法可以绕过拆分阶段,直接转到页面级别的TXT文件?我只想输入一个多页PDF的集合,并输出对应的TXT文件每页的每一个PDF。如有任何意见或见解,将不胜感激。
我的过程
File.pdf --> File-001.pdf; File-002.pdf; etc. --> File-001.txt; File-002.txt; etc
发布于 2013-10-26 11:47:51
Sejda版本1.0.0.M8有您要寻找的任务:ExtractTextByPages
命令行中的示例用法:
bin/sejda-console extracttextbypages -f /tmp/file.pdf -o /tmp -e "UTF-8" --pageNumbers 1 3 5
https://stackoverflow.com/questions/19583044
复制相似问题