问如何从pdf文件中提取段落并存储其位置？
EN

Stack Overflow用户

提问于 2014-08-03 23:14:48

回答 1查看 2.5K关注 0票数 2

我将使用PDFBox库提取PDF文件的内容。内容应逐段处理，对于每一段，我需要它的立场进行后续处理。使用以下代码，我可以提取输入PDF的全部内容：

PDDocument doc = PDDocument.load(file);
PDFTextStripper stripper = new PDFTextStripper();
String txt = stripper.getText(doc);
doc.close();

我有两个问题：

我不知道如何逐段提取内容。
我不知道如何存储段落的位置以便进行后续处理(例如高亮显示等等)。

谢谢。

pdfbox

pdf-extraction

回答 1

Stack Overflow用户

发布于 2014-08-03 23:36:23

我使用波普勒的命令行pdftohtml提取丰富的文本，但如果你需要段落干净，那么PDF必须是一个标记-PDF。如果你需要这个段落的(x，y)协调，那么你需要更深入地挖掘波普尔。还可以使用Apache库。如果您在段落的开头做了一个注释，那么您可以从PDF中提取作为XML的注释，在这里您将找到注释的(x，y)协调！Adobe在PDF中加入了一种巧妙的加密，使其无法被发现，因此，如果没有Adobe工具，就很难将其提取出来(这与所有的法律问题等等有关)。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/25109969

复制

相似问题

问如何从pdf文件中提取段落并存储其位置？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何从pdf文件中提取段落并存储其位置？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何从pdf文件中提取段落并存储其位置？
EN