我将使用PDFBox库提取PDF文件的内容。内容应逐段处理,对于每一段,我需要它的立场进行后续处理。使用以下代码,我可以提取输入PDF的全部内容:
PDDocument doc = PDDocument.load(file);
PDFTextStripper stripper = new PDFTextStripper();
String txt = stripper.getText(doc);
doc.close();我有两个问题:
谢谢。
发布于 2014-08-03 23:36:23
我使用波普勒的命令行pdftohtml提取丰富的文本,但如果你需要段落干净,那么PDF必须是一个标记-PDF。如果你需要这个段落的(x,y)协调,那么你需要更深入地挖掘波普尔。还可以使用Apache库。如果您在段落的开头做了一个注释,那么您可以从PDF中提取作为XML的注释,在这里您将找到注释的(x,y)协调!Adobe在PDF中加入了一种巧妙的加密,使其无法被发现,因此,如果没有Adobe工具,就很难将其提取出来(这与所有的法律问题等等有关)。
https://stackoverflow.com/questions/25109969
复制相似问题