我有多个pdf格式的银行对账单,我想将超过30美元的交易提取到一个文本文件中。做这件事最好的方法是什么?
发布于 2018-06-05 04:53:00
我推荐你去看看Apache's PdfBox project。我使用这个库处理我自己的银行对帐单。它相当容易使用:
这是如何从PDF文档中提取文本:
public String getData(String fileName) throws IOException {
PDFTextStripper pdfStripper;
PDDocument pdDoc;
COSDocument cosDoc;
ClassPathResource accountStatement = new ClassPathResource(fileName);
PDFParser parser = new PDFParser(accountStatement.getInputStream());
parser.parse();
cosDoc = parser.getDocument();
pdfStripper = new PDFTextStripper();
pdDoc = new PDDocument(cosDoc);
pdfStripper.setStartPage(1);
pdfStripper.setEndPage(2);
String text = pdfStripper.getText(pdDoc);
pdDoc.close();
return text;
}
ClassPathResource类来自Spring Framework,但是您可以用任何类似的东西替换它。
https://stackoverflow.com/questions/50688512
复制相似问题