使用pdfbox可生成Pdf文件,同样可以解析PDF文本内容。
pdfbox链接:https://pdfbox.apache.org/
File file = new File(filePath);
PDDocument doc = PDDocument.load(file);
PDFTextStripper stripper = new PDFTextStripper();
String fileContent = stripper.getText(doc);
doc.close();
引入必要的jar
示例:
前 言 本标准代替GB16740—1997《保健(功能)食品通用标准》。 本标准与GB16740—1997相比,主要变化如下: ———标准名称修改为“食品安全国家标准 保健食品”; ———修改了范围; ———修改了术语和定义; ———删除了产品分类; ———删除了基本原则; ———修改了技术要求; ———删除了试验方法; ———修改了标签标识的要求。