我和iText有点问题。其他人说iText只用于创建PDF?而且它不能从PDF中读取或提取文本。这是真的吗?
如果这是真的,那么我还可以选择哪些其他选项来从PDF文件中提取文本并将其保存在变量中或显示在Android设备中?
如果iText能够从PDF中提取文本,那么如何提取呢?
发布于 2012-10-22 14:50:37
iText可以从PDF中提取文本。虽然它确实起源于一种创建新的和操作现有PDF的工具,但近年来它在提取文本方面也变得越来越好。这显然意味着您应该使用当前的iText版本(5.3.x)进行文本提取。
主要iText开发人员Bruno Lowagie的《iText in Action,第二版》一书解释了第15章中的基本iText文本提取,该章中的示例可在iText Sourceforge SVN存储库中找到。Samples for chapter 15。ExtractPageContentSorted2是一个很好的起点,它可以提取整个页面的文本。
如果您有特殊需求,您可以使用ExtractPageContentSorted1作为起点,它显式地定义了文本提取策略;根据您的需求,您将需要自己的初学者。如果您只想要来自特定区域的文本,请查看ExtractPageContentArea。
要真正优化iText的文本提取功能,您应该查看iText问题邮件列表归档文件(例如at nabble.com),因为最近iText文本提取应用程序接口进行了扩展,以服务于其他用例。
发布于 2015-11-16 20:57:58
Use below code to extract text from pdf :
String pat = data.getData().getPath();
File f = new File(pat);
//f is file path of pdf file
read = new PdfReader(new FileInputStream(f));
parser = new PdfReaderContentParser(read);
strw = new StringWriter();
stretegy = parser.processContent(j, new SimpleTextExtractionStrategy());
strw.write(stretegy.getResultantText());
String da = strw.toString();
//set extracted text from pdf file
//to Edit-text
edt1.setText(da);https://stackoverflow.com/questions/13005902
复制相似问题