我是java编程的新手....我需要提取每个tables and images as per source
,我试图提取文本使用pdfbox,但我只得到文本和文本属性。如何识别表格、图像、列表等。使用java程序。
是否可以在pdf文件中识别...?
我使用的模块是PDFbox,
如果有任何想法进一步处理...,
发布于 2014-09-29 14:56:38
以下代码可用于提取图像:
List pages = document.getDocumentCatalog().getAllPages();
Iterator iter = pages.iterator();
while( iter.hasNext() )
{
PDPage page = (PDPage)iter.next();
PDResources resources = page.getResources();
Map images = resources.getImages();
if( images != null )
{
Iterator imageIter = images.keySet().iterator();
while( imageIter.hasNext() )
{
String key = (String)imageIter.next();
PDXObjectImage image = (PDXObjectImage)images.get( key );
String name = getUniqueFileName( key, image.getSuffix() );
System.out.println( "Writing image:" + name );
image.write2file( name );
}
}
}
你可以参考here来解决类似的问题。
https://stackoverflow.com/questions/26092932
复制相似问题