问如何用java识别pdf文件中的表格、图片和列表？
EN

Stack Overflow用户

提问于 2014-09-29 13:13:45

回答 1查看 681关注 0票数 0

我是java编程的新手....我需要提取每个tables and images as per source，我试图提取文本使用pdfbox，但我只得到文本和文本属性。如何识别表格、图像、列表等。使用java程序。

是否可以在pdf文件中识别...？

我使用的模块是PDFbox,如果有任何想法进一步处理...，

java

pdf

pdfbox

回答 1

Stack Overflow用户

发布于 2014-09-29 14:56:38

以下代码可用于提取图像：

List pages = document.getDocumentCatalog().getAllPages();
                Iterator iter = pages.iterator();
                while( iter.hasNext() )
                {
                    PDPage page = (PDPage)iter.next();
                    PDResources resources = page.getResources();
                    Map images = resources.getImages();
                    if( images != null )
                    {
                        Iterator imageIter = images.keySet().iterator();
                        while( imageIter.hasNext() )
                        {
                            String key = (String)imageIter.next();
                            PDXObjectImage image = (PDXObjectImage)images.get( key );
                            String name = getUniqueFileName( key, image.getSuffix() );
                            System.out.println( "Writing image:" + name );
                            image.write2file( name );
                        }
                    }
                }

你可以参考here来解决类似的问题。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/26092932

复制

相似问题

问如何用java识别pdf文件中的表格、图片和列表？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何用java识别pdf文件中的表格、图片和列表？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何用java识别pdf文件中的表格、图片和列表？
EN