首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >使用Adobe API提取PDF内容

使用Adobe API提取PDF内容
EN

Stack Overflow用户
提问于 2015-02-11 03:37:46
回答 2查看 1.6K关注 0票数 2

我正在尝试读取PDF文件的内容,该文件由多个表组成。使用Java和Adobe API,如果所有单元格都有一行内容,我就能够提取表格中的内容。当单元格有多行时,问题就出现了,这会导致提取的内容移动到下一行,从而导致与表头不对齐。

有没有什么方法可以从PDF中按原样提取内容,同时保持表格格式与在PDF中显示的方式相同?我目前正在使用\t转义字符来提取数据。

EN

回答 2

Stack Overflow用户

发布于 2021-05-06 00:26:01

一个老问题--但现在有了一个新的答案。Adobe将发布一款全新的PDF Extract API (目前在private beta中,但预计将于2021年6月推出),旨在解决这个问题和其他许多问题。我不是Adobe的拉拉队队长,所以我不会在这里夸夸其谈;但我们是非常满意的客户。

票数 1
EN

Stack Overflow用户

发布于 2015-02-12 13:38:52

PDF中的文本未设置格式。它们只是看起来像是格式化的。类似地,表格只是线条图和其中的文本。您需要一个能够智能地重新构建页面元素的PDF库。但是,无论库有多聪明,总会有一些行被打破。

这是我公司开发的Java PDF库PDFOne的一次尝试的屏幕截图。公平地说,可能还有其他库可以做同样的事情。你必须对你收集的PDF做一些测试,看看哪一个是好的。

http://www.gnostice.com/nl_article.asp?id=232&t=PDF_Text_Search_And_PDF_Text_Extraction_Using_PDFOne_for_Java

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/28440354

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档