文章/答案/技术大牛

发布

社区首页 >问答首页 >使用Adobe API提取PDF内容

问使用Adobe API提取PDF内容
EN

Stack Overflow用户

提问于 2015-02-11 03:37:46

回答 2查看 1.6K关注 0票数 2

我正在尝试读取PDF文件的内容，该文件由多个表组成。使用Java和Adobe API，如果所有单元格都有一行内容，我就能够提取表格中的内容。当单元格有多行时，问题就出现了，这会导致提取的内容移动到下一行，从而导致与表头不对齐。

有没有什么方法可以从PDF中按原样提取内容，同时保持表格格式与在PDF中显示的方式相同？我目前正在使用\t转义字符来提取数据。

adobe

java

pdf

回答 2

Stack Overflow用户

发布于 2021-05-06 00:26:01

一个老问题--但现在有了一个新的答案。Adobe将发布一款全新的PDF Extract API (目前在private beta中，但预计将于2021年6月推出)，旨在解决这个问题和其他许多问题。我不是Adobe的拉拉队队长，所以我不会在这里夸夸其谈；但我们是非常满意的客户。

票数 1

Stack Overflow用户

发布于 2015-02-12 13:38:52

PDF中的文本未设置格式。它们只是看起来像是格式化的。类似地，表格只是线条图和其中的文本。您需要一个能够智能地重新构建页面元素的PDF库。但是，无论库有多聪明，总会有一些行被打破。

这是我公司开发的Java PDF库PDFOne的一次尝试的屏幕截图。公平地说，可能还有其他库可以做同样的事情。你必须对你收集的PDF做一些测试，看看哪一个是好的。

http://www.gnostice.com/nl_article.asp?id=232&t=PDF_Text_Search_And_PDF_Text_Extraction_Using_PDFOne_for_Java

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/28440354

复制

相似问题

问使用Adobe API提取PDF内容
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用Adobe API提取PDF内容EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用Adobe API提取PDF内容
EN