我正在尝试读取PDF文件的内容,该文件由多个表组成。使用Java和Adobe API,如果所有单元格都有一行内容,我就能够提取表格中的内容。当单元格有多行时,问题就出现了,这会导致提取的内容移动到下一行,从而导致与表头不对齐。
有没有什么方法可以从PDF中按原样提取内容,同时保持表格格式与在PDF中显示的方式相同?我目前正在使用\t转义字符来提取数据。
发布于 2021-05-06 00:26:01
一个老问题--但现在有了一个新的答案。Adobe将发布一款全新的PDF Extract API (目前在private beta中,但预计将于2021年6月推出),旨在解决这个问题和其他许多问题。我不是Adobe的拉拉队队长,所以我不会在这里夸夸其谈;但我们是非常满意的客户。
发布于 2015-02-12 13:38:52
PDF中的文本未设置格式。它们只是看起来像是格式化的。类似地,表格只是线条图和其中的文本。您需要一个能够智能地重新构建页面元素的PDF库。但是,无论库有多聪明,总会有一些行被打破。
这是我公司开发的Java PDF库PDFOne的一次尝试的屏幕截图。公平地说,可能还有其他库可以做同样的事情。你必须对你收集的PDF做一些测试,看看哪一个是好的。
http://www.gnostice.com/nl_article.asp?id=232&t=PDF_Text_Search_And_PDF_Text_Extraction_Using_PDFOne_for_Java
https://stackoverflow.com/questions/28440354
复制相似问题