我需要从PDF文件中提取文本。该文本可能是表格格式,它将用于外部方和我们的系统之间的数据自动传输。
有人能建议一个命令行工具(如pdf到txt)或者一个对此有好处的库吗?
语文选择:
我在这里发现了一些想法,但我认为这家伙更多的是在谈论一次性的情况,我说的更像是日常生活:
https://stackoverflow.com/questions/488089/extracting-tables-from-pdf-files
发布于 2009-08-14 04:27:41
尝尝这个
http://www.codeproject.com/KB/cs/PDFToText.aspx
再见
发布于 2009-08-14 04:40:04
pdftotext似乎做得很好。
pdftotext file.pdf [textfile.txt]编辑:我不确定您希望如何保留有关表的信息。最好看的输出(至少在我的人眼看来)是由
pdftotext -layout file.pdf [textfile.txt]这将尽可能地维护文档的原始布局。特别是,这些表在文本输出中仍然很好。默认情况下,将表的列解释为文本列(可怕)。另一个选项在我看来不太好,但可能仍然很有用,那就是-raw选项。
发布于 2009-08-14 04:52:54
我不能提供解决方案,只能提供一般性的建议。我给您的建议是在记事本或其他纯文本编辑器中打开PDF文档并研究格式代码。它们很容易理解。例如,//par是段,//tab是Tab。一旦您知道了表布局的格式代码,您就很容易想出自己的解决方案,从PDF文档中提取任何内容。
https://stackoverflow.com/questions/1276028
复制相似问题