首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >从PDF文件中提取文本

从PDF文件中提取文本
EN

Stack Overflow用户
提问于 2009-08-14 04:24:23
回答 7查看 4.9K关注 0票数 7

我需要从PDF文件中提取文本。该文本可能是表格格式,它将用于外部方和我们的系统之间的数据自动传输。

有人能建议一个命令行工具(如pdf到txt)或者一个对此有好处的库吗?

语文选择:

  • C# (首选)
  • Java (如果我必须的话)

我在这里发现了一些想法,但我认为这家伙更多的是在谈论一次性的情况,我说的更像是日常生活:

https://stackoverflow.com/questions/488089/extracting-tables-from-pdf-files

EN

回答 7

Stack Overflow用户

回答已采纳

发布于 2009-08-14 04:27:41

尝尝这个

http://www.codeproject.com/KB/cs/PDFToText.aspx

再见

票数 4
EN

Stack Overflow用户

发布于 2009-08-14 04:40:04

pdftotext似乎做得很好。

代码语言:javascript
运行
复制
pdftotext file.pdf [textfile.txt]

编辑:我不确定您希望如何保留有关表的信息。最好看的输出(至少在我的人眼看来)是由

代码语言:javascript
运行
复制
pdftotext -layout file.pdf [textfile.txt]

这将尽可能地维护文档的原始布局。特别是,这些表在文本输出中仍然很好。默认情况下,将表的列解释为文本列(可怕)。另一个选项在我看来不太好,但可能仍然很有用,那就是-raw选项。

票数 4
EN

Stack Overflow用户

发布于 2009-08-14 04:52:54

我不能提供解决方案,只能提供一般性的建议。我给您的建议是在记事本或其他纯文本编辑器中打开PDF文档并研究格式代码。它们很容易理解。例如,//par是段,//tab是Tab。一旦您知道了表布局的格式代码,您就很容易想出自己的解决方案,从PDF文档中提取任何内容。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/1276028

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档