问在C#中从PDF中提取文本
EN

Stack Overflow用户

提问于 2010-01-22 18:05:06

回答 3查看 71.7K关注 0票数 31

很简单，我需要从多个PDF中抓取文本(实际上相当多)，以便在将其粘贴到SQL数据库之前分析内容。

我发现了一些相当粗略的免费C#库可以工作(最好的是使用iTextSharp)，但是有无数的格式错误，一些字符被打乱，很多时候到处都是空格(‘') -单词内部，每个字母之间，大块的空格占据了几行，这一切看起来都有点随机。

有没有什么简单的方法可以做到这一点，我完全忽略了(很有可能！)或者这是一项需要将提取的字节值可靠地转换为字母的艰巨任务？

pdf

text

extract

回答 3

Stack Overflow用户

发布于 2014-01-15 07:28:56

你可以试试.NET中的文本/数据提取框架Toxy，在Toxy1.0中将支持PDF。详情请访问网站：http://toxy.codeplex.com。

票数 2

Stack Overflow用户

发布于 2011-05-22 15:25:50

您可以尝试使用Docotic.Pdf library (免责声明:我为Bit Miracle工作)来从PDF文件中提取文本。该库使用一些启发式方法来提取漂亮的文本，在单词中的字母之间没有不需要的空格。

请看一下显示how to extract text from PDF的示例。

票数 1

Stack Overflow用户

发布于 2015-02-23 18:27:40

如果你正在寻找“免费”的替代品，请查看PDF Clown。我个人使用过基于iFilter的方法，在你需要轻松支持其他文件类型的情况下，它似乎工作得很好。示例代码here。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/2116440

复制

相似问题

问在C#中从PDF中提取文本
EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在C#中从PDF中提取文本EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在C#中从PDF中提取文本
EN