很简单,我需要从多个PDF中抓取文本(实际上相当多),以便在将其粘贴到SQL数据库之前分析内容。
我发现了一些相当粗略的免费C#库可以工作(最好的是使用iTextSharp),但是有无数的格式错误,一些字符被打乱,很多时候到处都是空格(‘') -单词内部,每个字母之间,大块的空格占据了几行,这一切看起来都有点随机。
有没有什么简单的方法可以做到这一点,我完全忽略了(很有可能!)或者这是一项需要将提取的字节值可靠地转换为字母的艰巨任务?
发布于 2014-01-15 07:28:56
你可以试试.NET中的文本/数据提取框架Toxy,在Toxy1.0中将支持PDF。详情请访问网站:http://toxy.codeplex.com。
发布于 2011-05-22 15:25:50
您可以尝试使用Docotic.Pdf library (免责声明:我为Bit Miracle工作)来从PDF文件中提取文本。该库使用一些启发式方法来提取漂亮的文本,在单词中的字母之间没有不需要的空格。
请看一下显示how to extract text from PDF的示例。
https://stackoverflow.com/questions/2116440
复制相似问题