我需要一个.NET库,这样我就可以从PDF,Excel和Word文件中提取文本数据。
理想情况下,是一个免费的工具!
你能推荐一些吗?
非常感谢,
发布于 2014-11-28 00:00:40
你可以看看toxy.codeplex.com。Toxy是一个纯.NET文本提取框架。
使用Toxy非常简单。例如,提取一个名为test.xlsx的电子表格文件。
ParserContext context = new ParserContext("test.xlsx");
ISpreadsheetParser parser = ParserFactory.CreateSpreadsheet(context);
ToxySpreadsheet ss = parser.Parse();
//then you can start handle the result - a ToxySpreadsheet object
发布于 2012-06-11 22:38:12
下面是从word文档中提取的链接:
How to extract text from MS office documents in C#
对于pdf,我会使用PDFsharp,它是开源的,在他们的网站上有一些很好的例子。
http://pdfsharp.com/PDFsharp/
发布于 2012-06-11 23:13:18
对于从pdf文件中提取文本,itextsharp是非常棒的。它是免费的,并且是开源的。
要从pdf中读取文本,使用这个库非常容易。
https://stackoverflow.com/questions/10982156
复制相似问题