首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何从Pdf、Word和Excel文档中提取文本?

如何从Pdf、Word和Excel文档中提取文本?
EN

Stack Overflow用户
提问于 2012-06-11 22:33:02
回答 5查看 29.1K关注 0票数 15

我需要一个.NET库,这样我就可以从PDF,Excel和Word文件中提取文本数据。

理想情况下,是一个免费的工具!

你能推荐一些吗?

非常感谢,

EN

回答 5

Stack Overflow用户

发布于 2014-11-28 00:00:40

你可以看看toxy.codeplex.com。Toxy是一个纯.NET文本提取框架。

使用Toxy非常简单。例如,提取一个名为test.xlsx的电子表格文件。

代码语言:javascript
运行
复制
ParserContext context = new ParserContext("test.xlsx");
ISpreadsheetParser parser = ParserFactory.CreateSpreadsheet(context);
ToxySpreadsheet ss = parser.Parse();
//then you can start handle the result - a ToxySpreadsheet object
票数 7
EN

Stack Overflow用户

发布于 2012-06-11 22:38:12

下面是从word文档中提取的链接:

How to extract text from MS office documents in C#

对于pdf,我会使用PDFsharp,它是开源的,在他们的网站上有一些很好的例子。

http://pdfsharp.com/PDFsharp/

票数 2
EN

Stack Overflow用户

发布于 2012-06-11 23:13:18

对于从pdf文件中提取文本,itextsharp是非常棒的。它是免费的,并且是开源的。

要从pdf中读取文本,使用这个库非常容易。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/10982156

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档