文章/答案/技术大牛

发布

社区首页 >问答首页 >C中的HTML文件解析-- libxml2的替代方案

问C中的HTML文件解析-- libxml2的替代方案
EN

Stack Overflow用户

提问于 2013-01-19 16:52:42

回答 1查看 987关注 0票数 1

所以我想在C中创建一个网络爬虫，几乎没有任何库来支持这一点。

我可以使用libtidy将HTML转换成XHTML，并使用libcurl (它有很好的文档)获取文件。

我的问题是解析HTML文件并获取其中的所有链接。我知道libxml2在那里，但是它非常难理解，因为它的API没有很好的文档。

我应该用C语言还是使用另一种语言(比如Java )来做呢？或者，除了libxml2，还有什么好的替代方案吗？

libxml2

web-crawler

回答 1

Stack Overflow用户

回答已采纳

发布于 2013-01-19 17:12:54

解析HTML基本上只需要字符串操作。

但是如果没有HTML或XML (如果是XHTML)解析器，就很难做到这一点。

至于问题的第二部分，我不能选择C来完成这样的任务，因为即使是基本的字符串操作也比许多其他语言要复杂得多。

我会选择一个脚本语言，比如Python，JavaScript，PHP.

而不是使用libcurl，您将调用curl作为命令行工具。

顺便说一句: libcurl文档非常好(在我看来)。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/14416555

复制

相似问题

问C中的HTML文件解析-- libxml2的替代方案
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问C中的HTML文件解析-- libxml2的替代方案EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问C中的HTML文件解析-- libxml2的替代方案
EN