首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >C中的HTML文件解析-- libxml2的替代方案

C中的HTML文件解析-- libxml2的替代方案
EN

Stack Overflow用户
提问于 2013-01-19 16:52:42
回答 1查看 987关注 0票数 1

所以我想在C中创建一个网络爬虫,几乎没有任何库来支持这一点。

我可以使用libtidy将HTML转换成XHTML,并使用libcurl (它有很好的文档)获取文件。

我的问题是解析HTML文件并获取其中的所有链接。我知道libxml2在那里,但是它非常难理解,因为它的API没有很好的文档。

我应该用C语言还是使用另一种语言(比如Java )来做呢?或者,除了libxml2,还有什么好的替代方案吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2013-01-19 17:12:54

解析HTML基本上只需要字符串操作。

但是如果没有HTML或XML (如果是XHTML)解析器,就很难做到这一点。

至于问题的第二部分,我不能选择C来完成这样的任务,因为即使是基本的字符串操作也比许多其他语言要复杂得多。

我会选择一个脚本语言,比如Python,JavaScript,PHP.

而不是使用libcurl,您将调用curl作为命令行工具。

顺便说一句: libcurl文档非常好(在我看来)。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/14416555

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档