所以我想在C中创建一个网络爬虫,几乎没有任何库来支持这一点。
我可以使用libtidy将HTML转换成XHTML,并使用libcurl (它有很好的文档)获取文件。
我的问题是解析HTML文件并获取其中的所有链接。我知道libxml2在那里,但是它非常难理解,因为它的API没有很好的文档。
我应该用C语言还是使用另一种语言(比如Java )来做呢?或者,除了libxml2,还有什么好的替代方案吗?
发布于 2013-01-19 17:12:54
解析HTML基本上只需要字符串操作。
但是如果没有HTML或XML (如果是XHTML)解析器,就很难做到这一点。
至于问题的第二部分,我不能选择C来完成这样的任务,因为即使是基本的字符串操作也比许多其他语言要复杂得多。
我会选择一个脚本语言,比如Python,JavaScript,PHP.
而不是使用libcurl,您将调用curl作为命令行工具。
顺便说一句: libcurl文档非常好(在我看来)。
https://stackoverflow.com/questions/14416555
复制相似问题