我试着找到一些好的方法,或者一些例子,当涉及到编写你的第一个网络爬虫时,对初学者来说是很好的。我想用c#写它。有没有人有什么好的示例代码可以分享,或者在一些网站上有一些提示,我可以在这些网站上找到c#的信息,或者一些bacic网络爬行。
谢谢
发布于 2010-11-11 05:00:50
HtmlAgilityPack是你的朋友。
发布于 2010-11-11 05:18:25
是的,HtmlAgeilityPack是一个解析超文本标记语言的好工具,但这肯定是不够的。
有3个要抓取的元素:
HTTP1)爬行本身,即在网站中循环:这可以通过向随机IP地址发送请求来完成,但这并不起作用,因为许多网站使用带有主机报头的共享IP地址,所以使用IP不会命中它。另一方面,有太多的IP地址没有使用或没有托管web服务器,所以这不会给你带来任何好处。
我建议你向google发送请求(从字典中搜索单词),然后抓取返回的结果。
2)呈现内容:许多网站在表单加载时生成JavaScript格式的内容,因此如果您发送一个简单的请求,它将无法捕获用户所能看到的内容。您需要像浏览器一样呈现页面,这可以使用Webkit.net来实现,这是一个开源工具,但仍处于测试阶段。
HTML3)理解和解析:使用HTML,网上有大量的例子。这也可以用来抓取网站。
发布于 2010-11-11 05:46:39
前段时间,我也想写一个自定义的网络爬虫,找到了这个文档:
Web Crawler
它有一些很好的信息,并且写得很好。
https://stackoverflow.com/questions/4149019
复制相似问题