文章/答案/技术大牛

发布

社区首页 >问答首页 >编写我的第一个网络爬虫

问编写我的第一个网络爬虫
EN

Stack Overflow用户

提问于 2010-11-11 04:58:09

回答 3查看 1.2K关注 0票数 3

我试着找到一些好的方法，或者一些例子，当涉及到编写你的第一个网络爬虫时，对初学者来说是很好的。我想用c#写它。有没有人有什么好的示例代码可以分享，或者在一些网站上有一些提示，我可以在这些网站上找到c#的信息，或者一些bacic网络爬行。

谢谢

web-crawler

回答 3

Stack Overflow用户

回答已采纳

发布于 2010-11-11 05:00:50

HtmlAgilityPack是你的朋友。

票数 4

Stack Overflow用户

发布于 2010-11-11 05:18:25

是的，HtmlAgeilityPack是一个解析超文本标记语言的好工具，但这肯定是不够的。

有3个要抓取的元素：

HTTP1)爬行本身，即在网站中循环：这可以通过向随机IP地址发送请求来完成，但这并不起作用，因为许多网站使用带有主机报头的共享IP地址，所以使用IP不会命中它。另一方面，有太多的IP地址没有使用或没有托管web服务器，所以这不会给你带来任何好处。

我建议你向google发送请求(从字典中搜索单词)，然后抓取返回的结果。

2)呈现内容：许多网站在表单加载时生成JavaScript格式的内容，因此如果您发送一个简单的请求，它将无法捕获用户所能看到的内容。您需要像浏览器一样呈现页面，这可以使用Webkit.net来实现，这是一个开源工具，但仍处于测试阶段。

HTML3)理解和解析：使用HTML，网上有大量的例子。这也可以用来抓取网站。

票数 3

Stack Overflow用户

发布于 2010-11-11 05:46:39

前段时间，我也想写一个自定义的网络爬虫，找到了这个文档：

Web Crawler

它有一些很好的信息，并且写得很好。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/4149019

复制

相似问题

问编写我的第一个网络爬虫
EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问编写我的第一个网络爬虫EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问编写我的第一个网络爬虫
EN