开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

大数据的宠儿——爬虫技术

文章来源：企鹅号 - 一个it码农的幸福生活

爬虫技术

网络爬虫，就是Web Spider如果把互联网比喻成一个蜘蛛网，那么它就是在这个巨大蜘蛛网上爬动的蜘蛛，网络爬虫是通过网页链接地址直接抓取网页的。另外一些不常使用的名字还有蚂蚁，自动索引，模拟程序或者蠕虫。

比如从网站的某一起始页开始，抓取网页中的信息，并且找到在网页中的链接URL，然后通过这些地址进入另一个网页，然后继续抓取网页中的地址，一直循环下去，乃至将全部网站都搜寻完毕。获取大量的信息。网络爬虫技术就是这种程序。

随着大数据时代的到来，越来越多的企业开始重视数据，越来越多企业开始进入大数据市场，建立大数据的入口，如此大量的数据从何而来？

就企业而言，如何快速，全面，准确的获取大量的数据，就显得尤为关键了。这也是爬虫技术迅速发展成熟的关键。

发表于: 2018-01-182018-01-18 19:34:40
原文链接：http://kuaibao.qq.com/s/20180118A0SDIF00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

相关快讯