大数据技术现在被用于各行各业,回归、SVM、神经网络、文本分析......各种牛逼的模拟和预测,但是如果没有数据,就算你会算命也没有毛用啊!
爬虫是获取数据的一个最快捷的方法,不用先有一个网站或APP,坐在家里,用一台电脑,就可以哗哗的把(别人网站和APP的)数据爬下来!
现在都说数据就是金钱,爬了这么多数据,是不是午饭可以再加一个蛋了?去网吧包夜都可以再买瓶冰红茶了!年纪轻轻,感觉有点迷失自我?想要回到初心......
好了,问题来了,爬虫可以干什么?这些哗哗的数据可以怎么用?希望大家可以一起讨论一下,数说君结合自己的经验,先抛砖引玉:
1. 电商网站的商品数据
曾经帮一个咨询团队爬某个产业的商品信息,包括品牌、价格、销量、规格型号等。然后分析这个产业中的畅销品牌、畅销品类、价格走势、行业前景等。信息量还是挺大的。
2. 微博/ BBS的舆情数据
也是针对这个产业做的,从微薄、论坛上抓取相关信息,挖掘该产业内一些有趣的舆情信息。其实爬虫已经用于舆情监控已经比较成熟了,很多大公司都有相关的监控部门。
(图来源于网络)
但是,微薄的反爬虫机制有点难搞啊!
3. 新闻文本
新闻文本,其实也算是一种舆情,只不过相对于微博上的文本,这个更加正式一些。爬取百度新闻上关于某关键字的信息,每周梳理出几个关键词,可以抓住行业动向。
4. 学术信息
爬取一些学术网站上的信息用来做研究。比如这个genecard(http://www.genecards.org/Search/) 这个网站叫基因卡,你输入一个关键字,比如height(身高),会出现很多跟身高有关的基因。
点进去,会有每个基因的作用、位置、表达等信息。如果你是一位研究身高的科研人员,一个一个点开记录下来就太耗时了,写一个爬虫,可以把这些数据按照规范格式全部爬下来,之后无论是阅读,还是做进一步分析都会方便很多。
你觉得爬虫还可以用来干什么?无论你玩没玩过爬虫,欢迎把想法写在评论区。
学会爬虫,感觉打开了一扇新世界的大门~!
- END -