前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【脑洞大开】爬虫能干什么?| 讨论

【脑洞大开】爬虫能干什么?| 讨论

作者头像
数说君
发布2018-03-28 17:36:59
1.5K0
发布2018-03-28 17:36:59
举报
文章被收录于专栏:数说工作室数说工作室

大数据技术现在被用于各行各业,回归、SVM、神经网络、文本分析......各种牛逼的模拟和预测,但是如果没有数据,就算你会算命也没有毛用啊!

爬虫是获取数据的一个最快捷的方法,不用先有一个网站或APP,坐在家里,用一台电脑,就可以哗哗的把(别人网站和APP的)数据爬下来!

现在都说数据就是金钱,爬了这么多数据,是不是午饭可以再加一个蛋了?去网吧包夜都可以再买瓶冰红茶了!年纪轻轻,感觉有点迷失自我?想要回到初心......

好了,问题来了,爬虫可以干什么?这些哗哗的数据可以怎么用?希望大家可以一起讨论一下,数说君结合自己的经验,先抛砖引玉:

1. 电商网站的商品数据

曾经帮一个咨询团队爬某个产业的商品信息,包括品牌、价格、销量、规格型号等。然后分析这个产业中的畅销品牌、畅销品类、价格走势、行业前景等。信息量还是挺大的。

2. 微博/ BBS的舆情数据

也是针对这个产业做的,从微薄、论坛上抓取相关信息,挖掘该产业内一些有趣的舆情信息。其实爬虫已经用于舆情监控已经比较成熟了,很多大公司都有相关的监控部门。

(图来源于网络)

但是,微薄的反爬虫机制有点难搞啊!

3. 新闻文本

新闻文本,其实也算是一种舆情,只不过相对于微博上的文本,这个更加正式一些。爬取百度新闻上关于某关键字的信息,每周梳理出几个关键词,可以抓住行业动向。

4. 学术信息

爬取一些学术网站上的信息用来做研究。比如这个genecard(http://www.genecards.org/Search/) 这个网站叫基因卡,你输入一个关键字,比如height(身高),会出现很多跟身高有关的基因。

点进去,会有每个基因的作用、位置、表达等信息。如果你是一位研究身高的科研人员,一个一个点开记录下来就太耗时了,写一个爬虫,可以把这些数据按照规范格式全部爬下来,之后无论是阅读,还是做进一步分析都会方便很多。

你觉得爬虫还可以用来干什么?无论你玩没玩过爬虫,欢迎把想法写在评论区。

学会爬虫,感觉打开了一扇新世界的大门~!

- END -

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-03-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数说工作室 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档