【脑洞大开】爬虫能干什么?| 讨论

大数据技术现在被用于各行各业,回归、SVM、神经网络、文本分析......各种牛逼的模拟和预测,但是如果没有数据,就算你会算命也没有毛用啊!

爬虫是获取数据的一个最快捷的方法,不用先有一个网站或APP,坐在家里,用一台电脑,就可以哗哗的把(别人网站和APP的)数据爬下来!

现在都说数据就是金钱,爬了这么多数据,是不是午饭可以再加一个蛋了?去网吧包夜都可以再买瓶冰红茶了!年纪轻轻,感觉有点迷失自我?想要回到初心......

好了,问题来了,爬虫可以干什么?这些哗哗的数据可以怎么用?希望大家可以一起讨论一下,数说君结合自己的经验,先抛砖引玉:

1. 电商网站的商品数据

曾经帮一个咨询团队爬某个产业的商品信息,包括品牌、价格、销量、规格型号等。然后分析这个产业中的畅销品牌、畅销品类、价格走势、行业前景等。信息量还是挺大的。

2. 微博/ BBS的舆情数据

也是针对这个产业做的,从微薄、论坛上抓取相关信息,挖掘该产业内一些有趣的舆情信息。其实爬虫已经用于舆情监控已经比较成熟了,很多大公司都有相关的监控部门。

(图来源于网络)

但是,微薄的反爬虫机制有点难搞啊!

3. 新闻文本

新闻文本,其实也算是一种舆情,只不过相对于微博上的文本,这个更加正式一些。爬取百度新闻上关于某关键字的信息,每周梳理出几个关键词,可以抓住行业动向。

4. 学术信息

爬取一些学术网站上的信息用来做研究。比如这个genecard(http://www.genecards.org/Search/) 这个网站叫基因卡,你输入一个关键字,比如height(身高),会出现很多跟身高有关的基因。

点进去,会有每个基因的作用、位置、表达等信息。如果你是一位研究身高的科研人员,一个一个点开记录下来就太耗时了,写一个爬虫,可以把这些数据按照规范格式全部爬下来,之后无论是阅读,还是做进一步分析都会方便很多。

你觉得爬虫还可以用来干什么?无论你玩没玩过爬虫,欢迎把想法写在评论区。

学会爬虫,感觉打开了一扇新世界的大门~!

- END -

原文发布于微信公众号 - 数说工作室(shushuojun)

原文发表时间:2017-03-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏LET

可视化之PM2.5

1768
来自专栏华章科技

为不擅长编程的人准备的19个数据科学工具

编程是数据科学的重要组成部分。在所有方面中,一般认为一个理解编程逻辑、循环、功能的大脑更有可能成为一个成功的数据科学家。那么,一个从来没有在学校或学院里学过编程...

952
来自专栏IT派

用57行代码搞定花8000万美元采购车牌识别项目

Tiait Brown 用57行代码和开源工具 DIY 了一个车牌自动识别系统,完全实现了澳大利亚政府花8600万美元投资的项目效果。 过去一年,维多利亚州共...

3876
来自专栏喔家ArchiSelf

雾里看花——IIoT

工业物联网(IIoT)正在从概念逐渐变成现实。廉价传感器, 从数据到云端, 以及在浏览器上的仪表盘可以看到更细致和更现实的模型,仿若无处不在。 一些文章通过对雾...

902
来自专栏恰同学骚年

对技术的态度—CoolShell 陈皓

原文地址:http://coolshell.cn/articles/8088.html

1134
来自专栏SDNLAB

ONOS构建开源Leaf-Spine Fabric

On.Lab ONOS项目组领导下的一个工作组近日发布了一个开源的leaf-spine fabric架构,以期进一步推动开放网络的发展。 开放网络基金会(ONF...

37116
来自专栏腾讯社交用户体验设计

支付安全感的设计思考

2733
来自专栏Sign

AR与隐私

之前因为开玩笑性质的在各个地方放了这个公众号,然后有不少小伙伴以为这里是技术性质的公众号,于是跑来学习…… 因为我一般发文章时才登一下后台,所以很多时候看到私信...

29212
来自专栏数据小魔方

一个神奇的配色网站~

今天不聊关于ggplot图表的知识,我们聊一聊一个提供地图配色方案的网站——ColorBrewer2.org。 不要觉得这样太小题大做(关于图表配色,已经发过N...

6145
来自专栏互联网数据官iCDO

为什么对比测试会扼杀转化率

  如果你已经尝试了所有方法,但产品的转化率依然处于下滑趋势,那么对比测试可能是导致这种现象的罪魁祸首。   是的,就是对比测试,这个难以想象的流量开关、转化率...

3218

扫码关注云+社区