前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【数据】即使不会爬虫技术,也能轻松获取的重要数据

【数据】即使不会爬虫技术,也能轻松获取的重要数据

作者头像
陆勤_数据人网
发布2018-04-18 17:07:53
5K0
发布2018-04-18 17:07:53
举报

小编邀请您,先思考:

1 对于具体的业务问题,如何做好数据准备?

很多做数据分析的同学,对数据的获取有一个误区,觉得在互联网上获取数据,必须通过爬虫进行爬取。殊不知,有些必须知道的数据,即使不会爬虫的技能,也可以轻松获取。

根据这些数据类型的不同,我把它们划分为实时数据、趋势数据以及关联数据,这里,我们先来了解一下,互联网上,有哪些基于地理位置信息的实时数据。

一、实时数据

实时数据,顾名思义,是事物当前状态的数据。更好的,经过整合的实时数据,可以为我们尽早地处理问题,提供最佳的契机。

那么,互联网上,有哪些实时数据可以唾手可得呢,下面我们先来看看,和地图,也就是地理位置有关的实时数据吧?

1、高德地图交通大数据,网址:http://report.amap.com

高德地图在所有的导航App中,目前市场占有量第一,通过高德地图交通大数据,我们可以得到很多关于交通方面的实时数据。

1)城市交通详情,通过高德地图交通大数据,我们可以轻松从网站上面,查出目前每个城市的拥堵指数,如下图所示:

点击到具体的城市里面,还可以看到每个城市的每个区域,交通的拥堵情况,如下图所示:

甚至还可以知道每条主干道的交通指数情况:

2)交通生活圈,通过高德地图交通大数据,我们可以轻松从网站上面,查出我国各大城市地标建筑在20、30、45、60、90分钟内,可以到达的地方,例如如果选择了广州的北京路作为出发地,30分钟内可达到的地区,如下图所示:

3)拥堵榜,通过高德地图交通大数据,我们可以轻松从网站上面,查出我国每个火车站、机场、收费站以及高速公路的拥堵指数,例如选择沈海高速,即可得到沈海高速目前每一段的拥堵情况显示,如下图所示:

4)交通预测,通过高德地图交通大数据,我们可以轻松从网站上面,查出我国主要城市未来一周的交通预测情况,例如选择广州市,广州市未来一周的交通情况,即可通过下图进行了解。

5)交通报告,通过高德地图交通大数据,我们可以轻松从网站上面,下载到城市或者省份对应的交通报告,如下图所示:

6)跨城出行,通过高德地图交通大数据,我们可以轻松从网站上面,查看到某两个城市之间,迁入、迁出的情况,例如选择迁出为广州,得到的数据如下图所示:

2、腾讯位置大数据,网址:https://heat.qq.com

众所周知,腾讯拥有移动互联网时代人人都安装的软件微信,因此,在位置大数据方面,腾讯提供的位置大数据,必须是最准确的。

1)位置流量趋势,通过腾讯位置大数据,可以得到一个地区,例如下图广东省广州市广州长隆区域的位置流量信息,可以看到,除了提供历史的流量数据,腾讯位置大数据还提供了一天接下来的时间段的预测数据,可以通过预测数据,避免高峰出行。

2)区域热力图,通过腾讯位置大数据,可以得到一个地区内,每个时间点的人数人力图,如下图所示。

3)人口迁徙图,输入迁出/迁入的位置,即可得到迁徙图,如下图所示,类似高德出行大数据中的跨城出行的数据。

4)数据接口,腾讯位置大数据,为数据分析师提供了友好的数据接口,我们可以直接使用对应的数据接口进行数据的访问呢,简单实用,如下图所示。

3、百度迁徙地图,网址:http://qianxi.baidu.com/

百度基于百度地图做的百度迁徙地图,可以获取到路况、迁徙、景区、枢纽、购物以及游乐场的实时数据。

1)路况,可以从中查看每条高速公路上的交通情况,如下图所示:

2)迁徙,只能看到全国的迁徙情况,如下图所示。

3)景区、枢纽、购物、游乐场,都是根据某个区域进行热力图的展现,如下图所示,就是杭州西湖的人流热力图。

4)PM2.5空气质量,网址:http://www.pm25.in/

PM2.5作为空气污染的重要指标,在pm25.in网站中,可以查询到,每个城市的PM2.5值,例如,从首页进去之后,选择广州,即可得到广州每个监测点的PM2.5指标数据,如下图所示:

作为一个开源项目,PM25.in还为开发者提供给了API调用接口,真是一个良心项目。

5)电视实时关注度,网址:http://eye.kuyun.com/web/

酷云EYE网站可以查看当时全国每个电视台播放节目的关注情况,如下图所示:

6)票房实时大数据,网址:http://piaofang.maoyan.com

猫眼票房专业版,可以查看当前所有播放电影的实时票房情况,如下图所示:

二、趋势数据

要了解趋势数据,首先要知道什么是趋势分析。当我们要分析的数据,是由两个时间点限定时,这类的分析,我们称为趋势分析。

下面我们来看看,有哪些现成的互联网数据,可以实现趋势分析。包括:

  • 微信指数(网址:小程序)
  • 微博指数(网址:http://data.weibo.com/index)
  • 百度指数(网址:http://index.baidu.com/)
  • 头条指数(网址:https://index.toutiao.com/)
  • 360趋势(网址:http://trends.so.com/index)
  • 腾讯浏览指数(网址:http://tbi.tencent.com/)
  • 谷歌探索(网址:https://trends.google.com/trends/explore)
  • 高德指数(网址:http://i.amap.com)
  • 阿里指数(网址:https://alizs.taobao.com)
  • 谷歌探索(网址:https://trends.google.com/trends/explore)
  • 学术趋势(网址:http://trend.cnki.net/TrendSearch/index.htm)
  • 飞常准航空数据(网址:http://www.variflight.com)
  • 农业大数据应用云平台(网址:http://www.dataagri.com/agriculture/index.action)

下面以百度指数为例,演示一下如何使用趋势数据。

最近,有两位名人去世了,分别是物理学家霍金以及文学家李敖,我们来查询一下,网民对两位名人的去世的关注程度是怎样的。

在关键字那里先输入霍金,然后添加对比词,输入李敖,点击确定,即可得到两个单词的热度对比图。从上图我们可以看到,霍金去世网友的关注度的最高点(蓝色曲线),远高于李敖去世网友关注度的最高点(绿色曲线)。

三、关联数据

要了解关联数据,首先要知道什么是关联分析。关联分析的目的,是发现存在于大量数据集中的关联性或相关性,从而描述了一个事物中某些属性同时出现的规律和模式。

关联数据可以通过百度指数提供的需求图谱进行查阅,同样,我们使用霍金和李敖两个关键字,来查阅他们的需求图谱是什么。

除了图形,往下拉还可以查看具体的相关词以及对应的热度列表。

以上,就是数据分析师必须知道的互联网中常用的数据了,赶紧收藏分享吧!!

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-03-31,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据科学与人工智能 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档