前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >01基于位置的用户画像初探|数据爬取及可视化系列

01基于位置的用户画像初探|数据爬取及可视化系列

作者头像
mixlab
发布2018-04-17 11:02:13
1.8K0
发布2018-04-17 11:02:13
举报

研究了1个月的nodejs爬虫,数据提取,mongodb数据库,数据可视化等等内容,我终于写了第一篇关于数据的文章,哈~

这个系列的文章会从:

技能 数据来源 数据可视化的套路 交互设计 等方面进行更新

今天首发的是系列文章:关于数据爬取及可视化

第一篇|基于位置的用户画像初探

第一篇先谈谈总的思路,及尝试一些数据研究的方法。


第一个练手的研究内容,我选取了最近魔都热门的一个餐厅:

Mr Nice好好先生餐厅


爆红的拿破仑领军西餐甜品店,打遍上海无敌手,高大上,低调奢,新店开了不少,菜品依然创意无限。梦幻摩天轮拿破仑,真是味蕾视觉双享受!意式奶冻,草莓冻膏,口感馥郁柔滑。还有食肉控最爱的猪肋排拼盘,更多应季而变的创意菜品俘获一众吃货的心。

数据来源:


前几天发现百度指数蛮好用的,直接输入关键字就可以得到相关的数据,都是基于网民的搜索行为的。

百度指数http://index.baidu.com/

但是百度还没有收录,当然我也没到要去购买的程度,仅仅是研究啊哈~

所以主要从大众点评上获取数据。

大众点评的点评大数据http://dpindex.dianping.com/dpindex

相关指数:


先看看人气指数:

最近30天,人气不足啊,主题餐厅是不是都这样?火爆一阵子,没有持久度。

价格还是算亲民的。

商户风云榜上,6家分店排在首位啊~

研究目标


那么,位于商户风云榜首,到底是什么人喜欢到这种餐厅呢?

我决定研究下到过该餐厅消费过的用户,我设定了简单的2个目标:

  • 某个用户的活动范围有多广?
  • 某个用户是在周末活动多一点,还是工作日比较多?

对研究目标的补充说明:

我选择的是“是什么”的角度,而不是探讨原因的“为什么”角度,做大数据研究,需要转变下思维,从“为什么”“是什么”。 我们没有必要,也不太可能从数据中知道为什么,因为世间万物的关系太复杂了,其实知道”是什么“就够了,要解读数据,让数据自己”发声“告诉我们正在发生的现象。

有一个典型的例子: 沃尔玛是世界上最大的零售商,掌握了大量的零售数据。通过分析,沃尔玛发现,每当季节性飓风来临之前,不仅手电筒销售量增加了,而且蛋挞的销量也增加了。因此,当季节性暴风来临时,沃尔玛会把库存的蛋挞放在靠近飓风用品的位置,以方便顾客。 看到这里,马上有人问”为什么飓风一来,人们都要买蛋挞“? 这个“为什么”,可能是极难分析、且复杂的,而且即便研究出来,意义真的很大吗?对沃尔玛来说,只要知道“飓风来了,快摆蛋挞,准备大赚一笔”就行了,这就是注重的相关关系。

研究思路:


  1. 拉取商户的用户列表,获取用户的页面 ↓
  2. 提取用户标签,及评论过的地点日期
  3. 假设评论发表时,用户正在该地点活动 ↓
  4. 从标签,我们可以看出,Mr Nice好好先生餐厅的顾客们的其他爱好是什么 ↓
  5. 通过,用户点评过的地点,以及发表评论的时间,了解他们的行为习惯

数据收集及可视化:


点评网并没有直接的展示用户的位置轨迹,于是需要我们自己动手去搜集数据,处理数据,下面是通过编程实现的思路。

  1. casperjs爬取商户的所有评论页面 ↓
  2. 通过nodejs中的cheerio解析网页提取用户id ↓
  3. 根据用户id爬取用户的所有点评地点的经纬度信息,及日期 ↓
  4. 通过百度地图,显示用户去过的地点,并用echart展示了下活动在一周中的分布情况。

关于casperjs、nodejs、echart相关的技术使用心得,将在另一篇文章中总结。

下图是商户的评论页,有10669条评论,手动去收集肯定是不现实的啊,本次采用了casperjs来抓取~

将从上面这一页获取的用户id清单,爬取每一用户的点评信息,如下图所示。

这个也是数据量比较大,全交给电脑去自动获取啦~然后存进数据库里,这里选择了mongodb数据库,配合express,还有前端展示,边研究边处理。

研究所得


讲了这么多理论的废话,下面进入正题哈:

本次爬取了一点点用户的数据,作为研究,因为我还不知道到底可能得出什么样的结论,所以得一步步来,试试用这些数据能不能得出一些有意思的结论。然后再决定是否大量爬取。

抽取一个光顾过MrNice餐厅的

用户A的数据看看,看来用户A是典型的吃货。


她曾在北京出差或者旅游

在上海主要在浦西活动~

普陀的频率比较高

习惯在礼拜一活动,

结合上图,估计她在普陀区上班

关于上图的解释,红圈圈越大表示发表点评的频率越高,从左到右分别为星期天,星期一,星期二……星期六

用户B的故事


用户标签:

B也是个爱吃的人~

主要是在礼拜一跟二活动,

上班了跟同事聚餐吗?

在长三角活动,

结合时间来看,出差的可能性大一点~

用户C


已婚了哈,标签里有结婚项。

去过成都,还有上海的周边也去了不少。

典型的在周末活动。

平时下班大多数是直接回家的。

我觉得C是个男的

用户D,爱吃爱玩啊


用户标签:

这个厉害,去过不少地方旅游,旅行主要还是吃吃吃

再看看其他用户。


大致有2类人,一类是大多数在上海活动,我感觉浦西的美食比浦东多哈~

第二类是,喜欢旅行的~数据足够多的话,可以看出哪几个地点比较热门。

以上是一点点研究的所得,也许是大众点评早期是美食点评起家的,用户想起美食就跑点评了,所以用户标签的美食占比会比较多?

接下来我会加大数据的数量,对用户标签再细致研究,还有完善思路,进行更丰富的研究。


设计+科技=自在园O设计Mix科技实验室。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2016-09-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 科技Mix设计Lab 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档