☞【案例】盈虚有数《我们可能比你更了解你自己》@EMC杯智慧校园开放数据大赛(最佳数据综合大奖)

转自:公众号Kesci数据实践,如需转载请申请授权

号外号外号外

EMC杯智慧校园开放数据大赛的终极作品,来自盈虚有数团队的《我们可能比你更了解你自己》,终于要发布啦!

到底是什么样的作品,让在场的多名评委给出了满分的肯定!让现场的观众叹为观止!今天终于要揭开面纱啦!

盈虚有数 李昊 岑凯 田原(执笔)

盈虚有数作品说明

摘要

本次比赛中的Wifi数据是一批从交大不同地点不同时间采集到的数据集,其中甚为详细,我们使用这一批数据,通过分级分析与建模,得到了一些有意思的结果。另外通过建模,我们测试了两种推荐系统对于推荐软件的效果。最终,在应用层面,我们提出了我们针对App开发的一个构想。本文将简要介绍我们使用的方法,数据结果,以及我们对于产生这样的数据结果的原因分析。希望能对有志于进行校园建设工作的同学有所帮助。

关键词

时间,性别,年纪,ItemCF,关联分析,LFM

团队介绍 我们是来自中国科学院上海分院的团队,有三名队员,李昊同学来自有机化学研究所,岑凯同学来自植物生态学研究所,田原同学来自计算生物学研究所。我们平时的工作与统计分析有一定关系,另外比较擅长处理大数据,所以出于兴趣因素,有幸参与到了本次的大赛中,并走到了决赛圈。

说明报告正文

我们的报告分为以下四个重要部分:首先是针对不同维度的时间分析,从小时分析到学期,我们在不同的时间尺度上都找到了一些很有意思的结论。其次,我们结合了不同的用户信息进行分析,从年纪和性别上进行了详细的比较与分析。再次,我们研究了一下软件之间的关联性与推荐系统的实现。最终,我们提出了我们有关于App实现的构想,这个想法可以给更多有才华的人以启发。

1

针对不同维度的时间的用网数据分析

首先展示的是交大所有点一天24小时的流量及访问人数图,图中的圆圈大小代表的是每一个时间每一个地点的用网人数,而颜色深浅代表的是用网的流量强度。这样的图很容易做,但是却又两个很重要的应用意义,其中一个就是,如果这样的wifi点覆盖的地点足够多,同学们可以通过查看这样的wifi地点的流量变化来选择一个人比较少的楼层和教室自习,另一个重要的作用就是,可以起到一定的预警作用,如果出现了总统来做讲座而导致礼堂爆满的情况,wifi的连接情况可以在一定程度上起到预警作用。

然后,我们展示了交大一天12小时的流量变化图,可以看出,从0点到上午6点,都几乎没有流量连接,而从8点开始,人开始慢慢多起来,五中的每一牙代表一个小时,而每一牙中的不同色块,代表我们区分出来的4个板块的流量占比。

然后,我们分别比较了不同的地点的流量变化差异,可以清楚的看出,实验楼和教学区的差异不大,而宿舍明显用到很晚,食堂则有明显地两个高峰。

这样有关于小时的分析,一直可以做到Individual level,下图中的灰色线条(参考值)是使用所有28000多人的流量数据统计得到的在每一个小时的流量中位数的占比(因为是不同同学用网差异实在太大,数据不是正态分布,所以不能使用均值,也不能使用t test等参数估计方法),我们把所有同学得到的数据拟合成的曲线看作是一条标准曲线,然后将所有其他人的曲线与之做对比。比如说,我们找到了一位2013级硕士女同学的流量占比曲线,发现她大约8点起床,10点睡觉,中午似乎有一个午休,作息很规律。而反观一位2012年男博士的作息,我们就发现他差不多每天10点多才起床,而晚上一直用流量到很晚。通过使用Kolmogorov–Smirnov test,我们可以轻易比较出每一个人的每一条曲线与标准曲线的“距离”,也就从而可以找到哪些同学作息规律,哪些很混乱。

然后,我们比较了一个学期的wifi用量,下图的每一个条是每天的流量总额,我们可以看出,随着时间的推进,学期末的用网明显不如学期初的。但除此以外,我们并没有发现周末与平时的用网有明显差别,我们使用的是t test,因为每日数据差不多是正态分布的(使用的R包”nortest”中的ad.test()做的正态性检验)。通过比较,我们发现p value在0.6以上,并没有统计显著性。

但是我们比较了Wifi的联网人数和食堂消费金额,却发现周末的人数明显减少了,下图把该天连过网的人都算作1,然后直接加总计算当年联网人数,食堂消费是直接计算的加总和,放在一个图里,我们抹去了量纲差异,因为这里主要需要看出的是人数变化趋势。

既然总流量没有明显差异,而人数变动很大,就说明一个问题——周末在校的人用网人均增多。(向我之前讲的,这里理论上应该使用中位数,到那时出于与上述两个图的照应关系,我们用均值也能看出明显趋势),我们直接用第一个流量图除以第二个人数图,得到人均用网,能明显地看出周末的数值高很多。这就说明,到了周末,很多人都不在学校了,他们谈恋爱,户外旅游都有可能,但是在校的同学用网明显增多。

然后,我们使用Kruskal.test来找出那些周末与平时有用网差异的软件,并从中选择了几个作为代表。可以看出,周末的画,迅雷,暴风影音,凤凰网等软件都有明显上调,而其中美团网只有周五明显高起来,这个应该是同学们周五习惯用美团网预定一下电影票和景点门票导致的。其实周末美团网用量应该也是升高的,但是都是同学们在校外使用美团网,而不是通过校园wifi,所以侦测不到了。

在下调的软件里,我们发现了有道和沪江英语的访问量都下降了,看来周末确实不是很适合学习。

2

针对年纪与性别等用户信息的分析

上边就是所有有关于时间维度的分析结果,下面开始针对同学的分析:首先是针对不同年纪的同学的用网流量差异的分析。下面的梭型图明显表现出了不同的年纪的同学的用网差异分布。而且我们惊人地发现了从本科到博士,均值在上升,而中位数在下降,这就是数据非正态分布带来的问题。然后我们使用了基尼系数来检测不同年级的数据的分布不均匀程度,结果发现,到了博士阶段,数据基尼系数明显比本科更大。出现这样的结果,可能的原因是,到了博士阶段,学工科的同学有横向项目的收入,学计算机的同学可以直接接私活,但是学理科和文科的同学,基本上除了国家补助不会有什么其他收入,另外在上网时间上,不同的实验室管理的有松有紧,所以同学们可以上网的时间也有差异,这两者可能是造成博士生用网差异较大的原因。

下面的两个图是针对不同的年纪的社交网站的分析,图中的曲线代表的是不同的年纪访问该网站的流量中位数。(由于绘图原因,在这里我们只会指出了趋势图,其实新浪微博的访问量很高的,但是由于变化比较小,所以被压的比较低,这点是我们的失误)。从下面两个图中,我们都可以看出无论男生女生,人人网的访问中位数都在下降,而QQ空间的访问中位数都在升高。我们首先得到了一个很草率的结论就是,伴随着年龄增长,越来越多的人放弃了人人网,而转向了QQ空间。

但是在我们做出了流量访问人数占比之后,我们发现,人人网和QQ空间的访问人数都有明显下降,而且人人网下降趋势更为明显,从85%跌倒30%。这就不太符合常理,没有道理说,大家都不怎么用社交网站了以后,剩下还在玩的人,都转向了QQ空间。后来,我们觉得,真正的原因是,QQ空间之所以在博士阶段访问量高,是因为这一群博士,在读本科的时候,QQ空间是他们的最主要社交工具,当时的他们没有微信朋友圈,所以QQ空间对于他们来说,依然是联系好友的最重要平台,这就是为什么QQ空间针对高年级同学有较高用户黏度的原因,而针对低年级的同学,腾讯微信的出现,给了他们一个更好的选择,所以他们选择放弃QQ空间。总而言之,QQ空间和人人网从本科到博士都在不断减少访问量,但前者的原因是受到了新的社交工具的冲击,而后者是用户黏度过低。

下面,我们使用了Wilcox Test检验了不同的服务以及软件之间的访问量差异,我们可以看出,在服务板块上,女生比较习惯网上购物,音乐,视频,即时通讯,休闲娱乐等项目,而男生更喜欢游戏,音乐,数码科技和搜索导航等板块。

针对软件的分析,我在昨晚Wilcox Test之后,直接采用了统计学上最严厉的Bonferroni修正了所有的954软件的FDR,但是依然得到了很多很显著男女差异的软件。女生方面,几乎拥有了所有的购物网站(除了京东似乎男生访问较多),另外,与学习有关的有道和沪江英语都明显集中在女生那边,男生这边云集了所有的游戏网站,英雄联盟,暴雪,游民星空,暗黑破坏神等等……

下面我们看几个比较典型的软件,我们计算了不同的软件的不同年纪的使用人数占比,因为不同年纪的统计人数不同。世纪佳缘是婚恋网站,和我们预期的差不多,随着年龄的增加,使用的人数越来越多,但是很意外地发现研一和博一是两个访问高峰,另外博二博三博四出现了明显地访问低估,可能非毕业季的同学不是很关心婚姻问题,总觉得deadline还没到吧。

汽车之间的大致趋势也是随年纪上升而访问量增加,但是很奇怪的是,我们发现两个访问高峰分别在研一和博一,然后迅速下降。我们猜测,可能那段时间学车的同学比较多,或者想买车的同学比较多。

安居客的曲线图和我们想象的基本一致,除了博士低年级再一次出现了访问低谷,但是在毕业季,又出现访问高峰。基于此,我们觉得,无论是交大还是任何大学,应该有意识地关心一下博士生的个人问题,可以开一些讲座,讲讲怎么落户,怎么定居,怎么买房,怎么结婚,其实这些对于博士生来说,已经是很重要的问题了。

最后一个曲线图是应届生求职网,我们可以看出和预期的一样,大四和研三的访问量最高,大三和研二可能有一批找实习的同学,另外明显看得出女生在找工作问题上更积极。但是我们并没有在博士阶段看到这个网站的高访问现象,我们猜测有两种可能,一种就是,读博士真的有助于解决就业问题,另一个就是,博士生就业并不依赖这样的传统社招方法,可能有导师推荐,老同学内退啊等等其他渠道。

在下面两个图里,我们首先筛选了所有同学里,有Wifi记录超过50天的,这样的人有14729人,然后我们使用Fisher Exact Test检验哪些同学周末显著不在学习,计算方法就是通过对周末和平时的wifi统计天数和理论总天数做相关分析,最后找到了大约30%的同学周末明显不用网。这与图三的结论基本是一致的。然后,我们使用t test比较了每一位同学周末和平时的用网中位数,找出了那些周末与平时用网显著有差异的同学,这样的话,所有的同学里,就出现这样两批人:一批是周末显著不在校,而且就算在校,用网时间也比平时少,我们觉得这一批人特别爱玩,可能是谈恋爱的,走户外的,爱好体育的人,定义为游侠党(322人)。另一批人周末和平时的“用网出勤”基本没有差别,而且周末用网还显著增加了,这一批人应该就是周末宅在宿舍的人,我们定义为“深度宅”(273人)。值得一提的人,所有的14729人中,我们发现有8573人周末明显用网大于平时,而有6206人平时用网多于周末,这样的数字同样支撑了我们之前的发现——周末人均用网流量增加。

在找出了这样两批人之后,我们首先分析了他们的人员比例,两个团体中,都是男生的人数明显偏多,宅男大约是宅女的3倍,另外在不同的年纪的中,我们发现大一的同学有更多游侠,周末更喜欢出游,估计与他们初来乍到,感觉城市很新鲜有关系吧。此外,我们找到了两批人常用的软件也有明显差异。游侠党喜欢照相旅游,而宅男们喜欢聊天购物刷人人。

3

软件关联分析与推荐系统实现

上述就是所有关于用户信息的分析,一下是有关于软件之间的关联分析,我们可以看出,在关联图中,大部分的同一类的软件之间的关联都很大,但是有些不同的软件之间也有很明显的关联度。这是使用ItemCF算法计算的关联度,而该算法的经典案例就是尿布与啤酒的关联。这样的一个图,可以给各大软件公司做广告推广做一个参考,因为他们就没有必要砸钱把自己软件放在每一个平台上,而可以看看自己的软件与什么热门产品关联更大,然后再推荐过去。

然后,我们开发了两个推荐系统模型[1],一个是基于之前的关联程度,开发的ItemCF推荐模型,而另一个是基于迭代训练以减小代价方程的LFM隐语义模型。无论是使用那种方法,我们都发现了同类软件呈现出聚集效果,比如下图中的,在LFM模型的隐类41号中,大部分权值较高的软件是招聘类和汽车类软件。最后,我们在同一批测试数据上检验了两个算法的准确度和覆盖率,我们可以看出,准确度上,依然是传统的ItemCF效果更好一些,但是覆盖度上,是LFM模型更好一些,这就意味着,ItemCF推荐的软件更容易被用户接纳,但是LFM模型会推荐种类更多的软件,所以如果是一个小公司推出了一个小软件,使用LFM可以获得更高的推荐几率。在这里,我必须承认,迫于时间紧迫,我在设定用户与软件的关联时,仅仅判断是否一个软件被用户使用过,如果使用过,就算是1,否则就是哦,而其实,用户针对不同软件的使用率和流量分布都可以作为用户对不同软件的“打分值”,而用户的年纪和性别同样可以作为训练数据,这样应该可以得到更为准确的结果,但如果添加更多的数据,使用LFM模型是比较合适的方法。

4

校园App开发设想

最后,我们做了一个Individual的分析,并用App的形式展示了一下。我们计算的就是之前那个作息很不规律的男生,数据完全是真实数据,除了头像是我们队长李昊(嗯,颜值担当)。我们可以看出,他大多数的流量耗在了农学院附一楼,他可以查看他的流量记录,另外,可以比较自己的作息是不是很规律,我们可以给他一个鉴定。另外,他想自习的时候,可以看看即时的流量分布,选一个人比较少的教室或教学楼层。在某些特定活动日,可以先看看大礼堂是不是人已经太多了,避免踩踏事件。另外,可以看看他使用的软件流量情况,以及查看我们给他推荐的软件。最后,这个软件可以集成上做第一组题目的同学的食堂数据,以及一些天气数据。

最后要说的两点

1:我们其实做了有关与天气的分析,而且还真不是一带而过的那种做,我们发现,在软件层面,确实在下雨天,与天气有关的软件访问量升高,虽然如果按照统计常规cutoff < 0.05或者 < 0.1,只有两三的软件显著差异,但是如果我们把所有的p value进行一个排序,就可以明显看出排名在前的软件中有很多与天气相关的软件,所以这是一个比较积极的结果,可以建议软件推荐系统,在下雨天有意识地增加这些软件的推荐量。但是我们之所以没有继续挖掘,是因为我们发现下雨的天气一共只有20天左右,而且如果按照影响同学们作息的雨量和下雨时间来看,只有10天左右,这样的数据已经不太具备较强的统计power,所以我们放弃了进一步的挖掘。如果要天气数据,至少需要一年甚至更久的数据,那样才能得到比较可靠的检验结果。

2:目前社会上针对大数据的呼声比较高,但主要是针对数据挖掘和数据分析这两块,前者重在算法,后者重在统计,但是通过做比赛,我个人感觉,数据安全也亟待成为一个应该被关注的焦点——如何在完成统计分析甚至良好推荐的情况下依然保证用户的信息隐私没有被泄露?如何在不采集用户信息的情况下,或者采集编号隐藏过的用户信息的情况下依然完成分析,也应该成为一个研究的重点,甚至于涉及一些标准以及方法的设定。大数据的威力太大,能做的东西很多,但一定要选择合适的统计方法。

针对未来的计划

希望高校能进一步开放更多数据,无论是基于校园还是社会,让大数据不在是公司的专利,而成为了同学们津津乐道的话题项目。

最后致意

我们三个组队匆忙,能走到最后,实在是很出乎预料,不过我们的确拼尽了全力,这一点毋庸置疑。很荣幸遇见了一大批优秀的选手和老师,没有大家的激烈竞争,我们也不会发现我们的极限在哪里。最后,感谢交大社团学生会同学的组织安排。

Method

全项目所有编码工作由R与Python完成,Python用来做加总整理之类的工作,R用来完成统计分析。绘图使用了多种软件,包括Echart,Excel,R以及一些网络软件。

Reference

[1] 项亮,《推荐系统实践》

PPV课其他精彩文章:


1、回复“干货”查看干货 数据分析师完整知识结构

2、回复“答案”查看大数据Hadoop面试笔试题及答案

3、回复“设计”查看这是我见过最逆天的设计,令人惊叹叫绝

4、回复“可视化”查看数据可视化专题-数据可视化案例与工具

5、回复“禅师”查看当禅师遇到一位理科生,后来禅师疯了!!知识无极限

6、回复“啤酒”查看数据挖掘关联注明案例-啤酒喝尿布

7、回复“栋察”查看大数据栋察——大数据时代的历史机遇连载

8、回复“数据咖”查看数据咖——PPV课数据爱好者俱乐部省分会会长招募

9、回复“每日一课”查看【每日一课】手机在线视频集锦

PPV课大数据ID: ppvke123 (长按可复制)

大数据人才的摇篮!专注大数据行业人才的培养。每日一课,大数据(EXCEL、SAS、SPSS、Hadoop、CDA)视频课程。大数据资讯,每日分享!数据咖—PPV课数据爱好者俱乐部!

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2015-08-31

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏怀英的自我修炼

元学习-01

元学习——学习怎么学习。用一句话概括的话——元学习是学习他爸。 首先先扯一个题外话,李笑来曾经说过一段话,我觉得很对:在中国,若是一个人没有英语障碍,能自如地...

374130
来自专栏专知

我是如何失败的 —— Ian Goodfellow 访谈(PhD’14, Computer Science)

19350
来自专栏大数据文摘

TED视频 | 混搭人文主义,我找到了数据可视化的新玩法

26260
来自专栏AI研习社

资料 | 微软推出 AI 开发免费电子书,手把手教你构建智能聊天机器人

雷锋网 AI 研习社按,日前,微软推出 AI 开发者免费电子书,教导大家利用微软 AI 平台开发智能聊天机器人。雷锋网看到,该电子书不长,核心内容共有四十多页,...

9510
来自专栏机器之心

MIT研发出脑控机器人:可使用脑波为机器人纠错

选自news.mit.edu 作者:Adam Conner-Simons 机器之心编译 参与:微胖、晏奇、吴攀 MIT 研发出的反馈系统能够让人类操作者仅通过...

35260
来自专栏大数据文摘

利用“大数据、云计算”提高情报分析以打击反恐

22030
来自专栏ATYUN订阅号

ScriptBook利用AI预测电影剧本是否会带来票房

提供人工智能设备的公司ScriptBook的创始人表示,如果索尼电影公司利用它们的算法而不是人类来评审电影,索尼原本可以在2015年到2017年节省一大笔资金。

16430
来自专栏杨熹的专栏

什么样的人生才是幸福的

Mihaly Csikszentmihalyi: Flow, the secret to happiness 什么样的人生才是幸福的? 并不是物质,当物质水平...

28880
来自专栏AI科技评论

学界 | 20年后的机器人不如猫?Google的AI专家和Amazon的VP打了一个赌

“很多人预测在20年内出现人类水平的人工智能,我认为这太乐观了。我愿意打一个赌,赌20年内,我们的技术不足以制造出一个感觉运动控制能达到家猫水准的机器人。” 想...

29370
来自专栏leland的专栏

游戏与人工智能

在人工智能的发展上的道路上,游戏到底扮演着一个怎样的角色?也许接下来五分钟的阅读(多图预警),会让你得到一个较为清晰的答案。

432240

扫码关注云+社区

领取腾讯云代金券