Apriori算法实例——322万知乎用户的关注话题关联分析

用以前爬的知乎用户行为数据,跑了一下Apriori算法,发现了一些有意思的关联规则。以下是简略的分析过程。数据采集数据怎么来的?当然不是知乎给的,是爬虫来的。怎么爬的?这篇文章就不说了。数据处理之前爬虫的时候为了存储方便,把一个用户关联的话题以及每个话题下的回答情况存放一个长的字符串,这是一个坑。现在为了建模,得先把数据处理一下,用Python正则表达式从长字符串中把话题id抽取出来,然后使之变成一对多的规整的结构化数据框。这个过程使3220712行数据变成了36856177行。关联分析当然这里依然用R调包的方法来做关联分析。不过这个数据体量太大了,全量读的话单机内存会爆,更别说Apriori进行全表扫描、逐步迭代计算……所以选择一部分样本即可,这里取100w条数据作为样本来跑模型。library(readr)library(arules)library(arulesViz)library(dplyr)

topic_info <- read_csv("E:/data/data/zhihu_topics.csv")
Encoding(topic_info$topic) <- "gbk"user_topic_sample <- read_csv("E:/data/data/zhihu_user_topic_sample.csv")
user_topic_sample <- user_topic_sample %>% left_join(topic_info[,1:2])


trans <- as(split(user_topic_sample$topic,user_topic_sample$user_token),"transactions")
rules <- apriori(trans,parameter = list(supp=0.1,conf=0.5,minlen=2))
summary(rules)
rules.sorted <- sort(rules, by="lift")
inspect(rules.sorted)  %>% head(50)                    lhs           rhs   support confidence     lift count
[1]  {旅行,美食,心理学} =>     {时尚} 0.1015915  0.7318048 3.065149  3479
[2]         {健身,美食} =>     {时尚} 0.1031099  0.6927604 2.901612  3531
[3]  {电影,旅行,心理学} =>     {时尚} 0.1069937  0.6879459 2.881447  3664
[4]       {美食,心理学} =>     {家居} 0.1003066  0.5069362 2.868005  3435
[5]    {电影,旅行,美食} =>     {时尚} 0.1104687  0.6830986 2.861144  3783
[6]  {电影,美食,心理学} =>     {时尚} 0.1116659  0.6745458 2.825320  3824
[7]       {健身,心理学} =>     {时尚} 0.1055921  0.6569767 2.751733  3616
[8]              {家居} =>     {时尚} 0.1146153  0.6484388 2.715972  3925
[9]       {旅行,心理学} =>     {时尚} 0.1209228  0.6474359 2.711771  4141
[10]        {健身,旅行} =>     {时尚} 0.1037232  0.6473483 2.711404  3552
[11]        {旅行,美食} =>     {时尚} 0.1232005  0.6455018 2.703671  4219
[12]   {电影,旅行,时尚} =>     {美食} 0.1104687  0.8419764 2.689440  3783
[13] {旅行,时尚,心理学} =>     {美食} 0.1015915  0.8401352 2.683559  3479
[14]             {商业} =>     {创业} 0.1386772  0.6043523 2.653679  4749
[15]             {创业} =>     {商业} 0.1386772  0.6089242 2.653679  4749
[16]      {美食,心理学} =>     {时尚} 0.1250986  0.6322314 2.648088  4284
[17]        {美食,设计} =>     {时尚} 0.1017667  0.6320276 2.647234  3485
[18]   {电影,健身,美食} =>     {旅行} 0.1030223  0.8275862 2.635608  3528
[19]        {电影,家居} =>     {美食} 0.1067601  0.8175313 2.611357  3656
[20]        {电影,生活} =>     {音乐} 0.1106731  0.6273796 2.605143  3790
[21]      {设计,心理学} =>     {时尚} 0.1066433  0.6206662 2.599647  3652
[22]      {旅行,心理学} =>     {教育} 0.1022631  0.5475297 2.595536  3502
[23] {电影,时尚,心理学} =>     {美食} 0.1116659  0.8118896 2.593336  3824
[24] {美食,时尚,心理学} =>     {旅行} 0.1015915  0.8120915 2.586262  3479
[25]   {电影,美食,时尚} =>     {旅行} 0.1104687  0.8102377 2.580358  3783
[26] {电影,旅行,心理学} =>     {美食} 0.1241349  0.7981600 2.549481  4251
[27]      {家居,心理学} =>     {美食} 0.1003066  0.7958758 2.542185  3435
[28]           {经济学} =>     {商业} 0.1366915  0.5831568 2.541385  4681
[29]             {商业} =>   {经济学} 0.1366915  0.5956987 2.541385  4681
[30]      {旅行,心理学} => {职业发展} 0.1016791  0.5444028 2.538890  3482
[31]        {旅行,时尚} =>     {美食} 0.1232005  0.7948380 2.538870  4219
[32] {电影,健身,心理学} =>     {美食} 0.1009490  0.7898104 2.522811  3457
[33]      {美食,心理学} =>     {教育} 0.1051248  0.5312869 2.518538  3600
[34]        {电影,商业} =>   {互联网} 0.1016207  0.6815511 2.518041  3480
[35]        {创业,电影} =>   {互联网} 0.1006862  0.6791412 2.509137  3448
[36] {电影,健身,心理学} =>     {旅行} 0.1004818  0.7861549 2.503662  3441
[37]   {电影,健身,旅行} =>     {美食} 0.1030223  0.7826087 2.499807  3528
[38]             {健康} =>     {生活} 0.1190539  0.6937213 2.498579  4077
[39] {电影,设计,心理学} =>     {美食} 0.1091254  0.7806559 2.493570  3737
[40]             {教育} => {职业发展} 0.1122500  0.5321152 2.481586  3844
[41]         {职业发展} =>     {教育} 0.1122500  0.5234918 2.481586  3844
[42] {电影,时尚,心理学} =>     {旅行} 0.1069937  0.7779193 2.477434  3664
[43]        {健身,美食} =>     {旅行} 0.1156373  0.7769276 2.474276  3960
[44]      {美食,心理学} => {职业发展} 0.1046576  0.5289256 2.466711  3584
[45]        {电影,健身} =>     {时尚} 0.1102351  0.5883728 2.464387  3775
[46]      {电影,互联网} =>     {商业} 0.1016207  0.5648434 2.461576  3480
[47]        {设计,时尚} =>     {美食} 0.1017667  0.7699956 2.459519  3485
[48]        {健身,时尚} =>     {旅行} 0.1037232  0.7721739 2.459137  3552
[49]      {电影,互联网} =>     {创业} 0.1006862  0.5596494 2.457391  3448
[50]        {美食,时尚} =>     {旅行} 0.1232005  0.7705936 2.454104  4219提升度最高的关联规则是{旅行,美食,心理学} =>  {时尚} ,达到了3倍多!事实上这些top50的关联规则很多都是导向“时尚”这个话题,果然不愧为逼乎。plot(rules, method="graph", control=list(type="items"))image.png图就不解释了,一直都不是很懂关联规则可视化图怎么解读……附加一下各话题关注人数top100:
知乎关注人数top100的话题关联分析的结果可用作推荐系统。与协同过滤算法相比,它不必计算两两相似度的邻接矩阵,计算量相对小一点;而且协同过滤算法只能计算相似度,关联规则有支持度、置信度、提升度等指标,解释性较强一点。不过在协同过滤算法中,因为有两两的相似度,因为只要有一个新的input,总能根据最高的相似度进行推荐;而在关联规则中,只有触发了对应的关联规则才能推荐,因此它的覆盖面不如协同过滤广。步骤总结首先把数据整理成id-item式的规整dataframe然后把dataframe转换成transaction设定关联规则参数(support、confident等)建立关联规则以关联规则按某个指标(lift、support等)排序、解析可视化关联规则问题延伸还好刚换了一个游戏本,不然无论Python处理数据,还是跑Apriori模型,估计都会卡成狗这只是一个case studyApriori算法在数据量大的时候计算量也大得可怕,可以考虑FP-growth用R在单机上调包建模的方法可以在学习时体会一下,但离工业级的建模仍有差距。这个case体量的数据建模的话,在Spark等分布式并行计算平台上跑算法才是正道

本文作者王昱,已获作者授权

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2017-11-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据挖掘DT机器学习

基于大数据的信息系统关键技术研究

信息技术、计算机技术和互联网技术的高速发展促进了人类社会各类数据的爆炸性增长如何对这些结构复杂的大数据[注]进行有效管理己经成为当前社会的热点问题之一。自201...

3614
来自专栏机器之心

报告 | 牛津、剑桥、OpenAI 等多家机构发布重磅报告,论述恶意人工智能的「罪与罚」

2787
来自专栏云计算D1net

解决四大问题 云服务将支撑经济产业

随着互联网快速发展,政务信息化、城市信息化逐渐上升为国家政策,但毋庸置疑的是,目前的信息化建设仍然存在许多问题。诸如华为等企业都早已开始涉足于政务云建设,并给出...

3438
来自专栏PPV课数据科学社区

大数据的安全底线

当企业迈进大数据时代,信息安全面临多重挑战。数据大集中的安全隐患重重,而大数据不仅被用来找出潜在威胁,也被黑客用来实现更精准的打击。大数据来袭,...

4176

物联网对于企业的影响

目前,物联网对企业的影响非常大。通过将惰性设备/传感器与过程和期望进行连接并从互联网获取有价值的数据,物联网为创造高效业务带来了机遇。

3826
来自专栏机器人网

解析:机器人如何更灵活高效实现笔记本组装

我国制造业发展面临着“全球竞争”、“转型升级”等严峻挑战,各大制造厂商纷纷进行结构调整,大力推进自动化进程。全球知名的ODM代工公司纬创资通(Wistron)率...

2907
来自专栏云计算D1net

云服务安全隐患是企业选择云的最大障碍

根据云安全联盟的年度调查显示,虽然企业及其员工正在越来越多的使用云计算服务,但企业高管仍然担心业务数据存储在云计算中所涉及的安全隐患。 这个“云部署做法和重点调...

3399
来自专栏企鹅号快讯

物联网IOT到底能带来什么?看完这几个例子和观点你就懂了

作者:贝恩德·格罗斯,软件公司物联网云公司的高级副总裁。 当谈到物联网时,我们正处于绝境。每个人都喜欢预测其影响,但许多人仍不清楚物联网会如何影响他们的业务。不...

2405
来自专栏镁客网

微信小程序来了,张小龙颠覆社交后又将颠覆移动互联网

2376
来自专栏人工智能快报

2017全球网络安全峰关注人工智能与未来的网络防卫

数字世界正在加速膨胀。在物联网(IoT)、宽带通信、更便宜的云存储和计算能力的帮助下,每个组织、公司和政府部门每时每刻都在产生关于一切事物的数据。虽然这些巨量的...

2857

扫码关注云+社区

领取腾讯云代金券