《R语言游戏数据分析与挖掘》新书推荐

作者:谢佳标

微软中国MVP,多届中国R语言大会演讲嘉宾,目前在创梦天地担任高级数据分析师一职, 作为创梦天地数据挖掘组的负责人,带领团队对游戏数据进行深度挖掘,主要利用R语言进行大数据的挖掘和可视化工作。

《R语言游戏数据分析与挖掘》新书上市已经有一个多月,各大网店均有销售。这是一部从大数据技术和游戏业务双重维度讲解如何利用结果数据指导商业决策的实战性著作,乐逗游戏高级数据分析师撰写,是他近10年数据挖掘与分析经验的总结。数据是无价的,只有当数据被挖掘分析并帮助到企业的时候才是有价值的。传统的数据分析类图书重技术而轻业务,本书二者并重:技术方面,以游戏数据的挖掘与分析为核心,辐射游戏数据处理的各个环节,系统讲解游戏数据挖掘与分析的技术、方法论和工具;业务方面,所有案例的讲解过程中都对相关业务进行了重点解读,旨在加深数据分析师对游戏业务的理解和思考,从而更好地利用R语言技术解决游戏数据处理中的各种复杂问题。

很多读者担心自己没有R语言的基础是否适合此书,也有另外一些读者担心此书是否偏向游戏行业,不适合其他行业的数据分析师阅读。其实这些担忧都是多虑的,本书分为基础篇、实战篇和提高篇三大篇章,初学者也能通过学习基础篇的知识掌握R语言使用技巧,包括R语言数据对象、数据导入、数据处理、初级绘图和高级绘图等知识;实战篇是通过数据挖掘技术,对用户和收入进行深度挖掘,这些实战案例的解决方案具有行业通用性,可以很好地将思路移植到其他行业领域中;提高篇又分为rattle和shiny,rattle是一款优秀的R语言数据挖掘工具,shiny是RStudio公司开发的一个网页app开发框架,可以快速搭建数据分析挖掘原型,让不懂前端知识的数据分析师也具有平台开发能力。

基础篇包括游戏数据分析理论、R常用技巧和绘图技巧,R基础软件下载安装、扩展包(package)的安装,并详细介绍了如何将文本文件、excel文件、MySQL数据库数据、网络数据读入到R中,最后R三大绘图系统:base系统、lattice系统和ggplot系统的绘图技术以及交互式绘图(rCharts包、recharts包、plotly包以及其他基于HTMLWidgets包开发的交互包)。

实战篇包括数据处理技巧、路径行为分析、付费偏好深度挖掘已经各种分类算法的原理及R实现(KNN近邻、朴素贝叶斯、决策树、bagging、boosting、随机森林、人工神经网络以及支持向量机等算法),并利用caret包进行十折交叉验证选择最优模型。比如在对付费用户偏好的深度挖掘中,针对游戏用户总结了几种常用的数据挖掘技术:

其中,关联规则分析是购物篮经常应用的一种挖掘技术,基于物品协同过滤的方法来对玩家进行TopN商品推荐是目前电商流行的推荐算法之一,并利用社会网络分析中的社群发现技术研究用户购买物品的偏好。

在渠道用户质量分析一章中,书中借鉴时间管理理论中一个非常重要的四象限法则,对渠道用户进行象限划分,进而研究不同渠道的用户质量情况。书中利用Median-IQR方法分析ARPPU、ARPU、新增次日留存率和新增七日留存率等指标,查看不同渠道在一月份数据的集中及离散程度。这里使用中位数作为衡量中心的统计量,应用四分位距(IQR)作为离散指标的统计量更有意义。与更常用的均值和标准差相比,这些统计量在有离群值存在时更加稳健。

由于传统的数据分析技术都是针对单一维度进行研究,这样并未考虑到维度间的关系,本章最后还提出用户质量打分模型,利用能体现用户数量、用户质量和用户收入等原始指标,进行模型指标转化,并得到渠道用户质量得分,进而对渠道用户优劣进行综合评价。

在提高篇详细介绍了R语言数据挖掘工具Rattle,此工具能够在一个图形化的界面上完成数据导入、数据探索、数据可视化、数据建模和模型评估整个数据挖掘流程;最后一章介绍了Web开发框架shiny包,使得R的使用者不必太了解CSS、JS,只需要了解一些HTML的知识就可以快速完成Web开发。

本书理论与实践相结合,旨在帮助读者更好地了解数据科学实践的方法和技巧。推荐广大的 R 语言爱好者和学习者阅读和学习此书!

END.

来源 :R语言中文社区

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2017-08-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏前沿科技

中兴智能视觉大数据报道:人工智能与大数据的区别?

中兴智能视觉大数据报道:人工智能和大数据是人们耳熟能详的流行术语,但也可能会有一些混淆。人工智能和大数据有什么相似之处和不同之处?它们有什么共同点吗?它们是否相...

2645
来自专栏BestSDK

科大讯飞推出AIUI开放平台 提供一站式场景交互SDK

科大讯飞正式推出AIUI开放平台,基于原先讯飞开放平台生态圈,着重将人机交互的能力向合作伙伴开放,面向垂直领域提供场景交互解决方案。 ? 本次开放的AIUI平台...

39511
来自专栏熊二哥

项目管理快速入门03--其他知识领域

之前介绍项目管理10大过程中,综合的整合管理,和"多快好省"4大核心过程,接下来介绍其他5类辅助管理,其中风险管理是重难点。 ? 规划人力资源管理:识别和记...

2009
来自专栏灯塔大数据

大数据入门的四个必备常识

一、大数据分析的五个基本方面 1、可视化分析 大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为...

37011
来自专栏美团技术团队

外卖O2O的用户画像实践

美团外卖经过3年的飞速发展,品类已经从单一的外卖扩展到了美食、夜宵、鲜花、商超等多个品类。用户群体也从早期的学生为主扩展到学生、白领、社区以及商旅,甚至包括在K...

4746
来自专栏大数据挖掘DT机器学习

母婴电商贝贝网的大数据平台及机器学习实践

贝贝网的主要产品是垂直的母婴类,母婴相对一般的电子商务网站有一些特点:第一个特点是商品周期短,在母婴网站上的商品,在线的时间不会超过5-7天,第二个是用户需求的...

44413
来自专栏SDNLAB

云计算行业高收入的11个技能

随着企业将基础设施迁移到公有云中,对掌握了云计算技能的专业人员的需求逐渐加大,企业无法找到足够的专业人员来管理和支持其环境,云计算技能逐渐成为所有IT技能中最受...

5216
来自专栏专知

构建AI知识体系-专知主题知识树简介

【导读】主题知识树是专知的核心结构之一,为构建结构化、体系化、链路化的知识内容库提供基础设施,以及进一步支持个性化主题定制、主题链路知识学习、智能搜索、探索发现...

4727
来自专栏数据科学与人工智能

【陆勤践行】数据科学 (Data Science)——成就你的未来!

何谓数据科学?在wikipedia中你还找不到Data Science的词条,但它将成就你的未来。 谷歌首席经济学家Hal Varian在2009...

2608
来自专栏华章科技

如何用大数据实现用户价值的最大化

首先,我们为什么要去做用户分析?面临繁琐的数据之中,需要做什么分析?怎么去提取数据?在建立用户画像模型的过程中,区分用户特征的关键点是什么?应该从哪些方面去寻找...

813

扫码关注云+社区

领取腾讯云代金券