数据图表应用:强大的散点图

报告是位花姑娘,图表是件花衣裳。姑娘不仅要穿,还得懂得怎么穿!

初阶的饼图、环形图、折线图、柱形图、条形图等就不多说了,因为他们直观到无需解释。但需要提一下做这些图的时候的细节:

首先,告别excel默认的样式和配色,因为那样会使你的报告逼格很低。在我平时工作中,许多伙伴会问“你这图表用什么软件做的?感觉好高级?”,我说“excel啊”,他们吃惊不已。但这就是要的效果!

如何达到这些效果?先仔细摸索图表布局选项卡下的坐标轴、网格线、趋势线、图例,标签等功能细节;其次是熟悉绘图区格式里面的细节,如调整图表区域的配色,合理使用阴影等;最后是选择合适的图表来反映问题,这一点其实相当复杂,在后续的文章中会循序渐进地提及(结合一些场景),一股脑地说,我写得辛苦你读的累,划不来。

推荐一本刘万祥的《Excel图表之道》,它会让你惊叹于excel作图功能是如此的强大。

进入主题:

强大的散点图

很多人听到这会说,散点图很简单啊,感觉平时用不上。真不是你想的这么简单。耐心的孩子听我慢慢说。

首先,散点图确实能很直观的反应两个变量之间的关系。

案例一:利用散点图观察不同来源流量与网站总流量的关系。

上图展示了某公司主站的新访客各来源渠道与总新访客量。结论很直观:direct(直接访问来源)和organic(自然搜索来源)和总的新访客有明显的正相关关系(direct与newuv相关系数达到0.89,direct来源的占比达到60%)。因此,我们知道这个公司大部分访客来源于口碑,而且其潜力还相当大,因为direct和organic图显示新访客对direct的弹性比较高,没有出现像sem(蓝色)图那样的边际效益递减的情况。

(一些名词解释我会在文章最后列出)

通过组合型散点图,我们已经得到了一些有价值的信息。我个人对sem来源的变化趋势非常感兴趣。针对这点我们继续挖掘信息。

案例二:在散点图上用颜色增加一个分析维度,并添加平滑趋势线。

图中,我将sem来源的访问量按四分位数进行了分层,配合局部加权多项式拟合线。似乎又有了新的收获:

1.sem来源流量较少时(红色和绿色,后50%),与总流量的正相关关系是比较明显的。

2.sem来源流量在75%到50%分位数(绿色)之间非常集中。我猜测,使sem流量维持在这个水平的投放策略,看来是有一种粘性的,即便加大投放,在一定幅度内,sem的流量增长也不明显,直到突破某个临界值,进入蓝色和紫色区域后,才会松开。

3.较高sem流量(蓝色和紫色,前50%),与总流量的关系非常弱,拟合线几乎平了。

到这里,您可能会这么问:sem流量在什么程度才是最优?

要衡量这个问题,我选取了sem投放总成本,sem单位点击成本(cpc),和sem来源的注册转化率三个指标。让可爱的散点图升级!

案例三:点的大小衡量一个新的指标,散点图进化为气泡图

气泡图,就是除了横纵坐标轴,点的大小还能衡量一个变量的散点图。上图不仅衡量了sem投放总成本(semCOST)和sem来源流量(semUV),还用点的大小衡量注册转化率(regRate)。结论比较直观,注册转化率高的点,在右上方,且预测线显示,投放力度越大,流量越大,且注册转化率至少不变。

得到这个结论有点振奋了,有没有?

还能不能再增加点信息?可以,我们将单位点击成本进一步放到散点图中。

案例四:气泡的颜色再衡量一个变量,升级为彩色气泡图

如图,点的大小是注册转化率,点的颜色是单位点击成本,从暖色调到冷色调,由低到高。转化率高且cpc低的点,在右上角。我们可以说,sem投放成本越高,sem流量越多,且转化率越高,更可喜的是cpc还更低。对于一个sem投放部门来说,没有比这更完美的结论了。

但是,散点图只是反映了相关关系,并不是因果关系。我们不能说,增加sem投放是注册转化率升高且cpc降低的原因。但是,有这么显著的相关关系,我们就有足够的理由去增加投放,然后再去观察数据。

数据分析再精确,如果缩手缩脚,是依然办不成事情的。

当然,投放策略分析是可以做得非常复杂的,我们这里只是为了介绍散点图而引入了这个场景,初步地做个分析。但在中小企业,我觉得做到这一步就可以了。(这几张图已经可以把老板搞晕了,然后给你一大笔预算!)

注释: 1.文中图表是使用R软件的gglot2包实现的,很遗憾不是excel。感兴趣的读者可以关注“川术”公众号并给我留言,留下邮箱。我将无偿分享代码。 2.直接访问来源(directUV)是指直接在地址栏输入URL或者将主站URL添加收藏夹后,访问来到主页的流量。 3.自然搜索来源(organic)是指搜索引擎上,由非付费词搜索点击进入网站的流量。而semUV就是有付费搜索词进来的。 4.四分位数,指将一个数列排序后,处在排名第25%、50%、75%的位置的数。可以查查百分位数的概念,你会理解更透彻。 5.局部加权回归,有点难描述。如果你懂回归,就去谷歌一下,如果不懂回归就算了。

文 | 胡晨川

来源 | 经管之家论坛

原文发布于微信公众号 - CDA数据分析师(cdacdacda)

原文发表时间:2016-04-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏IT派

用Python对用户评论典型意见进行数据挖掘

用户体验的工作可以说是用户需求和用户认知的分析。而消费者的声音是其中很重要的一环,它包含了用户对产品的评论,不管是好的坏的,都将对我们产品的改进和迭代有帮助。另...

18630
来自专栏ATYUN订阅号

还不知道怎么回邮件?Gmail新功能帮你脱离苦海:Smart Compose使用神经网络智能撰写电子邮件

上周在Google I / O上,Google介绍了Smart Compose,这是Gmail的一项新功能,它使用机器学习功能在键入时交互地提供句子完成建议,使...

10440
来自专栏AI研习社

分布式机器学习时代即将来临?谷歌推出“Federated Learning”

传统机器学习方法,需要把训练数据集中于某一台机器或是单个数据中心里。谷歌等云服务巨头还建设了规模庞大的云计算基础设施,来对数据进行处理。现在,为利用移动设备上的...

378110
来自专栏TEG云端专业号的专栏

全国知识图谱与语义计算大会 - 实体发现与链接比赛总结

一 背景 互联网大数据时代中,随着机器语义理解需求的日益增长,知识图谱,即各类实体、概念及其之间的语义关系,日益成为大数据时代知识表示的主要形态之一,并在学术界...

1K70
来自专栏华章科技

机器学习工作职位需要的7项技能

机器学习经常与人工智能紧密相连,在不考虑显式编程的情况下,机器学习可以使计算机具备完成特定任务的能力,例如识别,诊断,规划,机器人控制和预测等。它往往聚焦于算法...

8820
来自专栏PPV课数据科学社区

23种深度学习库排行榜:TensorFlow最活跃、Keras最流行、

我们对23种用于数据科学的开源深度学习库作了排名。这番排名基于权重一样大小的三个指标:Github上的活动、Stack Overflow上的活动以及谷歌搜索结果...

43450
来自专栏人人都是极客

AI 芯片和传统芯片的区别

比如,自动驾驶需要识别道路行人红绿灯等状况,但是如果是当前的CPU去算,那么估计车翻到河里了还没发现前方是河,这是速度慢,时间就是生命。如果用GPU,的确速度要...

16540
来自专栏机器之心

前沿 | DeepMind提出新型架构IMPALA:帮助实现单智能体的多任务强化学习

37580
来自专栏AI科技评论

开发 | 分布式机器学习时代即将来临?谷歌推出“Federated Learning”

传统机器学习方法,需要把训练数据集中于某一台机器或是单个数据中心里。谷歌等云服务巨头还建设了规模庞大的云计算基础设施,来对数据进行处理。现在,为利用移动设备上的...

431100
来自专栏AI科技评论

业界 | 一文看懂谷歌 NYC 算法与优化业务全景(附重点论文下载)

AI 科技评论消息,众所周知,谷歌的研究团队遍布世界各地,而纽约自然也是非常重要的一个地点,尤其是多个谷歌算法研究小组的孕育地。目前,谷歌算法优化团队为谷歌产品...

37060

扫码关注云+社区

领取腾讯云代金券