读懂电视观众:当抽样调研遇见央视观众行为大数据

本期关键词

经典统计学与大数据

人物档案

Thomas,北京人,毕业于首都经济贸易大学,目前在一家做个性化推荐的新闻客户端公司任职,主要从事数据挖掘方向的用户研究,基于用户行为、态度等各方面的数据进行分析,以及帮助技术团队梳理自己的推荐算法逻辑。

将大数据和调研数据有效地结合,得到更有价值的数据

DA:您是如何入行的?

Thomas:我是2009年本科毕业,专业是统计学,毕业之后就在零点咨研究集团做数据分析工作,因此算是一毕业就入行了吧。

DA:请您讲述一下您的工作经历,目前的工作职责(做哪块),工作中曾做过的数据分析实例?

Thomas:在零点工作的后期成为技术部经理,负责调研项目中的抽样设计、数据清洗、数据分析、统计模型的建立和研究等方面。后来大概13年的时候加入百度,刚开始时在销售管理中心作为数据分析顾问,帮助建立业绩预测模型。后转到业务运营部,主要负责一个搭建百度业务运营体系的质量管理模型(BSC)的项目,将现有商业产品和销售团队的各项运营指标进行有效的打通和更科学的评估分析。然后来到现在的公司,负责整个公司的用户研究工作,尤其是通过用户行为和态度等数据进行数据挖掘和分析,协助技术团队梳理算法逻辑。

最初在零点的时候,做过很多统计分析模型,例如基于存销比的预警分析模型、基于系统动力学的卷烟价格分析模型等,系统动力学这个模型还获过第九届市场调研的宝洁奖。

关于数据分析实例,说说之前为中央电视台做的一个关于全国电视观众收视行为的数据挖掘项目。这个项目是央视每五年进行一次的针对全国电视观众的抽样调查,2012年由零点研究咨询集团中我所在的团队负责实施。我是整个数据抽样、数据挖掘内容的负责人。当时我们设计了非常详尽的抽样方案,在全国抽取上万电视观众样本,并对他们进行系统的调研,然后基于调研数据和央视自己能够获取到的大数据,进行系统的数据挖掘,这个项目让我们团队充分了解了当时电视观众的各种收视行为、态度和变化趋势等情况。

DA:能否给我们讲讲您在工作中遇到的印象深刻的困难及其背景成因?

Thomas:上面提到的为中央电视台做的全国电视观众收视行为的调研项目,算是我碰到的比较大且印象深刻的了。困难主要在于两个方面:一是抽样方案的设计,第二是如何将调研数据(态度)和电视观众的收视行为(行为)进行有效的结合。

第一、抽样方案的设计。如何能够通过一万多的电视观众样本数据,推断全国十几亿电视观众的收视行为,是非常有挑战的。并且,央视其实是有自己的机顶盒数据的,我们通过抽样推断的总体参数,例如收视率、收视时长等指标的结果,央视是能够跟实际的真实数据进行对比的(对比结果直接就能够看出抽样效果的好坏),因此我们的抽样方案需要做的非常精细、科学才能够保证非常小的抽样误差

同时,当时央视邀请了全国最顶尖的统计和调研领域的专家对我们的抽样方案进行审核,专门召开了专家评审会,参加评审的有统计学的泰斗冯士雍、柯惠新等老前辈(没听过的同学可以百度一下,不是一般的有名气)。这些老前辈都非常严谨,在统计方面的专业性就更不用说了。而我是负责抽样方案设计、样本加权、数据分析等工作的第一负责人,抽样方案都是由我撰写的,压力和困难都相当大。中间经历了很多波折,也得到了冯老先生的很多帮助,受益良多,最终我撰写的抽样方案顺利通过了专家评审会,并且最后推断总体的收视率参数结果与实际情况的误差只有1.3%,效果还是比较好的。

第二、调研数据和央视观众行为数据的结合。一般来讲调研公司获取的都是用户的态度数据,而现在所说的大数据,更多的是互联网公司掌握的用户行为数据,这样的数据比较好采集,而且数量巨大。当时央视恰好拥有这样的一批大数据,如何将这些大数据和调研数据有效地结合在一起,得到更有价值的数据,挑战也非常大。此外,这也是我第一次接触所谓的“大数据”,第一次开始思考如何进行真正的大数据分析。后来开始慢慢地接触SQL、接触python,尤其是在百度开始接触上亿的数据之后,才慢慢地逐步转到大数据分析和挖掘这条路上。

DA:这个问题最终是如何解决的呢?能否向广大同行分享一下思路?

Thomas:抽样方案的解决,具体来说思路如下:

1.抽样框的准备,我们从各个渠道搜集了非常完备的全国县级以上单位的名称、归属、人口数据和经济数据。

2.基于抽样框对省内地级市、区县和街道三个维度都进行了非常精细的聚类分析,并基于聚类分析的结果进行了各个阶段的方案设计。

3.严格在各个阶段都按照人口的pps进行抽样,保证了样本的科学性和随机性。

总之需要扎实的统计学理论和坚实的实地执行把控。如果能够很好地掌握样本的随机性和各维度差异的系统性,进而合理地设计多阶段的抽样方案,并能够做到科学的抽取,一般就能够实现比较满意的抽样效果了。

大数据分析这块,则需要借助计算机和计算机相关的一些方法。当时我们采用了社会网络分析和数据挖掘中的关联分析的方法,对用户的行为数据进行了分析,比如说看了何炅的节目观众的还有多少看了汪涵的节目,然后他们有什么特点这些,然后再和调研数据中对两个主持人的评价进行结合,综合分析用户的收视行为偏好。

我是统计学出身,2012年之前一直都是基于经典统计学的思想思考和解决问题,但是现在慢慢开始不断地接触计算机相关的知识和工具来丰富自己的研究手段,感觉在如今大数据、云处理越来越普及的情况下,只靠经典统计学的理论和抽样的思维是很难站在行业前沿的。

这就是我想和同行分享的一个思路:经典统计学的东西的确是非常有用的,而且很多时候仍然是更有效的,但是现在数据量已经开始井喷式增长,如果固守旧规而不掌握一些大数据分析的方法和工具,则很快就会落伍。

DA:请问您对希望从事数据分析行业的职场人有哪些建议?

Thomas:上面的分享就是我给希望从事数据分析行业的同仁的一个建议。

如果你既懂统计又懂数据库和python一类的工具,那么你肯定是最棒最吃香的。但是如果你只掌握了一些统计相关的方法,那么建议你稍微了解一些python或者其他类似工具的使用方法,例如如何通过python调用sql数据库,如何进行语义分析,如何简单地抓取网站上一些想要的数据等等,这些现在已经成为必不可少的手段了。

此外,如果你已经有很厉害的计算机相关能力,目前想从事数据分析行业,也建议你要至少了解一些基本的统计知识。因为大数据并不只是从上亿的数据里,出现频数、找出点数据间的相关性,统计学对样本分布的要求、对因果分析的一些检验思想等等,仍旧是非常实用的方法工具,而且我觉得会一直很有用下去。

DA:请您推荐一些平时在网络上学习专业知识的平台吧。

Thomas:好的。首先我觉得视频类的网站和app是最适合学习的,因为看视频,一边看一边自己操作,是最直观的,比看书要好很多。例如网易公开课,有一节课叫“统计学:数据图像化”,非常有意思。还有慕课网、极客学院,这些app都不错。

网站的话,如果想学习统计学相关的知识,可以去人大经济论坛(注:现为“经管之家”),里面东西很全很丰富,其他的计算机相关的学习就在它们的公共网站就行,比如python的官方网站。

我要提问

有些同学在后台提问,想听听受访者解读数据分析师目前的就业前景和未来发展。Thomas特意就此问题进行了回答:

数据分析师行业的前景和发展那当然是大大的好了,所以我觉得也没什么可说的。我只是想稍微谈一谈我对数据分析这个领域的一点看法,因为我觉得既有好消息,也有坏消息。

好消息是:现在数据随处可见,到处都是,并且数据俨然已经成为最重要的资源,连我们现在买东西都可以不用现金,而只是通过一些电子数据就可以完成,说明现在至少已经初步进入数据时代了。数据时代,当然做数据分析是很吃香的。现在能够掌握较大数量的数据、有很强的大数据分析能力的公司,也都是香饽饽,纷纷拿到很高的投资,像星图数据、百分点之类,还包括很多做DSP的,就不赘述了。

另外我们所在的世界每天都在产生越来越多的数据,获取和存储数据的工具越来越发达,分析数据的工具也越来越智能。即使是完全没有计算机背景的人,也可以通过一定的培训,很好地掌握这些工具。以后也许数据分析的门槛会越来越低,也会有越来越多想要从事这个行业的同仁能够更顺利地进入这个行业。

坏消息是:国内数据的开放坏境还不是很好,巨头们都不太愿意共享数据,所以想要获取大量打通好的数据,进行有价值的分析,还很困难。国外的twitter是开放的,很多人基于twitter的数据做了很多有意义的东西,但是国内好像还不行,阿里、百度的大数据都很难获取,所以想要做出很有价值的大数据结果,这基础的底层数据环境仍有待改善。

此外,目前做大数据的门槛越来越低,所以现在市面上很多大数据分析的案例结果,我个人觉得都还不是很科学。如果只是因为分析时用的数据量大了出来的结果就叫大数据,这就完全抛弃了样本分布、数据代表性的理念。而只要不是真正的总体数据,那么我认为传统统计学中的样本加权等理念,还是非常有价值的。再者,如果只是因为数据量大,出些简单的频道百分比、指标间的相关性,就叫大数据,这也有点不科学。毕竟指标间的数据关联还需要在符合实际的因果逻辑关系或者更深入的数据挖掘印证才能下结论,否则很多结论很可能是错的,也容易误导大家。

以上的想法只是我的一家之言,仅供参考,欢迎大家批评。总体来说,数据分析行业还是非常朝阳的行业,如果你正准备加入到这个领域,那我会很有信心地告诉你——来吧,准没错。

原文发布于微信公众号 - CDA数据分析师(cdacdacda)

原文发表时间:2015-10-13

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏DT数据侠

当机器都会“学习”了,你还想不学习么? | 数据科学50人· 谢梁

如今,我们每个人都在谈论“数据科学”,《哈佛商业评论》杂志甚至将数据科学家定义为“21世纪最性感的职业”。在这个大数据时代,究竟什么是数据科学?数据科学家又究竟...

10200
来自专栏量子位

Google搞出的AlphaGo,打开了机器学习的神秘之门

两个机械臂,尝试打开两扇关闭的门。两个机器臂向前伸出,然后全都错过门把手。重来,再试一次,结果撞到把手上,门框铛铛作响。于是再试一次。再一次。几个小时的试验和犯...

36060
来自专栏华章科技

2016 年人工智能最重要的发展:面向所有人的深度学习

过去一年人工智能和深度学习最重要的发展不在技术,而是商业模式的转变。过去6个月,所有巨头都将自己的深度学习IP开源。Data Science Central 网...

7020
来自专栏小怪聊职场

管理|企业如何制定KPI指标?看这一篇文章就够了!

2.5K90
来自专栏互联网杂技

达利欧:一切解读都不及自己用16页ppt彻底讲清《原则》

近日,全球最大对冲基金桥水基金创始人瑞·达利欧携作品《原则》来到中国,首次发表了题为“我的生活和工作原则”的演讲,用16张PPT彻底讲清楚《原则》,场景实验室创...

11830
来自专栏镁客网

计算机视觉下一个技术拐点?前端成像或将开启“视觉2.0时代”

20670
来自专栏镁客网

当AR落地B端行业应用,它的无限可能在哪?

16570
来自专栏数据猿

李开复看好AI创业为天使投资人支招,谷歌大牛分享处理极大复杂数据的三类实际建议 | 大咖周语录

数据猿导读 对于大数据的概念以及大数据在各行业的应用,每个人心中都有不同的看法。小编每周都会整理大数据牛人们的精彩观点,让你在最短的时间获得最精的思想荟萃。后续...

400100
来自专栏CSDN技术头条

Carol Carpenter:DevOps的真正价值

【编者按】Carol Carpenter是Elasticbox的CEO,本文隶属Leadership Suite(企业高层访谈)的一部分,访谈的内容主要根据De...

20160
来自专栏AI科技评论

你知道吗,Google已经收购了这么多家人工智能公司!

在通往人工智能的路上,Google一直在不停地买买买。 谷歌在2011年成立AI部门,目前已经有100 多个团队用上了机器学习技术,包括Google搜索、Goo...

42180

扫码关注云+社区

领取腾讯云代金券