前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >如何用2周时间促成一次1700+人参与的大数据行业调研

如何用2周时间促成一次1700+人参与的大数据行业调研

作者头像
大数据文摘
发布2018-05-25 16:28:21
6870
发布2018-05-25 16:28:21
举报
文章被收录于专栏:大数据文摘大数据文摘

作者 | 2016年大数据行业从业者调研报告主要编写人Sophie

前言

12月13号,问卷发出;截止12月31号,收到1416份回答,并制作《2016大数据行业从业者调研报告》精华版;1月1号伦敦当地时间中午,北京当地时间晚上8点20分,经过反复修改和确认,报告精华版发布于大数据文摘微信公众号。

分析过程中,我们有以下三个主要发现:

  • 1、数据、数据分析(包括大数据分析)受到我国企业重视,多数企业拥有数据决策团队,并将增加数据项目的投入,表明大数据行业发展态势良好,具有可观市场前景。
  • 2、我国大数据行业处于上升阶段,目前对大数据的利用有限,未使用云架构,数据分析集中在商业、市场和用户方面,主要工作为进行预测分析。这是由人才和企业两方面决定的:行业从业者工作时间短,多数企业实施数据项目时不知道如何最大化利用数据。
  • 3、科技行业和民企是我国发展大数据的中坚力量。目前的行业从业者多数持有硕士文凭,可塑性强;较高的薪资将吸引更多高学历人才。

见证了整个调研、成稿的小编私信我说,推送前从来没有这么紧张过。

发布后,我们得到了不少读者的积极回馈,后台又收到了补填问卷近200份。出于对所有填写问卷人的感谢和责任感,1月1号当天,我们用最新的数据从头开始进行了新一轮分析,并完全修改了之前做好的报告完整版(共32页PDF,报告主要结论未产生变化),1月2号完成。

截止1月3号,完整版报告(32页pdf)邮件发布,并发送给了参与调研的所有1734人。

在此再次感谢所有抽出宝贵10分钟填写问卷的各位读者,填写过大数据文摘《2016年大数据行业从业者调研》问卷的读者朋友,如果仍然没有收到完整版报告,请点击“阅读原文”补填邮箱。如果仍希望获得完整报告,也可以点击“阅读原文”补填问卷。

2个周时间 和 1700+人参与

在这半个月里,遇到了无数问题,给出了无数解决方案,得到许许多多人的帮助。

最意外的问题是给1700人发邮件:完整版做好之后,本来以为不会再有问题了。而这时出现了意料之外的情况:群发邮件无法发送。各大邮箱服务商提供的免费邮箱一天只能发送400个邮件给陌生人,为了防止垃圾邮件,每次大概只能发送给20人。于是又和北京的团队工作到北京时间半夜,尝试各种方法,也只成功将完整版报告发给了一部分填写者。最后,我们通过搭建群发服务器才终于在1月4号将所有邮件发送完毕。

为了配合团队完成工作,跨年的那几天,更是除了保证了必要的睡眠和运动外,剩下的时间都在工作。横跨8个时区的工作接力其实很有意思:我早上起来打开电脑查看北京最新的进展,和北京的团队一起工作到我的下午(北京的晚上),北京那边睡了我继续工作到我的晚上,我睡觉的点正好赶上北京的团队第二天早上起来完成工作交接。

之前在乙方工作的时候,凡事都要满足客户的需求,加班也是难免的。当时盼望去甲方工作,觉得从此可以不再加班、不再给PPT调格式、走向人生巅峰。而当我真正和大数据文摘一起,为了让大数据行业现状更加清晰、让更多人了解大数据行业发展,做这样一份公益性质的调研(报告免费发送给所有参与调研的人)的时候,我终于发现,做自己想做的事,如果想做好,更要加班。但是这种加班是这样的体验:

做成一件事不容易,但做喜欢的事情是快乐的。

习大大新年贺词说“撸起袖子加油干”,在我的理解中,这就是一种企业家精神(Entrepreneurship),是一种不断解决问题的精神。能做事,能把事情做成,这是执行力。企业家精神和执行力,这是创业的环境和整个社会都需要的。

32页,58张可视化图表,我学到了什么?

在与大数据文摘给力的团队的沟通与讨论中,通过在数据领域有丰富经验的专业人士的反馈,我对数据分析师的工作产生了新的理解。对于咨询师和分析师来说,看到背后的联系、给出建议是特别重要的能力。之前我的理解里,可视化的意义就是不需要别人看文字,就能理解图片在说什么。对于一份PPT来说,就是每个图片的标题应为图表内容总结,且不超过两行。但是发布一份报告和之前做PPT讲给客户不同,报告本身不能仅仅是分析结果的堆叠,而是需要引导别人看到分析中有价值的部分(讲PPT的步骤)。

分析中最有价值的部分,就是读者最关心的部分。最开始我只能把问卷的每个问题都做一个图,展示选哪个选项的人最多;也做了一些交叉分析,比如年收入和学历的关系,但是没有得到要领。直到得到团队和导师的反馈我才明白,最有价值的部分就是读者最关心的部分,而这部分内容应该变成报告的关键结论。比如投资是否增加、行业间的区别,是投资人、领导等关心的;工资是从业者关心的。

得到要领之后,给出分析结论和报告的编写也更有逻辑了。比如,最开始报告分成四个方面:机构,数据团队,个人,技术。后来,变成了三个方面:样本分布、数据团队和投资,大数据应用现状(包括技术和工资)。这是公司和个人层面最关心的角度。

写到最后“对数据分析结果拥有最终解释权”的时候觉得,哇。审计师签字的感觉。

我明白了“调PPT格式”的工作是无法避免的,只能尽量简化和优化工作步骤。因为我们要追求专业性,而格式统一、没有错别字等,就是读者对一篇文章的第一印象。

“客户”的需求,也是无处不在的。满足客户需求,就是做事时考虑对方,写作时考虑读者。语言是有歧义的,表达自己的时候,永远考虑到底想通过这句话说什么、为什么而说,为什么这句话要在文章的这个位置出现,而没有出现在上一段或上一句话的位置?

看着报告每一版都比上一版优秀、分析也越来越深入,我明白了人是变化、发展、成长的。同样的,报告也是。对于一份“作品”,我有些完美主义的要求,但是我意识到,我应该增加我的包容能力,并且更好地发掘人的潜力。感谢大数据文摘敬业的团队,和我一起加班,给我充分的信任;感谢几位经验丰富的导师付出宝贵时间,用专业的工作态度作出指导和反馈;感谢朋友们提供的各种帮助;感谢读者们的支持。我有足够的理由相信,这群有激情、有能力、爱分享的人,一定能走得更远。

跨年那天,我在伦敦郊区的公寓里对着电脑屏幕上的图表,不远处是泰晤士河。伦敦的下午时间开始,每过一小时,就有一个时区告别了2016年,朋友圈里进入新年的朋友不断发送着祝福。突然,我听到了轰隆轰隆的炮竹声,看一眼屏幕右上角,零点了。全城放起了震耳欲聋的焰火,泰晤士河边和远处的地平线上都是不断升起来的彩色光点。窗外一个女生大叫着,Happy New Year!在这个时间不可逆的小小星球上的我,这时仿佛听到了全人类面向未来的呐喊。

窗外的泰晤士河 摄影 | Sophie

此次调研遇到的一些关键问题

在这里,我们记录了此次调研遇到的一些关键问题,也许能让读者朋友有所参考。如果对于这些问题大家有其他建议,可以在文后留言。

项目制学习(ProjectBased Learning, PBL)

这次调研,就是一个项目。这里的项目可以看做是一个我们遇到的、想要解决的实际问题(比如,我们想知道大数据行业从业者现状)。由这个问题展开,我通过查找和阅读,以及参加公开课程,不断探索了问卷调查的一般方法,数据可视化和讲故事的技巧,并在项目上应用。一篇论文,或者一次小组展示,其实都可以看成一个项目。我认为这种学习方式是最有效的。

MECE(Mutually Exclusive,Collectively Exhaustive)相互独立、完全穷尽

这是麦肯锡顾问Barbara Minto在《金字塔原理》提出的,我在不断的探索和运用。比如最简单的就是:问卷设计的时候,一道单选题,每个选项之间应该是相互没有重叠的。有了选项“收入0-100元”,就不能有“收入50元以下”。而所有的选项加在一起,要能代表问题的所有可能情况(收入0-100,>100这两个选项就可以代表所有可能回答)。这个原则也可以用在分析问题和写作上。

及时保存数据

问卷共有28题,包括身份鉴别题(用来实现跳转)、人口统计特征(demographics)问题、单选题和多选题。问题的内容来自我们的经验,并综合了几个国外现有调查,见参考文献1234。从问卷到数据,这个过程还算容易。使用了腾讯问卷,可以随时修改问题内容,实时提供统计结果和原始数据下载(下载.csv和.sav格式文件均可)。唯一遇到的问题是,在问卷发出第一天后,我们调整了问卷的问题顺序,导致永久丢失了91个邮箱数据。所以建议是,问卷发出后,最好避免调整问卷问题,并及时下载原始数据。

数据分析

拿到数据后,第一步是清理数据。我们遇到的问题是想把excel里的原始数据每个单元格最前面的A.xxx B.xxx C.xxx里的A.B.C.(选项的编号)去掉。刚开始试了函数和vba(开始的想法是从用=Right()从最后开始截取每个单元格的值的长度减2),没成功,因为遇到多选题的空值处理不了。直到做完整版报告的时候,我终于想到找一个text to column的vba代码(对应excel数据面板下的文本分列功能,但手动点击每次只能分开一列),在每列之间循环,终于把这个问题解决掉了。代码见附录。

值得注意的是,分析问卷类型的数据时,会遇到多选题的情况,这时原始数据的排列是不利于分析的。比如同一个问题下面,每一个选项的回答都会成为一列数据(如果选择了该选项则有值,如果没有选择则为空值)。要进行数据分析,最好的选择是把原来的选项的标题作为一列,选项的内容作为相对应的另外一列,每行表示一个人的一次选择。

比如,原来有填写人X选了A选项和B选项,填写人Y选了B选项和C选项。

之前,ABC三个选项分别是三列,A列里包括填写人X,B列里包括填写人X和Y,C列里包括填写人Y:

A, B, C

X, X, null

null, Y, Y

我们要做的就是将它们变成两列:

X, A

X, B

X, null

Y, null,

Y, B

Y, C

Tableau的Data Source页面,选中要转化的列,用pivot功能可以实现这一步。参考文献里这个博客内容有详细的步骤5。

可视化

使用了tableau软件(Tableau Desktop),很好用。分析是实时的,数据源的改变直接反映在分析里。分析很直观,把某个变量拖拽至分析区即可。可以很容易地将原始值分组(比如将金融和商业服务业两个选项组成金融及服务业)。计算的功能操作简单(table calculation),比如计算选择该项的人在总人数中的比例,或者交叉分析(比如每个行业里年收入的各个级别占百分之多少),还有函数可以使用。图表的美化上,配色美,而且提供多种配色方案。改变图表很简单(比如从柱状图改为条形图,对换横纵轴)。改变图表的格式很容易,比如按照每个变量的值的大小进行排序、一键显示数据标签、单独显示某个值的数据标签、更改图例的内容和格式、更改坐标轴的标题和格式。

但是,导出图片就很不智能。我创建了50多个工作表(worksheet),只能手动选择单个工作表导出为图片,每个工作表要导出为图片要点击很多次(单击工作表-导出-图片-选择导出内容-保存)。如果能把所有的图一次性导出就好了。我可以理解tableau的初衷和主要功能是实时的分析,比如做仪表盘(dashboard),不是为了让分析师截图到pdf报告里的。但是我想肯定也有人遇到报告要做成word和pdf的情况。如果能增加Tableau和Office软件的兼容就好了。

做了一些重复工作和错误工作

第一份分析是12月28号的,我想增加12月28到12月30的数据,在tableau里改了数据源,但发现所有图都不能用了,因为新数据的每列标题改变了(去掉了题号),于是我又重新在tableau里做了所有的图。

微信版本来仅仅是完整版的重要图片,临到发布才发现图例字体太小,于是重新回tableau里调整,截新的图,让读者不用点开每个图片就可以看到图片上的字。

一些其他实用功能

word:插入自动编号的图表说明(caption),统一设置标题的格式,并插入目录。

excel:筛选(filter),条件格式(conditionalformatting),函数和vba。

附录

excel文本分列的vba代码

首先确保表格内的所有数据的格式都是aaa.xxx,其中aaa.是要去掉的内容,点前面的文字长度不限,因为是以点的位置把每列分开

在列之间循环,这里n的值等于表格包括的列数。如果列数是变化的可以自己找一个计算列数的代码。这里的Other:=True, OtherChar:="."代表我们用点来分割。这里点和点之前的内容(aaa.)是要去掉的,所以destination是column自己。range.texttocolumns()还有其他用法,可以自己搜索。

Sub testtocolumns()

Dim i As Integer

For i = 1 To n

Columns(i).TextToColumnsDestination:=Columns(i), DataType:=xlDelimited, _

TextQualifier:=xlDoubleQuote, ConsecutiveDelimiter:=False, Tab:=True, _

Semicolon:=False, Comma:=False, Space:=False, Other:=True, OtherChar _

:=".", FieldInfo:=Array(1, 9)

Next i

End Sub

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-01-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据文摘 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档