首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

如何“快速”成为一名数据分析师?

前几天有人在知乎上邀请回答:“如何快速成为数据分析师”,今天整理一下有关这个问题的心得体会。

这是个需要不断学习的岗位。作为一个五六年来在数据处理一线工作的人,我也不敢说自己成为“了”的数据分析人员。

先看看我的数据处理量:

下图是我从2016年开始经手的分析,最早从2013年读研就开始做数据处理,不过不在此电脑里。

随便打开一个文件夹,比如2017年的:

起初我将一年的业务放在一个文件夹,后来发现实在太多了,就建立了一个“2017年下半年”文件夹。

然后发现文件依然太多,就又单独建立了一个“2017年最后一个月”文件夹:

到2018年,已经每个月需要建立一个文件夹了:

具体到某个人的分析,产生的文件需要往往如下图这么多:

因为随着研究者的思路调整,会不断修改,所以最喜欢一开始就明确思路的研究者,没有思路是最可怕的,要做太多尝试!

另外真的要学会拒绝了:天坛、阜外等医院都是一个大团队,我们只有1-2个人,实在做不过来,毕竟只有我科室给我发奖金不是!

好了,以上都只是为了显示一下我有资格回答这个问题,O(∩_∩)O~

回到正题,我先说结论:快速成为数据/统计分析师是不现实的,因为你不是掌握一种或几种方法就可以,你要面对的分析场景会很多;

此外,你要熟练掌握至少一门以上的编程语言类的分析工具。

尤其为了“快速”,你一定要选对一门工具。这门工具可以是SAS\R,但一定不能是SPSS、Excel,也不推荐Stata。

因为作为一名数据分析人员,你在工作中要确保两点:

1.分析能够重现,重现,重现!

2.节省你的时间,时间,时间!

这是出于两层考虑:可能有人需要核查你的分析过程,你必须能够重现;你会面临多次修改,所以也必须要能重现。不可能每次都用SPSS重头点击一遍,单个少量分析没问题,但是大批量呢(比如做100个指标的卡方分割,别说100个了,20个指标你都要点五六个小时)。

我们不妨拿SAS和excel对比一下,看看excel等工具为什么对于数据分析人员来说是很“反智”,很浪费时间的:

举例一:数据库的打开时间

我的笔记本配置如下:

和诸位的比起来,自认为应该不算低配置,首先你们内存条到16G的就没几个吧~然后我们接下来会用到一个数据库演示,也就74.5M:

好了,我们看看excel的打开时间:

进度条走完之后还有很长一段时间的“等待”期,gif只能录1分钟,实际我花了将近4分钟才打开文件。

我们再看看SAS要花多久:

1分11秒!

其实依然很慢,所以我自己攒了一个台式机,方便进行数据处理:

台式机配置如下:

内存依然是16G,但是主频提到高了4GHz。

我们看看读取时间缩短多少:

比笔记本缩短了20秒。

所以,顺便跟大家说下,对电脑而言内存和主频才是王道。上个月买了酷睿八代笔记本,号称比七代性能提升30%,但是实际读取时间要慢的多,因为八代的主频都低。

这就是为了大家有时候换了新笔记本,但是没觉得快多少的原因。

举例二:连接数据库的时间。

连接数据库也是很常见的场景,血液数据往往从机器导出,问卷数据往往是你现场调查,肯定是需要合并的。以我这两天清理的青光眼真实世界研究的数据为例:

有两个表格:

表格1是基本信息,记录了患者的发病眼别呀、性别呀、联系方式呀等等:

表格2是药物信息,记载了患者服用药物情况。唯一的字是"Register_ID",

如果是用vlookup做,画风是这样的:

先要把两个sheet中的唯一字段Register_ID都放到第一行,对,Vloopup就是这么反智,至少我遇到的很多唯一标识如身份证号往往并不在第一列。

好了,然后你在其中一个sheet中的指定位置(你连接的新变量要放的位置)输入vlookup(A:A,sheet2!A:B,2,FALSE),告诉excel我要返回sheet2中的同一个Register_ID下的第2列:

看gif,都超了1分钟了,还没连接成功:

最终这一万多行数据,实际花了3分钟。

与此同时,我们看看SAS:

proc sql;

create table sheet3 as

select * from sheet1 left join sheet2 on sheet1.RegisterID=sheet2.Register_ID;

quit;

简洁!

只用了0.09秒!

至于SPSS,我想不必多言,对于临床大夫是可以学的,因为可能几年才需要处理一次数据,往往还很小。但是对于想从事数据处理的你,依靠它吃饭绝对不可取的。

至于stata,个人觉得语法规律太不好理解。

对了,忘了说R,R是推荐学的,但是一定要加大你的内存条,否则读取数据阶段往往比excel打开还慢!谁让R是把数据都先读到内存里呢!

最后,克罗地亚进决赛了,我有幸到访过这个人口不足400万的欧洲小国;另外,作为权游迷,怎么能不为君临城呐喊一下呢:格子军团要加油啊 ~

甚是怀念呀~

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180715G0G5QP00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券