积累——入行数据分析第二年

作者倪雪华,某互联网金融公司资深分析师

2013年从985院校化学专业硕士毕业,进入化工厂成为实验员。2016年经过数月自学,转行成为互联网公司数据分析师。现在知名互联网金融公司,负责信用评分产品的建模工作。

雪华是我们众智汇社群从传统行业转行数据分析的成功范例!

之前曾分享转行经验,及入行第一年的奋斗经过:

如今,雪华为我们带来了入行第二年的经历分享:

从去年5月底入职目前所在公司后,一直从事互联网金融风控相关的建模工作,截止到今天大概有一年零五个月了。

这次分享的主题就是两个字——积累!这一年主要是在积累,积累经验、技术和职场软技能。

积累互金行业业务经验

对于互联网金融行业,经验的积累主要是指业务能力的积累。

互联网金融的业务类别

大家都知道互联网金融分很多类别:

  • 抵押贷,就是房贷、车贷;
  • 信用贷——信用卡以外的信用贷,比如宜人贷之类的信用贷;
  • 消费分期贷,又分为很多细类:买衣服、买手机、买互联网课程的消费分期贷款等等;
  • 小额现金贷——额度比较低的现金贷款,可能就500或者1000,最多1500块。

我在上一家公司,只做手机3C业务——手机的消费贷,接触的贷款类型单一,进入现公司后,接触的业务类型明显多了,有了业务感觉上的积累。

信用模型 vs 欺诈模型

而且,在上家公司我做的是手机3C业务的信用模型,而现在主要负责欺诈模型,这两者有很大的区别。

信用模型计算各项总分,看整体结果,但欺诈模型却紧盯短板。

如果你是一个学历比较低的人,那么学历这一项的信用分就会比较低,但是模型的综合输出可以通过其他特征进行补偿。

比如你是已婚,是女性,或者从事的工作是公务员之类相对有保障的职业,那么这些方面的分数会比较高。

最后累加各项得分得出信用分。即使一个人某一项分比较低,也可以通过其他项来得到综合高分。因此信用模型会有补偿。

欺诈模型中不管各项指标有多么得好,只要有一项出现欺诈风险,就是欺诈。

现在我能够很轻松地跟大家解释清楚两者区别。但就这一点,我是狠狠地花了好几个月功夫,才了解清楚,知道欺诈模型的精髓的!

小额现金贷 vs 大额信贷

市面上面能看到的关于风控模型的书基本都是针对大额信贷的。大额信贷跟普通银行贷款、信用卡借款、房贷、银行信用贷款有很大相似。

而小额现金贷,则是和额度比较低的消费分期,例如手机分期类似。这方面的就资料非常少。

而且,小额现金贷出现得很晚,是一种非常年轻的信贷产品,大概一直到去年春节前后才兴起。所以市面上也没有什么现成的资料可以借鉴,就需要自己摸索。

小额现金贷刚出来的时候,鼓吹用机器学习整合弱相关变量训练模型。后来实践证明弱相关变量要跟强相关变量结合使用才可以。

开始的时候,大家都还不能确定小额现金贷的强相关变量,所以很难做。经过一年多的积累,慢慢摸索出来一些强相关、预测力准的变量。

这个强相关变量摸索过程是各家机构、各个公司都必然经历的。我个人感觉,这个过程就是靠想象、靠灵感。

比如我刚进公司的时候做的一个社交关系网的模型——拿到的数据是所有客户的通讯录,要求我根据通讯录做一个社交关系网的模型出来。

整个建模的摸索过程非常痛苦,用了很长时间。最后摸索出来了:将联系人分为一阶联系人和二阶联系人,比如a打电话给b,b又打电话给c,那么b就是a的一阶联系人,c就是a的二阶联系人。

现在这种方法在市场上比较多,但是一开始都是大家在摸索。当时幸亏有我们老板带着,以我自己当时的水平肯定做不出来的。

在工作的过程中,会发现一些反业务直觉的事情。举个例子——

我们原本认为:如果一个人借过小额现金贷(比如曾经借过500块或者1000块钱),再来借1万块钱的大额信贷,这个人很大概率上就是一个坏客户! 为什么呢?我们这么想:因为这1万块钱的额度就算分12期还,每个月要还的钱也有一两千块。如果这个人连500到1000块钱都需要借,说明其还款能力是有问题的。 那么反过来,如果一个人先借了大额信贷,再来借小额现金贷,我们也认为此人会是一个坏客户! 这种情况下我们想的是:这个人已经借了大额贷款,都有这么多钱了,还来借小额现金贷,连500、1000块钱都仍然想要,说明这个人就是来骗钱、套现的。 以上是我们直觉的考虑。但实际上,通过数据分析发现,小额现金贷人群的表现并不是这样的,是否借过大额信贷跟小额现金贷的还款行为没有强相关关系!

这些都在长期的实践过程中,日积月累下来的业务经验。没有什么捷径可走,只能是自己一点一滴地慢慢地积累。

积累数据分析技术、工具

除了经验,技能的积累也非常重要。主要包括:模型、代码,和数据库。

模型

我们常用的模型有:逻辑回归、Lasso、随机森林、决策树等。

在动手做项目前,单纯从书本上学习到的对模型的理解,和反复调模参以获得更高预测准确率过程中认识到的模型,是不一样的。

对模型的参数的理解,以及衡量指标(比如准确率、ROC之类)的认识,都是很不同的。

需要在长时间的实践中,多次建模、调参的过程中慢慢积累,实践、探索、琢磨,才能够比较深刻地理解它们的意义。

代码

我习惯用的数据分析工具是SAS。做数据分析的很多人都用Python和R。

现在我也开始用Python和R了,主要是因为:

  • 一方面有些机器学习模型SAS支持得不好;
  • 另一方面SAS无法并行工作,一旦开始跑一个需要很长时间的程序,SAS就不能在接受新任务了,只能等着。

在等SAS的间隙,我会用Python来做一些简单的工作,这样就会比较充分地利用时间。

其实我也没有系统地学过SAS,最开始就是拿前辈写好的现成代码自己慢慢改,想要什么功能就去百度,这样一点一点学的。

这样做固然上手快,但基础很不扎实。SAS运行的原理不是很清楚,随之而来的问题是:写出来的代码可以跑出结果,但是运行速度不够快。

工作任务繁重的时候,需要快速地计算出结果,这就要优化代码。我优化代码的能力也是在实践的过程中慢慢地学习和积累的。

数据库

我们公司用的数据库是Oracle。

上一家公司虽然也用Oracle,但是因为业务也比较单一,IT的同事负责把我们风控建模可能用到的所有数据做成了一个大表(table),我只要查找单一table就可以了。

来了现在公司之后,发现数据库里有各种各样的表,各种各样的关联方法。光数据之间的关联,我都理解了很长时间。

经过一段时间,对于Oracle的数据库慢慢熟悉起来,对它们互相关联的套路也比较了解了之后,查找数据库就简单多了。

工作流程和方法

每次老板给了一个新任务之后,需要:

  1. 快速地熟悉和了解数据;
  2. 结合老板的目标,自己的业务感觉和数据库里能够拿到的数据,迅速地找到能够完成这个目标的路径或者方法;
  3. 沿着自己的思路一步一步去实现这个目标。

如果出现了问题,能够想到用什么样的方法去解决这个问题。如果问题解决不了,能够找到解决问题的方法,或者能知道去哪儿找。

这些都是在实践中慢慢积累的。

积累职场软技能

业务和技术属于硬技能,沟通、协调、向上管理等职场软技能,也是必须积累的。

说来惭愧,我已经工作五年了。按理来说,工作五年的人应该比较能够信手拈来了,但是我还在学习职场的套路。

沟通和协调

沟通和协调能力比较重要,尤其是当你独当一面的时候。

比如,要推动一个产品上线,要协调的部门就会很多——要协调产品部,既要完成预计的功能,又要保证产品质量和性能;要协调IT部,讨论资源上的分配问题;还要协调BD部门,收集客户的反馈,保持与客户的顺畅沟通;其他还有运维等部门,都要协调。

我感觉自己的沟通和协调做得不好,但是我在努力学。

最近刚刚学会两招

  • 当其他同事的工作成果与你的预想相差甚远,甚至可能根本达不到要求时,首先要再在领导面前肯定他们的工作,毕竟人家努力了;然后再提出改进意见。不然人家心里会有意见。
  • 和其他部门沟通时,常会遇到一些问题,双方各有自己的考虑。怎么说服别人来达到你想要的目标呢?就要找对方的痛点!

比如,我喜欢爬山,想找同事陪我去爬山。有一个同事很犹豫,又想去玩,又没有动力,跟他怎么说他都一直在犹豫。 有一天我发现他是佛教徒,我就说:咱们可以去爬凤凰岭,那里有一个龙泉寺,可以去拜一拜。这样他就有动力了。

向上管理

向上管理,我也是最近才刚刚开始学。网络上有很多讲向上管理的课,大家也可以去听一听。

我个人的感觉:老板对员工是有期望的。可能一开始,老板的期望比较低,如果员工完成任务的水平超出了期望,TA就会调高期望。

那么对于员工而言,如果你想能够更进一步,就要在现有任务上超出老板的期望,TA调高期望,你再超出新的期望,如此迭代,就能够获得更进一步的可能。

这里有个向上管理失败的例子:

我们团队为了防止数据泄密,平时数据都放在虚拟机上,用的时候再临时导入到本地。之前负责将虚拟机上数据导入到本地机的同事离职了,老板就把这项工作交给了我,让我负责团队数据管理。 最初我非常不想接,因为一则接手这项工作经常会被打扰,本来正常地做自己的事,同事甲乙丙都来要求导数据,就要停下来帮他们;二则,这项任务付出很多,却看不到绩效,责任大——万一数据泄露了就是全责,功劳几乎没有。 我其实很想拒绝,可又不知道该如何在不影响老板对我的期望和印象的情况下拒绝,所以就把它接了。但其实心里很排斥。

我还需要学习,职场必备技能一定要积累!可惜在这方面我还不能分享很多,因为自己还是个菜鸟。

记账——生活中的积累

除了工作中的积累,给大家分享一个我坚持了九年的习惯——记账。

我从2010年上研究生,学校发补助开始,就在手机上下了app(那个时候还是Java手机,还不叫app),给自己设定结余目标。每个月拿到钱,先扣除结余数目,再在剩下的钱里消费。

哪怕今天才15号或者是10号,我发现我的钱花完了,或者剩下的钱就只够我剩下的20天吃饭了,这20天就强迫自己不再买东西,把钱省下来。

这个过程非常痛苦,尤其是刚开始的时候,控制自己真的很难。但这是我九年以来唯一坚持下来的一件事。

我工作前两年是在国企,第三年是在一家私有企业,收入并不多。我老公也因为某些原因在前两三年没有往家里拿过钱。

但即使是这样,因为我有储蓄的好习惯,坚持记账,坚持自律,每月严格执行储蓄目标。到去年,工作四年多之后,就存了一笔钱,加上家里的资助,已经付了首付,买了房子。

北京的房价这么贵,首付怎么也要一百多万。虽然有家里支持,但如果没有我们自己存下的那一笔钱,是不可能在北京买上房子的。这就是坚持和积累的力量。

转行两年的心得总结

从传统行业转入数据分析已经两年了,总结一下两年来的心得:

第一,兴趣是原动力

知道我是转行的朋友,经常会问:在数据分析这行里,你的基础天然就不如别人,要比别人付出更多的努力,你是怎么持续不断地让自己保有热情的呢?我认为只有一点:兴趣。

你要对自己所作的事有兴趣,没有兴趣就去把兴趣培养出来。一定要从工作中找到乐趣才可以。否则,很难长时间压迫自己干一件不愿意做的事情,即使勉强做了,也不会有什么成就。

今天是我在众智汇社群第三次分享。从我分享这个系列开始,就有很多小伙伴加我的微信,跟我讨论转行数据分析。

我觉得大家在转行之前,先要想清楚,不要只是觉得这个行业赚钱多,或者现在火、热门,就去干这个。以钱或者追热点为驱动的决定,这是没有后劲的。一定要有兴趣才可以。

第二,向着明确的目标持续努力

首先,目标一定要明确。

你不能有模棱两可的目标,一会儿向这个努力一会儿向那儿努力。

其次,持续努力。

一个人想要过得好,坐到比别人高的职位,比别人更体面,比别人收入多,就得打败别人。

而大家都是普通人,互相之间的才干能力资源都没有相差不大。你怎么能打败别的人,自己脱颖而出呢?

方法就是向着一个确定的目标,坚持不懈地努力。坚持说来简单,但其实大部分人都做不到。而做到的那个,就能够脱颖而出了。

第三,放弃妄想捷径,坚持和积累才是正道

一夜暴富是不可能的;天上不会掉馅饼;就算天上掉了馅饼也不太可能正好砸在你我头上……

大家都是凡夫俗子,真的只有日复一日,年复一年,一点点慢慢的积累,才能让达到想要的目标,过上想要的生活。

大家不要小看坚持和积累的力量,这种力量其实是非常非常强大的,比你想象的要大很多。

最后,对自己的行为和选择负责

这一条,我前两次分享也都一直跟大家强调——对自己的行为和选择负责是一个人成熟的标志。

无论选择什么样的生活、爱人、行业或者工作,既然选了,就要承担后果,不要推卸、抱怨。

Q1:通常数据分析岗位面试的时候会问哪些风控的问题?

A1:其实,我两次换工作面试,面试官都没怎么问风控的问题。我就把我曾经遇到过的一些风控上的问题,跟大家分享一下。

和风控相关的典型问题有:

  • 你所在的公司坏账率是多少?
  • 你所在的公司首逾有多少?(一般对于信用贷款,尤其是大额的信用贷款来说,会分几期,比如你借了1万块钱分12期,假设每期还2000块钱,你第一期就没有还,这就叫作首逾。)

和风控建模相关的问题有:

  • 模型评价指标上的问题——KS它是什么含义,它是怎样算出来的?ROC是什么含义,是如何算出来的?
  • MIS的问题,例如:怎样根据现有的数据预测未来公司的坏账率。

我觉得这些业务相关问题,如果你是干风控的一线人员,平时注意自己琢磨,都能答上来的。如果是一个新手,人家也不会问这么深,而主要看潜力。

Q2:坏账率大概在多少合适?

A2:这个没有一个严格的标准。

一般头部平台的信贷,坏账率很低,甚至能做到接近银行的水平。但是,小额现金贷的坏账率就往往很高。做得比较差的平台/产品,比如车抵贷、3C产品卖手机的,坏账都非常高。

根据我有限的经验,越是下沉的坏账率越高,从几个点到几十个点都有的。

Q3:面试的时候会问数据结构或者算法的问题吗?

A3:这些问题我没有碰到过。

我感觉面试官问什么和TA对面试者的预期有关,TA会问TA认为面试者应该懂的东西。

Q4:评分卡模型常用到的算法是什么?

A4:评分卡信用模型,目前市场上通用的是逻辑回归。

但是在做逻辑回归之前,做特征处理的时候会用到一些别的算法,比如Lasso、随机森林、决策树等。会做一些mini model,再把这些mini model处理过的数据输入到逻辑回归里面去。

在探索建模的时候,可能会将各种各样的模型都试上一遍。但实际上最后上线的,据我所知,大部分都是逻辑回归。

Q5:你一般怎么找到解决问题的方法?向同事学习还是看书呢?

A5:解决问题的方法主要有三种来源:

  1. 跟同事、跟老板讨论;
  2. 平常要不间断地看书。这样,遇到问题的时候,你可能会想起来:“我在哪个地方曾经看到过”,就可以返回去找;
  3. 找百度,如果还没有就找Google。

Q6:之前没有做过数据分析,想入行该怎么自学?

A6:首先你可以学一下Oracle DB,也不用学的很深,能把想要的数据从库里取出来就可以。

刚开始转行的话,可能人家也不会要求你的Python、R或者是SAS用得多好,只要Excel,VLOOKUP能用好,就可以去找工作了,在工作中再慢慢实践积累。

学代码就是实践积累,你写得多了自然就会写了。自己看书,或者报一个课程学的内容,通常转头就忘,在实践中一遍一遍写出来的代码,才可以记住。

Q7:从哪里可以获得好的数据用来学习建模?

A7:我知道在Kaggle上面会有数据,去下载吧。

Kaggle是一个数据建模、数据挖掘的一个平台,上面有很多比赛,有风控的比赛,也有别的方向建模的比赛。

Q8:Web前端开发适合转行数据分析师吗?

A8:我觉得,Web前端转行的,在做把模型布到系统里的工作时,还是有优势的。至少你知道怎么跟IT的人沟通。

我为了学习跟IT部门员工的沟通,费了很大的功夫。因为思维方式的差异,我认为他们懂,其实他们根本就不懂,他们认为我本来就应该完全懂,但是其实我根本也不懂,磨合了很长时间我才终于get到IT同事们的点。如果你是干Web前端的话,可能就没有这个困扰了。

但是我还是那句话:适合不适合,你要找到自己的兴趣,兴趣才是一切的源动力。因为你会天然地面对没有基础的困境,所以你必须得有兴趣才能持续不断地努力。

Q9:为什么要从国企辞职和转行?

A9:为什么转行我在我的第一篇《三个月,从化工实验员到数据分析师》里讲过了,大家可以去看一下。

为什么辞职?我只能用四个字来形容:水土不服。我无法认同国企的价值观,也无法适应国企的官僚文化。

Q10:四年存一百万,每年平均存有二十五万,请问是因为选择了好的理财方式吗?

A10:其实四年我只存了50万而已,家里支援了50万,又找亲朋好友借了40万左右。

能借到40万,就是平时人品上的积累吧。你平时跟人相处,别人就会对你有一个判断,你要让别人觉得你是一个靠谱、可信任、知恩图报的人,这样的话就借钱不会很难。

Q11:存钱需要大量理财知识去购买理财产品吗?

A11:理财的第一步是你得有钱,有钱的第一步是你得储蓄,储蓄的第一步是你得记账。

存下一笔钱,真的挺不容易的。这就是坚持和积累的力量,真的是积累的魔力,真的是我从小到大我唯一一件坚持了九年的事。

我自己都惊诧于积累原来可以这么强大。反正大家就从手边开始做起,每月记账强制自己存钱吧。

原文发布于微信公众号 - 悦思悦读(yuesiyuedu)

原文发表时间:2018-11-07

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏小怪聊职场

产品|从“点、线、面、体”的定位纬度去思考项目

3169
来自专栏大数据文摘

数据思维从娃娃抓起,利用体育运动分析讲解数学

1375
来自专栏大数据文摘

情绪是虚拟货币?告诉你情绪识别真正的应用前景!

1404
来自专栏CDA数据分析师

好书 | 《大数据掘金:挖掘商业世界中的数据价值 》

本期责编:Sophie 书名:《大数据掘金:挖掘商业世界中的数据价值 》 原书名:Real-World Data Mining: Applied Busines...

2037
来自专栏新智元

打破深度学习检测视网膜病变世界纪录,IBM认知医疗总监谢国彤北大AI课精彩分享

【新智元导读】据 healio.com 最新报道,IBM Research 采用深度学习,根据国际上临床糖尿病视网膜病变量表,可在20秒内测出病变严重程度,在准...

4153
来自专栏大数据文摘

城市计算:让我们憧憬明天的北京

1566
来自专栏量子位

Top分析/编程/ML工具,大家pick了谁? | KDnuggets2018调查

这一次参与调查的人数超过了2300,比2017年少了一丢丢。这有可能是因为只有RapidMiner把这次调查放心上了,主动搞了一次campaign鼓励大家投票。...

1103
来自专栏人工智能头条

香港中文大学张胜誉:个性化推荐和资源分配在金融和经济中的应用 | CCAI 演讲实录

1041
来自专栏机器之心

学界 | 让机器人互相学习:MIT科学家实现知识传输新方式

选自Science 作者:Matthew Huston 机器之心编译 参与:Quantum、李泽南、黄小天 在不久的将来,机器人助理会走进每个人的生活,不过前提...

29512
来自专栏PPV课数据科学社区

【涨姿势】绝不装逼的大数据科普(二)

言归正传,今天带来浅显易懂的大数据科普(二),会围绕一些大数据的关键概念重点普及一下,如果您已经很懂了也不要跑,本文可作为您的最佳厕所读物。 数据(data)这...

2816

扫码关注云+社区

领取腾讯云代金券