前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >到底穿T恤、正装还是道袍?数据挖掘师的定位

到底穿T恤、正装还是道袍?数据挖掘师的定位

作者头像
小莹莹
发布2018-04-20 17:47:26
7290
发布2018-04-20 17:47:26
举报

(图为:剑网3 玩家Cosplay)

文|周学春,一个在银行做挖掘的博士,微信公众号:比格堆塔

心态不够平静,晚上在小区里面逛了一圈又一圈、一圈又一圈、一圈又一圈。

最近看了《再次出发》,大意是讲两个失意的音乐人重振旗鼓再次出发,挺不错。但是,总觉得在电影院里面看剧情片,节奏太慢受不了,个人偏好。倒是里面所有的音乐都很好听。它会给你平静、简单、自然、祥和、空灵和穿透的感觉。适合写这篇文章的时候循环播放。

大数据是什么?其实我也不太清楚。但是人们常常用四个关键词去刻画和描述它。即Volume、Variety、Value和Velocity。

什么样的人在从事数据挖掘的工作?别人说:“T恤、正装和道袍”。

做挖掘采用什么工具?开源、“众人堆柴火焰高”。


(一)大数据的本质(4V)

(1)Volume(容量)

就是说数据规模和容量非常庞大。简单来说,传统的银行数据仓库中大概有小几万张表,记录着各个系统的数据。拿其中一张表举例(零售客户金融资产表),一般而言,零售客户都是非常海量的。股份制银行至少有千万级的零售客户。基本上,每天的零售客户金融资产表,其产生的数据量就有几个G。

银行哪里来的大数据。有些人不太理解银行里面记录的都是什么数据,还是比较抽象,不够具体清晰。假设你有一张借记卡。你转账、存款、取现、贷款、购买理财、基金、保险、刷卡、交易数据、你开户时填写的个人资料、办理业务时填写的个人资料,都会被记录下来。简而言之,你和银行的每一次交互,在后台系统都会存在记录,这就是数据仓库的原始数据来源。

(2)Variety(多样性)

就是说数据类型非常多样。但是,天下数据,基本上也就包括三种类型。

第一种,结构化数据。就是常见的二维表。一条记录代表一个客户(行维度),列维度代表属性和特征。例如,张三的定期余额、活期、理财、保险、国债余额等。

第二种,半结构化数据。需要通过一定的技术抽取关键的特征和变量。

例如简历,一般来说,都能够从简历里面抽取一些通用的特征,如年龄、性别、工作单位、工作年限、教育背景等。例如,网络日志分析,互联网公司常常从用户的浏览日志中抓取一些特征和变量,例如IP地址、浏览器类型、系统类型、登陆时间、登陆市场、登陆次数等等。有些做风控的公司,通过抓取全国所有法院的判决文书,抓取企业是否涉诉,涉诉金额,作为判断还款能力的重要标准和依据。

第三种,非结构化数据。非结构化数据处理起来就比较复杂,这也是当前数据处理的一个前沿方向。例如图像识别、人脸识别、视频识别、音频识别等。

(3)Value(价值)

就是说,海量数据意味着挖掘后产生的价值也是非常高的。通过数据挖掘去探索数据背后的规律和模式。

例如,通过挖掘,大致可以判断客户购买理财产品的概率有多大。如果比较大的话,就会向该客户推荐该理财产品。例如,通过挖掘,可以识别客户的交易图谱,客户关系网络。

(4)Velocity(速度)

其实说实话,大数据之所以会为大众所知,还是因为数据存储和加工技术的进步,运算不再成为一个瓶颈。


(二)数据挖掘工种:T恤、正装和道袍

因为业务的关系,最近听一个人做介绍和分享,有个观点还是挺有趣的。他说做大数据的,大概有三类人群。在此借用一下观点。

第一种是穿T恤的,这种人一般都在互联网公司。

第二种人穿正装,这种人一般在金融机构(例如银行、证券)、金融相关的咨询公司(SAS、FICO)。

第三种人是穿道袍的,到处忽悠,向非专业的layman倾销观点。

如一些第三方数据公司、或者一些动辄就扯大数据概念,从来不落地的公司等。其实银行里面更多,很多时候呼喊大数据口号的都是做战略管理和规划的,估计压根没接触过海量数据。

前两种人都较为偏技术一些。他们的差别更多的来自行业形态的差异。比方说,互联网是较为充分竞争的领域,因此,穿T恤的,一般都挺有几把刷子的。银行和金融领域,还是处于政策管制的领域,竞争不是特别充分,投入产出和效率意识并不强。数据挖掘更像是锦上添花、花拳绣腿的产物。由此表现出来非常明显的差别就是,银行永远都是花最贵的钱,买最贵的技术、产品和外包服务,例如SAS。互联网一般都是,怎么免费怎么来,数据库和挖掘的软件基本上都是开源的,例如R语言、python。

第三种穿道袍的人。虽然有些忽悠成分,但是,很多时候,也正是他们教育了普罗大众,培育了整个市场,启蒙了大环境。其实,想一想,T恤、正装、道袍各自有各自的定位和受众。广义一点,其实穿道袍的人多了去了,任何行业,任何领域,夸夸其谈扯不到一点专业实质的,都可以称之为“道袍先生”。但是,存在,就是合理的。


(三)挖掘工具:开源的力量

接着上面的话题。

互联网公司一般用免费开源的挖掘软件,例如Mysql、R语言、Python。高大上的银行一般花了数千万采购TD、SAS,常常采购的都是各种阉割的版本。毕竟SAS是封闭的商业软件。

我自己使用最为熟练是SAS和R。简单进行比较一下。其他一些统计类软件,例如SPSS、Eviews、AMOS、STATA,比较适合小样本数据分析,适合高校科研环境,不展开。

(1)SAS的封闭

SAS base。侧重大样本数据分析,可以做千万和上亿样本级别的数据分析。Base最擅长数据的加工、整理、汇总。然后,统计模块部分,基本上能实现SPSS所有的功能。

SAS EM。和Modeler基本上一模一样。傻瓜式的、拖拽风格的挖掘工具。它之所以能够贴上挖掘的称号,是因为其嵌入了很多成熟的统计和机器学习算法(聚类、贝叶斯、神经网络、决策树、SVM、随机森林、集成学习、逻辑回归等)。但是,他们却是非常傻瓜式的挖掘工具,因为他们是基于图标、节点和流程的。入手很快,结果较为粗糙,难以进行个性化、定制化的数据分析和挖掘,难以进行批量化的参数优化和调整。

初期入手还行,后期处处受限。

(2)R的开放

R语言。是目前遇到的最自由式的数据挖掘工具。因为是采用内存加工处理数据,限制了数据分析的体量,有时候样本或者算法较复杂,内存会溢出报错。但是,说实话,这是我非常喜欢的挖掘工具。

一方面,它有很多算法包,我可以很容易找到最前沿的算法和模块。例如,做社会网络分析igraph、例如做文本分析tm等。而这些对于SAS来说,都是收费模块,很难获取。

另一方面,你可以定制自己的算法和包。EM最大的一个局限就是不能定制化自己的玩法,没办法修改模型算法,没办法对数据进行遍历和加工。但是,R可以做到。

例如,做kmeans聚类时,R可以批量跑很多分组,但是EM每次只能run一个。例如,你可以用R同时循环50棵决策树,从而找出最优的决策树。但是EM就做不到。

换言之,EM傻瓜操作的同时,就难以满足熟练工的更高阶的需求。鱼和熊掌,难以兼得。

我的一个感受。常常有人说,统计软件,你只要精通一个就行了。其实,我是比较不认同这种说法的。很多时候,你的挖掘能力完全受制于你的工具。做挖掘,你的想象空间与你的工具完全是相关的。每个工具之所以能存在,必然是因为,它能够完成其他软件不能够完成的部分。这也是我当时熟练SAS后,接触R语言的一个最基本的理由和出发点。

1、回复“数据分析师”查看数据分析师系列文章

2、回复“案例”查看大数据案例系列文章

3、回复“征信”查看相关征信的系列文章

4、回复“可视化”查看可视化专题系列文章

5、回复“SPPS”查看SPSS系列文章

6、回复“答案”查看hadoop面试题题目及答案

7、回复“爱情”查看大数据与爱情的故事

8、回复“笑话”查看大数据系列笑话

9、回复“大数据1、大数据2、大数据3、大数据4”查看大数据历史机遇连载

PPV课大数据ID: ppvke123 (长按可复制)

大数据人才的摇篮!专注大数据行业人才的培养。每日一课,大数据(EXCEL、SAS、SPSS、Hadoop、CDA)视频课程。大数据资讯,每日分享!数据咖—PPV课数据爱好者俱乐部!

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2015-09-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 PPV课数据科学社区 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • (一)大数据的本质(4V)
  • (二)数据挖掘工种:T恤、正装和道袍
  • (三)挖掘工具:开源的力量
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档