到底穿T恤、正装还是道袍?数据挖掘师的定位

(图为:剑网3 玩家Cosplay)

文|周学春,一个在银行做挖掘的博士,微信公众号:比格堆塔

心态不够平静,晚上在小区里面逛了一圈又一圈、一圈又一圈、一圈又一圈。

最近看了《再次出发》,大意是讲两个失意的音乐人重振旗鼓再次出发,挺不错。但是,总觉得在电影院里面看剧情片,节奏太慢受不了,个人偏好。倒是里面所有的音乐都很好听。它会给你平静、简单、自然、祥和、空灵和穿透的感觉。适合写这篇文章的时候循环播放。

大数据是什么?其实我也不太清楚。但是人们常常用四个关键词去刻画和描述它。即Volume、Variety、Value和Velocity。

什么样的人在从事数据挖掘的工作?别人说:“T恤、正装和道袍”。

做挖掘采用什么工具?开源、“众人堆柴火焰高”。


(一)大数据的本质(4V)

(1)Volume(容量)

就是说数据规模和容量非常庞大。简单来说,传统的银行数据仓库中大概有小几万张表,记录着各个系统的数据。拿其中一张表举例(零售客户金融资产表),一般而言,零售客户都是非常海量的。股份制银行至少有千万级的零售客户。基本上,每天的零售客户金融资产表,其产生的数据量就有几个G。

银行哪里来的大数据。有些人不太理解银行里面记录的都是什么数据,还是比较抽象,不够具体清晰。假设你有一张借记卡。你转账、存款、取现、贷款、购买理财、基金、保险、刷卡、交易数据、你开户时填写的个人资料、办理业务时填写的个人资料,都会被记录下来。简而言之,你和银行的每一次交互,在后台系统都会存在记录,这就是数据仓库的原始数据来源。

(2)Variety(多样性)

就是说数据类型非常多样。但是,天下数据,基本上也就包括三种类型。

第一种,结构化数据。就是常见的二维表。一条记录代表一个客户(行维度),列维度代表属性和特征。例如,张三的定期余额、活期、理财、保险、国债余额等。

第二种,半结构化数据。需要通过一定的技术抽取关键的特征和变量。

例如简历,一般来说,都能够从简历里面抽取一些通用的特征,如年龄、性别、工作单位、工作年限、教育背景等。例如,网络日志分析,互联网公司常常从用户的浏览日志中抓取一些特征和变量,例如IP地址、浏览器类型、系统类型、登陆时间、登陆市场、登陆次数等等。有些做风控的公司,通过抓取全国所有法院的判决文书,抓取企业是否涉诉,涉诉金额,作为判断还款能力的重要标准和依据。

第三种,非结构化数据。非结构化数据处理起来就比较复杂,这也是当前数据处理的一个前沿方向。例如图像识别、人脸识别、视频识别、音频识别等。

(3)Value(价值)

就是说,海量数据意味着挖掘后产生的价值也是非常高的。通过数据挖掘去探索数据背后的规律和模式。

例如,通过挖掘,大致可以判断客户购买理财产品的概率有多大。如果比较大的话,就会向该客户推荐该理财产品。例如,通过挖掘,可以识别客户的交易图谱,客户关系网络。

(4)Velocity(速度)

其实说实话,大数据之所以会为大众所知,还是因为数据存储和加工技术的进步,运算不再成为一个瓶颈。


(二)数据挖掘工种:T恤、正装和道袍

因为业务的关系,最近听一个人做介绍和分享,有个观点还是挺有趣的。他说做大数据的,大概有三类人群。在此借用一下观点。

第一种是穿T恤的,这种人一般都在互联网公司。

第二种人穿正装,这种人一般在金融机构(例如银行、证券)、金融相关的咨询公司(SAS、FICO)。

第三种人是穿道袍的,到处忽悠,向非专业的layman倾销观点。

如一些第三方数据公司、或者一些动辄就扯大数据概念,从来不落地的公司等。其实银行里面更多,很多时候呼喊大数据口号的都是做战略管理和规划的,估计压根没接触过海量数据。

前两种人都较为偏技术一些。他们的差别更多的来自行业形态的差异。比方说,互联网是较为充分竞争的领域,因此,穿T恤的,一般都挺有几把刷子的。银行和金融领域,还是处于政策管制的领域,竞争不是特别充分,投入产出和效率意识并不强。数据挖掘更像是锦上添花、花拳绣腿的产物。由此表现出来非常明显的差别就是,银行永远都是花最贵的钱,买最贵的技术、产品和外包服务,例如SAS。互联网一般都是,怎么免费怎么来,数据库和挖掘的软件基本上都是开源的,例如R语言、python。

第三种穿道袍的人。虽然有些忽悠成分,但是,很多时候,也正是他们教育了普罗大众,培育了整个市场,启蒙了大环境。其实,想一想,T恤、正装、道袍各自有各自的定位和受众。广义一点,其实穿道袍的人多了去了,任何行业,任何领域,夸夸其谈扯不到一点专业实质的,都可以称之为“道袍先生”。但是,存在,就是合理的。


(三)挖掘工具:开源的力量

接着上面的话题。

互联网公司一般用免费开源的挖掘软件,例如Mysql、R语言、Python。高大上的银行一般花了数千万采购TD、SAS,常常采购的都是各种阉割的版本。毕竟SAS是封闭的商业软件。

我自己使用最为熟练是SAS和R。简单进行比较一下。其他一些统计类软件,例如SPSS、Eviews、AMOS、STATA,比较适合小样本数据分析,适合高校科研环境,不展开。

(1)SAS的封闭

SAS base。侧重大样本数据分析,可以做千万和上亿样本级别的数据分析。Base最擅长数据的加工、整理、汇总。然后,统计模块部分,基本上能实现SPSS所有的功能。

SAS EM。和Modeler基本上一模一样。傻瓜式的、拖拽风格的挖掘工具。它之所以能够贴上挖掘的称号,是因为其嵌入了很多成熟的统计和机器学习算法(聚类、贝叶斯、神经网络、决策树、SVM、随机森林、集成学习、逻辑回归等)。但是,他们却是非常傻瓜式的挖掘工具,因为他们是基于图标、节点和流程的。入手很快,结果较为粗糙,难以进行个性化、定制化的数据分析和挖掘,难以进行批量化的参数优化和调整。

初期入手还行,后期处处受限。

(2)R的开放

R语言。是目前遇到的最自由式的数据挖掘工具。因为是采用内存加工处理数据,限制了数据分析的体量,有时候样本或者算法较复杂,内存会溢出报错。但是,说实话,这是我非常喜欢的挖掘工具。

一方面,它有很多算法包,我可以很容易找到最前沿的算法和模块。例如,做社会网络分析igraph、例如做文本分析tm等。而这些对于SAS来说,都是收费模块,很难获取。

另一方面,你可以定制自己的算法和包。EM最大的一个局限就是不能定制化自己的玩法,没办法修改模型算法,没办法对数据进行遍历和加工。但是,R可以做到。

例如,做kmeans聚类时,R可以批量跑很多分组,但是EM每次只能run一个。例如,你可以用R同时循环50棵决策树,从而找出最优的决策树。但是EM就做不到。

换言之,EM傻瓜操作的同时,就难以满足熟练工的更高阶的需求。鱼和熊掌,难以兼得。

我的一个感受。常常有人说,统计软件,你只要精通一个就行了。其实,我是比较不认同这种说法的。很多时候,你的挖掘能力完全受制于你的工具。做挖掘,你的想象空间与你的工具完全是相关的。每个工具之所以能存在,必然是因为,它能够完成其他软件不能够完成的部分。这也是我当时熟练SAS后,接触R语言的一个最基本的理由和出发点。

1、回复“数据分析师”查看数据分析师系列文章

2、回复“案例”查看大数据案例系列文章

3、回复“征信”查看相关征信的系列文章

4、回复“可视化”查看可视化专题系列文章

5、回复“SPPS”查看SPSS系列文章

6、回复“答案”查看hadoop面试题题目及答案

7、回复“爱情”查看大数据与爱情的故事

8、回复“笑话”查看大数据系列笑话

9、回复“大数据1、大数据2、大数据3、大数据4”查看大数据历史机遇连载

PPV课大数据ID: ppvke123 (长按可复制)

大数据人才的摇篮!专注大数据行业人才的培养。每日一课,大数据(EXCEL、SAS、SPSS、Hadoop、CDA)视频课程。大数据资讯,每日分享!数据咖—PPV课数据爱好者俱乐部!

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2015-09-18

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

IBM人工智能可以预测你会不会精神分裂,还能通过声音判断情绪

允中 编译整理 量子位 出品 | 公众号 QbitAI ? IBM的人工智能继续在健康领域实践探索。 最近,IBM和阿尔伯塔大学联手进行了一项开创性的研究,使用...

3555
来自专栏一个会写诗的程序员的博客

学习之道 文/江湖一剑客

我发现身边优秀的人,他们通常都有两个高于常人的本领。 一是洞察问题的本领, 二是解决问题的本领。

761
来自专栏人工智能快报

神经形态计算成为大脑仿真最佳平台之一

科研人员利用一个名为SpiNNaker的神经形态计算机开展大脑仿真实验,取得的效果与利用传统超级计算机进行仿真获取的最佳效果不相上下。

712
来自专栏华章科技

马斯克最疯狂的公司 Neurallink,重新定义未来人类:人机同体,成为AI

这是一篇非常非常非常长但是读起来却不会枯燥的文章,尤其关于进化和人脑的部分,图文并茂,由浅入深,生动详实,绝对值得细读,绝对受益匪浅,走过路过不要错过~

922
来自专栏腾讯研究院的专栏

设计中的“信噪比”平衡

image.png 推荐语: “信噪比”(Signal-to-Noise Ratio)原本是用在声音和图像领域的概念。比如,音响设备播放声音时,机...

2818
来自专栏量子位

实测华为Mate 20 Pro:配备麒麟980芯片后AI到底有多强

前不久,华为发布了新一代旗舰手机Mate 20系列。配备AI芯片麒麟980,双NPU,号称六项业界第一。

1253
来自专栏华章科技

天龙八部:一张图告诉你如何8步炼成数据科学家

OK,这条道路确实不是无迹可寻的。虽然并不简单,但是,通过科学的规划和足够的时间投入,数据科学家可以通过很少的花费炼成。

972
来自专栏编程

从趣味游戏到编程思维——Scratch编程课程设计思想

邓博士和很多在学习编程孩子的家长交流后,发现一个共同的特点:家长其实对于孩子为什么要学编程并不是很理解,就觉得反正买个课程又不贵,孩子喜欢而已,就试试呗!另外,...

3615
来自专栏AI科技评论

学界 | Facebook 最新研究:自主学习一个会和世界互动的智能体

AI 科技评论按:本文由来自 Facebook 人工智能研究院的研究员 Dhruv Batra 和 Devi Parikh 共同撰写,文中介绍了 Faceboo...

1232
来自专栏机器人网

4个步骤教你全面了解工业机器人基础知识

一篇文章4个表格教你看懂工业机器人基础知识,一个视频让你不再是机器人小白。看完本文,系统了解工业机器人! 机器人的分类 关于机器人如何分类,国际上没有制定统一...

2804

扫码关注云+社区

领取腾讯云代金券