前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >研究生:数据分析/挖掘工作的疑惑?

研究生:数据分析/挖掘工作的疑惑?

作者头像
机器学习AI算法工程
发布2018-03-12 14:33:32
1.5K0
发布2018-03-12 14:33:32
举报

数据分析/挖掘工作的疑惑

本人在读硕士一名,研二,理工科,所作工作于这两方面无关。但是,最近对这个方向特别感兴趣,真的很想从事这方面的工作。目前,正在自学中,以及找相关实习。但是,我看了一些东西之后,有些不解。问题如下:

1 数据挖掘与数据分析在实际工作中真的有很大不同甚至是区别吗?我知道一些定义,比如数据分析偏重于统计,而数据挖掘的工作是分类,聚类,是信息的提炼,但是实际工作中是不是往往两方面都在做?分不清,分不开。

2 有些单位(互联网、软件)找数据方面的人会要求编程比如python,r,hadoop等。有些则似乎要求的是应用,比如spss,sas,modeler(过去叫clementine)等。是不是编程的那部分人使网站能动态的响应,而应用的那部分人的工作是通过了解分析改善运营跟业务状况?是不是有些公司把这部分人叫做需求分析师,业务分析师等?

3 针对与2所提问及的搞应用的人,现在的公司真的有对他们的分析结构给予足够重视吗?这部分人一般在什么部门?岗位多吗?

4 对于整个数据分析/挖掘,你们觉得是一次概念炒作,又或是我们遇到了大数据/云时代,所以有比很大的应用前景?

推荐回答 1

本人供职于一家大型国企,正好工作内容也是整天跟数据打交道,以下回答只针对本人所从事工作中遇到的情况做分析,未必有很大通用性。 在我供职的企业中,数据仓库的建立以及数据挖掘主要是省一级的技术部门(信息化中心)在做.生产系统中产生了数据,经营分析(BI)厂家按技术部门的需求,清洗沉淀数据,然后在系统中制作成报表,专题,预警,分析等等. 这些个系统只是数据挖掘的成果,是根据业务部门(市场部,集团部等)的需求来制作的.这个过程可以称作数据挖掘的过程.

但是自动化的数据挖掘不能解决所有问题(甚至是只能解决小部分问题),大部分问题有时候还需要手工挖掘,这时就需要技术部门来精炼沉淀的数据. 然后所有这个东西汇总了形成一套材料.这套材料的制作人想要从材料中讨论出的结论的过程,我认为是所谓的"数据分析"的过程. 总结: 数据挖掘总体上是业务部门提需求建议,总体规划实施还是技术部门主导.偏向于自动化,大方向上; 数据分析则是业务部门主导,在数据挖掘结果及手工整理材料的基础上,得出他们需要知道的事情.重心在于决策和结果. 问题2,参照上问题1的答案. 针对问题3,以技术为核心的企业会更重视这方面,譬如互联网企业,电商企业等.偏重销售与市场的企业,如果规模很大,市场情况很复杂,则会重视. 如果分析对于决策的影响很小,则不会太重视. 这个没法一概而论,要看哪个行业,具体问题具体分析. 问题4,大数据时代没有疑问,只不过推进的进程是快是慢,我们要把握好.因为一年两年对于大数据时代没什么影响,对于我们自己的职业生涯的发展还是非常重要的.

推荐回答 2

第一个问题其实不重要,因为用人单位往往分不清这两个词的区别,会把数据分析职位写成数据挖掘,反之亦然。如果非要解释,数据分析师一般指上个世纪的BI(商业智能)的工作,使用统计工具(一般是用软件,而不是编程的方式),和Excel对小数据或者采样数据(结构化的数据)进行数值上的分析,提供报表,帮助公司进行产品推广或者重大决策等等。而数据挖掘是指在大数据背景下,使用编程的方式结合分布式计算框架,对全量的数据(非结构化的数据)进行知识抽取。简单的如兴趣划分,通过已知的部分人口信息预测全量数据中确实的人口统计信息,人群中影响力中心的挖掘。常用的工具是回归模型做预测,聚类/分类算法做人群的划分,分词/LDA算法对文本进行主题的划分,反作弊/反垃圾用到的模式识别等都属于数据挖掘的范畴(可以简化成2个,预测,分类)。 第二个问题,我对第一个问题的回答第一句话就说明了这个问题——公司往往不知道什么叫数据挖掘,什么叫数据分析。有来我们公司面试的人说有Hadoop的经验,我就问了一下:“您之前的公司每天有多少数据需要处理?”,对方答道:“10个G”。我差点没把心声说出来“你TMD在耍我么!!!”。总之各种公司管什么不相干的职位的叫法都千奇百怪,不用纠结名字。

第三个问题,哪个部门为公司整来了钱,哪个部门受重视,这是一个简单的道理。如果公司是一个资讯网站,受重视的就是编辑、记者。如果公司是搞安利的,受重视的就是销售部门。如果公司是靠数据收集和加工来挣钱(比如,RTB,DMP,电商)自然就会重视数据这一块。

分析结果公司是否给予足够重视,这个问题还是太大,因而很难回答。我来解构一下:谁代表公司?业务方吗?业务方的什么级别的人呢?进而,假设你的分析结果是给业务部门的总经理做汇报,那么你的分析结论真的对总经理的工作有助益吗?如果回答为是,我想总经理会重视的。而如果你的分析结果没到总经理关注的层面,一来你可能没有机会把结论晒给总经理,二来即使晒了,总经理也不会buying,你是否会得出结论这家公司不重视你的分析?

这部分人的分布通常可能是这样:大型公司会有独立的BI部门(商业智能部),这部分人集中于此;某些小公司,这部分人直接归属在业务部门,比如运营部、销售部,甚至财务部等。

岗位多吗?这个问题大致可以这样算,分析师与服务的业务部门的人数比例在1:50.假如一家公司人数是200人,分析师团队就是4人左右。

第四个问题,又是个很大的问题,前景二字,不用管概念如何炒作,你总能判断出来人类未来的决策会越来越依赖信息,即越来越依赖数据的产出(数据是信息的重要来源嘛)。那么前景很大,这个结论肯定不会太离谱。问题是,前景很大,跟你有啥关系?

99%的公司自己在炒作,也觉得别人也是在炒作,1%的认真在做的公司在闷声发大财。

我按照Q&A的方式,逐一尽力回答你的问题。但其实从你的发问中,我能感觉出,你所谓的兴趣其实是相当模糊的。你原话是“对这个方向特别感兴趣”,那我说我对心理学这个方向特别感兴趣,你嚼着我到底是对啥感兴趣呢?随便买本心理咨询师的书来,翻翻目录,就知道这个名词下面细分的结构,进而进行的深入和展开,都有很大的差异。你看了书,也充满疑惑,然后你还有兴趣吗?到底对什么有兴趣?我建议你认真地考虑下这个问题。

推荐回答 3

举个简单的例子:

有一些人总是不及时向电信运营商缴费,如何发现它们?

数据分析:通过对附近人口的生活习惯、业余爱好、教育背景、收入分布、家庭组成等进行全方面分析,发现很多人都习惯在收到欠费通知以后再缴费。结论就是提前发放短信提醒。 数据挖掘:通过编写机器学习聚类算法发现无法通过观察图表得出的深层次原因。发现家住在五环以外的人,由于居住环境偏远没有时间上营业厅缴费。结论就需要多设立一些营业厅或者自助缴费点。 数据统计:通过统计学推理方法组成样本的试验单元进行参数估计和假设检验,我们发现不及时缴钱人群里的贫困人口占82%。所以结论是收入低的人往往会缴费不及时。结论就需要降低资费。 建议:单纯的依靠技术很难混出名堂,还得依靠对业务深入骨髓的理解。两者相结合方能成大事。 以上。

数据 (Data) 是 DIKW Pyramid (Data, Information, Knowledge, Wisdom) 中最低级的材料。而数据工程是一整套对数据进行采集, 处理, 提取价值(变为 I 或 K)的过程。首先介绍一下相关的几种角色:

Data Engineer

Data Scientist

Data Analyst。

这三个角色任务重叠性高, 要求合作密切, 但各负责的领域稍有不同。大部分公司里的这些角色都会根据每个人本身的技能长短而身兼数职, 所以有时候比较难以区分。 Data Engineer 数据工程师: 分析数据少不了需要运用计算机和各种工具 automate 数据处理的过程, 包括数据格式转换, 储存, 更新, 查询。 数据工程师的工作就是开发工具完成 automate 的过程, 属于 Infrastructure/Tools 层。

这个角色出现的频率不多。因为有现成的MySQL, Oracle等数据库技术, 很多大公司只需要DBA就足够了。而 Hadoop, MongoDB 等 NoSQL 技术的开源, 更是使在大数据的场景下都没有太多 engineer 的事儿,一般都是交给 scientist 。据我所知 Facebook 有专门的 database team,因为数据量太超常了而且业务特殊; Square 有 Data Engineering team,因为对数据稳定性上要求苛刻;Google 就不用说了, 膜拜一下 GFS, BigTable, MapReduce 这些名字就可以了。 Data Scientist 数据科学家: 数据科学家是与数学相结合的中间角色, 需要用数学方法处理原始数据找出肉眼看不到的更高层数据, 一般是运用 Statistical Machine Learning 的方法, 最近也有流行玩 Deep Learning的。 有人称 Data Scientist 为 Programming Statistician,他们需要有很好的统计学基础, 但也需要参与很多 learning 程序的开发(基于 Infrastructure 之上), 而现在很多很多的 Data Scientist 职位都要求身兼 Data Engineer。 Data Scientist 是把 D 转为 I 或 K 的主力军。 Data Analyst 数据分析师: 工程师和科学家做了大量的工作用计算机程序尽可能多地提取了价值(I/K),然而真正要从数据中洞察出更高的价值, 则需要依靠丰富的行业经验和洞察力, 这些都需要人力的干预。 Data Analyst 需要的是对所在业务有深刻了解, 能熟练运用手上的工具(无论是 Excel, SPSS也好, Python/R也好,工程师给你开发的工具也好,必要时还要能自己充当工程师和科学家,力尽所能得到自己需要的工具)有针对性地对数据作分析,并且需要把发现言之有物地向其他职能部门呈现出来,最终变为行动。这就是把数据最终得出 Wisdom。

这个职位出现也不是很多, 在很多公司里没有这样的职位, 因为都是 C-level 的人或产品经理在做着数据分析的事情。 这样的职位大量出现的地方我只知道 Wall Street 和 NSA,因为有大量的 case 需要处理, 而每个 case 都需要有人分析。

值得一提的是 PayPal 当年内部处理 fraud 的问题, 积累了大量欺诈分析的经验, 后来 PayPal 创始人 Peter Thiel 又创立了 Palantir, 专门做数据分析工具平台, 在美国成功帮很多机构解决着反恐, 人口贩卖等很多需要专家参与的问题。 Palantir 有一句口号是 Surface data, not mining it(呈现数据,而非挖掘)。是一个比较有意思的观点 :)

分析与挖掘是相辅相成的,比如你要做男女购买的分析,可是你的网站不记录购买商品会员的性别,那咋办?你通过数据挖掘的方法,给所有用户打了性别的标签,之后,你就可以做数据分析了~

在数据分析这块,有两种工种,一个是工程师,一个是分析师,分析师用来做离线的模型,工程师用来把模型上线,很多要求C++或者JAVA的,当然很多公司,工程师可能既充当分析师的角色,也充当分析师的角色。还有一批分析师是做报告的,类似咨询公司里的那种。

R和SAS/SPSS都一样,都是用来做离线的模型的,或者分析的。R貌似也可以用到生产系统里,这块我水平不够,不清楚。SAS和Clementine可以用到生产系统的,比如你购买了版权,在服务器里装了Clementine,你可以根据其生成的PMML语言嵌入到自己的系统里。SAS这些都挺贵的,银行或者大企业才买的起,很多互联网公司都不愿意买,所以很多人转到了R/Python,开源的东东,当然大家也可以用SAS了,我猜基本都是单机的,做离线的分析或者模型用。

你要看哪个部门招聘数据分析的了,如果是销售部门,运营部门,研发部门,都会招聘数据分析的,你可以根据招聘的部门来估计这个数据分析的职位的作用是啥。

说实话,做业务分析的,会比做数据挖掘工程师的起薪少,毕竟工程师要求都蛮高的,要求算法,要求代码啥的,当然也不是绝对的。如果是做业务这块的数据分析,建议先去大的咨询公司(比如德勤,埃森哲,FICO,SAS等等),或者大的企业去,毕竟分析的方法论还是蛮重要的,小公司可能做事没章法,虽然大家可能做出了的东西差不多,都是用决策树或者kmeans之类的模型,但细细扣起来,还是很有区别的,数据的清洗,特征的选取,参数的选择等都会影响最终的结果。

还有一种在公司销售部门里做业务分析的,主要是出报表,出分析报告,每周每月每季度每年,各种各样的Excel报表,需要你对Excel精通,最好对VBA也精通,可以做一些自动化处理,当然也有人用R做自动化,看你的专长和意愿啦。

互联网公司,数据量很大,所以很多都在hadoop上建的数据仓库,然后写sql去把数据提出来,所以有些地方要求你懂hadoop啥的。

大数据,我个人感觉是炒作,现在大部分企业还停留在看报表阶段,数据驱动的时代还没到来,毕竟数据驱动的话,那得要求数据质量相当高才行。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2015-07-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据挖掘DT数据分析 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
腾讯云 BI
腾讯云 BI(Business Intelligence,BI)提供从数据源接入、数据建模到数据可视化分析全流程的BI能力,帮助经营者快速获取决策数据依据。系统采用敏捷自助式设计,使用者仅需通过简单拖拽即可完成原本复杂的报表开发过程,并支持报表的分享、推送等企业协作场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档