数据挖掘工程师在公司中一般都具体做什么?需要了解哪些知识?

以后想从事数据挖掘行业,但不清楚数据挖掘工程师的工作到底是做什么?

如果仅仅只是用excel,sas,python,r语言等工具来用现有的算法进行数据挖掘,总感觉比软件工程师的工作量要小,那为什么很多数据挖掘工程师的招聘要求还特别高?

是否很多数据挖掘工程师还需要对具体场景设计新的算法和方案来进行数据挖掘?

如果现在要学习的话是否还需要学习hadoop,hive等之类的分布式应用的平台?

对于数据挖掘,以下为个人的理解:

数据挖掘,从字面上理解,就是在数据中找到有用的东西,哪些东西有用就要看具体的业务目标了。最简单的就是统计应用了,比如电商数据,如淘宝统计过哪个省购买泳衣最多、哪个省的女生胸罩最大等,进一步,可以基于用户的浏览、点击、收藏、购买等行为推断用户的年龄、性别、购买能力、爱好等能表示一个人的画像,就相当于用这些挖掘出来的属性来刻画一个人,这些还是最简单的东西,更深层次的比如预测(股票预测),但是比较难。

说到数据挖掘。往往与机器学习离不开。比如分类、聚类、关联规则挖掘、个性化推荐、预测、神经网络、深度学习等。很多年前说人工智能AI(比如产生式系统、专家系统等,好像现在提得比较少了),90年代AI到了瓶颈阶段,机器学习是一个突破口,现在机器学习又遇到了瓶颈阶段,深度学习又是一个突破口(其实神经网络出来了很久,但是为什么中间一段时间沉寂了,在70年代左右出现了低潮(根据评论修改),我归结是两点,第一神经网络就像一个黑夹子一样,很多东西不透明,模型的解释性不强,以及当时没办法处理非线性分类问题,参数过多,训练复杂,容易出错,容易过拟合,无法保证全局最优,加上很多问题无法用数学方法证明(个人理解)等等,科学家和工程师还是有区别的,科学家都想把一个问题归结为数学问题,然后证明出来,他们就会认为是有意义的,数学上证明其有效往往比做千百个实验说明其有效要好些吧,工程师往往更在乎效果与结果),直到后来出现了BP算法。第二,得益于现在的大规模计算工具,能够处理PB级别的数据了。总之现在人工智能还远没达到人类的水平,最后结果会怎样,这个暂时不设想。

目前正处于大数据时代,很多企业拥有巨大的数据,比如阿里拥有消费数据、百度拥有搜索数据,腾讯拥有社交数据,消费数据与搜索数据都可以直接变现形成商业模式,而社交数据暂时还无法直接变现,至少企鹅现在还在探寻中,举个例子,你的朋友圈,qq空间到处是广告,你是不是很讨厌,差评,呵呵。数据有了,还有个重要的方面,处理数据的能力,也就是数据处理工具,能够处理这么大的数据量,二者不可或缺,缺一谈什么大数据都是耍流氓。

以上都是一些yy。对于数据挖掘工程师:

首先你数学知识肯定要扎实吧,统计与概率论是最基本(也有人说现在的机器学习是统计学习,确实有道理)、微分与积分肯定要知道、数学公式要看的懂吧,进阶阶段最优化,随机过程等。建议去看看机器学习十大算法与一些深度学习的东西,多看大牛的博客。

对于语言,搞科研知道matlab就永不怕了,但是对于工程师嘛,肯定要知道写代码吧,不懂写代码的工程师都是扯淡,不要写代码的数据挖掘与机器学习,那是研究员,懂得一门高级语言与一门脚本语言就差不多了(如JAVA或C++,Python或R,个人推荐Java与Python,因为像Hadoop、Spark、Hive、MPI之类的都对Java提供了很方便的接口,Python写脚本很爽),还需要懂得Linux、Shell、SQL,这都是个人意见,至少在阿里,用java+sql+python+shell,阿里有个很牛逼的东西叫做odps,可以去查查相关资料。

对于你所说的excel、sas,数据分析人员专用,因为工程师嘛,编程语言还是必须的。对于是否需要学习hadoop、hive之类的,个人意见是只要知道用,然后怎么用,怎么在上面实现一些算法,怎么去优化自己写的程序就差不多了,它们只是工具,而且更新得很快,就说hadoop吧,我还没完全搞明白,就逐渐被spark取代了,记住,这些只是工具而已。推荐个加深你数据挖掘功力的东西weka(单机版的)与mahout(分布式的,有基于hadoop与spark),都是开源的。

对于工作是否需要设计新算法,我觉得在企业还是没有要求这么高,除非你觉得自己很牛逼,想向google看齐,但是设计一个好的算法并能解决实际问题的算法,不是一朝一夕的,个人观点,很多算法可以想出来,最大的问题就是怎样去证明其正确,其有效。想到企业中去,多看看google与ms工程性的文章,想研究就多看看学术大牛的文章,比如ICML,IJCAI,KDD,NIPS,CVPR等。大部分工作是,将已有的机器学习与数据挖掘算法应用到具体的实践中,根据业务场景与数据特点对算法进行改造或者调整等。

最后举个例子,你在淘宝上买一件衣服,系统怎样向你推荐你感兴趣的并且和这件衣服搭配的裤子或者饰品,这就是数据挖掘工程师的一方面工作。(Via:知乎)

原文发布于微信公众号 - 大数据挖掘DT数据分析(datadw)

原文发表时间:2015-03-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏安智客

Android 8.1版本会吸引更多的小伙伴们玩人工智能吗?

Android 8.1 的预览版包含一系列针对性增强,其中包括对 Android Go(适用于内存为 1GB 或更小的设备)的优化和一个全新的Neural Ne...

20210
来自专栏机器人网

开发者总结: 8 种最好的 AI 机器学习开源项目

随着 AI 技术快速发展,各种理论与实践层出不穷,它正在迅速改变我们生活中几乎每一个领域,从我们如何交流到用于交通的手段。作为开发者或者学习者,在开始构建机器学...

882
来自专栏留存

获取目标的时间是目标距离和大小的函数。

1954年,心理学家保罗费茨检验人体运动系统,发现移动到目标所需的时间取决于距离,但与其大小成反比。根据他的法律,由于速度精度的折衷,快速移动和小目标会导致更高...

2859
来自专栏PPV课数据科学社区

论数据分析、数据挖掘、数据统计、OLAP 之间的差异是什么?谁的观点你最赞同?

Han Hsiao 观点: 简单说:数据挖掘就是从海量数据中找到隐藏的规则,数据分析一般要分析的目标比较明确,数据统计则是单纯的使用样本来推断总体。 主要区...

3474
来自专栏钱塘大数据

【推荐阅读】大数据研究常用软件工具与应用场景

作者:大数据平台部 马亮 如今,大数据日益成为研究行业的重要研究目标。面对其高数据量、多维度与异构化的特点,以及分析方法思路的扩展,传统统计工具已经难以应对。 ...

3318
来自专栏灯塔大数据

荐读|数据科学中最好的5个机器学习API

机器学习作为大数据的前沿无疑是让人生畏的,因为只有技术极客和数据科学领域的专家才能驾驭机器学习算法和技术,对于大部分企业和组织而言,过去这一直都是一个遥不可及...

2689
来自专栏互联网数据官iCDO

A/B测试的十个黄金准则

译者:李睿 本文长度为2770字,预估阅读时间4分钟。 互联网营销人员经常会用A/B测试的方法来优化广告策略,进而实现收入或转化率的提升。但是,如果并未采用正确...

3448
来自专栏钱塘大数据

【干货】大数据研究常用软件工具与应用场景

导读:如今,大数据日益成为研究行业的重要研究目标。面对其高数据量、多维度与异构化的特点,以及分析方法思路的扩展,传统统计工具已经难以应对。工欲善其事,必先利其器...

2778
来自专栏PPV课数据科学社区

大数据之有指导数据挖掘方法的模型

? 数据挖掘的目的,就是从数据中找到更多的优质用户。什么是有指导的数据挖掘方法模型,以及数据挖掘如何构建模型。在构建一个有指导的数据挖掘模型,首先要理解和定义...

3144
来自专栏腾讯移动品质中心TMQ的专栏

腾讯TMQ在线沙龙回顾|线性回归&逻辑回归

线性回归&逻辑回归 活动时间:2017年12月27日QQ群视频分享 活动介绍:TMQ在线沙龙第三十七期分享 ? 本次分享的主题:线性回归&逻辑回归。 共有73位...

1958

扫描关注云+社区