知乎观点收集:关于机器学习和数据挖掘找工作

甲:数据挖掘 很多地方招聘还是挺喜欢这样专业的,但是前提是你得过笔试关。 为了笔试,学习C和数据结构 数据挖掘的时候学习算法和推理机制等,看看数据分析,神经网络之类。数据挖掘要学的东西很多。

乙:好的基础是必须的,数学、统计等学科要有功底;必须有良好的产品理解能力,不然你作的东西根就都是没用的;前途来说:现在一个一般的起薪15000。以后这东西的用途会更多。非常有用。

丙:你选模式识别吧。。。和你的大方向比较吻合。而且在搜索引擎应用也非常广泛,需求也比较大。 数据挖掘要学的东西很多,特别是数据库和数据仓库、数据清理这一块。而且以后使用的机会不多,很枯燥(我就是做数据挖掘的)。相当的郁闷,整天面对大量数据。因为数据挖掘大部分是一次性的得出结论(若干TB的数据也不是你想挖就挖的),大部分企业都找其他公司来做,很少有公司愿意自己搞个数据挖掘部门出来。 人工智能这个课题在国内其实并不好(我个人体会),适合做一些研究课题。找工作也不好找。国内闲散劳动力过剩,越自动化越加重失业率。你要从事这个行业的话最好还是争取出国去。

丁:机器学习与模式识别关系

模式分析两大派:符号分析派和统计学派。句法分析已经被证明是不可学习的了,统计学派倒是发展了不少ML方法。句法分析虽然现在不流行了,也别把人家无视了阿

推荐书目与资源

http://www.zhihu.com/question/19701325专家系统和数据挖掘需要先行学习哪些知识?

推荐一本书:Bishop,Pattern Recognition and Machine Learning 统计学和数值分析

http://www.zhihu.com/question/20018563 有哪些「数据挖掘」和「数据分析」方面的书籍值得推荐?

甲:数据挖掘方面的书有点杂乱,个人推荐 《数据挖掘概念与技术》, [加]JiaweiHan编写。这本书可以帮助你系统的了解一下数据挖掘技术,不是很深入。

如果想更深一步学习数据挖掘算法,应该多读一些机器学习方面的书籍,这方面的书籍有很多,可以根据自己的喜好选择几本看看,例如 《机器学习》,[美]Tom Mitchell编写。如果看到不懂的知识,应该以统计学书籍作为补充。

理论知识学好后,理论到实践就要借助工具了,根据实际需要解决的问题建好模型后,也就是编程coding的工作了。有一些数据挖掘工具,基于Java的Weka (这个也是出了书的 《Data Mining: Practical Machine Learning Tools and Techniques (Third Edition)》,Ian H. Witten等编著),基于Python的Orange等等,这些也可以根据自己的需要做扩展。不过最灵活的还是自己熟练掌握几门编程语言,开始自己coding。效率高的话还是C/C++,做科研Python足够了,有丰富的库和社区支持。我也看到过很多用Matlab做数据挖掘的,还是那句话,编程语言只是工具,效率高不高也不是只取决于编程语言的选择。

乙:入门级的

《谁是菜鸟不会数据分析》 《深入浅出数据分析》

推荐看一下《集体智慧编程》这本书的,里面有很多机器学习的基础算法的解释,算是入门吧。

理论 《数据挖掘导论》

《数据挖掘:概念与技术》

《数据挖掘 实用机器学习工具与技术》

关注算法的 《机器学习》 毕竟数据挖掘中好多算法都是来自于机器学习的。

《》

应用 《啤酒与尿布》

《社交网站的数据挖掘与分析》

丁:我觉得还是 “曲线救国”吧,比如搞hadoop运维神马的,了解下ML技术就行;

如果你对数学能力够自信,也可尝试深入ML理论。 很多ML书籍,都只是在讲2000年以前的机器学习。 2000以后的有 kernel learning/simi-surpervised learning/transfer -learning/maniflod learning/sparse /deep learning等。

我感觉ML一般来说只是在谈方法,学习过程中应该用到实处,比如计算机视觉/数据挖掘/计算广告等。

国内做数据挖掘/机器学习的人是什么样的工作状态?http://www.zhihu.com/question/21511226

  1. 遇到实际问题->找解决方法(各种看论文等)->实现demo->小规模线下实验->线上实验->全流量 2. 快速跟进,结合自己业务仔细分析,去除水分(学界paper一般多少有水分,或者不明确的地方,需要继续调研)。吸收进自己的系统中来。 3. 一般是促进作用吧 4. 没有特别的说法,看团队习惯 和 成本的均衡(自己开发的代价 vs 维护开源库的代价)

现在的 IT 行业对数据挖掘-机器学习的职位需求究竟有多大?现在的情况是怎样的?http://www.zhihu.com/question/19584737

机器学习和数据挖掘 当前两大热门的计算机领域 在实际应用中的效果如何,又该如何自学?http://www.zhihu.com/question/20744564

有很多应用啊,特别是很多互联网公司啊,比如QQ,百度什么的,搜索引擎,推荐系统,机器翻译,都是常见的机器学习和数据挖掘在实际中的应用的。

机器学习的理论应该是蛮复杂的,搞不太懂,有好多好多统计学的知识,真复杂,不过实际应用的话,有很多现成的算法可以用的哦。

推荐看一下《集体智慧编程》这本书的,里面有很多机器学习的基础算法的解释,算是入门吧。

如果要深入研究,可以还是要看很多很多很多论文才行的吧,最好是有大牛指导吧。。。

数学不好能学习基础的数据挖掘吗? http://www.zhihu.com/question/21704435

甲:

其实数学这个东西,上学的时候老是在想,TMD,这个东西究竟有什么用,求学这十几年,大部分人也让数学折腾的不轻。

但是!!!!我现在慢慢觉得如果你想在某个技术领域达到一定的高度,往往到最后数学会是你的瓶颈,你会卡在那里,因为大脑里根本没有那个理论骨架支撑了,这个时候你就会感觉到数学的重要性,总之,如果,你有能力,有那个毅力,数学—啃到什么程度算什么程度吧。

说说数据挖掘,这个领域,我个人觉得和数学的关系还是相当大的。

虽然说现在的数据挖掘软件已经把算都封装好了,只需要自己动手点点就OK了,但是就点这几下,也是需要功夫的,这算法里面的参数你都得能明白吧。说到设置这些参数,那就必须首先把算法弄明白,不要求你自己去设计算法,最起码也得看得懂这个算法原理,要不你还真不好下手。

没有数学功底的话,这个只能说很吃力。

举个例子,SVM支持向量机这个算法,你如果想要彻底搞懂的话需要哪些数学知识,我给你大致列举一下: 几个核函数,logistic函数 松弛变量 最小二乘法 核函数特征空间 拉格朗日对偶变量 KKT条件 哈哈,别吓晕了。。。

当然这些知识你都可以从维基条目中找到,但是他不成体系,你只能补了西墙,倒了东墙。时间一长,把你的兴趣倒折腾没了。

我的建议是找一本统计学的书,遇到那个地方,就去查,由点及面,慢慢查漏补缺。

乙:

只是使用工具的话,什么不懂都没问题。如果要设计算法,需要懂一些概率和线性代数。如果要钻研深奥的机器学习基本理论,那需要很好的数学基础了。 大部分人停留在第一个层次已经足够了,算法和技术都是现成的,需要考虑的多是数据和业务。

原文发布于微信公众号 - 大数据挖掘DT数据分析(datadw)

原文发表时间:2016-03-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI研习社

数据科学工作者(Data Scientist) 的日常工作内容包括什么?

众所周知,数据科学是这几年才火起来的概念,而应运而生的数据科学家(data scientist)明显缺乏清晰的录取标准和工作内容。即使在2017年,数据科学家这...

3023
来自专栏机器学习算法与Python学习

进阶深度学习?这里有9个给程序员的建议

这名开发者名叫Alexey Gaziev,是一家社交媒体管理创业公司的CTO,原来是一名Ruby开发者,后来自己学习深度学习。

571
来自专栏机器学习算法与Python学习

一份MIT博士的学习心得,送你入坑机器学习?(可下载PDF)

1216
来自专栏大数据文摘

人工智能的基础--知识分类

23511
来自专栏达观数据

技术分享 | 个性化推荐系统商业化的五大要素

在日前举行的2017 CSDI 中国软件研发管理行业峰会上,包括摩拜单车创始人及CTO夏一平、华为首席系统工程专家徐琦海、京东云、携程等一线互联网企业大数据平台...

36010
来自专栏专知

机器学习模型在工业界真的创造价值了么?

【导读】看到标题你可能会有疑惑,因为我们可能经常听到的是“你在实际应用中如何使用机器学习模型的”。本文正是数据科学家Venkat Raman关于“机器学习在工业...

3446
来自专栏大数据文摘

学界 | MIT深度学习课程全部视频及课件开放

1734
来自专栏量子位

进阶深度学习?这里有9个给程序员的建议

这名开发者名叫Alexey Gaziev,是一家社交媒体管理创业公司的CTO,原来是一名Ruby开发者,后来自己学习深度学习。

1112
来自专栏IT派

麻省博士的机器学习经验干货分享

我的一个朋友最近正要开始人工智能的研究,他问及我在 AI 领域近两年的研究中有哪些经验教训。本文就将介绍这两年来我所学到的经验。其内容涵盖日常生活到 AI 领域...

461
来自专栏新智元

【重磅直播】Jeff Dean领衔谷歌大脑在线答疑16大问题,看好3大方向

【新智元导读】谷歌大脑团队现在正在Reddit上进行他们第二次AMA在线答疑,目前网友留言已经高达490多条。新智元第一时间为你编译整理:谷歌大脑当前的工作重心...

2434

扫码关注云+社区