如何准备机器学习工程师的面试?

我之前面试一些公司的机器学习或者数据挖掘工程师的职位。感觉自己准备的不够充分。想了解下一般会问哪些问题,考察哪些方面的东西??

周开拓

~~~~~~~~~~~~~~~

机器学习方面的面试主要分成三个部分: 1. 算法和理论基础 2. 工程实现能力与编码水平 3. 业务理解和思考深度

1. 理论方面,我推荐最经典的一本书《统计学习方法》,这书可能不是最全的,但是讲得最精髓,薄薄一本,适合面试前突击准备。 我认为一些要点是: 统计学习的核心步骤:模型、策略、算法,你应当对logistic、SVM、决策树、KNN及各种聚类方法有深刻的理解。能够随手写出这些算法的核心递归步的伪代码以及他们优化的函数表达式和对偶问题形式。 非统计学习我不太懂,做过复杂网络,但是这个比较深,面试可能很难考到。 数学知识方面,你应当深刻理解矩阵的各种变换,尤其是特征值相关的知识。 算法方面:你应当深刻理解常用的优化方法:梯度下降、牛顿法、各种随机搜索算法(基因、蚁群等等),深刻理解的意思是你要知道梯度下降是用平面来逼近局部,牛顿法是用曲面逼近局部等等。

2. 工程实现能力与编码水平 机器学习从工程实现一般来讲都是某种数据结构上的搜索问题。 你应当深刻理解在1中列出的各种算法对应应该采用的数据结构和对应的搜索方法。比如KNN对应的KD树、如何给图结构设计数据结构?如何将算法map-red化等等。 一般来说要么你会写C,而且会用MPI,要么你懂Hadoop,工程上基本都是在这两个平台实现。实在不济你也学个python吧。

3. 非常令人失望地告诉你尽管机器学习主要会考察1和2 但是实际工作中,算法的先进性对真正业务结果的影响,大概不到30%。当然算法必须要足够快,离线算法最好能在4小时内完成,实时算法我没搞过,要求大概更高。 机器学习大多数场景是搜索、广告、垃圾过滤、安全、推荐系统等等。对业务有深刻的理解对你做出来的系统的结果影响超过70%。这里你没做过实际的项目,是完全不可能有任何体会的,我做过一个推荐系统,没有什么算法上的高大上的改进,主要是业务逻辑的创新,直接就提高了很明显的一个CTR(具体数目不太方便透露,总之很明显就是了)。如果你做过实际的项目,一定要主动说出来,主动让面试官知道,这才是最大最大的加分项目。 最后举个例子,阿里内部机器学习挑战赛,无数碾压答主10000倍的大神参赛。最后冠军没有用任何高大上的算法而是基于对数据和业务的深刻理解和极其细致的特征调优利用非常基本的一个算法夺冠。所以啥都不如真正的实操撸几个生产项目啊。

ff Ale

~~~~~~~~~~~~~

关于考察方面,上面已经讲得很详细了,直接给你贴几个面试数据挖掘实习生经验贴,都是15年崭新的血与泪啊。

百度数据挖掘实习工程师一、二现场面试(深圳)[ http://aleeee.com/baidu_datamining_12.html ]

阿里巴巴电话面试2面总结(数据挖掘,天猫事业部)[ http://aleeee.com/alibaba_phone_interview2_data_mining_tianmao.html ]

百度NLP电话面试总结[ http://aleeee.com/baidu_nlp_phone_interview.html ]

如何准备面试呢?个人经验:

1. 代码算法:基本算法(如快排等,需要熟练掌握) + 剑指Offer(面试经常出相似的题) + LeetCode(剑指Offer的补充,增强动手能力)

2. 机器学习:李航《统计学习方法》(读3遍都不为过啊!) + Coursera Stanford《Machine Learning》(讲得很基础,但是没有告诉你所以然) + Coursera 台湾大学《机器学习高级技法》(里面详解了SVM,Ensemble等模型的推导,优劣)

3. 请详细地回忆自己做过的项目,项目用了什么算法,为什么用它,有什么优缺点等。如果没项目经验可以参加天猫大数据比赛和Kaggle比赛。

4. 教你如何迅速秒杀掉:99%的海量数据处理面试题。[ http://blog.csdn.net/v_july_v/article/details/7382693 ](基本每次都有一道海量数据处理的面试题)

原文发布于微信公众号 - 机器学习算法与Python学习(guodongwei1991)

原文发表时间:2017-04-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏携程技术中心

干货 | 助理来也胡一川:深度学习在智能助理中的应用

作者简介 胡一川,来也联合创始人和CTO。来也专注于智能对话技术,让每个人拥有助理。此前,胡一川联合创立了影视推荐引擎"今晚看啥"并被百度收购,后加入百度任资深...

3927
来自专栏数据的力量

深入浅出谈数据挖掘

1798
来自专栏大数据文摘

职场 | 如何让你的数据直觉更敏锐

对于有大局意识的人来说,这无疑是一个很好的创业机会和职业选择。要想抓住职业机会,你需要超强的“码力”和深入的专业知识。

790
来自专栏机器学习算法与Python学习

爆料 | 解析阿里妈妈如何将深度学习应用在广告、推荐及搜索业务

3336
来自专栏专知

35页自然语言处理深度学习综述,带你纵览NLP知识全貌

【导读】随着深度学习技术的蓬勃发展,自然语言处理领域也是日新月异,本文为大家带来了最新的基于深度学习的自然语言处理综述,希望能够帮助大家了解NLP领域中的最新进...

4992
来自专栏奇点大数据

统计、概率和数据挖掘

统计、概率、数据挖掘,这几个词经常伴随出现,尤其是统计和概率两个概念,几乎就像自然界的伴生矿一样分不了家,有很多出版社都出版过叫做《概率统计》的书籍。 我们这本...

2474
来自专栏机器之心

机器学习中的数学,这是一份新鲜出炉的热门草稿

作者:Marc Peter Deisenroth、A Aldo Faisal、Cheng Soon Ong

1294
来自专栏AI科技大本营的专栏

传统程序员转型AI做错了吗?

近年来,随着 Google 的 AlphaGo 打败韩国围棋棋手李世乭之后,机器学习尤其是深度学习的热潮席卷了整个 IT 界。所有的互联网公司,尤其是 Goog...

1444
来自专栏人工智能快报

Hinton取得新进展,以更少数据识别图像

谷歌人工智能先驱Geoffrey Hinton公布了AI技术进展,可提高电脑正确识别图像的速度和较少的数据依赖。 Google公司公布了关于其人工智能先驱Geo...

3166
来自专栏人工智能头条

面试了8家公司,他们问了我这些机器学习题目......

2536

扫码关注云+社区

领取腾讯云代金券