BAT机器学习/深度学习面试300题

推荐阅读时间:5min~8min 文章内容: 机器学习/深度学习面试题

机器学习这么火,BAT等一线互联网大厂当然是最大的需求方,想要成为 BAT 的机器学习工程师吗,快来看看这些面试题吧。

1. 谈谈LR 和 SVM 的联系与区别

相同点:

  • LR 和 SVM 都可以处理分类问题,且一般都用于处理线性二分类问题(在改进的情况下可以处理多分类问题)
  • 两个方法都可以增加不同的正则化项,如 l1、 l2 等等。所以在很多实验中,两种算法的结果是很接近的

不同点:

  • LR 是参数模型, SVM 是非参数模型。
  • 从目标函数来看,区别在于逻辑回归采用的是 logistical loss, SVM 采用的是 hinge loss,这两个损失函数的目的都是增加对分类影响较大的数据点的权重,减少与分类关系较小的数据点的权重。
  • SVM 的处理方法是只考虑 support vectors,也就是和分类最相关的少数点,去学习分类器。而逻辑回归通过非线性映射,大大减小了离分类平面较远的点的权重,相对提升了与分类最相关的数据点的权重。
  • 逻辑回归相对来说模型更简单,好理解,特别是大规模线性分类时比较方便。而 SVM 的理解和优化相对来说复杂一些, SVM 转化为对偶问题后,分类只需要计算与少数几个支持向量的距离,这个在进行复杂核函数计算时优势很明显,能够大大简化模型和计算。
  • logic 能做的 svm 能做,但可能在准确率上有问题, svm 能做的 logic 有的做不了。

2. 为什么 xgboost 要用泰勒展开,优势在哪里

xgboost 使用了一阶和二阶偏导, 二阶导数有利于梯度下降的更快更准. 使用泰勒展开取得函数做自变量的二阶导数形式, 可以在不选定损失函数具体形式的情况下, 仅仅依靠输入数据的值就可以进行叶子分裂优化计算, 本质上也就把损失函数的选取和模型算法优化/参数选择分开了. 这种去耦合增加了xgboost 的适用性, 使得它按需选取损失函数, 可以用于分类, 也可以用于回归。

3. LSTM 结构推导,为什么比 RNN 好

推导 forget gate, input gate, cell state, hidden information 等的变化;因为 LSTM 有进有出且当前的cell informaton 是通过 input gate 控制之后叠加的, RNN 是叠乘,因此 LSTM 可以防止梯度消失或者爆炸。

4. 为什么朴素贝叶斯如此“朴素”

因为它假定所有的特征在数据集中的作用是同样重要和独立的。正如我们所知,这个假设在现实世界中是很不真实的,因此,说朴素贝叶斯真的很“朴素”。

5. 简单说下有监督学习和无监督学习的区别

有 监 督 学 习 : 对 具 有 标 记 的 训 练 样 本 进 行 学 习 , 以 尽 可 能 对 训 练 样 本 集 外 的 数 据 进 行 分 类 预 测 。(LR,SVM,BP,RF,GBDT)

无监督学习:对未标记的样本进行训练学习,比发现这些样本中的结构知识。(KMeans,DL)

因为篇幅限制,剩下的面试题内容请在后台回复关键词“BAT面试题”领取。

作者:无邪,个人博客:脑洞大开,专注于机器学习研究。

原文发布于微信公众号 - 脑洞科技栈(naodong-open)

原文发表时间:2018-03-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能

BP神经网络-ANN发展

Dear junqiang: Hello 今天是“一天一文”的第18天。继续关于AI里面最重要的神经网络的知识分享。 昨天的文章说了关于ANN的基础 —— 单层...

3869
来自专栏专知

\b【AAAI2018】通过动态融合方式学习多模态词表示,中科院自动化所宗成庆老师团队最新工作

【导读】基于文本来学习词的语义表示, 特别是基于共现的工作, 如Word2Vec能够很好的处理大多数任务, 然而, 这些语义表示和人的语义表示系统有很大出入. ...

3976
来自专栏专知

【重温经典】吴恩达机器学习课程学习笔记七:Logistic回归

【导读】前一段时间,专知内容组推出了春节充电系列:李宏毅2017机器学习课程学习笔记,反响热烈,由此可见,大家对人工智能、机器学习的系列课程非常感兴趣,近期,专...

5269
来自专栏老秦求学

Deep Learning综述[上]

2027
来自专栏企鹅号快讯

1.深度学习概念简介

简介 1. 什么是神经网络? 1.1 单个神经元网络 ? 如上图所示,我们想通过房子的面积来预测房子的价格。用单个神经网络来解决这个问题如下所示: ? 输入x为...

2868
来自专栏AI研习社

干货:图像比赛的通用套路有哪些?Kaggle比赛金牌团队为你解答

AI研习社按: Kaggle 是全世界首屈一指的数据科学、机器学习开发者社区和竞赛平台。日前,中山大学CIS实验室的研二学生刘思聪为我们带来了一场精彩的分享。他...

4226
来自专栏机器之心

从浅层模型到深度模型:概览机器学习优化算法

选自arxiv 机器之心编译 参与:乾树、蒋思源 学习算法一直以来是机器学习能根据数据学到知识的核心技术。而好的优化算法可以大大提高学习速度,加快算法的收敛速度...

3927
来自专栏机器之心

学界 | DeepMind提出对比预测编码,通过预测未来学习高级表征

作者:Aaron van den Oord、Yazhe Li、Oriol Vinyals

1204
来自专栏AI科技评论

干货 | CVPR精彩论文解读:对当下主流CNN物体检测器的对比评测

AI科技评论按:虽然CVPR 2017已经落下帷幕,但对精彩论文的解读还在继续。下文是Momenta高级研发工程师李俊对此次大会收录的Speed/Accurac...

3946
来自专栏奇点大数据

机器学习算法在自动驾驶汽车中扮演怎样的角色

随着电子控制单元传感器数据处理这项技术的继续发展,人们也越来越期待运用更优化的机器学习,来完成更多新挑战。未来的潜在应用场景包括:通过内外部传感器(包括激光雷达...

1481

扫码关注云+社区

领取腾讯云代金券