前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >写给开发者的机器学习指南(五)

写给开发者的机器学习指南(五)

作者头像
哒呵呵
发布2018-08-06 17:51:15
5370
发布2018-08-06 17:51:15
举报
文章被收录于专栏:鸿的学习笔记

Commonpitfalls

本节描述了应用机器学习技术时的一些常见缺陷。这个部分的想法是让你意识到这些陷阱,并帮助你不要走进这些坑。

Overfitting

当在数据上拟合函数时,数据可能包含噪声(例如测量误差)。如果从数据中精确地拟合每个点,则将此噪声合并到模型中。这使得模型能够预测好测试数据,但对未来数据相对较差。

左图显示了如果你绘制了数据和它拟合的函数,这种过拟合将是怎样的,而右图将表示通过数据点的回归线的良好拟合。

当应用回归时,过拟合很可能轻易地产生,但也可以很容易地在Naive Bayes分类中引入。 在回归中,它发生凑整,坏测量和嘈杂数据。 然而,在朴素贝叶斯,它可能是被挑选的特征。一个例子是分类垃圾或非垃圾邮件,同时保留所有停用词。

可以通过执行验证技巧并查看数据的统计特征以及检测和删除异常值来检测过拟合。

Underfitting

当你把你的数据转换成一个模型,但是依然留下(很多)统计数据,这被称为欠拟合。这可能由于各种原因而发生,例如对数据使用错误的回归类型。 如果在数据中有非线性结构,并且应用线性回归,这将导致欠拟合。下面的左图表示欠拟合回归线,而右图表示良好的拟合回归线。

您可以通过绘制数据而获得对底层结构洞察以及使用验证技术(如交叉验证)来防止欠拟合。

Curse ofdimensionality

维度的诅咒是一系列的问题,当您的数据大小低于要用于创建机器学习模型的特征(维度)时,可能会出现这些问题。维度诅咒的样例是矩阵秩不足。当使用普通最小二乘法(OLS)时,底层算法求解线性系统以建立模型。 然而,如果你的列比行多时,为这个系统提出一个唯一解是不可能的。如果是这种情况,最好的解决方案是获得更多的数据点或减少特征集。

Dynamicmachine learning

在你可以找到机器学习的几乎所有文献中,都是生成和验证静态模型,然后用于预测或建议。然而,在实践中,这本身不会成为一个非常好的机器学习应用程序。 这就是为什么在本节中我们将解释如何将静态模型转换为动态模型。 由于(最优)实现取决于您使用的算法,我们将会解释概念,而不是给出一个实际的例子。因为在文本中解释它不会很清楚,我们首先在一个图中呈现整个系统。 然后我们将使用此图解释机器学习和如何使系统动态。

机器学习的基本想法可以被描述为下面几步:

  1. 1. 收集数据
  2. 2. 将数据分为测试集和训练集
  3. 3. 训练模型(在机器学习算法的帮助下)
  4. 4. 使用模型和测试数据额验证方法验证模型
  5. 5. 基于模型做预测

我们所谓的动态机器学习基于的想法如下:你使用你的预测,结合它与用户的反馈,并反馈回你的系统,以改善你的数据集和模型。正如我们刚才说的,我们需要用户反馈,那么如何获得?让我们以Facebook的朋友建议为例。 用户会看到2个选项:“添加好友”或“删除”。基于用户的决定,对该预测有了直接反馈。

所以说,你拥有了这个用户的反馈,那么你可以应用机器学习在你的机器学习程序中以学习给出的反馈。这听起来有点奇怪,但我们将尝试更详细地解释这一点。然而,在我们这样做之前,我们需要做一个免责声明:我们的Facebook朋友推荐系统的描述是一个100%的假设,并没有被Facebook本身确认。 就我们所知,他们的系统是对外界的秘密。

假设这个系统预测基于下列特征:

  1. 1. 大量的共同朋友
  2. 2. 同样的地区
  3. 3. 相同的年纪

然后你可以为Facebook上的每个人计算一个先验值,这个值考虑到他/她是一个好的推荐是你的朋友的概率。 假设您将所有这些预测的结果存储一段时间,然后通过机器学习独立分析这些数据,从而改进您的系统。为了说明这一点,假设我们中的大多数被删除的推荐对特征2具有高的评级,但在1上相对低,则我们可以向预测系统添加权重,使得特征1比特征2更重要。然后, 改进我们的推荐系统。

此外,这个数据集会随着时间而增长,因此我们应该继续使用新数据更新我们的模型,以使预测更准确。但是,如何做到这一点取决于数据的大小和突变率。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2016-11-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 鸿的学习笔记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档