重温五条AI基础规律

雷锋网 AI 科技评论按:如果每个人都有足够的时间和热诚,并乐意去大学拿个 AI 学位,那你大概就不会读到这篇博客了。 虽说 AI 的工作方式挺神秘的,但在处理技术问题的时候,以下这五个 AI 原则应该可以帮你规避一些错误。它们对于当代的基于统计学习的机器学习(Machine Learning)系统,尤其是深度学习(Deep Learning)系统尤其适用。 这篇来自 eloquent.ai 博客的文章所说的,总结起来就是这 5 条 AI 原则: 利用未曾见过的数据评估AI系统更多数据可以带来更好的模型有效数据的价值远远超过无效数据从一个简单的基线开始人工智能并不是魔法给大家一个小小的忠告——通过对机器学习的基本理解,这篇文章将更有意义。 之前的另一篇文章(https://blog.eloquent.ai/2018/08/30/machine-learning-for-executives/)对这些基础知识有所解释。当然了,不是说这篇文章你非读不可,但是读了的话肯定会对你后面的理解更有帮助!(也欢迎大家阅读雷锋网 AI 科技评论的其它文章) 1. 利用未曾见过的数据评估AI系统 在上一篇文章中,我们介绍了如何构建分类器以将图像标记为猫(绿色圆圈)或狗(蓝色三角形)。在将我们的训练数据转换为向量之后,我们得到了下面的图表,其中红线表示我们的“决策边界”(即将训练数据转换为向量后,这条“边界线”就将图像划分为猫和狗)。

显然,图中的决策边界错误地将一只猫(绿色圆形)标记标记成了狗(蓝色三角形),即遗漏了一个训练个样本。那么,是什么让训练算法没有选择下图中的红线作为决策边界呢?

在这两种情况下,我们对训练集进行分类都得到了同样的准确率——两中决策边界都标错了一个例子。但是如图示,当我们在数据中加上一只未出现过的猫时,只有左图的决策边界会正确地预测这个点为猫:

分类器可以在用来训练它的数据集上工作得很顺利,但它未必适用于训练的时候没有见过的数据。此外,即使分类器在特定类型的输入(例如,室内场景中的猫)上工作良好,它对于相同任务的不同数据(例如,室外场景中的猫)也可能无法很好地工作。 盲目地购买 AI 系统而不对相关的未知信息进行测试,可能会付出很大的代价。一种测试未知数据的实用方法是——先保留一部分数据不提供给开发人工智能系统的企业或个人,然后自己通过生成的系统运行这些保留数据。最不济,也得保证你能自己试用才行。 2. 更多数据可以带来更好的模型 如果给你下面的训练数据集,你会把决策边界画在哪里?

你想的可能没错——许多决策边界可以准确地分割这些数据。 虽然下面的每个假设决策边界都正确地分割了数据,但它们彼此之间的差别很大,正如我们上面所看到的,其中一些可能会在目前尚未见到的数据(也就是你真正关心的数据)上更糟糕:

从这个小数据集中,我们不知道这些彼此不同的决策边界中,究竟哪一个最准确地代表了现实世界。缺乏数据会导致不确定性,因此我们得收集更多数据点,并将其添加到初始图表中,则可得到下图:

额外的数据能帮助我们大幅缩小选择范围,立即画出绿色和蓝色间的决策边界,因此决策边界会是如下所示:

当机器学习模型表现异常时,潜在的问题通常是模型没有经过足够或正确的数据训练。尽管更多的数据几乎总是有帮助,但需要注意,数据越多可能得到的回报却在减少。当我们将第一个图的数据加倍时,准确度明显增加。但是基于该图表,如果将数据再加倍,则精度的提高不会有之前那么大。准确度随着训练数据的数量大致呈对数增长,因此从 1k 到 10k 个样本可能比从 10k 到 20k 个对准确性产生更大的影响。 对于我个人来说,这一条特别忌讳,尤其是对于预算紧张的创业公司:你们经常给ML工程师支付数高额薪水,但也请确保提供足够的预算和时间来让他们仔细收集数据。 3. 有效数据的价值远远超过无效数据 在上面的例子中,虽说有更多的数据会对训练有所帮助,但前提是它们足够准确才行。还是前面的例子,在收集了附加数据之后,可以得到一个这样的图形和一个决策边界,如下所示:

但是,如果这些新数据点中的一些其实是被错误标记了,而真是情况是下面这样的呢?

我们要注意,虽然这些标记错误的点与第一个图中的点坐标相同,但它们代表的意义已经改变。这导致了一个完全不同的决策边界:

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181102A0VGK800?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券