机器学习其实只是“皇帝的新衣”

文章来源：企鹅号 - AI前线

策划编辑｜Debra

作者｜Cassie Kozyrkov

译者｜小大非

编辑｜Debra

下面我们来看看机器学习是如何工作的：机器学习使用数据中的模式来标记事物。听起来不可思议? 它的核心概念实际上非常简单。我说“非常”是因为如果有人觉得它很神秘，是因为他们应该还没有完全理解它。

核心概念非常简单。

我们将使用标记葡萄酒是否美味来进行标签示例，并用尽可能简单的方式进行这一过程。如果你不喜欢葡萄酒，这里有一个相同文本的非葡萄酒标签示例版本。

它是如何工作的?

ML 不是魔法，没有数据是不可能学会的，所以我得尝点酒。N 标签表示不好喝。我会亲自品尝所有的酒，愿为科学献身。

数据

首先需要学习。假设我品尝了 50 种葡萄酒 (为了科学!)，并将它们的信息可视化，以供参考。每种葡萄酒都有年份和评价分数，还有我们想要学习的特征：Y 代表美味，N 代表不那么美味。

在我品尝过葡萄酒并将它们的数据记录在电子表格中 (左图) 后，出于礼貌我以一种更友好的方式展示右图所示信息。如果你希望获得数据集术语，比如特性和实例，这里是我的指南。

算法

通过选择学习算法，我们可以得到想要的输出类型。你现在要做的就是把红的和蓝的分开。你能做到吗?

机器学习算法的目的是在你的数据中选择一个最合理的位置设置边界。

如果你这时候想到画一条线，那么恭喜你，你刚刚发明了一种机器学习算法：感知器。确实，这么简单的东西居然用了这么科幻的名字！所以，请不要被机器学习中的术语吓倒，它通常没有它的名字那样让人感到震撼。

你怎么能把红的和蓝的区分开呢?

但是你打算怎样画这条线呢？我想，你肯定知道，一条简单的直线不会是最佳的解决方案。我们的目标是把 Y 和 N 分开，而不是为了画线而画。

机器学习算法的目标是选择最合理位置设置边界，它根据数据点的位置来决定。通常来说，我们通过优化目标函数达到这一效果。

优化

我本来想就“优化”单独写一篇博客的，但现在这样想更简单些：目标函数就像计分棋盘游戏的规则，对它进行优化也就是是找出如何玩，能让你获得最高分数的方法。

目标函数 (损失函数) 就像棋盘游戏的计分系统。这张照片表明在大学的时候我还没有学会优化…为什么我要玩亚洲内陆战策略?

传统上在 ML 中，我们更喜欢棍棒而不是萝卜——分数是对错误程度的标识 (把标签贴在错误的一边)，游戏目的就是尽可能减少惩罚性分数。这就是为什么 ML 中的目标函数通常被称为“损失函数”，其目标是最小化损失。

损失函数就像计分棋盘游戏的规则，优化它就是找出最佳玩法，以使你能得到最好的分数。

现在我们可以回到最开始的问题了，把你的手指水平地对着屏幕并不断画出直线，直到你得到一个零分的结果 (即没有一点能够逃避你充满力量的、愤怒的手指所画出来的线)。

机器学习中的行话通常不像它的名字那样难以理解和实现。

你想出的解决方案应该是这样的:

在最左边的图中，效果最差，没必要去尝试。中间的那个更好，但它仍然不太合适。最右边的方案最佳。

生活的情趣

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货