机器学习的7个步骤

原创

夜雨飘零

修改于 2020-06-11 10:15:48

5K0

机器学习是当前比较热门的领域，作为人工智能（AI）的一个分支，它基本上是一种算法或模型，可以通过“学习”来改善自身，因此变得越来越精通执行其任务。机器学习的应用正在迅速发展，已迅速成为医学，电子商务，银行等不同领域不可或缺的一部分。今天，我们将把机器学习分解为一个过程，并了解从开始到实现的所有步骤，以及其实际应用。

机器学习的过程将在下面列出的7个步骤中进行细分，为了说明每个步骤的重要性和功能，我们将使用一个简单模型的示例。该模型将负责区分苹果和橙子。机器学习能够胜任复杂任务。但是，为了以简单的方式解释该过程，采用一个基本示例来解释相关概念。

步骤1：收集数据

为了开发我们的机器学习模型，我们的第一步将是收集可以用来区分的数据，比如我们可以通过不同的参数将水果分为香蕉和橘子。为了简单起见，我们仅采用模型要利用的2个功能来执行其操作。第一个特征是水果本身的颜色，第二个特征是水果的形状。使用这特征，我们希望我们的模型可以准确地区分两种水果。

颜色	形状	香蕉还是橘子
黄色	条形	香蕉
橙色	圆形	橘子

需要一种方法来获取两个特征的数据。例如，为了收集有关颜色的数据，我们可以使用光谱仪，对于形状数据，我们可以使用水果的图片。为了收集数据，我们将尝试获取尽可能多的不同类型的香蕉和橘子，以便为我们创建拥有更多特征的数据集。为此，我们网络上市场上获取更香蕉和橘子的数据集。

收集数据的步骤是机器学习过程的基础。选择错误的特征或专注于数据集的分类种类的错误可能会使模型完全失效。这就是为什么当收集数据时必须考虑必要的原因的原因，因为在此阶段所犯的错误只会随着我们进行到后续阶段而扩大。

步骤2：准备数据

一旦我们收集了这两个类别的数据，下一步就是准备数据。此阶段的重点是识别并最小化我们针对这两个类别的数据集中的任何潜在偏差。首先，我们将随机打乱两个水果的数据顺序。这是因为我们不希望订单与模型的选择有任何关系。此外，我们将检查我们的数据集是否偏向某个特定水果。这又将有助于识别和纠正潜在的偏偏差，因为这将意味着该模型将能够正确地识别一种水果，但可能会与另一种水果抗争。

数据准备的另一个主要组成部分是将数据集分为两部分。较大的部分（约80％）用于训练模型，而较小的部分（约20％）用于评估。这很重要，因为在训练和评估中使用相同的数据集将无法对模型在现实世界中的表现进行公平的评估。除了拆分数据外，还需要采取其他步骤来完善数据集。这可能包括删除重复的条目，丢弃不正确的数据等。

为模型准备充分的数据可以提高其效率。它可以帮助减少模型的盲点，从而提高预测的准确性。因此，有意义的是审议和检查数据集，以便对其进行微调以产生更好和有意义的结果。

步骤3：选择模型

一旦完成了以数据为中心的步骤，选择模型类型就是我们的下一个行动方案。由数据科学家开发的各种现有模型可以用于不同目的。这些模型在设计时考虑了不同的目标。例如，某些模型更适合处理文本，而另一种模型可能更适合处理图像。关于我们的模型，简单的线性回归模型适用于区分水果。在这种情况下，水果的类型将是我们的因变量，而水果的颜色和水果的形状将是两个预测变量或自变量。

在我们的示例中，模型选择非常简单。在更复杂的情况下，我们需要做出与预期结果相匹配的选择。可以在3大类中探索机器学习模型的选项。第一类是监督学习模型。在这样的模型中，结果是已知的，因此我们不断改进模型本身，直到我们的输出达到所需的精度水平。为我们的水果模型选择的线性回归模型是监督学习的一个例子。如果结果未知，我们需要进行分类，则使用第二类，即无监督学习。无监督学习的示例包括K-means和Apriori算法。第三类是强化学习，它着重于学习根据反复试验做出更好的决策。它们通常用于商业环境，马尔可夫的决策过程就是一个例子。

步骤4：培训

机器学习过程的核心是模型的训练。大量的“学习”在此阶段完成。在这里，我们使用分配给训练的数据集的一部分来教我们的模型来区分这两种成果。如果我们以数学术语查看模型，则输入（即我们的两个特征）将具有系数。这些系数称为特征权重。也将涉及常数或y截距。这称为模型的偏差。确定其值的过程是反复试验的。最初，我们为它们选择随机值并提供输入。将获得的输出与实际输出进行比较，并通过尝试不同的权重和偏差值将差异最小化。

培训需要耐心和实验。了解将在其中实施模型的领域也很有用。例如，如果将机器学习模型用于识别保险公司的高风险客户，则由于可以在迭代过程中进行更多有根据的猜测，因此有关保险行业运作方式的知识将加快培训过程。如果该模型开始成功地发挥作用，那么培训将证明是非常有益的。这相当于孩子学习骑自行车的时间。最初，他们可能会摔倒多次，但过了一会儿，他们会更好地掌握过程，并能够在骑自行车时对不同情况做出更好的反应。

步骤5：评估

经过训练的模型，需要对其进行测试，以查看它在现实环境中是否可以正常运行。这就是为什么将用于评估而创建的数据集的一部分用于检查模型的熟练程度的原因。这会将模型置于一个场景中，在这种情况下，它会遇到不属于训练内容的情况。在我们的案例中，这可能意味着尝试识别对模型完全陌生的苹果或橙子的类型。但是，通过训练，该模型应具有足够的能力来推断信息并确定该水果是香蕉还是橙子。

在商业应用中，评估变得非常重要。评估使数据科学家可以检查他们是否设定了要实现的目标。如果结果不令人满意，则需要重新检查之前的步骤，以便找出并找出模型性能不佳的根本原因。如果评估未正确完成，则该模型可能无法出色地实现其所需的商业目的。这可能意味着设计和销售模型的公司可能会失去与客户的良好信誉。这也可能会损害公司的声誉，因为在信任公司关于机器学习模型的敏锐度时，未来的客户可能会犹豫不决。因此，评估模型对于避免上述不良影响至关重要。

步骤6：超参数调整

如果评估成功，则进入超参数调整步骤。该步骤试图改善在评估步骤中获得的积极成果。对于我们的示例，我们将看看是否可以使我们的模型在识别苹果和橙子方面更加出色。我们可以采用不同的方法来改进模型。其中之一是重新训练步骤，并使用训练数据集的多次扫描来训练模型。这可能会导致更高的准确性，因为训练的持续时间越长，暴露越多，并改善了模型的质量。解决该问题的另一种方法是优化提供给模型的初始值。随机初始值通常会产生不佳结果，因为它们会通过反复试验逐渐完善。然而，如果我们可以提出更好的初始值，或者使用分布而不是值来初始化模型，那么我们的结果可能会更好。为了完善模型，我们还可以使用其他参数，但是该过程比逻辑过程更直观，因此没有确定的方法。

自然地，出现一个问题，当模型实现其目标时，为什么我们首先需要进行超参数调整？这可以通过查看基于机器学习的服务提供商的竞争性质来回答。客户寻求机器学习模型来解决各自的问题时，可以从多个选项中进行选择。但是，它们更有可能被产生最准确结果的方法所吸引。这就是为什么要确保机器学习模型在商业上取得成功，超参数调整是必不可少的步骤。

步骤7：预测

机器学习过程的最后一步是预测。在此阶段，我们认为模型已准备就绪，可以用于实际应用。我们的水果模型现在应该能够回答给定水果是苹果还是橙子的问题。该模型不受人为干扰，并根据其数据集和训练得出自己的结论。该模型所面临的挑战仍然是在不同的相关场景下其性能是否能胜过或至少与人类的判断相匹配。

预测步骤是最终用户在各自行业中使用机器学习模型时看到的内容。这一步凸显了为什么许多人认为机器学习是各个行业的未来。复杂但执行良好的机器学习模型可以改善各自所有者的决策过程。人在做出决定时只能处理一定数量的数据和相关因素。另一方面，机器学习模型可以处理和链接大量数据。这些链接使模型可以获得独特的见解，如果采用通常的手动方法，这些见解可能不会被发现。结果，宝贵的人力资源从处理信息然后做出决策的负担中解放出来。