传统机器学习技术概述

笔者邀请您,先思考:

1 您使用哪些传统机器学习算法?

虽然新闻天天提到机器学习、深度学习和人工智能,但这些领域已经存在了几十年。然而,如果你越过自动驾驶汽车和数字助理,你会发现,今天应用的大多数都是传统的。

在本文,传统意味着我们多年来一直在做的事情和是更先进的机器学习的基础。下面,我们将介绍四种被认为是传统机器学习的机器学习技术。

聚类

聚类是一种根据行为和人口统计等相似性在数据中寻找自然分组的技术。这听起来像是使用分析工具或SQL进行的聪明分组,但它远远不止于此。

做聚类的聚类算法有很多,但k均值聚类可能是最常见的。K-means是一种所谓的质心模型,即每一个聚类都由一个中心点表示,算法通过迭代的方法寻找质心的最佳坐标。基本上,坐标是你的属性,所以距离是数据值和质心之间的差,我们想要尽可能小的距离。因为我们只是对数据进行分组,而不是试图预测任何事情,这就叫做无监督学习。

为了说明这一点,假设您拥有一家在线销售咖啡豆的公司。因为所有的数据都是收集的,所以您知道您的客户住在哪里,他们购买什么豆子,他们什么时候购买,以及他们多长时间购买一次。通过聚类,您可能会发现有一部分客户定期(每季度一次、每半年一次或每年一次)购买相同的豆子,并且居住在主要由房主组成的区域。您可能还会发现另一部分客户,他们经常小量购买不同的咖啡豆,并且居住在一个主要由年轻专业人士组成的地区。现在,我将第一部分顾客称为“始终如一的”顾客,因为他们知道自己喜欢什么;将第二部分顾客称为“敢于冒险的”顾客,因为他们在喝咖啡时更具冒险精神。

基于这些机器学习的见解,我们可以做出各种各样的决策。例如,我们可以停止向“一致”的客户发送关于新咖啡豆的产品,因为他们对更改不感兴趣,而是向他们提供订阅,如果他们注册定期送货并提前付款,还可以享受折扣。对于具有“冒险精神”的客户,我们可以围绕新的豆子提供产品服务,也许让他们在其他人都可以使用新豆子之前第一个获得新豆子,从而提高他们的忠诚度

聚类或细分的一个挑战是,为了决定客户属于哪个细分市场,他们需要成为一段时间的客户,这样我们才能首先了解他们的购买行为。这意味着对于新客户,我们不知道他们属于哪个细分市场,直到他们与我们在一起一段时间。 幸运的是,我们可以应用称为分类的机器学习技术来预测分群。

分类

在上面的场景中,我们拿取已映射到细分的所有客户,并根据之前的购买情况删除购买行为周围的数据。 然后,我们将使用细分作为目标变量,并对数据应用机器学习算法,以了解可用于预测细分的模式。 可以使用许多算法来学习,但在高层次上,它们的行为相似。

在训练开始之前,我们将数据分为两部分——训练和测试。训练用于学习,测试用于验证学习。该算法遍历训练数据,以识别可以解释结果的模式或规则。 算法针对已知结果测试基于模式/规则的结果,目标是最小化两者之间的差异或误差。一旦它无法获得较小的错误,它将停止并生成模型。然后,我们在测试数据上使用该模型。如果它的表现同样好,我们可以说模型能够推广并且很可能在新的看不见的数据上表现良好。如果效果不佳,我们需要返回并调整算法设置,添加更多数据或为数据创建其他属性。一旦我们对我们的模型感到满意,我们就可以开始将它应用于我们的新客户。

回归

回归也是一种预测,但是我们预测的不是一个类而是一个数字。使用我们的案例,我们可以使用这种技术来预测客户的生命周期价值、客户的最佳折扣或需求。

它的工作原理与分类相同,我们将数据分为两部分,第一部分用于学习,第二部分用于验证学习。最终的目标也是一样的;我们想把预测值和实际值之间的差减到最小。由于我们预测的是一个连续数,我们总是会得到一个差值,所以我们用置信区间来表示估计的可靠性。(例如,有95%的概率这个数在一个特定的区间内

购物篮分析

市场购物篮分析是一种检测领域内的技术,用于更好地理解客户一起购买的产品。它使用关联规则挖掘来查找数据项之间的关联或关系。

输出通常是一些关联规则。例如:

牛奶=>面包[支持度= 2%,置信度= 60%]

这条规则告诉我们,买牛奶的人也买面包,而支持度和信任度告诉我们,我们所有篮子里2%都含有牛奶和面包,有牛奶的篮子里面60%也有面包。

关联规则挖掘分为两个步骤:

  • 查找所有经常一起购买的常用项集和产品。
  • 使用这些频繁项集来生成规则,描述存在的不同组合以及它们存在的频率。

然后,我们可以使用最有趣的规则来了解哪些产品可以促进其他产品的销售。例如,使用先前的咖啡豆场景,如果我们想要推广特定的咖啡豆,我们可以使用关联规则挖掘来查看与咖啡豆一起购买的其他产品。然后,我们可以专门针对不是我们想要推广的特定咖啡豆而想购买咖啡豆的客户群。

关联规则挖掘也可以用来做我们经常在网上商店看到的“其他客户也买了……”的优惠。

这四种技术只是传统机器学习的基础。正如您所看到的,机器学习不仅可以用于识别图片上的猫和狗,还在许多情况可以提供直接的商业价值。

作者:Mats Stellwall 原文链接: https://www.datascience.com/blog/traditional-machine-learning-techniques

原文发布于微信公众号 - 数据科学与人工智能(DS_AI_shujuren)

原文发表时间:2019-01-30

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

扫码关注云+社区

领取腾讯云代金券