什么是机器学习?我们也许可以阅读机器学习的权威定义,实际上,机器学习由解决的问题来定义。因此,理解机器学习的最好的方法就是看一些例题。
在这篇文章中,我们首先会先看一些在现实中常见并且容易理解的机器学习例题。接下来,我们将研究机器学习问题的标准分类(命名系统),并学习如何将问题确定为这些标准案例之一。这值得我们去做,因为一旦我们知道我们所面临的问题的类型,这可以让我们考虑所需的数据以及要尝试的算法类型。
机器学习的10个例题
机器学习的问题在生活中比比皆是。它们是您每天在网络上或桌面上所使用的软件的核心或难点的构成部分。想一想,例如,微博上的“推荐关注”的建议以及苹果Siri的语音识别。
下面是十个机器学习的例子,涵括了机器学习的全部研究内容。
- 垃圾邮件识别:给定在收件箱中的邮件,可识别哪些是垃圾邮件而哪些不是。建立这个问题的模型可以允许程序将非垃圾邮件留在收件箱中,而将垃圾邮件移动到垃圾邮件文件夹中。这个例子我们都应该挺熟悉的。
- 信用卡欺诈识别:给定单月客户信用卡交易记录,识别出哪些是客户进行的交易而哪些不是。具有这个确认模型的程序可以退还那些欺诈交易中的钱款。
- 数字识别:给定在信封上的手写邮政编码,识别每个手写的数字。这个问题的模型则可以允许计算机程序阅读和理解手写的邮政编码并且能够按地理区域分类信封。
- 语音识别:给定用户的一段语音,识别出用户提出的具体请求。这个问题的模型将允许一个程序理解并试图实现这个请求。例如,iPhone上的Siri有这个能力。
- 人脸识别:给定数百张数码照片的数码相册,识别包含给定人物的照片。这个决策过程的模型将允许程序按照人来组合照片集。有些相机或像iPhoto这样的软件有这个功能。
照片由mr. ‘sto 授权提供 基于Attribution-ShareAlike 2.0通用知识共享许可授权
- 产品推荐:给定客户的购买历史和网站的大量的产品库存,确定客户感兴趣并可能购买的产品。这个决策过程的模型将允许程序向顾客提出建议并激励产品购买。例如,亚马逊/淘宝有这个能力。还有想一下,Facebook,GooglePlus和LinkedIn也会在用户注册后推荐用户与您联系。
- 医疗诊断:给定患者的症状和匿名患者记录数据库,预测患者是否有可能患病。这个决策问题的模型可以被程序用来为医疗专业人员提供决策支持。
- 股票交易:给定股票当前和过去的价格走势,决定股票是应该买入,持有还是卖出。这个决策问题的模型可以为财务分析师提供决策支持。
- 客户细分:给定用户在试用期间的行为模式和所有用户的过去行为,确定那些也许会为产品付费的用户,以及那些不打算付费的用户。这个决策问题的模型可以被程序用来实现触发客户干预,可以劝说客户尽早或更好地升级为付费产品。
- 形状识别:给定用户在触摸屏和有已知形状的数据库的基础上绘制形状,确定用户试图绘制的形状。这个决策问题的模型将允许程序显示用户绘制的那个形状的柏拉图版本来制作更清晰的图表。而iPhone的应用程序Instaviz能做到这一点。
以上这10个例子很好地定义了机器学习问题的应有的样子。这是以前有过的例子的集合,有一个决策需要建模。一个企业或领域的利益则会使这个决策模型有效地自动地被做出来。
其中一些问题是人工智能领域中最难的一些问题,比如自然语言处理和机器视觉(人类可以轻易做的事)。其他问题虽说仍是困难的,但是却是机器学习的典型例子,例如垃圾邮件识别和信用卡欺诈识别。
回想一下上周您与在线和离线软件的一些互动。我相信您可以很容易地猜到另外十到二十个你直接或间接使用的机器学习的例子。
机器学习问题的类型
通过上面的机器学习例题表,我相信您已经开始看到相似之处。这是一项对您来说很有价值的技能,因为善于提取问题的本质将有助于您有效地思考需要的数据以及您应该尝试的算法类型。
机器学习中有一些常见的问题类。而下面的问题类是我们在进行机器学习时涉及的大多数问题的原型集合。
- 分类:数据被标记,表示它们被分配成一个类,例如垃圾邮件/非垃圾邮件或欺诈/非欺诈。所建模的决策是将标签分配给新的未标记的数据片段。这可以被认为是一个判别问题,为群体之间的差异或相似之处建模。
- 回归:数据被标记为真实值(例如浮点)而不是标签。容易理解的例子是时间序列数据,如随着时间的推移的股票的价格,所建模的决策是预测新的不可预测数据的值。
- 聚类:数据没有标记,但是可以根据数据中的自然结构的相似性和其他度量来分组。在上面的列表中的一个例子就是机器根据没有名字的人脸来分类照片,而人类必须根据名字分配照片集合,如Mac上的iPhoto。
- 规则提取:数据被用作提取命题规则的基础(前提/后果 或者 如果-然后)。这样的规则意味着这些方法发现数据中的属性之间的统计学上的支持关系,虽然不一定有向的,不一定涉及正在被预测的事物。例如,发现了购买啤酒和尿布之间的关系 (这是数据挖掘的民间结果,是否真实并不清楚,这只是对愿望和机会的说明)。
当您认为一个问题是一个机器学习问题(一个决策问题需要用数据建模的时候)时,请考虑一下您可以将它概括为哪种类型的问题,客户或要求所要求和工作的结果是什么类型的结果。
资源
很少有资源提供真实情况下的机器学习问题列表。他们可能存在,但我找不到它们。不过,我仍然发现一些很酷的资源,也许您会用得上:
- The Annual “Humies” Awards:这些奖励列表是给予算法的,是由算法得出的结果能与人类得出的结果相竞争的奖励。这是令人兴奋的,因为这些算法只能从数据或费用函数计算,而它们竟然能够具有足够的创造性和丰富的创造力来侵犯专利权。这是很让人震惊的!
- The AI Effect:人工智能程序一旦达到足够好的效果,就不再被视为人工智能,否则它只是技术,在每天的事物中得到应用。而这些应用同样适用于机器学习。
- AI-Complete:指的是存在在人工智能中的非常困难的问题,如果解决了这个问题,那这个AI将会是一个强AI的例子(人工智能在科幻小说中被设想为真AI)。计算机视觉和自然语言处理的问题都是AI-Complete问题的例子,当然它也可能被视为机器学习问题的特定领域类别。
- 2013年机器学习十大问题是什么?这个Quora问题有一些很好的答案,并列出了一些实用机器学习问题的大类。
我们已经回顾了生活中的机器学习问题的一些常见例子以及机器学习问题类的分类。现在我们有信心评价某个问题是否是一个机器学习问题,并可以从问题描述中摘取元素,并确定它是一个分类,回归,聚类还是规则提取类型的问题。
您知道一些更真实更实用的机器学习问题吗?留下评论,分享你的想法。