实用的机器学习问题

什么是机器学习?我们也许可以阅读机器学习的权威定义,实际上,机器学习由解决的问题来定义。因此,理解机器学习的最好的方法就是看一些例题。

在这篇文章中,我们首先会先看一些在现实中常见并且容易理解的机器学习例题。接下来,我们将研究机器学习问题的标准分类(命名系统),并学习如何将问题确定为这些标准案例之一。这值得我们去做,因为一旦我们知道我们所面临的问题的类型,这可以让我们考虑所需的数据以及要尝试的算法类型。

机器学习的10个例题

机器学习的问题在生活中比比皆是。它们是您每天在网络上或桌面上所使用的软件的核心或难点的构成部分。想一想,例如,微博上的“推荐关注”的建议以及苹果Siri的语音识别。

下面是十个机器学习的例子,涵括了机器学习的全部研究内容。

  • 垃圾邮件识别:给定在收件箱中的邮件,可识别哪些是垃圾邮件而哪些不是。建立这个问题的模型可以允许程序将非垃圾邮件留在收件箱中,而将垃圾邮件移动到垃圾邮件文件夹中。这个例子我们都应该挺熟悉的。
  • 信用卡欺诈识别:给定单月客户信用卡交易记录,识别出哪些是客户进行的交易而哪些不是。具有这个确认模型的程序可以退还那些欺诈交易中的钱款。
  • 数字识别:给定在信封上的手写邮政编码,识别每个手写的数字。这个问题的模型则可以允许计算机程序阅读和理解手写的邮政编码并且能够按地理区域分类信封。
  • 语音识别:给定用户的一段语音,识别出用户提出的具体请求。这个问题的模型将允许一个程序理解并试图实现这个请求。例如,iPhone上的Siri有这个能力。
  • 人脸识别:给定数百张数码照片的数码相册,识别包含给定人物的照片。这个决策过程的模型将允许程序按照人来组合照片集。有些相机或像iPhoto这样的软件有这个功能。

照片中的人脸识别示例

照片由mr. ‘sto 授权提供 基于Attribution-ShareAlike 2.0通用知识共享许可授权

  • 产品推荐:给定客户的购买历史和网站的大量的产品库存,确定客户感兴趣并可能购买的产品。这个决策过程的模型将允许程序向顾客提出建议并激励产品购买。例如,亚马逊/淘宝有这个能力。还有想一下,Facebook,GooglePlus和LinkedIn也会在用户注册后推荐用户与您联系。
  • 医疗诊断:给定患者的症状和匿名患者记录数据库,预测患者是否有可能患病。这个决策问题的模型可以被程序用来为医疗专业人员提供决策支持。
  • 股票交易:给定股票当前和过去的价格走势,决定股票是应该买入,持有还是卖出。这个决策问题的模型可以为财务分析师提供决策支持。
  • 客户细分:给定用户在试用期间的行为模式和所有用户的过去行为,确定那些也许会为产品付费的用户,以及那些不打算付费的用户。这个决策问题的模型可以被程序用来实现触发客户干预,可以劝说客户尽早或更好地升级为付费产品。
  • 形状识别:给定用户在触摸屏和有已知形状的数据库的基础上绘制形状,确定用户试图绘制的形状。这个决策问题的模型将允许程序显示用户绘制的那个形状的柏拉图版本来制作更清晰的图表。而iPhone的应用程序Instaviz能做到这一点。

以上这10个例子很好地定义了机器学习问题的应有的样子。这是以前有过的例子的集合,有一个决策需要建模。一个企业或领域的利益则会使这个决策模型有效地自动地被做出来。

其中一些问题是人工智能领域中最难的一些问题,比如自然语言处理和机器视觉(人类可以轻易做的事)。其他问题虽说仍是困难的,但是却是机器学习的典型例子,例如垃圾邮件识别和信用卡欺诈识别。

回想一下上周您与在线和离线软件的一些互动。我相信您可以很容易地猜到另外十到二十个你直接或间接使用的机器学习的例子。

机器学习问题的类型

通过上面的机器学习例题表,我相信您已经开始看到相似之处。这是一项对您来说很有价值的技能,因为善于提取问题的本质将有助于您有效地思考需要的数据以及您应该尝试的算法类型。

机器学习中有一些常见的问题类。而下面的问题类是我们在进行机器学习时涉及的大多数问题的原型集合。

  • 分类:数据被标记,表示它们被分配成一个类,例如垃圾邮件/非垃圾邮件或欺诈/非欺诈。所建模的决策是将标签分配给新的未标记的数据片段。这可以被认为是一个判别问题,为群体之间的差异或相似之处建模。
  • 回归:数据被标记为真实值(例如浮点)而不是标签。容易理解的例子是时间序列数据,如随着时间的推移的股票的价格,所建模的决策是预测新的不可预测数据的值。
  • 聚类:数据没有标记,但是可以根据数据中的自然结构的相似性和其他度量来分组。在上面的列表中的一个例子就是机器根据没有名字的人脸来分类照片,而人类必须根据名字分配照片集合,如Mac上的iPhoto。
  • 规则提取:数据被用作提取命题规则的基础(前提/后果 或者 如果-然后)。这样的规则意味着这些方法发现数据中的属性之间的统计学上的支持关系,虽然不一定有向的,不一定涉及正在被预测的事物。例如,发现了购买啤酒和尿布之间的关系 (这是数据挖掘的民间结果,是否真实并不清楚,这只是对愿望和机会的说明)。

当您认为一个问题是一个机器学习问题(一个决策问题需要用数据建模的时候)时,请考虑一下您可以将它概括为哪种类型的问题,客户或要求所要求和工作的结果是什么类型的结果。

资源

很少有资源提供真实情况下的机器学习问题列表。他们可能存在,但我找不到它们。不过,我仍然发现一些很酷的资源,也许您会用得上:

  • The Annual “Humies” Awards:这些奖励列表是给予算法的,是由算法得出的结果能与人类得出的结果相竞争的奖励。这是令人兴奋的,因为这些算法只能从数据或费用函数计算,而它们竟然能够具有足够的创造性和丰富的创造力来侵犯专利权。这是很让人震惊的!
  • The AI Effect:人工智能程序一旦达到足够好的效果,就不再被视为人工智能,否则它只是技术,在每天的事物中得到应用。而这些应用同样适用于机器学习。
  • AI-Complete:指的是存在在人工智能中的非常困难的问题,如果解决了这个问题,那这个AI将会是一个强AI的例子(人工智能在科幻小说中被设想为真AI)。计算机视觉和自然语言处理的问题都是AI-Complete问题的例子,当然它也可能被视为机器学习问题的特定领域类别。
  • 2013年机器学习十大问题是什么?这个Quora问题有一些很好的答案,并列出了一些实用机器学习问题的大类。

我们已经回顾了生活中的机器学习问题的一些常见例子以及机器学习问题类的分类。现在我们有信心评价某个问题是否是一个机器学习问题,并可以从问题描述中摘取元素,并确定它是一个分类,回归,聚类还是规则提取类型的问题。

您知道一些更真实更实用的机器学习问题吗?留下评论,分享你的想法。

本文的版权归 Bon 所有,如需转载请联系作者。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏华章科技

干货 | 阿里小蜜-电商领域的智能助理技术实践

在全球人工智能领域不断发展的今天,包括Google、Facebook、Microsoft、Amazon、Apple等互联公司相继推出了自己的智能私人助理和机器人...

2752
来自专栏人工智能快报

谷歌增强了人工智能的逻辑推理能力

被称为神经网络的人工智能系统可以识别图像、翻译语言,甚至掌握古老的围棋游戏。但它们处理复杂的数据或变量之间关系的能力依然很有限,这使得它们还无法胜任需要逻辑推理...

3628
来自专栏CDA数据分析师

一名合格的机器学习工程师需要具备的5项基本技能,你都get了吗?

你是否对机器学习充满兴趣呢?其实到目前为止,每天有越来越多的工程师开始将好奇的目光转向机器学习领域。实际上,你会发现现在没有哪一个领域比机器学习能引起更多的曝光...

1939
来自专栏AI研习社

谷歌语义理解框架SyntaxNet革命性升级

在 AI 语义理解领域,谷歌一直不遗余力地进行研发投入。 对于普通用户而言,2015 年发布的基于深度神经网络的谷歌智能邮件回复,2016 年上线的神经机器翻译...

3746
来自专栏AI科技评论

如何评价百度刚刚开源的Paddle平台?

百度今天开源了其深度学习平台Paddle,引发了挺多人工智能领域开发者的兴趣,包括一些之前一直在Tensorflow和Caffe上练手的开发者。不过鉴于深度学习...

3994
来自专栏机器之心

独家|专访深度好奇创始人吕正东:通向理解之路

机器之心原创 作者:虞喵喵 「理解应该是对应于某一个特定场景下的语用」。 在斯坦福大学计算机科学与语言学教授 Christopher Manning 2015 ...

3274
来自专栏量子位

通过照片内容搜图,Facebook这个新技能是如何实现的?

现在,你可以在Facebook上通过描述照片中的内容来搜索图片了:手工添加的图片标题和标签都不再重要。 这个功能的背后,是Facebook计算机视觉平台Lum...

76710
来自专栏量子位

纯新手入门机器/深度学习自学指南(附一个月速成方案)

准备用三个月入门,和想要一个月速成,肯定是截然不同的路径。当然我建议大家稳扎稳打,至少可以拿出五个月的时间来学好机器学习的基础知识。

1101
来自专栏AI科技大本营的专栏

DeepMind 研发出类脑 AI 神经元,具备超强空间导航能力

Google 旗下人工智能公司 DeepMind 的研究人员最近在《自然》杂志上发表论文,宣布同伦敦大学学院的神经生理学家合作,研发出了能够模拟哺乳动物大脑中网...

1101
来自专栏数据派THU

送你9个常用的人脸数据库(附链接、报告)

由FERET项目创建,此图像集包含大量的人脸图像,并且每幅图中均只有一个人脸。该集中,同一个人的照片有不同表情、光照、姿态和年龄的变化。包含1万多张多姿态和光照...

3.2K5

扫码关注云+社区

领取腾讯云代金券