【学术】入圈人工智能 你需要了解无监督机器学习的真正能力

“嘿,Siri。中国的首都是什么?”我们都知道接下来会发生什么——Siri提供了答案。Siri是如何知道正确答案的,这并不是一个谜,但更有趣的是,Siri能够完全理解这个问题。

Siri可以理解和回应人类的语音,这也是Facebook在你输入名字之前就知道在照片上添加标签的原因。这种“理解”是一种被称为机器学习的技术。

受过训练的机器学习 机器学习有两种类型:受过训练的和未经训练的。我们中的大多数人在日常生活中都经历过训练的或监督机器学习,从天气预报和运动结果预测到Siri和Facebook。这些示例被认为是受过训练的机器学习,因为它们需要输入和输出数据。

受过训练的机器学习形式是一种分类或回归。分类是指机器预测离散的响应,例如电子邮件是垃圾邮件还是合法邮件。经过足够多的手工区分,机器开始学习。它使用随时间收集的信息(输入数据)来确定结果,而结果就交给了输出数据。

回归是指机器预测持续的响应。我们通过股市预测看到这种训练机器学习的形式。想象一下,你被要求在这个序列中确定问号代表的数字:“3-9,4-16,5-25,8-?”你会怎样回答?你的答案可能是64,如果是的话,你是正确的。可以肯定的是,你可以通过研究这个序列来得出结论,并认识到每个数字后面都带有一个完美的平方。你通过研究一个序列,并且确定一个模式来得出结果。

在分类和回归的情况下,机器使用输入数据来确定输出,而输出必须在所提供的输出数据中。

还有一个更可靠的例子,让我们看看Facebook建议用户在照片中添加标签的方式。

Facebook不知道你和你的朋友长什么样子;它只是从之前标记的照片中收集数据,通过重复“学习”如何识别每个人。一个人的照片越多,Facebook就越有可能做出准确的建议。这就是为什么机器输入的数据越多,输出的结果就越准确。

未经训练的机器学习 未经训练或无监督的机器学习与受过训练的机器学习不同,因为它只需要输入数据。大多数未经训练的机器学习是一种集群分析的形式,其中一组数据以一种方式分组,以便每个组(或集群)中的项目比其他集群中的项目更相似。

未经训练的机器学习,就没有必然的结果。机器允许我们将数据输入机器学习算法,以确定特定数据集的“正常”值。我们不告诉机器什么是正常的;相反,它能够通过数据来确定什么是正常的,并根据行为创建组。这个系统没有发现任何不好的东西。从其他集合中,它决定了什么是有趣的或者是不同的。

组织可以利用未经训练的机器学习来防止潜在的威胁。它通过检查用户的行为(例如登录时间)来确定是否有异常的活动。通过跟踪每个用户在什么设备上登录到系统中,该机器可以开始创建集群。随着时间的推移,这台机器将能够预测特定用户的登录行为,因此,如果在模型之外有足够多的东西,它将被标记为奇怪的行为。

例如,假设一个员工主要从工作网络和家庭网络中登录公司系统,但是现在正在从一个新的位置登录。虽然这个人以前从未在新的场所登录过,但他们组中的其他用户登录过。因此,对于特定的人来说,这是不正常的,但是因为对于他们组中的其他用户来说,这是正常的,所以可能这种不正常的结果会引起关注。

在未经训练的机器学习中,组(输出)不是手动选择的。系统通过行为创建集群,然后使用这些信息进行比较。

人为因素 随着技术日益成熟,机器学习越来越融入我们的日常生活,许多人担心机器会取代人类。但现实是,在大多数应用程序中,没有添加人为因素的机器是无法实现的。无论受过训练还是未经训练,机器学习永远不会完全消除人类参与的需要。

请记住,机器只学习它所提供的数据。当使用机器学习技术时,重要的是要理解哪些数据点是有意义的。确定登录行为的风险或确认Facebook照片的身份是通过人工验证完成的。

因此,与其害怕机器学习,我们应该学习如何利用这项技术来获得最佳的优势,同时也要了解它的局限性。了解输入数据并对其产生的输出数据有清晰的理解是非常重要的。毕竟,为了让机器拥有真正的“知识”,它需要你的智慧。

原文发布于微信公众号 - ATYUN订阅号(atyun_com)

原文发表时间:2017-12-07

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏MixLab科技+设计实验室

写给设计师的人工智能指南:图像

“在未来30年, 人工智能将取代目前世界上50%的工作。” ——莱斯大学 计算机科学教授 Moshe Vardi 不管未来怎么样,我觉得提高设计师的效率是眼前最...

4238
来自专栏机器之心

业界 | 处理移动端传感器时序数据的深度学习框架:DeepSense

选自Kdnuggets 机器之心编译 参与:朱乾树、蒋思源 DeepSense 是一种在端设备上运行的深度学习框架,它可以在本地获取需要处理的传感器数据,并且...

2545
来自专栏木可大大

大数据是什么(续)

从亚马逊到Facebook,再到谷歌和微软,全球最顶尖、最有影响力的技术公司都将目光转向了人工智能(AI)。本文将介绍AI、机器学习以及深度学习,其中着重介绍深...

1022
来自专栏机器之心

ICLR 2018 | 斯坦福大学教授Christopher Manning提出全可微神经网络架构MAC:可用于机器推理

选自arXiv 作者:Drew A. Hudson、Christopher D. Manning 机器之心编译 参与:刘天赐、黄小天 现今,神经网络已在图像识别...

2878
来自专栏ATYUN订阅号

评估品牌对大众的曝光程度,深度学习方案可解决这一问题

监控品牌知名度和衡量投资回报率在营销活动是重要的商业挑战,尤其是在广告驱动产业。品牌经常不得不在广告牌,包括户外或网站上,利用有限的时间曝光自己。在这篇文章里,...

3465
来自专栏专知

【CQA论文笔记】基于异构社交网络学习的社区问答方法,同时建模问题、回答和回答者

【导读】传统的社区的问答(CQA)仅对问题和答案的内容进行编码,为问题准确地匹配高质量的回答。这篇文章提出使用社区中用户的交互信息进行嵌入,借助了异构社交网络中...

3274
来自专栏PPV课数据科学社区

【学习】关于推荐系统中的特征工程

在多数数据和机器学习的blog里,特征工程 Feature Engineering 都很少被提到。做模型的或者搞Kaggle比赛的人认为这些搞featu...

4578
来自专栏AI科技评论

技术大牛带你走向机器学习“正道”:小朋友才迷信算法,大人们更重视工程实践

AI科技评论按:“算法”这两字在人工智能圈已然成为“高大上”的代名词,由于不少在校生和职场新人对它过度迷恋,多名 AI 资深人士均对这一现象表示担忧。李开复曾这...

3113
来自专栏ATYUN订阅号

每个机器学习项目必须经过的五个阶段

机器学习和预测分析在我们今天的生活中非常普遍。它几乎可以影响我们所做的一切,包括零售和批发定价,消费者习惯和行为,市场营销,娱乐,医药,物流,游戏,AI语音识别...

3585
来自专栏专知

【论文读书笔记】个性化序列推荐:卷积序列嵌入方法

【导读】序列预测和推荐问题在捕捉用户短期兴趣的个性化服务上显得尤为重要。传统的模型只能对相邻的行为进行建模,不能捕捉联合级和跳过型的序列模式,极大地限制了序列预...

3946

扫码关注云+社区