前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >第一篇:模仿游戏

第一篇:模仿游戏

作者头像
企鹅号小编
发布2018-01-09 16:26:36
6300
发布2018-01-09 16:26:36
举报
文章被收录于专栏:企鹅号快讯

有一部科幻电影叫《超体》,主题是人类一直以来的一个传说,“人类目前只开发了大脑10%的潜能。如果大脑潜能被进一步开发,那么人类将拥有更强的能力。”具体有哪些能力这里就不表了,因为这只是一个传说。在这部电影上映后不久,科学家们就出来纠正,其实我们一直都100%地在运用我们的大脑。在整个自然里,大脑,作为我们的肉体凡胎的一部分,和我们的四肢、躯干一样平庸,并没有隐藏着什么神性的光芒。

但人类就是一个面对自然不依不饶的物种,他们在诸多预言、小说、电影的“指引”下不断地拓展自己的外延。比如说“飞行”,人类正是从模仿鸟类的翅膀开始,不断进步,直到今天的大飞机甚至航天飞机。而包括”飞行“在内,我们几乎所有的成功案例都有以下几个特征:

从模仿开始。人类总是从自然界获得灵感,开始探索能否”像鸟一样飞翔“,“鱼一样潜泳”

所有的模仿都是为了超越,人类的目标绝不仅仅是像鸟一样飞翔,而是比鸟飞得更远更高

一切是模仿,又不是模仿。莱特兄弟并不完全清楚鸟飞行的原理,而到今天大飞机和航天飞机的飞行原理也和鸟类飞行不完全一样

所以我们今天看人工智能。毫无疑问,这是一个获取思维能力的技术方向,它的目标是超越人类的思维能力。他从模仿人脑开始,但他并不需要完全清楚人脑的运作方式。他只是需要一个起点,就像翅膀基于飞行一样。而这个起点,就是“并行计算”。

我来解释一下什么是并行计算:

这三张图是我从搜索引擎上找到的三张杨幂的图片。大概率你也从第一眼就已经认出来了。那么我的问题是,你是怎么在第一眼就知道的?

你可能开始整理你的思维脉络。比如说,先去回忆是否以前就看过这些照片或者这些照片属于看过的某一张照片的一部分。如果不是见过的,那么就先滤掉背景,专注看人。看眉毛、看眼睛、鼻梁、嘴、身形……好,那我再追问两个问题:第一,这个认人的各个因素有没有一个固定的先后顺序?第二,各个因素有没有固定的权重。

我们再来做个试验。这次我们想象杨幂从图一里的动作变成图二里的动作。是不是很简单?但其实我们又完成了一次并行计算。“牵一发而动全身”就是这两次并行计算当中共通的感受。

说到这里,你可能会问,既然有并行计算,那么有没有串行计算?为什么串行计算不是人工智能的起点?我们来做个实验,5分钟之内,从1写到500。成功了以后,3分钟之内,再写一次。你肯定会发现,你需要尝试好几遍才能成功。但是可能这一次成功了,再试一次,又不行了。好,接下来我们用Excel表格来完成这件事情。别说3分钟,操作熟练一些的话,1分钟也是小菜一点。

所以,我这里想表达的是,人脑也会串行计算。其实,在心理学领域,我们会用两个更熟悉的词来替代并行计算和串行计算,那就是形象思维和抽象思维。而从1946年第一台通用计算机被发明到现在,计算机已经在抽象思维领域远远超过了人脑。所以,到了今天,人工智能所要解决的是提高了抽象思维以后的那部分,也就是形象思维的效率?

那么提高形象思维的意义又在哪里呢?我们来看几个实例:

人类智力允许人类拥有稳定社交网络的人数是148人,四舍五入就是150人。但我们大部分人的微信联系人都超过了这个数。

对于任何一个事物,如果超过三个维度,我们就无法把他画出来。但是现代物理学说,十维空间才包括了一切的一切。

我们在很多问题上难以抉择,往往是因为“太复杂,需要权衡的因素”太多。而我们解决这些问题的方法,往往是“把问题简化了”

从这三个例子体现了我们形象思维的天花板,也体现出突破这个天花板的迫切性。因为我们每个人的世界因为互联网的发展而在变得更复杂了。我们和更多的人联系在一起,我们接收到了更多了信息,我们的行为产生的影响力更加宽广,这些最后导致了我们在做决策的时候需要考虑的因素更多,于是“太复杂,难以权衡”。

所以,从这一点我们可以延伸出去讲到人工智能的目的。就像我们开篇聊到的那样,人的每次外延拓展并不是为了要“一样好”,而是“更好”。所以,人工智能的终点或者重点,绝不仅仅是“善解人意”,它一定会比人本身更擅长做决策。至于这最终是人类都福祉还是灾祸,我们以后另开一篇来讨论。

我们回到主题,谈谈如何来实现“并行计算”或者“形象思维”。我们来看下题,不卖关子,答案是16:

我们分析下做题的步骤。首先是识图形,鞋子,小孩,哨子,带着哨子的小孩,两个哨子和一个哨子。其次是找到关联性,三双鞋等于三十,一双鞋和两个带着哨子的小孩等于二十,一个带着哨子的小孩加五个哨子等于十三,最后做计算。好,现在我们考虑怎么让人工智能做这道题。

首先,计算机的能力在于数学计算。所以我们需要把识图形、找关联、做计算三个步骤全部以数学计算的形式得出答案。由于最后一步本身就是一次计算,所以我们把关注点放在第一和第二步。

第一步,识图形。这里的关键是要把图形转化成数据,然后计算机来判断是鞋还是小孩,小孩有没有带哨子,有几个哨子。我们借助两个物理上的特性,第一任何颜色都可以由红绿蓝三原色组成,第二足够密集的不同颜色点阵(也就是我们常说的像素)可以组成一副图片。

图一还是杨幂那张图,它的像素是50乘以70,也就是说3500个像素点以70行50依次排列而成。图二至图四分别是图一的红图、绿图和蓝图,也就是图二至图四叠加在一起就是图一。因此,我们可以把描述图一拆分为描述图二至图四三张图,最后我们把三张图叠加在一起即可。

我们再看图二,图二是由3500(50乘以70)个不同强度的红色点组成。我们假设这个不同强度有256档,分别以0到255表示,255意味着最强的红色,那么0就意味着强度为0的红色,也就是黑色。(所以在红绿蓝三张图上都有黑色,那是因为那里的颜色强度接近为0。)那也就是说,图二中的每一个点都可以用0到255中的一个数字来代表,因此我们得到以下阵列:

上图就是图二的数字化形式,那么图三图四也依此可行。已知一张图是一个二维(50乘以70)的阵列,那么三张图合并就是一个三维阵列(50乘以70乘以3)。在数学上,我们把二维阵列称之为“矩阵(Matrix)”。但同时,不论是一维、二维、三维或者是更高维度,我们都可以叫做“张量(Tensor)“。这就是为什么谷歌的人工智能架构,叫做“Tensor Flow”,其人工智能芯片叫做“TPU(Tensor Processing Unit)”的原因。

当然,通过这么一大段的描述,我们终于把图形转换成了一个三维的张量。在这道题里,计算机只要比较张量和张量是否相同就行了。我们看到,因为初始的信息已经转换成了张量(有时候我们也会说成是矩阵),那么接下来我们所有的计算都是张量计算(矩阵计算)。而张量计算和矩阵计算有一个特质就是“牵一发而动全身”,这一点非常类似人脑的“并行计算”。请注意这一点,因为以后我们讲的芯片就是围绕这个点展开的。

你可能还会问,如果今天的问题不是认识一张图呢?一段视频呢或音频呢?首先,视频由图像和音频来组成,而每个图像和音频拥有一个维度就是时间。我们在一个个时间点切开,看固定的一个时间,又是一张图像和一个音。图像我们已经讲过如何分解,是一个三维的张量,加上时间就是四维。声音作为一种波,在任何一个时间点上,有其振幅、频率和相位,加上时间也是四维。其实,任何事物,只要我们可以找到可以描述他的维度,我们就可以把它数据化成张量。

终于要讲第二步了。其实第二步会比第一步要远远复杂。但我们的目标在于对人工智能有一些科普性质的探索,所以不会像第一步那样详细地展开。我们会刻意地在时下比较流行的几个词语停下来多聊两句。

第二步是找关联性,或者找规律,或者叫做“归纳”。这是我们人脑非常惯用的一种方法,但我们并不知道深层次这个方法的行程原理到底是怎么样的。但没关系,就如之前所说,人类的模仿不需要知道原理。

一个婴儿从诞生开始,就不断地在归纳学习周边的环境。在心理学上,有一个非常著名的词叫做“口欲期”,就是指婴儿为了探索,会把所有的东西都咬一下,通过咬这个动作,他开始构建他对于这个世界的认知。那么其实,在找关联这件事情上,计算机也在构建它的认知,这时我们就碰到了我们常听说的一个词“机器学习”。所以,机器学习就是指计算“构建认知”的过程。咬是婴儿在口欲期构建认知的方法,所以计算机在“机器学习”的时候也会有他的方法,其中我们听说最多的就是“线性回归”和“神经网络”。我们就来讲一下这两个方法。

线性回归。这个方法非常容易理解,我们有一些输入和对应的输出,然后我们尝试找到一个函数来尝试概括输入和输出的关系。举一个一元函数的例子,如下图。

这就是一个典型的线性回归。红色的点就是许多组输入和输出(自变量和应变量),蓝色的线就是得到的函数曲线。当然,这是最基础的线性回归。图上的线性回归里,自变量是一个,在实际的应用中,可以是很多个。图中的自变量是在一个数,应用中可以是“是否”或者“属于哪个类目”等等,得到的曲线也不一定是直线。我们还听说过的一个词叫做逻辑回归,其实也是线性回归的一种演化。

我们整理一下这里我们讲到的几个热门词语:最大的一个大类是机器学习,机器学习里包括神经网络,而深度学习又是神经网络的一种。我们也会听到一个说法,说线性回归不是机器学习,不是人工智能。其实不然,线性回归唯一的问题就是太low。但其实在实际应用上,现在反而远比神经网络要成熟。我有位朋友在美国一个非常大牌的量化基金,他们的算法核心到目前也不过是线性回归。各位有兴趣的话,还可以看TensorFlow官方教程里有一套只用了线性回归的示范代码,这套代码的左右是当给出性别、年龄、国籍、职业、教育背景等信息以后,计算机来判断这个人的年收入有没有超过五万美金。目前这套代码使用了48000组数据,达到了83%以上的准确率。

当然,从趋势上来看,神经网络还是更有前景。在《模仿游戏》这部电影里面,图灵和他的数学家同事们一起破解德军的密码。图灵说,德军用一台机器编写了密码,但我们用人和纸笔来破解密码,这是不对的,只有机器才能破解机器编写的密码。相比于线性回归,神经网络更像这样一台机器。这也是“线性回归不算是人工智能”,这一说法的来源。它只是在表述上比较极端,但也有一些道理。

好了,啰里啰嗦也讲了不少了。这篇文章更像是行业科普,但却给之后的话题提供了所有的理论基础。还是回顾一下,我们在这里讲到了人工智能今天崛起的背景和意义以及人工智能在算法上的原理。下一次,我们会讲人工智能的硬件基础,芯片。我们会讲到为什么在这个领域拥有几乎垄断地位的是一家深受游戏发烧友们喜爱的公司,而不是传统意义上的Intel、高通等公司,也不是他的竞争对手AMD。咱们下次再见。

(部分图片来自网络)

本文来自企鹅号 - 全球大搜罗媒体

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文来自企鹅号 - 全球大搜罗媒体

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
图像处理
图像处理基于腾讯云深度学习等人工智能技术,提供综合性的图像优化处理服务,包括图像质量评估、图像清晰度增强、图像智能裁剪等。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档