语义学习-通用类人智能的切入点-实现路径v0.03+视频+解释

CreateAMind

发布于 2018-07-24 14:57:44

3490

发布于 2018-07-24 14:57:44

文章被收录于专栏：CreateAMind

一：概述

二：通俗介绍

三：技术相关模块资源

一：概述：

《思想本质》一书通过语言和认知对人的思想认知等进行了分析，前部分有一个核心观点是(李德毅院士也提过)：语言是思想认知体系的语义索引，语言只是符号，语言表达的含义即语言背后的认知体系是决定语言的根本。任何一个具体的词语，比如桌子，‘桌子’是两个字，可以翻译为其他语言，但是桌子这个概念代表了一种家庭工具，通常是木制的用来放物品的一个工具，这个工具是看得到，有总量，有形状的一个具体物体，这个桌子概念代表了一种具体的认知，‘桌子’这个词本身只是一个词，背后是一个认知概念体系。

语言是语义索引，背后有一个很大的认知体系为基础，认知基础之一来自视觉对现实世界的认识，物理规律，场景的学习理解，跨越长时间的事件的记忆理解及社会互动理解等等。但是需要从基础的基本的语义概念开始学习和实现。

人思考以概念为基础单位，每个概念都是一个语义认知的单位，人智慧高于其他动物就是因为人的抽象思维层次更高，思维活动是在语义认知层面进行思维。所以现在如果做通用人工智能应该从视觉开始，语言其次；首先通过视觉对外部世界达到语义认识，然后在语义认识的基础之上进行思维，进行其他认识活动的构建。

deepmind也有类似思路，见deepmind 做通用人工智能的思路，及理论 | 暑期课程最后一讲：理论神经科学和深度学习理论，且现在的深度网络已经可以学习语义特征，只是技术还非常原始初级。ref beta-vae 超越 infogan的无监督学习框架--效果更新！使用infogan学习可解释的隐变量特征学习-及代码示例（代码和官方有差异）

上面链接展示的语义认知，还仅限于静态图像，视频中跨时间维度的如动作（运动信息向量的神经网络学习 code、ppt、视频ok）等事件抽象 (还没有做到)。

mocogan效果：

rgb到深度的学习

视频内容

感知作为外部信息输入的第一步，作用是抽取核心语义特征属性。高层次的逻辑判断基于底层的基本语义单位的认知元素。比如翻译就是对同一事件的不用语言描述，事件是唯一认知，描述可以用不同语言描述，不同语言的描述都是基于同一事件的多个元素在不同语言里对应的概念名称进行描述。

思考运算基于物体的核心属性推理 ref deepmind 做通用人工智能的思路

拿驾驶来说

驾驶的核心是认路，路的概念是核心，路的方向是驾驶的根本。

路的一个属性是路的延伸方向，驾驶的核心既是控制车辆的前进的方向跟路的延伸方向相同即可，方向盘需要和路的方向一致，如果学习到路的方向这个抽象概念，那方向控制就太容易了，路的方向本质是路延伸的指向。如果能吧路抽象成一条线，而且是把各种不同的路（高速路，山路，街道）统一抽象能很好的泛化，方向盘的控制就解决了。

深度学习的动机与挑战之-流形学习提到道路就是嵌入在三维空间中的一维流形。

GAN对流形的优化提高稳定性：

理论|来聊聊最近很火的WGAN

通俗|令人拍案叫绝的Wasserstein GAN 及代码（WGAN两篇论文的中文详细介绍）

刹车控制的基础是危险的概念，危险的识别和认知就比较复杂了。要认识这个世界的危险，先认识这个世界，认识就是找出事物发展的规律，需要先总结多个事件，至少需要先能描述多个事情，先分门别类的区分多个事件，多个到一个，先能描述一个事件，先重现一个事件，落实到具体技术就是：gan生成视频

gan视频研发正在进行。

认识需要 1 区分不同的属性，是否危险（学习独立事物，独立个体，独立场景，个体的颜色属性，声音属性，触觉属性，气温属性），什么条件能更方便找到食物。什么环境下的什么特征？颜色特征，天气特征（这个太大，天气的其他属性），这些属性会通过drl强化学习关联到reward，出现部分动物迷信的特点。部分动物或鸟类只根据某些颜色等特征进行固定的行为。其实条件反射也类似。更细致的学习这些特征就类似GAN学习到眼镜、笑脸、男性、女性等概念一样。

多传感器的互相监督ref：实现智能的一个思考。一个很清晰的介绍。下面是引用孟晓宇的一段分析。

事例 2:1我玩了一会儿洋娃娃，莎莉文小姐拉起我的手，在手掌上慢慢地拼写“DOLL” 这个词，这个举动让我对手指游戏产生了兴趣，并且模仿在她手上画。当我最后能正确地拼写这个词时，我自豪极了，高兴得脸都涨红了，立即跑下楼去，找到母亲，拼写给她看。

2我并不知道这就是在写字，甚至也不知道世界上有文字这种东西。我不过是依样画葫芦模仿莎莉文老师的动作而已。从此以后，以这种不求甚解的方式，我学会了拼写“针”(PIN)、“杯子”(CUP)、以及“坐”(SIT)、“站”(STAND)、“行”(WALK)这些词。世间万物都有自己的名字，是在老师教了我几个星期以后，我才领悟到的。

3有一天，莎莉文小姐给我一个更大的新洋娃娃，同时也把原来那个布娃娃拿来放在我的膝上，然后在我手上拼写“DOLL”这个词，用意在于告诉我这个大的布娃娃和小布娃娃一样叫做“DOLL”。

4这天上午，我和莎莉文老师为“杯”和“水”这两个字发生了争执。她想让我懂得“杯” 是“杯”，“水”是“水”，而我却把两者混为一谈，“杯”也是“水”，“水”也是“杯”。她没有办法，只好暂时丢开这个问题，重新练习布娃娃“DOLL”这个词。我实在有些不耐烦了，抓起新洋娃娃就往地上摔，把它摔碎了，心中觉得特别痛快。发这种脾气，我既不惭愧，也不悔恨，我对洋娃娃并没有爱。在我的那个寂静而又黑暗的世界里，根本就不会有温柔和同情。莎莉文小姐把可怜的洋娃娃的碎布扫到炉子边，然后把我的帽子递给我，我知道又可以到外面暖和的阳光里去了。

5我们沿着小路散步到井房，房顶上盛开的金银花芬芳扑鼻。莎莉文老师把我的一只手放在喷水口下，一股清凉的水在我手上流过。她在我的另一只手上拼写“WATER”——“水” 字，起先写得很慢，第二遍就写得快一些。我静静地站着，注意她手指的动作。突然间，我恍然大悟，有股神奇的感觉在我脑中激荡，我一下子理解了语言文字的奥秘了，知道了“水” 这个字就是正在我手上流过的这种清凉而奇妙的东西【3】。

首先，我们可以确定:“她在我的另一只手上拼写‘WATER’——‘水’字”这句话说明水字是通过触觉感官传递入大脑中的感官信号。

“把我的一只手放在喷水口下，一股清凉的水在我手上流过”这句话说明“清凉而奇妙的东西”也是通过触觉感官传递向大脑的感官信号。

水字是我们通常意义上的语言符号，所以通过上述事例可以证明存在于人脑中的现实世界基本事物的概念在本质上是:符号+感官信号。

下面将上述事例中的信息处理过程用本文提出的第一个假设来解释。

由事例的第1、2段可知，当时的主人公对“水”还没有正确的认知，通过第3、4、5段叙述的学习过程，主人公才知道水是什么。

可以合理假设:第一次，老师让主人公左手触摸杯子中的水(主人公同时摸到杯子和水)，在右手，老师拼写“CUP”和“WATER”。经过本文中第一个假设提出的信号处理，在主人公的大脑中，将“杯中水”与“CUP”和“WATER”联结记忆。这三个信号联结记忆的意义是: 当主人公大脑再次接收到三个信号中的任何一个信号时，会将其他两个信息也一同提取出来，假如收到信号“CUP”，会同时提取出“WATER”和“杯中水”——这就是事例中提到的“我却把两者混为一谈，‘杯’也是‘水’，‘水’也是‘杯’”。

经过第5段:主人公左手流过一股清凉的水，右手是老师在拼写“WATER”，几次重复后，“WATER”与“清凉的水”这两个储存信号之间的连接通道被拓宽超过一个阈值，使大脑能够摄入信号“WATER”便提取出信号“流过手上的清凉的水”;摄入信号“流过手上的清凉的水”便提取出信号“WATER”。而这个过程的外在表现就是:老师在主人公手上拼写 “WATER”，主人公想到“流过手上的清凉的水”;主人公触摸到水，便知道它的名字叫“WATER”。

综上所述，可以证明人类智能确实拥有本文第一假设提出的能力，并且可以在有且只有该能力的条件下，可以通过与周围环境的交互，建立起关于现实世界基本事物的概念。

另外物体跟踪算法可以为物体的识别提供大量样本进行训练，视觉中连续的物体 https://github.com/msracver/Deep-Feature-Flow

不同场景路对应不同的概念，比如城市中的路概念对应"街道"。街道的概念其实有很多的相关概念：行人、建筑、交通标识、路口等等。为了理解街道的概念需要以上相关概念的学习。当然概念的学习是一个渐进的过程，概念可以分化，细化。

深度学习学习到的概念如果能类似人实时改进学习提高，且不同的概念能及时学习提高，快速适应环境变化，这样才能有更好的适应能力。

考虑概念的层级组合关系，子概念的概念学习可以在不影响架构的情况下，直接提高系统的认知能力。 nvidia最新1024像素训练可以参考，后面有链接。

传统自动驾驶软件如果将各种条件提前做好配置，则失去了不同环境的适应能力。

现存技术障碍：语义学习技术处于非常初级阶段，模型的稳定性，扩展性，训练模型结合其他功能的协调，如和动作控制进行结合，属性的相关操作比如手臂的协调控制指示等，注意力等。

语义学习可以从beta VAE入手 ref 谷歌：beta-vae 可以媲美infogan的无监督学习框架-多图-及代码；

#对deepmind强化学习与通用智能的个人理解；强化学习对好坏利弊的追求适用于任何智能层次的主体；即适用于任何层次的生物，但是类人智能需要在认知上有更高的抽象，所以更好的无监督抽象学习将提高强化学习的效果（比如抽象学习到路的方向）。所以强化学习使用学习到更抽象概念的的GAN模型进行特征提取的辅助能更高效。

二：通俗介绍

为什么视觉重要：

这个链接有丰富的内容：论文解读：主视觉大脑皮层的深度层级模型：机器视觉可以从中学到些什么？

视觉是动物对世界认识极其重要的一个入口，通过视觉，动物对世界进行认识，把世界在自己的大脑中进行建模。

视觉无论从生物的进化，还是从个体生物的发育来看，视觉都是基础，其他的思维很大比例都是构建在视觉基础之上，很多语言都是首先反映普通的视觉对象，抽象词语也大都是从具体的词语抽象而来

智慧的高低是抽象思维的深度，是理解概念的抽象深度，概念最基础的应该是具体的物体的概念，视觉层次的物体形体概念，

人比其他动物更强的是大脑的其他高级功能更多更抽象，视觉神经系统相比其他感觉系统在整个大脑中所占比重也更大。

实现方法的深刻认识：才是改变未来的能力！向大自然已经实现的智能学习：动物的认知神经发育发展过程，这样实现过程才是有一定保证的。

在与世界的互动水平上面反映了地球生物的智能水平，对这个世界认识越深刻那么这个生物越智能。人作为这个世界最高智慧生物，学习人的认知发展不会导致类人智能的研发出现很大的偏差。

想更智能就要对世界有更深入的认识，想真正的认识世界，需要从最底层开始认识这个世界，从最底层开始构建对世界的认知，像一个新生婴儿，甚至更早的小婴儿一样开始认识世界，积累对世界的认识

反观生物对世界认知的发展进化，发育演化，视觉是认识世界的重要基础。

视觉是动物对世界认识极其重要的一个入口，通过视觉，动物对世界进行认识，把世界在自己的大脑中进行建模。视觉神经系统在整个大脑中所占比重很大。

视觉无论从生物的进化，还是从个体生物的发育来看，视觉都是基础（视觉在人的成长中的作用，在人成长中对人智力的发展作用，视觉不好对人的智力影响之大不容置疑。的确生物中高级动物都是视觉认知为主。），其他的思维很大比例都是构建在视觉基础之上，很多语言都是首先反映普通的视觉对象，抽象词语也大都是从具体的词语抽象而来（立规矩的立就是从具体物体的站立而引申到抽象概念规矩的站立。规矩规则这种抽象概念是看不到的，但是能感受到，能理解它的存在，所以立规矩的立就从具体站立的概念延伸到了抽象领域。）

智慧的高低是抽象思维的深度，是理解概念的抽象深度，最基础的概念是具体的物体的概念，视觉中具体物体的形体概念，

三：技术模块资源：

-2 3d数据集有图像和深度！

pix2pix视觉景深学习彩色视频2

-1 commaai 的gan 预测，

0 摄像头输入图像视频的WGAN训练

1 从视频中学习运动信息，

运动信息向量的神经网络学习 code、ppt、视频ok

周末轻松一刻，欣赏完全由程序自己回忆的视频片段

！mocogan 参考上面的图片

2 区分背景与主体；

周末轻松一刻，欣赏完全由程序自己回忆的视频片段自动学习区分主题背景及运动

attribute-disentangled-VAE手动设置主体与背景等论文有涉及。

3 GAN的Dis可以是非常多的子网络分别对整体和局部进行监督学习-需用到2从运动中学到的主体。

wayaai有部分 pyramid层级生成；分类识别网络的多层级集成-每个概念的识别才有对应的每个概念的生成。

https://github.com/255BITS/HyperGAN

pix2pix用到了patchgans；

pytorch-CycleGAN-and-pix2pix/models/networks.py:# Defines the PatchGAN discriminator with the specified arguments.

4 从注意力机制引导学习焦点到特定的主体的局部。结合3自概念的学习

5 学习到的概念的语义标注即语言联系

通过文字生成图片的神经网络技术

文字生成图片的相关，训练过程应该先由简单物体学习再到复杂场景的学习。

语义标注betaVae INFOGan。

6 训练过程的多类别loss函数训练：比如先WGAN训练稳定然后beta-vae训练；不同维度互为监督-视觉听觉信息的互相监督学习：猫狗的叫声和形态听觉视觉互相监督学习。pix2pix cycleGAN 等。

cyclegan 学习深度信息的效果相当于从图像联想到深度，使用记忆联想，陌生环境才需要更实时的雷达深度探测，熟悉环境使用记忆提高效率（运算效率，使用效率）

！vae算法和WGAN算法的深入比较。

！wgan 输出二维是否会类似vae？

！lsgan效果测试

bayesgan https://github.com/andrewgordonwilson/bayesgan

7 模型扩展技术-子结构学习比如人脸的眼镜-鼻子；子结构的自动学习

nvidia 1024图像训练 ref https://github.com/tkarras/progressive_growing_of_gans

8 结合强化学习的特征利用，强化学习使用betaVAE特征。强化学习验证智能学习的水平程度。deepdrive自动驾驶的架构，

！强化学习代码开源强化学习程序架构

9 复合模型，比如yolo9000中使用了很多技巧；模型整合；代码阅读分解。

10 时间序列学习；神经图灵机；GTMM；

11 自监督特征学习： https://mp.weixin.qq.com/s/DOxsLm3bYTNp3-uke0dVTA

12 autoware

13 https://github.com/naturomics/CapsNet-Tensorflow

end.

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2017-11-17，如有侵权请联系 cloudcommunity@tencent.com 删除

人工智能

深度学习

本文分享自 CreateAMind 微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

人工智能

深度学习

登录后参与评论

0 条评论

热度

语义学习-通用类人智能的切入点-实现路径v0.03+视频+解释

语义学习-通用类人智能的切入点-实现路径v0.03+视频+解释

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐