开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

社区首页 >专栏 >语义学习-通用智能的切入点-实现路径v0.01

语义学习-通用智能的切入点-实现路径v0.01

CreateAMind

发布于 2018-07-24 17:58:25

4970

发布于 2018-07-24 17:58:25

举报

文章被收录于专栏：CreateAMind

2017.2.11 v2：增加流形WGAN相关内容；增加通用智能路径v0.01。

一：概述

二：通俗介绍

三：技术路径

一：概述：

《思想本质》一书通过语言和认知对人的思想认知等进行了分析，前部分有一个核心观点是(李德毅院士也提过)：语言是认知的语义索引，语言只是符号，语言表达的含义即语言背后的认知体系是决定语言的根本。

语言是语义索引，背后有一个很大的认知体系为基础，认知基础之一来自视觉对现实世界的认识，物理规律，场景的学习理解，长时间维度时间的记忆理解及社会互动理解。

语义认知单位是人类思维的基本元素，人思考的概念，基础概念都是一个基本的语义单位，人智慧高于其他动物就是因为人的抽象思维层次更高，思维活动是在语义认知层面进行思维。所以现在如果做通用人工智能应该从视觉开始，语言其次；首先通过视觉对外部世界达到语义认识，然后在语义认识的基础之上进行思维，进行其他认识活动的构建。

deepmind也有类似思路，见deepmind 做通用人工智能的思路，及理论 | 暑期课程最后一讲：理论神经科学和深度学习理论，且现在的深度网络已经可以学习语义特征，只是技术还非常原始初级。ref谷歌：beta-vae 可以媲美infogan的无监督学习框架-多图-及代码；使用infogan学习可解释的隐变量特征学习-及代码示例（代码和官方有差异）

上面链接展示的语义认知，还仅限于静态图像，视频中跨时间维度的如动作等事件抽象demo 运动信息向量的神经网络学习 code、ppt、视频ok(还没有做到)。链接里面展示的学习到的抽象语义包括：人脸微笑发型等、椅子宽窄的概念属性，mnist数字粗细的概念属性。

感知作为外部信息输入的第一步，作用是抽取核心语义特征属性。高层次的逻辑判断基于底层的基本语义单位的认知元素。比如翻译就是对同一事件的不用语言描述，事件是唯一认知，描述可以用不同语言描述，不同语言的描述都是基于同一事件的多个元素的认知对应。

思考运算基于物体的核心属性推理 ref deepmind 做通用人工智能的思路

拿驾驶来说

驾驶的核心是认路，路的概念是核心，路的方向是驾驶的根本。

路的一个属性是路的延伸方向，驾驶的核心既是控制车辆的前进的方向跟路的延伸方向相同即可，暂不考虑其他状况。

不同场景路对应不同的概念，比如城市中的路概念对应"街道"。街道的概念其实有很多的相关概念：行人、建筑、交通标识、路口等等。为了理解街道的概念需要以上相关概念的学习。当然概念的学习是一个渐进的过程，概念可以分化，细化。

深度学习学习到的概念如果能类似人实时改进学习提高，且不同的概念能及时学习提高，快速适应环境变化，这样才能有更好的适应能力。

考虑概念的层级组合关系，子概念的概念学习可以在不影响架构的情况下，直接提高系统的认知能力。

传统自动驾驶软件如果将各种条件提前做好配置，则失去了不同环境的适应能力。

深度学习的动机与挑战之-流形学习提到道路就是嵌入在三维空间中的一维流形。

GAN对流形的优化提高稳定性：

理论|来聊聊最近很火的WGAN

通俗|令人拍案叫绝的Wasserstein GAN 及代码（WGAN两篇论文的中文详细介绍）

现存技术障碍：语义学习技术处于非常初级阶段，模型的稳定性，扩展性，训练模型结合其他功能的协调，如和动作控制进行结合，属性的相关操作比如手臂的协调控制指示等，注意力等。

语义学习可以从beta VAE入手 ref 谷歌：beta-vae 可以媲美infogan的无监督学习框架-多图-及代码；

二：通俗介绍

为什么视觉重要：

论文解读：主视觉大脑皮层的深度层级模型：机器视觉可以从中学到些什么？

视觉是动物对世界认识极其重要的一个入口，通过视觉，动物对世界进行认识，把世界在自己的大脑中进行建模。

视觉无论从生物的进化，还是从个体生物的发育来看，视觉都是基础，其他的思维很大比例都是构建在视觉基础之上，很多语言都是首先反映普通的视觉对象，抽象词语也大都是从具体的词语抽象而来

智慧的高低是抽象思维的深度，是理解概念的抽象深度，概念最基础的应该是具体的物体的概念，视觉层次的物体形体概念，

人比其他动物更强的是大脑的其他高级功能更多更抽象，视觉神经系统相比其他感觉系统在整个大脑中所占比重也更大。

动物视觉，人类视觉思维，人类高级思维

实现方法的深刻认识：才是改变未来的能力！向大自然已经实现的智能学习：动物的认知神经发育发展过程，这样实现过程才是有一定保证的。

在与世界的互动水平上面反映了地球生物的智能水平，对这个世界认识越深刻那么这个生物越智能。人作为这个世界最高智慧生物，学习人的认知发展不会导致类人智能的研发出现很大的偏差。

想更智能就要对世界有更深入的认识，想真正的认识世界，需要从最底层开始认识这个世界，从最底层开始构建对世界的认知，像一个新生婴儿，甚至更早的小婴儿一样开始认识世界，积累对世界的认识

反观生物对世界认知的发展进化，发育演化，视觉是认识世界的重要基础。

视觉是动物对世界认识极其重要的一个入口，通过视觉，动物对世界进行认识，把世界在自己的大脑中进行建模。视觉神经系统在整个大脑中所占比重很大。

视觉无论从生物的进化，还是从个体生物的发育来看，视觉都是基础，其他的思维很大比例都是构建在视觉基础之上，很多语言都是首先反映普通的视觉对象，抽象词语也大都是从具体的词语抽象而来

智慧的高低是抽象思维的深度，是理解概念的抽象深度，最基础的概念是具体的物体的概念，视觉中具体物体的形体概念，

三：技术路径：

0 摄像头输入图像视频的GAN训练

1 从视频中学习运动信息，

运动信息向量的神经网络学习 code、ppt、视频ok

周末轻松一刻，欣赏完全由程序自己回忆的视频片段

2 区分背景与主体；

周末轻松一刻，欣赏完全由程序自己回忆的视频片段自动学习区分主题背景及运动

attribute-disentangled-VAE手动设置主体与背景等论文有涉及。

3 GAN的Dis可以是非常多的子网络分别对整体和局部进行监督学习-需用到2从运动中学到的主体。

wayaai有部分 pyramid层级生成；分类识别网络的多层级集成-每个概念的识别才有对应的每个概念的生成。

https://github.com/255BITS/HyperGAN

4 从注意力机制引导学习焦点到特定的主体的局部。结合3自概念的学习

5 学习到的概念的语义标注即语言联系

通过文字生成图片的神经网络技术

文字生成图片的相关，训练过程应该先由简单物体学习再到复杂场景的学习。

6 训练过程的多类别loss函数训练：比如先WGAN训练稳定然后beta-vae训练；不同维度互为监督-视觉听觉信息的互相监督学习：猫狗的叫声和形态听觉视觉互相监督学习。

7 模型扩展技术-子结构学习比如人脸的眼镜-鼻子；子结构的自动学习

end.

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2017-02-13，如有侵权请联系 cloudcommunity@tencent.com 删除

无监督学习

本文分享自 CreateAMind 微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

无监督学习

评论

登录后参与评论

0 条评论

热度

最新

LV.