前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >机器解读知识,从海量的知识中抽取出「元知识」-02

机器解读知识,从海量的知识中抽取出「元知识」-02

作者头像
mixlab
发布2018-12-13 15:37:33
4650
发布2018-12-13 15:37:33
举报

这是mixlab无界社区的成员Jeff的《如何让机器量化知识》系列文章的第02篇。为我们介绍知识的数据化、量化,以及如何把开放的问题转化为封闭式问题让机器解读。

本期主题是「 元知识 」,从海量知识中抽取出5000个元知识,然后以此为元素,组合出各种知识。此过程非常像mixlab之前探索过的颜色谱图的构建:聚类算法+word2vec=传统色彩图谱。

本文作者

ML03 -Jeff - 产品/设计/运营/人工智能/物理

GET人工智能创始人

def extract ( knowledge ) :

「 对世界的理解从定义元知识开始 」

化学中我们常常最小的单位理解为元素,元素的排列组合建立起了我们看到的化合物到现在世界见到的物质。我们从简单量化创造象形文字,大约在公元前32世纪,我们的象形文字在500个左右,到后来公元前5-7世纪有5000个左右。基本相当于我们现在常用的中文汉字,但是随着发展,按理说文字的创造会增加,可是实际上变化非常甚微。因为我们在量化这个世界时候遇到了,我们人类本身不可逾越的记忆力困扰,我们发现一旦超过5000个新字符基本会遗忘很多。

思考:如何定义5000个「元知识」?

「 元知识 」应该是被其他知识大量引用的知识,与其他知识重合度越高,相似的知识越多的,是不是就是「 元知识 」?

这个时候元知识开始起到作用了,这个如同我们标记5000个字符为元素,那么元素与元素可以有效排列组合,这种组合就诞生了我们一个简单的知识。元知识就是最简单的组合,这些组合看似简单却拥有神奇的魔力,如同指数的增加,用单一的模式量化我们人类对世界的理解。

我们认为,「 元知识 」的排列组合,是一个在多维空间里的向量运算过程。

元知识重要在于我们能够用一个词来表达复杂的信息。在中国历史的发展中古文其实就是很可怕,我们在字符元素中的理解那么多解释,晦涩难懂。有了对元知识的创造本身就是在减轻人类对信息的记录和传播。一下子我们在过去2000年通过元知识的排列组合建立了文明和制度,如果没有元知识的组合我们的法律条文基本难以传达。正是这样的组合方式发挥让我们把信息能够有效存储,这个在人类发展中有了决定性作用。也许我们感叹过去文明的发展是如此神奇,但是在今天,我们信息已经不在只是你能够一辈子接触的几百人那么简单,互联网信息发展简化了空间的距离关系,强化了信息的指数交流。这个时候元知识似乎排列的速度更加快,快到我们人类必须进行第二次蜕变。

return

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-11-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 无界社区mixlab 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
对象存储
对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档