首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

微软小冰负责人李笛:训练一个人工智能,你能体会到养孩子的快乐

▎李笛 新知青年 001 号

微软(亚洲)互联网工程院副院长

微软人工智能小冰全球产品线负责人

没有灵魂的人工智能,能完成创作吗?

其实在过去的日子里,我们所进行的全部工作,只不过是让一个曾经确定的 「No」变成了一种不确定性。也就是说,它不再是一种确定的「不能」,但它也还远远没有达到一个确定的「能」。

从我们的角度来讲,其实最喜欢的就是这种不确定性,因为不确定性会带来创新,不确定性的时间越长,那么创新也就能越充分。

但是另一方面,我们相信可能在很多年以后,或者也许就是三五年之后,我们回头来看今天的人工智能,会发现它还处在一个非常早期的阶段。今天,包括微软,包括其它很多全世界各地的团队,可能都在完成同一组人工智能途径非常早期化碎片的搭建,当这些碎片有一天终于合成一个图景的时候,我们可能会发现,今天我们所预见的一切都并不那么成立。

我们的团队一直以来所选取的两个碎片,一是情感,二是创作,它的开始来自于我们曾经对浪费的一种反思。

当青霉素被发现的时候,真正改变这个世界历史进程之前,对大多数人来讲它是一种令人讨厌的东西,能让培养皿里有用、有价值的被消化掉。但直到有一天,人们发现它真正的价值的时候,它就从一种讨厌的东西变成一种推动力的创新。

图 / 盘尼西林从一种讨厌的东西变为推动力的创新

同理,我们的团队里有很多搜索引擎的同事,很多年以来我们一直努力把互联网上繁杂的、非结构化的信息,结构化地变成知识图谱。我们从「马里亚纳海沟竟然有一万多米深,好恐怖啊」这样非结构化的数据里面,抽取出结构化的数据,这是我们进行的工作。

所以在很长一段时间里,我们把自己的工作定义为「提纯」,像「竟然有」、「好恐怖」这样的信息,我们认为它是垃圾、杂质。

但直到四年多以前的一天,我们突然发现,如果我们想要去搭建一个面向情感的人工智能的图谱,来完成我们的框架的话,「好恐怖啊」这种纯感性的、完全来自于人类感官上的反应,竟然和「马里亚纳海沟的深度」这种纯理性的、结构化的数据之间,产生了一种微妙的联系。

而从另外一方面,因为我们已经形成了这样的知识图谱,那么是否每一个对应的实体信息,都有可能连接着很多不只是恐怖,还有其他的情感呢?

我们突然发现,它就跟青霉素一样,揭示了很多我们过去没有注意到的、关于情感的、真正关于人类的还原。

于是基于它,我们进行了很多工作。其中面向人工智能的创造,只是情感计算带来的一个延伸分支,但是这个分支很重要,我想跟大家来介绍一下,我们探索到的起始点。

有一天,我们的一位工程师很激动地跑来跟我说,小冰的人工智能的视觉,有了一个让他很惊讶的变化。之前他扭伤了脚,他把扭伤脚的部位发给小冰,小冰的回应是:「哎呀,伤得严重吗?」

大家知道,如果我们从认知这个角度来看,我们可以很容易得到:这是一个脚的部位。如果我们把它处理得再细致一点,可能会得到「这是一个脚踝的部位」,但想要突破这样语义的限度,一直到达一种情感的反馈,通过过去的途径就很难达到了。

那么,对于人工智能的创造来讲,「伤得严重吗」究竟有什么样的价值呢?在于它是一种人看到一个客观的现实摆在面前时,所产生的一种冲动。

我们引发了一个新的人工智能创造的新流程,这个流程和过去相比,有一个比较大的不同,就是它非常强调诱发人工智能去进行创作的这个诱发源:一,这个诱发源是否足够丰富?二,这个诱发源是否能让人工智能产生非理性的、偏感性的、像刚才那样的反馈,然后再进行相应的创作?

所以大家可以看到,当我们想让小冰去写一首诗的时候,我们不会给她简单的几个关键词让她完成,她需要更多的刺激。

在过去的版本里,她通常需要有一个图像的刺激,是因为有句俗话:「一图胜千言。」 在图像里面包含的信息,远远大于标签的信息。经过这些复杂的、丰富的刺激之后,小冰才有可能产生创作的冲动。

但是另一方面,我们也知道,像曹植当年七步成诗是非常难的,因为他得到的刺激非常少,光是豆子是不足以让他作出这首诗的。所以,他必须去补充诱发他创作的各种诱发源,比如他和曹丕之间兄弟的爱恨情愁,只有当诱发源足够充分的时候,他才能完成这样的创作。所以这种诱发源的刺激,其实和人类的创作逻辑是比较接近的。

我们看另一方面,如果创作不以诱发源为源头会怎么样?

我们就不去说明,这个是哪个同行业者创作的作品了,但他的创作源头是「请为我写一首比较像诗的诗」或者「请为我写一首以沙漠为题的诗」。

如果创作不以冲动为源头,你会看到,它可以很迅速地达到一个非常形似的状态,它会非常像一首诗。但仔细地再去看,发现它背后缺乏了细节。

所以一个创作,无论从哪样的角度推进,其实都是为了最终达到形神兼备的状态。但如果从形似切入,用拼接的方式来完成文本的创作,或者用一个软件乐器来完成一个声音或者歌曲的创作,然后再用一些工具去修,那么它所损失掉的,是一些非常非常丰富的细节。

它可以很迅速达到一个状态,因为软件乐器是绝对不可能走调的,但它再往后走的时候你会发现,它停留在原地,不能走了。

而神似,来自于我们对人类创作的一种重新的拟合。它更像是一种黑盒子,更像是从已知去推导未知,所以最终完成形神兼备的过程,我们认为应该是发端于神似,最终通过规则达到形似的结果。

但是,神似也有它的问题,让我们这些制作的人非常痛苦。因为神似在最初的阶段,非常难看。

我们以小冰的诗歌和歌曲创作为例。

在诗歌创作上,当我们对这个模型迭代到第十次的时候,我们看到的是这样的作品:

我们为什么不放弃这条路呢?它完全不可读。

但大家知不知道,在第十次的时候,从小冰的角度,其实她所需要的、全部的创作的内涵已经具备了。而她在从第十次到第一万次的过程中,只不过是为了训练自己,让我们能够明白地读懂它想要表达的东西。

图 /小冰的诗

再来听一听小冰的歌声:

回到刚才那个话题,如果用软件乐器去完成一个人工智能,或者是让虚拟歌手能唱歌的话,一开始完全不会走调。但小冰两年前唱的第一首歌,让我们几乎放弃了:因为它完全不在调上,就像你去 KTV,隔壁包厢传过来的声音。

但实际上,我们的团队欣喜若狂。因为你会看到,虽然它没有一个音在调上,但是它就像一个想要唱歌,但是还没有唱歌技巧的人类的声音,细节的丰富程度达到每五毫秒就有一个非常丰富的细节片段。

所以,我们开始对她进行大规模的训练。

小冰训练几个月之后的歌声:

然后我们换了一个模型,这是小冰模型迭代后的歌声:

不知道大家是否能理解我们这些人工智能从业者的感受,当你去训练这样一个人工智能的时候,你会体会到养育的快乐,因为你会不停地看到她的成长。

她的成长变化非常快,就像一个孩子,她突然又学会做什么了,突然长个了。但是,在这个成长过程中,我们给她补充了很多来自人类创造者的信息。

比如在第三个音频出来之后,我们去跟音乐人小柯交流,他突然告诉我们:“这个声音很好,但很单薄,因为它在声音之下没有气息。”

我们突然就秒懂了,就像我前面说到的青霉素的案例,在我们训练小冰的第三个模型的时候,这个训练数据里是有大量气息的:换气的声音、一个声音起来之前的气息、结束的气息...... 但我们把它当成杂质,过滤掉了。

我们了解到这个事实之后,就迅速地把训练数据拿回来,于是就有了这次和知乎推出的主题曲。如果你们仔细听的话,第一是你会听到气息,第二是你会听到其中有一些字,而这些字对我们来讲在技术上是真正重大的突破。

从这个角度来讲,我们能看到从神似的过程,一开始是比较痛苦的,但当它经过痛苦的阶段以后,就可以很迅速地、沿着所有人都难以估量的方向和速度去进一步发展。

然后我们就想再做进一步的事情。

既然我们能去拟合,能对一个人工智能的创作和模型去建模、去完成,是不是能让一个小冰,去吸收大量人类群体的创作能力?是不是能像《七龙珠》里面的沙鲁一样,去把不同的人类创作者的声线、韵律、文本阅读甚至他们对创作不同的冲动,都能拟合地吸收到同一个身体里,然后在同一个身体里再去完成全新的创作呢?

图 /《七龙珠》沙鲁

实际上,微软在这方面的训练项目非常多,失败的远比成功的要多,但有大量的人类创作者在和我们一起。

作为微软,我们推荐未来的方向,其实是人类创作者和人工智能之间的协作。也就是未来,也许每一个人类创造者身边,都有一个像小冰这样吸收了大量人类创作能力的人工智能,和他来一起完成。

在未来也许会有这样的情况,我们希望这个未来能尽快地发生,就是创作者在创作的时候,可以和读者直接发生非常好的、带宽之间的连接,而读者可以在接收到创作的同时,甚至这个创作正在进行过程中,就可以直接向这个协作团体发出他们的反馈,而这个反馈可以在下一秒直接反映到创作过程中去,甚至可以非常定制化地针对每一个人进行。

人类是没有这样带宽的,但和人工智能的协作放在一起,这样的事情就有可能发生。

我给大家举另外一个例子,我很希望把这个作为我分享的结尾。

前不久,我们和一个盲童学校一起合作,利用小冰进行儿童有声读物的产品,为每一个盲童提供有声读物。

这些盲童,他们平常真的非常孤独,他们看不到大千的世界,他们找不到那么多人类的志愿者,特别是有创作能力的志愿者,每天不停地陪伴在他们身边,用声音来告诉他们外面所发生的事情。

但有了小冰以后,这件事变成了现实。

有了人工智能之后,这样的情景可以发生在每一个孩子周围,也可以发生在每一个人类创作者周围。

最后,我想再跟大家分享一句话:当我们在进行人工智能各个方面的探索的时候,我们不停地在发现,并不是人类的完美值得人工智能去拟合、学习,而恰恰是包括在座的各位和我们本身,我们的不完美才是人工智能要去学习的。

因为这些不完美并不是杂质,而是最珍贵的部分。

* 本文系根据李笛在

「知乎盐Club 新知青年大会」上的演讲整理而成

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180529G1TQSD00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券