微软小冰作词又作曲,网友:要出道的节奏吗?

三百六十行,行行出状元。在众多行业中有这么一个行业迎来了一位“新人”——微软小冰。

作为一款人工智能伴侣虚拟机器人的小冰,去了歌唱界。不仅发表个人单曲,还参与作词作曲,经历了五次迭代的微软小冰,现在已经成为一个会作曲会唱歌的全能型艺人。

▌作曲写诗写词样样精通

2017 年,微软出版了一本由小冰原创的诗集《 阳光失了玻璃窗》,这是第一部 100% 由人工智能创造的诗集。在写诗之后,小冰还创作不同类型的文体,填词,唱歌,发表个人单曲等。

据介绍,小冰创作的基本原理有两大块,一块是他需要学习前人的作品,包括上千位诗人的诗集、上千万行歌词等等。第一步,训练深度神经网络的模型;第二步,有了一定的模型之后,需要给她一个触发源,工程师们称为创作冲动。

创作冲动有不同的方式,给出一张图片或文字,基于图片里的元素或文字内容的理解去创作,例如知乎上的海量回答,学习知乎预料大数据作为触发源,基于一个训练好的模型,生成对应的歌词。

值得注意的是,在小冰发布的单曲中,还听到有模拟真人呼吸的声音,据微软(亚洲)互联网工程院微软小冰首席语音科学家栾剑表示,主要是因为考虑到大众的习惯,没有换气可能会让人听着感觉很累,因为有些时候发烧友会跟着哼唱,没有呼吸换气的地方,会觉得不太舒服。

在技术上实现呼吸换气主要分为两个模块,第一个模块,首先要预测什么地方会有呼吸的声音,第二个模块,怎么样把呼吸的声音生成出来。

关于第一个,人类有两种呼吸,一个是这个歌到了一个休止符,在语意的地方需要一个停顿;还有一种,这首歌可能节奏很快,中间没有任何的停顿,这时候人类的歌手必须要在某个地方换一下气,不然的话,人类的肺活量支撑不了。

关于换气的声音,其实换气的声音有点类似于人类的声音,它就是一种没有声带振荡的声音,我们可以把他作一种中文语言系统以外的一种新的发言的因素去建模。

▌最早实现全双工对话

在 2016 年的 9 月份,微软小冰就开始真正的给人类打电话,到目前为止,打了超过 60 万通电话。在通话过程中会增加“嗯”、“啊”这样的语气词,给人的感觉更像真人,并且做到了全双工对话,可以互相打断,真正做到双方互动的聊天。

另外,小冰运用的领域是一个很开放的领域。她实际上跟用户在沟通的过程中话题,内容,都是可以双方提出来的。不仅是小冰抛出一个话题,就限定在这个话题里聊,而是随时可以根据对方抛出的新话题去聊。

据栾剑介绍,小冰这种开放领域的聊天难度上会更大一些。首先上下文大篇幅的语义理解在业界和学术界都是一个很难的课题,比如在写诗的时候,有时候的用词比较古怪,或者语句之间不太通顺,但实际上可能存在有一种潜在的逻辑。

也遇到了一个技术的瓶颈,语意理解像是一个黑盒子,这个黑盒子,会收入一些内容也会反馈一些内容,反馈的内容给人的感觉好像是理解了,但实际上他是不是真正理解了,是没有办法判断的。

人也是这样,在实际对话过程中,更多的是先给个输入,然后给个输出,再根据这个输出来判断他是不是真正理解了,但实际上这里面是有一定的套路存在的,你去判断他是不是理解,可能是很困难的,因为里面并没有一个那么直观的东西存在。

▌AI 的三个层次:运算智能、感知智能、认知智能

第一层,运算智能,像算盘一样;

第二层,感知智能,能够感知到一个物品是什么;现在大多数的 AI,包括语音、图象等还是停留感知智能层次上;

第三层,认知智能;像人一样,知道是什么,还知道为什么这样,还可以推理,这个层次较难。

说到底,AI 的创造力和人类的创造力之间有什么差别呢?

微软(亚洲)互联网工程院人工智能创造事业部副总经理袁晶表示,人的左脑更加偏向于计算;人的右脑是偏向创造力,发散思维,现在希望用计算的方式,让 AI 用左脑的方式去模拟右脑的行为。

换句话讲,这种创造在人里面只有顶尖的艺术家才能干,但是放到 AI 上,就相当于可以简化这个学习和训练的过程了。

相当于说,让她去拟合人类创作者的创作过程,并且能以这样的能力去帮助普通人去做一些创造,因为每个人都想去做一些创作的行为,只不过说限于自己的能力,AI 能够做到相当于他的助手,帮助普通人,享受创作的乐趣。比如她可以和你一起为你新出生的孩子、或你的恋人写首情诗,也可能为你爸爸的生日创作一首歌曲等。

▌未来小冰将尝试更多内容领域的创作

袁晶表示,未来会渐渐让小冰去尝试往内容生成的领域做一些探索,可能半年一年,很多别的公司或者机构,也会跟随这个趋势去做类似这样的事情。

在袁晶看来,人工智能在内容领域有一些新的能力或者突破可能将会是未来的一个方向,所以也会往这个方向不断的去做一些尝试,包括声音、文字、图像等三个方面,AI 未来会充当协助角色,帮助人类的创作者,去更好更快更高效的创作内容。

首先 AI 创造的成本是很低的,要比人类的创造成本低很多。比如读故事,当我们找配音员去读这个故事,他可能要付出一定的成本,但是如果声音的模型训练好了之后可以大批量的生成,成百上千个小时的大量的用户,所以他的成本会摊薄到很低。

小冰的声音技术里面增加了一些韵律和风格的变换,使得她可以去模仿人类创作者,在各种场景下面做各种不同的演艺。而机器人可以非常真实的模拟人声,让很多人有各种各样的顾虑。

栾剑表示,小冰声音的生成和使用的过程都是严格受控的,将来提供服务的时候,模型本身,以及合成的引擎本身,另外,小冰之前给人类打电话已经打了60万个,小冰都会先申明身份,明确告诉用户我们是微软小冰。微软设有专门的人工智能的委员会,防止人类利用人工智能技术去做伤害他人和社会的事情。

——【完】——

原文发布于微信公众号 - AI科技大本营(rgznai100)

原文发表时间:2018-06-17

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏韩伟的专栏

什么是游戏性

由于最近忙于写各种文档,所以很长一段时间没有更新了。不过作为一个产品、技术内外双修的神人,还是有一些存活的。今天发送的和单纯的技术关系不大,而是一份对于游戏这个...

3176
来自专栏机器人网

战场上的可穿戴技术:显示技术改变未来战士

据国外媒体报道,数十年来,扩增实境显示器——可扩增用户眼前的世界,带来各种有用的信息,如攻击者的体温、飞来的战场上的导.弹速度——反复出现于科幻电影当中。得...

3005
来自专栏新智元

英特尔AI产品事业部CTO专访:谷歌TPU表明纯GPU不是最佳架构

【新智元导读】去年,英特尔以 4 亿美元收购深度学习芯片研发公司 Nervana,将其作为公司深度学习的核心,并围绕Nervana 在今年年初成立统一的人工智能...

2996
来自专栏大数据文摘

院士李德毅:大数据认知(演讲全文)

2838
来自专栏量子位

AI全面超越人类还需多少年?352名专家预测(附论文)

安妮 编译整理自Inverse 量子位出品 | 公众号 QbitAI ? 展望未来,AI可以在10年后模仿出斯威夫特的歌曲,37年后可以代替人类进行手术,86年...

37110
来自专栏镁客网

全球AI泰斗Stuart Rusell:研究人工智能太诱人了,不可抗拒

1896
来自专栏数据猿

小猿看报告 | 尼尔森发布《全球广告信任度调查》报告

在中国乃至世界各地,人们普遍认为触达、共鸣、反应是构成成功广告营销活动最重要的三大要素。如今广告形式日渐多样,投放平台众多。能否有效触达目标受众,确保广告积极地...

3096
来自专栏AI科技评论

深度 | 对话英特尔中研院宋继强:英特尔 AI 加持春哥最新 MV 的背后

AI科技评论按:如果没有2005年的爆红,这些数以万计的陌生人或许就不会站在雨里,为台上的偶像李宇春“打 call”,而李宇春也不会在走红12年后,为台下的这些...

3476
来自专栏AI科技评论

重磅丨洪小文、李飞飞、李凯、沈向洋、张钹聚首北京,他们在一起讨论了什么?

AI 科技评论按:文章标题的人名顺序,根据大会现场五位嘉宾从左往右的座位顺序排列。 六十年前初识计算机的时候,人们就在想:是否有一天我们可以创造出一种人工智能,...

3085
来自专栏新智元

Stuart Rusell 专访:斯坦福百年报告否定人类水平 AI,不可理喻

【新智元导读】 UC Berkeley 大学计算机科学系教授,人工智能著名教材《Artificial Intelligence: A Modern Approa...

42218

扫码关注云+社区

领取腾讯云代金券