AI又开始抢新闻主播的饭碗了?

最近,由搜狗和新华社合作开发的全球首个全仿真智能合成主持人“AI合成主播”在第五届世界互联网大会正式上岗。最近,由搜狗和新华社合作开发的全球首个全仿真智能合成主持人“AI合成主播”在第五届世界互联网大会正式上岗。

该主播的原型是新华社主持人邱浩,技术基础则是搜狗分身技术——这是一种基于人工智能的多模态合成技术,可利用少量真实音频数据,快速迁移生成虚拟的分身模型。使用时输入一段文本,即可生成与真人无异的同步视频。

AI播报员

搜狗CEO王小川在接受媒体群访时表示,搜狗分身技术涉及到声音合成、表情合成、唇形合成三个方面,其中最关键的是唇形合成。

相比声音合成和表情合成,唇形合成更加精细也更加复杂,需要考验人工智能对语言的学习能力。而要达到逼真的效果,则需要使用人脸关键点检测、人脸特征提取、人脸重构、唇语识别、情感迁移等技术还原出真人原型的样貌、声音甚至语气特征。结合语音、图像等多模态信息实行联合建模训练后,便能生成与真人无异的AI分身模型。

据搜狗公司智能语音事业部总经理王砚峰介绍,“搜狗分身”技术是搜狗人工智能的核心技术之一。跟其他人工智能技术类似,“搜狗分身”技术也要经过不断的学习过程,只不过这次AI学习的对象是人类行为而不是海量数据。而为了消除“AI合成主播”发音时的机械感,人工智能需要经过海量的声音训练,学习真人原型的发音方式和语气。

但王小川同时表示,在目前的技术水平下“AI合成主播”还不能完全代替真人主播,“AI技术分为感知技术和认知技术。感知声音、图像的能力,机器可以做到跟人一样好。但是在认知技术方向上,推理、知识、思考等以语言为核心的逻辑能力,机器的处理能力是有限的。”王小川说。

除了“AI合成主播”,搜狗分身技术还可应用于更多面向消费端的场景,比如有声书、在家庭中代替父母讲睡前故事,搜狗输入法的语音辅助功能等等。而由于每个用户不同的样貌、声音和思维特征,搜狗分身技术下一步要尝试个性化,以帮助用户完成回复消息等重复性劳动。“让机器能够成为你的分身和助理,是搜狗AI两个核心的方向。”王小川说。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181113C1JC2V00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券