全球首个AI主播技术揭秘!搜狗分身术是啥东西?

你那么优秀,一定会选择关注我的!

2018年11月7日,在第五届世界互联网大会上,新华社联合搜狗正式推出全球首个合成新闻主播——“AI合成主播”,并宣布其正式成为新华社报道队伍中一员,TA将同其他主播一起,为你带来权威、及时、准确的中英文新闻资讯。

这不仅在全球AI合成领域实现了大突破,更是在新闻领域开创了实时音视频与AI真人形象合成的先河!

据介绍,“AI合成主播”是通过提取真人主播新闻播报视频中的声音、唇形、表情动作等特征,运用深度学习技术联合建模训练而成!

该项技术能够将所输入的中英文自动生成相应内容的视频,并确保视频中音频和表情、唇动保持自然一致,展现与真人主播无异的信息传达效果。

AI主播背后依托搜狗人工智能地一大核心技术“搜狗分身”, 直白点说,就是“克隆”出与真人主播拥有同样播报能力的“分身”。

【搜狗分身为何物】

搜狗分身技术是搜狗人工智能推出的多模态合成技术,可以基于少量真实音视频数据,快速迁移生成虚拟的分身模型。使用时输入一段文本,即可生成与真人无异的同步音视频。

简单来讲,AI合成主播主要有两大核心技术支撑:通过人工智能技术,采集人的面部表情并标签化,把那个根据语义合成表情;通过机器学习自动生成仿真语音。而这两大核心技术也正是基于搜狗语音合成图像生成的两大引擎。

通过这项技术,不仅可以合成AI主播,甚至还可以批量复制无数个风格各异的人类形象,用于新闻播报、虚拟教师、虚拟医生、虚拟客服等诸多行业,提升不同行业和职业的信息生产传播效率。

【分身术的两大难点】

在AI合成主播的构建中,即使拥有图像处理和语音处理两类技术,仍然存在两个难点:

高逼真度。以语音技术为例,苹果的Siri早在iPhone4S中就有应用,而之所以一直未能得到认可,是因为其早期版本的识别率低,另外,“机器口音”太重也使得交互体验大打折扣。而随着近年来语音技术的进步,语音识别率不断突破,现在主流语音系统的识别能力都能达到98%以上,搜狗在今年的Blizzard Challenge 2018(语音合成国际大赛)中获得可懂度和语音停顿两项子任务全球第一;另外,此次应用的搜狗分身技术能够自动生成语音、表情、唇动等信息完全一致的自然视频,据搜狗官方称,相关视频已达到商用级别,在业内尚属首次;

低成本个性化定制。当下要想生成一个稳定、高精度的AI模型,仍需要搜集大量数据,对AI模型进行训练。搜狗官方表示,搜狗分身仅需使用少量用户真实音视频数据,即可快速定制出高逼真度的分身模型。

【虚拟世界】

目前,语音技术及图像处理技术带来了拥有强交互能力的虚拟助手。我们的生活中可能不止有智能音箱、智能手机,更可能有一个随叫随到的虚拟助手。在渐渐触摸到虚拟世界的边界时,未来也可能会出现更多颠覆性技术和形态。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181114G0006100?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券