主播也有“分身”?现场主持人直呼“虐心”!全球首个AI合成主播亮相

11月7日,第五届世界互联网大会正式开幕,一场在乌镇举办的发布会让现场主持人直呼“虐心”。

当天,由搜狗与新华社合作开发的全球第一个全仿真智能合成主持人——“AI合成主播”首度亮相。

这款兼具声音合成、表情合成、唇形合成三项核心技术产品的发布,让搜狗未来人工智能的核心技术“搜狗分身”浮出水面,成为大会开幕日的最大看点之一。

形象逼真 虚拟主播

真实主播傻傻分不清

“AI合成主播”到底是什么?主播长什么样?在发布会现场的体验中,观众只要输入一句既有的新闻文本,屏幕上就会出现一位合成的新华社新闻主播,他不仅会用和真人一样的声音进行播报,连唇形、面部表情也能完全吻合。这样的视频效果,无论看上去还是听起来,都与现实中的新华社主播的本人播报没有太大差别。

这让合成主播原型且作为现场主持人的邱浩不禁感慨:“一个真实的主播,站在现在这个地方来主持一个合成主播的发布会,而且还要向世人宣告,这样一个合成主播有多么的强大,简直虐心啊!我觉得这需要非常强大的勇气!”

据了解,在合成主播的开发过程中,搜狗公司的相关技术人员同新华社的新闻主播一同进行了各种探索尝试,在“搜狗分身”技术的支持下,通过人脸关键点检测、人脸特征提取、人脸重构、唇语识别、情感迁移等多项前沿技术,并结合语音、图像等多模态信息进行联合建模训练后,“AI合成主播”正式诞生。

“搜狗分身”已成为AI“核心科技”

随着“AI合成主播”系统的成功上线,支撑其正常运转的核心“搜狗分身”也引起了大家的广泛关注。那么什么是“搜狗分身”技术?

据搜狗公司智能语音事业部总经理王砚峰介绍,“搜狗分身”技术是搜狗人工智能的核心技术之一,诞生于搜狗“自然交互+知识计算”这一人工智能理念之下。

该技术能够利用搜狗的AI能力,从图像表情,声音语言习惯,逻辑思维等层面对AI进行拟人化训练,然后克隆制造人类的AI分身,进而帮助人类提高信息表达和传递的效率。

以“AI合成主播”为例,该产品就创造性的使用新华社中、英文主播的真人形象,配合“搜狗分身”的语音、合成等技术模拟真人播报画面,使大众享受到逼真度极高的图像效果。

同时,利用“搜狗分身”技术,“AI合成主播”还能实时高效地输出音视频合成效果。在“搜狗分身”技术的支持下,使用者通过文字键入、语音输入、机器翻译等多种方式输入文本后,将获得实时的播报视频。这种操作方式将极大减少新闻媒体在后期制作的各项成本,让新闻视频的制作效率有了极大的提高。

据介绍,未来“搜狗分身”技术将在娱乐、医疗、健康、教育、法律等多个领域提供个性化的内容,显著提高社会生产和服务效率。在解放行业生产力的同时,“搜狗分身”技术给予用户更好的个性化音视频效果,用AI科技来切实提高人们的生活体验。

【记者】王佳欣 彭琳 发自乌镇

【校对】冯志坚

【作者】 王佳欣;彭琳

【来源】 南方报业传媒集团南方+客户端

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181108A0D55800?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券