全球首个“AI合成主播”来了!新闻主播面临失业?

文 | 陈倩、程昊、朱涵

来源 | 新华社

在建社87周年之际,新华社联合搜狗7日在第五届世界互联网大会上发布全球首个合成新闻主播——“AI合成主播”,运用最新人工智能技术,“克隆”出与真人主播拥有同样播报能力的“分身”。

这不仅在全球AI合成领域实现了技术创新和突破,更是在新闻领域开创了实时音视频与AI真人形象合成的先河。

“AI合成主播”是什么?

此次“AI合成主播”亮相,可以让网民感受到新华社“新员工”的业务能力,不仅中文“AI合成主播”实力“上岗”,同时还有以“联接中外、沟通世界”为使命的英文“AI合成主播”。

据介绍,“AI合成主播”是通过提取真人主播新闻播报视频中的声音、唇形、表情动作等特征,运用语音、唇形、表情合成以及深度学习等技术联合建模训练而成。

该项技术能够将所输入的中英文文本自动生成相应内容的视频,并确保视频中音频和表情、唇动保持自然一致,展现与真人主播无异的信息传达效果。

从主播“真人”到“分身”,“AI合成主播”可谓是经历了“九九八十一关”,有了多项人工智能前沿技术的“加持”,才走到了今天。

“AI合成主播”有何用?

从发布的这一刻起,“AI合成主播”正式成为新华社报道队伍中一员,TA将同其他主播一起,为你带来权威、及时、准确的中英文新闻资讯。

(新华社副社长、党组成员刘思扬致辞。新华社记者 黄宗治 摄)

与“真人”主播不同的是,“AI合成主播”竟然开了“外挂”!“真人”主播一天工作8小时,但“分身”能够不知疲倦地工作24小时!只要小编们将文本输入系统,TA们就能随时工作,并且一直工作下去……

无论是在日常报道中提升电视新闻的制作效率,降低制作成本,还是在突发报道中快速生成新闻视频,提高报道时效和质量,“AI合成主播”在不同的新闻场景运用中都拥有着不可限量的未来。

链接:揭秘AI合成主播背后的“分身”技术

合成主播是如何开发的?搜狗公司CEO王小川接受媒体采访时,揭秘了“AI合成主播”的诞生过程以及人工智能在媒体等各行业的应用前景。

(搜狗公司CEO王小川在发布会上致辞。新华社记者 黄宗治 摄)

记者:像刚刚主持人说的,会不会他就失业了?

王小川:首先AI技术分为了感知技术和认知技术。感知是有声音的、有图像的,感知技术方向上,机器基本有机会可以做到跟人一样好。

但是在认知技术方向上,机器背后的推理、知识、思考,以语言为核心的逻辑性的东西,机器的处理能力是有限的,这种情况下,涉及到人的高级活动的时候,机器现在是做不到的。

记者:以后有可能做到吗?

王小川:现在没有这个技术。如果是在垂直领域里,特别细分的特定领域,像法律或者医疗,面越窄,机器更有机会在这个特定的领域里做到更接近人类。不能把AI当成大的词儿,AI里面有很多内涵。

在这种情况下,把AI上升到跟人们认知相关的事情,机器在里面只能做辅助,是没有办法取代人类的。但如果只是听个声音,看个图像,现在像Face++ 或者商汤做的事情,机器就已经能取代一部分感知上的事情了。

对于人类的高级活动,现在机器取代人类是没戏的。高级活动叫认知,低级活动叫感知,目前的机器可以做到感知,这是先给大的框。

记者:您怎么看AI合成主播,人类跟机器是怎样的关系?取代还是配合?

王小川:名字我们跟新华社定了,叫AI合成主播。这项技术里面涉及三个合成:声音合成、表情合成、唇型合成,特别是唇型合成。因为本身虚拟这个词,画个卡通画也叫虚拟,如果叫虚拟主播的话别人容易较真,说这个东西怎么叫虚拟,所以我们叫AI合成主播。

AI合成主播和人类的关系是取代还是配合这个问题的话,如果只是感知问题,不涉及到后面的语言组织、撰写深度稿件的话,它是可以去跟真人接近的。

记者:意思是人可以做写新闻稿的人,剩下的事就交给它?

王小川:如果想做到惟妙惟肖,比如什么地方该发怒,什么地方该柔情,这样的事情机器很难做到,因为稿子的内容机器是不懂的,它不理解真正的含义。如果只用视觉和听觉表达,AI合成主播可以接近真人,一旦与内容有高度相关性,机器的作用就会弱一些。

记者:搜狗的AI合成主播跟微软小冰做的主播有什么差异?

王小川:搜狗的AI合成主播是真人的形象,小冰给的是虚拟形象,声音跟真人不一样,也没有表情和唇型的变化。AI合成主播真的是合成之后,能够起到真人的替身作用。

记者:这个技术除了在主播领域,还有哪些其他场景的应用?

王小川:比如说现在我们跟凯叔讲故事谈,以前是凯叔去讲故事,以后可能就会变成你的爸爸妈妈给你讲故事。在我们大的理念下,主播是其中一块,之后要把它个性化,变成其他的人。

记者:合成主播商业化的节奏会不会比之前做的其他AI落地的项目要快一点?

王小川:最快的话,第一是翻译,翻译是刚需。不只是翻译宝,搜狗搜索支持用中文搜索全球信息,用中文阅读全球信息,这是应用了翻译技术的。翻译是搜狗的使命之一,输入法输入中文转成外文,搜索能搜外文转成中文。

我们本身是做信息桥梁的公司,所以翻译是很重要的,这也是最快落地的技术。首先是语音、图像,然后是翻译,翻译之后是分身,训练一个人的数据之后,帮助他去做表达。最后是问答,就是个人助理,帮你回答问题。对于消费者而言,这是技术演进的路线。

记者:单纯同传这个问题,机器有没有可能取代人?

王小川:不能,做不到。如果用好的人,机器是赶不上的,但是有很多地方是因为你没有优秀的同传或者出国旅游没法给一个人配一个人,这种情况下,机器可以去作用。

翻译往简单走是重复性劳动,但是真的好的翻译是有知识,有思考的,你让他思考的东西,机器就没人强,开放性思考,如果只是棋盘上封闭思考,机器下围棋,可以干,但是开放性的环境,机器是不够的。

记者:要到达真正的AI个人助理,还要多久,还要突破哪些东西?

王小川:我们之前20年,我们称之为信息时代,每个时代都有它的起点,就像最早轮子发明,有了农业时代,轮子发明,可以推着小车去种地了,这是原始走过来。

后来有蒸汽机,进入工业时代,后来有了计算机和互联网,我们进入信息时代,信息时代大的特点就是能够跨地域,跨时间,时空跨越进行信息的传递。

像e—mail或者IM就能跟大家进行远程的交流,或者把信息放在网上,然后你用搜索检索到,在这种情况下,输入法、搜索引擎和通讯软件是对新时代最核心的应用,你刚才问的问题是AI个人助理往下20年里很重要的事情。

记者:它真的到能够很好地帮助人、协助人的阶段,还要多久?

王小川:垂直领域慢慢就有了,真的辅助人,给普通人做翻译,也是AI助理,以前靠真人,现在靠机器能做一部分了,再往下,像我们垂直场景里,我们也在做机器帮你做自动回复,给销售公司或者客服公司在用。

他已经开始在做,但是他需要领域支持,是要靠人把这种知识进行训练之后再做,不是只有思考能力。所以往下是靠数据驱动做这件事情,你让它只会帮助人,他现在没有取代人,现在看不到技术取代人,但是帮助人的事已经开始发生了。

记者:AI合成主播或者未来做的AI合成影像,未来的使用场景是什么样?

王小川:合成主播,今天给我们核心能力要做对话和问答,同时可以互动的,因此在医疗,在法律,在一些人机交互里,承担了一个让人更友好沟通的角色,但真正服务内容是去要面对内容的,就是把服务带进去。

另外一种场景就是今天看到一种,交给新华社,他们有编辑在里面写出稿子来,机器只是读的角色,是单向的,不是双向的,所以他只是自然交互,在知识计算里还没有把这个能力放进去。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181108B21Z5T00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券