QQ“彻底爆发”:新版本横空出世,新功能引发热议!

最近,QQ V7.6.0版本发布,新增视频通话“口吐弹幕”功能,引发网友热议。

寻找最新黑科技与视频通话的契合点,使视频聊天更潮、更互动、更具趣味性是,一直是QQ视频通话探索的方向。这次我们结合实时语音转文字、人脸识别、人脸追踪等AI、AR技术,在视频通话时开启了口吐字幕功能,双方说的话就会实时从各自的嘴里吐出,通话中互喷吐槽效果非常的魔性。

图片来源于网络

基本的实现原理是通过语音识别技术把通话语音转换成文字,再通过人脸识别技术实时追踪嘴部位置来实现的用户口吐自己说话的文字效果。

语音识别能力依托于音视频实验室与翻译君及微信语音识别后台对接,人脸识别技术由优图实验室提供。

两人视频通话语音转字幕具体操作如下:

口吐字幕模式:点击发起视频电话并进入“特效互动”-“字幕”入口,选择口吐字幕模式,將开始语音识别及人脸追踪,并且在屏幕中嘴巴吐出识别到的文字。

创新点的创新之处的具体描述

1、 首次將语音识别与人脸识别结合落地到实时的视频通话中

语音识别运用在实时的视频通话中存在识别准确率及延时率两大问题。

之前的QQ视频通话语音转字幕功能对于准确率的优化方案是用流式识别,边说话边校正文字的方式出现,这会使文字一边出现一边变化,也会导致一定的延时加剧,而对于识别延时的问题则用了弹幕效果飘过来规避。

这两个问题对于口吐字幕来说是一个非常大的挑战,因为结合嘴部追踪,需要边说边吐才会有这句话是本人说的感觉,对延时的要求更高了。基于这个功能的整体调性是娱乐定位,我们权衡了准确率和延时率的问题,优先保证文字的出现,我们采用了拾字出现的方案,即后台每返回一次识别结果,我们即从中选取部分文字进行喷射。

这样既能巧妙的规避延时问题,又能使一句话的内容更丰富,更像互喷的效果。

2、通过嘴巴张合检测当前是否本人在说话

因通话场景环境复杂,有可能会因为旁边的声音导出误判为本人在说话,导致本人的嘴巴闭合也出现口吐文字的问题。

针对此问题我们通过一段时间内持续判断用户的张嘴高度和嘴巴宽度的比例来确定用户是否正在张嘴说话:

通过计算下图的81号点和73号点之间的距离来获得张嘴高度, 65号点和66号点的距离在获得嘴巴宽度,同时如果在1.5秒的持续检测过程中都没有发现张嘴比例超过0.12,就认为当前用户状态处于闭嘴中。

3、实现上还原互喷吐槽场景

为了使口吐字幕效果与互喷吐槽场景更接近,我们在喷射中的文字内加入部分乱码如“#¥%”,使整段文字效果与吐槽的效果更接近;

在动画效果上,通过3D环境的发射粒子来表现口吐的字幕喷到屏幕前的效果,营造“喷你一脸”的感觉。

创意如何产生的

在我们有了通话实时语音转弹幕的功能后,我们一直在思考如何可以使这个语音转字幕的功能更好玩。偶然一次机会看到周星驰电影《九品芝麻官》中苦练口才的星爷,嘴里吐出的字如同一阵强有力的飓风能把海里的鱼都炸出来,我们认为这个功能跟我们已有的语音转文字的功能非常契合。同时,我们洞察到了QQ大盘用户中95后用户爱表达自我、同伴之间喜欢相互吐槽互黑的习惯,于是我们结合了语音识别技术、人脸识别技术为用户打造了QQ视频通话口吐字幕功能。 

创意怎么实现的

1、客户端向字幕服务器请求字幕服务;

2、字幕业务服务器收到后,将通知客户端与字幕服务接口机的接入方式;

3、客户端收到接入方式后,建立与接口机的联系,同时将通知音视频后台将音频数据包进行旁路,提供翻译君。

4、利用前后语境,对AI语音识别和翻译后,把结果回传给接口机;

5、接口机通过PUSH server将文件通过MSF回到客户端;

6、客户端收到文本后,取当前文本的最后十个字,按2比1的比例添加乱码,将文本和添加的乱码生在一张图片中,作为后面口吐选字的文本池。

7. 获取当前帧的人脸检测结果,或者嘴巴在屏幕中的位置信息,通过嘴部关键点之间的位置关系判断当前那用户是否张嘴说话中,

8. 如果处于说话状态中则获取嘴巴在当前帧画面中的位置信息,然后转换到一个深度信息为2500的三维空间中,获取嘴巴的三维坐标信息

9.通过客户端创建的三维粒子系统,每秒从第6步中生成的图片中选择8个文本字符来做口吐表现,运动信息为初始速度基准值为(0,-200,200),随即范围(-700,-1000,0),加速度基准值为(-200,-2000,0),随即范围(1000,300,0),从文字表现尺寸最小50到最大290之间的一个变化表现。

10. 在一句话的过程中,服务器每次返回的翻译结果,都按照6-9的步骤循环处理,将当前口吐字幕进行替换,如果一秒8个文本都已经口吐完毕后还没有收到服务器的换回结果也没有没通知结束口吐表现,则在上一个的文本池中再一轮选字来进行口吐

11. 接受到服务器的通知当前这句话已经说话,或者检测到闭嘴,大小屏切换等异常终止逻辑时,客户端停止口吐字幕的表现。

产品的意义对未来的展望

语音识别及翻译场景在通话场景中还有更多领域场景可以应用,如实时翻译场景、远程会议/面试纪要沉淀场景、甚至与手势AI技术结合帮助聋哑人与正常人间视频通话等公益科技,都是展望投入的场景,且目前在手Q上上线,收集大量用户真实场景语料,为未来AI语音识别训练提供了不少的贡献。

语音转字幕后续规划:实时中英文字幕语音识别(电影模式)、会议及面试场景中的会议及面试内容沉淀,將语音识别技术分别落地到玩法及实用两个方向,推进语音AI技术的发展。

原文发布于微信公众号 - 腾讯大讲堂(TX_DJT)

原文发表时间:2018-06-09

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏美团技术团队

美团点评联盟广告的场景化定向排序机制

前言 在美团点评的联盟广告投放系统(DSP)中,广告从召回到曝光的过程需要经历粗排、精排和竞价及反作弊等阶段。其中精排是使用CTR预估模型进行排序,由于召回的候...

47713
来自专栏大数据文摘

为何大多数人做出来的图表只是一坨屎?

28610
来自专栏大数据挖掘DT机器学习

如何在业余时间学习数据分析?

我是一个web前端开发者和rails程序员,计算机专业出身,掌握Python、Ruby、C、Java编程语言,具有较为扎实的计算机理论基础。 现在工作之外的时间...

3655
来自专栏人工智能头条

沈国阳:美团推荐系统整体框架与关键工作

1402
来自专栏专知

机器学习可重复性最佳实践

【导读】机器学习、深度学习领域中一直存在一个令人头疼的问题--模型的可重复性问题。现在似乎很多研究人员都在谈论机器学习的可重复性问题,但是如何真正确保机器学习研...

672
来自专栏养码场

模仿黑产破解12306验证码,验证码产品的未来是?

导读:12306验证码,长时间高居反人类产品排行榜第一名(据某网站调查),普通人一次通过率仅8%,人也识别不清的图片就能成功阻挡自动机了吗?谷歌街景验证码完全取...

521
来自专栏大数据挖掘DT机器学习

如何在业余时间学习数据分析?

我是一个web前端开发者和rails程序员,计算机专业出身,掌握Python、Ruby、C、Java编程语言,具有较为扎实的计算机理论基础。 现在工作之外的...

2797
来自专栏人工智能头条

谷歌邮件智能回复系统:基于RNN/LSTM构建

1584
来自专栏新智元

美国大选倒计时:R 语言和蒙特卡洛算法预测希拉里赢面高达89%

【新智元导读】美国总统大选近在眼前,上周新智元刊登相关文章《从未失手的 AI 预测:川普将赢得选举,入主白宫》引起很多争论。这次我们选择了一篇用 R 语言和蒙特...

3346
来自专栏大数据文摘

研究上千张数据图表后 我学到12条可视化的秘密准则 | 附资源

2184

扫码关注云+社区