最近,QQ V7.6.0版本发布,新增视频通话“口吐弹幕”功能,引发网友热议。
寻找最新黑科技与视频通话的契合点,使视频聊天更潮、更互动、更具趣味性是,一直是QQ视频通话探索的方向。这次我们结合实时语音转文字、人脸识别、人脸追踪等AI、AR技术,在视频通话时开启了口吐字幕功能,双方说的话就会实时从各自的嘴里吐出,通话中互喷吐槽效果非常的魔性。
图片来源于网络
基本的实现原理是通过语音识别技术把通话语音转换成文字,再通过人脸识别技术实时追踪嘴部位置来实现的用户口吐自己说话的文字效果。
语音识别能力依托于音视频实验室与翻译君及微信语音识别后台对接,人脸识别技术由优图实验室提供。
两人视频通话语音转字幕具体操作如下:
口吐字幕模式:点击发起视频电话并进入“特效互动”-“字幕”入口,选择口吐字幕模式,將开始语音识别及人脸追踪,并且在屏幕中嘴巴吐出识别到的文字。
创新点的创新之处的具体描述
1、 首次將语音识别与人脸识别结合落地到实时的视频通话中
语音识别运用在实时的视频通话中存在识别准确率及延时率两大问题。
之前的QQ视频通话语音转字幕功能对于准确率的优化方案是用流式识别,边说话边校正文字的方式出现,这会使文字一边出现一边变化,也会导致一定的延时加剧,而对于识别延时的问题则用了弹幕效果飘过来规避。
这两个问题对于口吐字幕来说是一个非常大的挑战,因为结合嘴部追踪,需要边说边吐才会有这句话是本人说的感觉,对延时的要求更高了。基于这个功能的整体调性是娱乐定位,我们权衡了准确率和延时率的问题,优先保证文字的出现,我们采用了拾字出现的方案,即后台每返回一次识别结果,我们即从中选取部分文字进行喷射。
这样既能巧妙的规避延时问题,又能使一句话的内容更丰富,更像互喷的效果。
2、通过嘴巴张合检测当前是否本人在说话
因通话场景环境复杂,有可能会因为旁边的声音导出误判为本人在说话,导致本人的嘴巴闭合也出现口吐文字的问题。
针对此问题我们通过一段时间内持续判断用户的张嘴高度和嘴巴宽度的比例来确定用户是否正在张嘴说话:
通过计算下图的81号点和73号点之间的距离来获得张嘴高度, 65号点和66号点的距离在获得嘴巴宽度,同时如果在1.5秒的持续检测过程中都没有发现张嘴比例超过0.12,就认为当前用户状态处于闭嘴中。
3、实现上还原互喷吐槽场景
为了使口吐字幕效果与互喷吐槽场景更接近,我们在喷射中的文字内加入部分乱码如“#¥%”,使整段文字效果与吐槽的效果更接近;
在动画效果上,通过3D环境的发射粒子来表现口吐的字幕喷到屏幕前的效果,营造“喷你一脸”的感觉。
创意如何产生的
在我们有了通话实时语音转弹幕的功能后,我们一直在思考如何可以使这个语音转字幕的功能更好玩。偶然一次机会看到周星驰电影《九品芝麻官》中苦练口才的星爷,嘴里吐出的字如同一阵强有力的飓风能把海里的鱼都炸出来,我们认为这个功能跟我们已有的语音转文字的功能非常契合。同时,我们洞察到了QQ大盘用户中95后用户爱表达自我、同伴之间喜欢相互吐槽互黑的习惯,于是我们结合了语音识别技术、人脸识别技术为用户打造了QQ视频通话口吐字幕功能。
创意怎么实现的
1、客户端向字幕服务器请求字幕服务;
2、字幕业务服务器收到后,将通知客户端与字幕服务接口机的接入方式;
3、客户端收到接入方式后,建立与接口机的联系,同时将通知音视频后台将音频数据包进行旁路,提供翻译君。
4、利用前后语境,对AI语音识别和翻译后,把结果回传给接口机;
5、接口机通过PUSH server将文件通过MSF回到客户端;
6、客户端收到文本后,取当前文本的最后十个字,按2比1的比例添加乱码,将文本和添加的乱码生在一张图片中,作为后面口吐选字的文本池。
7. 获取当前帧的人脸检测结果,或者嘴巴在屏幕中的位置信息,通过嘴部关键点之间的位置关系判断当前那用户是否张嘴说话中,
8. 如果处于说话状态中则获取嘴巴在当前帧画面中的位置信息,然后转换到一个深度信息为2500的三维空间中,获取嘴巴的三维坐标信息
9.通过客户端创建的三维粒子系统,每秒从第6步中生成的图片中选择8个文本字符来做口吐表现,运动信息为初始速度基准值为(0,-200,200),随即范围(-700,-1000,0),加速度基准值为(-200,-2000,0),随即范围(1000,300,0),从文字表现尺寸最小50到最大290之间的一个变化表现。
10. 在一句话的过程中,服务器每次返回的翻译结果,都按照6-9的步骤循环处理,将当前口吐字幕进行替换,如果一秒8个文本都已经口吐完毕后还没有收到服务器的换回结果也没有没通知结束口吐表现,则在上一个的文本池中再一轮选字来进行口吐
11. 接受到服务器的通知当前这句话已经说话,或者检测到闭嘴,大小屏切换等异常终止逻辑时,客户端停止口吐字幕的表现。
产品的意义对未来的展望
语音识别及翻译场景在通话场景中还有更多领域场景可以应用,如实时翻译场景、远程会议/面试纪要沉淀场景、甚至与手势AI技术结合帮助聋哑人与正常人间视频通话等公益科技,都是展望投入的场景,且目前在手Q上上线,收集大量用户真实场景语料,为未来AI语音识别训练提供了不少的贡献。
语音转字幕后续规划:实时中英文字幕语音识别(电影模式)、会议及面试场景中的会议及面试内容沉淀,將语音识别技术分别落地到玩法及实用两个方向,推进语音AI技术的发展。