QQ“彻底爆发”:新版本横空出世,新功能引发热议!

最近,QQ V7.6.0版本发布,新增视频通话“口吐弹幕”功能,引发网友热议。

寻找最新黑科技与视频通话的契合点,使视频聊天更潮、更互动、更具趣味性是,一直是QQ视频通话探索的方向。这次我们结合实时语音转文字、人脸识别、人脸追踪等AI、AR技术,在视频通话时开启了口吐字幕功能,双方说的话就会实时从各自的嘴里吐出,通话中互喷吐槽效果非常的魔性。

图片来源于网络

基本的实现原理是通过语音识别技术把通话语音转换成文字,再通过人脸识别技术实时追踪嘴部位置来实现的用户口吐自己说话的文字效果。

语音识别能力依托于音视频实验室与翻译君及微信语音识别后台对接,人脸识别技术由优图实验室提供。

两人视频通话语音转字幕具体操作如下:

口吐字幕模式:点击发起视频电话并进入“特效互动”-“字幕”入口,选择口吐字幕模式,將开始语音识别及人脸追踪,并且在屏幕中嘴巴吐出识别到的文字。

创新点的创新之处的具体描述

1、 首次將语音识别与人脸识别结合落地到实时的视频通话中

语音识别运用在实时的视频通话中存在识别准确率及延时率两大问题。

之前的QQ视频通话语音转字幕功能对于准确率的优化方案是用流式识别,边说话边校正文字的方式出现,这会使文字一边出现一边变化,也会导致一定的延时加剧,而对于识别延时的问题则用了弹幕效果飘过来规避。

这两个问题对于口吐字幕来说是一个非常大的挑战,因为结合嘴部追踪,需要边说边吐才会有这句话是本人说的感觉,对延时的要求更高了。基于这个功能的整体调性是娱乐定位,我们权衡了准确率和延时率的问题,优先保证文字的出现,我们采用了拾字出现的方案,即后台每返回一次识别结果,我们即从中选取部分文字进行喷射。

这样既能巧妙的规避延时问题,又能使一句话的内容更丰富,更像互喷的效果。

2、通过嘴巴张合检测当前是否本人在说话

因通话场景环境复杂,有可能会因为旁边的声音导出误判为本人在说话,导致本人的嘴巴闭合也出现口吐文字的问题。

针对此问题我们通过一段时间内持续判断用户的张嘴高度和嘴巴宽度的比例来确定用户是否正在张嘴说话:

通过计算下图的81号点和73号点之间的距离来获得张嘴高度, 65号点和66号点的距离在获得嘴巴宽度,同时如果在1.5秒的持续检测过程中都没有发现张嘴比例超过0.12,就认为当前用户状态处于闭嘴中。

3、实现上还原互喷吐槽场景

为了使口吐字幕效果与互喷吐槽场景更接近,我们在喷射中的文字内加入部分乱码如“#¥%”,使整段文字效果与吐槽的效果更接近;

在动画效果上,通过3D环境的发射粒子来表现口吐的字幕喷到屏幕前的效果,营造“喷你一脸”的感觉。

创意如何产生的

在我们有了通话实时语音转弹幕的功能后,我们一直在思考如何可以使这个语音转字幕的功能更好玩。偶然一次机会看到周星驰电影《九品芝麻官》中苦练口才的星爷,嘴里吐出的字如同一阵强有力的飓风能把海里的鱼都炸出来,我们认为这个功能跟我们已有的语音转文字的功能非常契合。同时,我们洞察到了QQ大盘用户中95后用户爱表达自我、同伴之间喜欢相互吐槽互黑的习惯,于是我们结合了语音识别技术、人脸识别技术为用户打造了QQ视频通话口吐字幕功能。 

创意怎么实现的

1、客户端向字幕服务器请求字幕服务;

2、字幕业务服务器收到后,将通知客户端与字幕服务接口机的接入方式;

3、客户端收到接入方式后,建立与接口机的联系,同时将通知音视频后台将音频数据包进行旁路,提供翻译君。

4、利用前后语境,对AI语音识别和翻译后,把结果回传给接口机;

5、接口机通过PUSH server将文件通过MSF回到客户端;

6、客户端收到文本后,取当前文本的最后十个字,按2比1的比例添加乱码,将文本和添加的乱码生在一张图片中,作为后面口吐选字的文本池。

7. 获取当前帧的人脸检测结果,或者嘴巴在屏幕中的位置信息,通过嘴部关键点之间的位置关系判断当前那用户是否张嘴说话中,

8. 如果处于说话状态中则获取嘴巴在当前帧画面中的位置信息,然后转换到一个深度信息为2500的三维空间中,获取嘴巴的三维坐标信息

9.通过客户端创建的三维粒子系统,每秒从第6步中生成的图片中选择8个文本字符来做口吐表现,运动信息为初始速度基准值为(0,-200,200),随即范围(-700,-1000,0),加速度基准值为(-200,-2000,0),随即范围(1000,300,0),从文字表现尺寸最小50到最大290之间的一个变化表现。

10. 在一句话的过程中,服务器每次返回的翻译结果,都按照6-9的步骤循环处理,将当前口吐字幕进行替换,如果一秒8个文本都已经口吐完毕后还没有收到服务器的换回结果也没有没通知结束口吐表现,则在上一个的文本池中再一轮选字来进行口吐

11. 接受到服务器的通知当前这句话已经说话,或者检测到闭嘴,大小屏切换等异常终止逻辑时,客户端停止口吐字幕的表现。

产品的意义对未来的展望

语音识别及翻译场景在通话场景中还有更多领域场景可以应用,如实时翻译场景、远程会议/面试纪要沉淀场景、甚至与手势AI技术结合帮助聋哑人与正常人间视频通话等公益科技,都是展望投入的场景,且目前在手Q上上线,收集大量用户真实场景语料,为未来AI语音识别训练提供了不少的贡献。

语音转字幕后续规划:实时中英文字幕语音识别(电影模式)、会议及面试场景中的会议及面试内容沉淀,將语音识别技术分别落地到玩法及实用两个方向,推进语音AI技术的发展。

原文发布于微信公众号 - 腾讯大讲堂(TX_DJT)

原文发表时间:2018-06-09

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏FreeBuf

“隐秘拍摄”实战:用树莓派制作一台可穿戴摄像机

最近我在搞可穿戴摄像头的项目,主体采用的就是树莓派。先前我有买过一款Narrative Clip——这就是个可穿戴相机,不过这款相机的质量实在是让人悲伤。最近我...

23410
来自专栏腾讯大讲堂的专栏

微信一年扫出多少个二维码?

图像作为一种特殊的语言形式,它克服了音声语言的转瞬即逝性,把信息长久保存下来,传播不再单纯依赖人类记忆力。 二维码通过图形记录着一组二进制数据,成为设备之间交...

26510
来自专栏SDNLAB

ONOS加入了Linux基金会就是开源吗?

一些致力于实现开源的开发人员一直对开放网络操作系统(ONOS)在开源程度上持怀疑态度,这使得ONOS近期的行动(ONOS加入Linux基金会)特别排斥他们。 ?...

3427
来自专栏云加头条

腾讯云开放自研TPG转码服务,大幅提升业界图片压缩率

腾讯云携手腾讯音视频实验室将于2017年12月对外开放TPG (Tiny Portable Graphic)能力,对外共享世界级的图片压缩技术。

6250
来自专栏云市场·精选汇

批改孩子作业一小时?速算小程序一秒搞定!

学校里的课程作为父母插不上手,那辅导孩子写作业就非常关键了。跟让孩子主动写作业比起来,辅导家庭作业以及批阅检查孩子的作业才是让很多家长头疼的事情。一题一题的,虽...

1.5K42
来自专栏镁客网

微软推出VR系统“FlashBack”,号称能提高移动VR用户体验

1102
来自专栏较真的前端

影响团队交付速度的那些问题

2277
来自专栏Data Analysis & Viz

简书=鸡汤?爬取今日看点数据:1916篇简书热门文章可视化

最近写得两篇关于简书的数据可视化文章:《简书推荐作者风云榜(爬取简书app数据)》、《我的简书一月记:数据可视化》反响都还不错,因而将继续针对简书进行数据分析和...

793
来自专栏云飞学编程

为什么说python入门很简单,但是在你这很难?

你辛辛苦苦,埋头苦学了好久基础知识,甚至书都被翻烂了,但是跟着别人的视频或者文章写一个代码,一运行,一堆一堆的error!于是你又要吭哧吭哧的重新排查

772
来自专栏吉浦迅科技

HSA 异构计算系统架构 1.0 标准发布

AMD 曾在多年前提出 "AMD Fusion" 概念,提倡将 CPU 和 GPU 集成在一起,提高两个核心间的沟通效率,APU 就是这个概念下的产物。 随后 ...

3196

扫码关注云+社区