专栏首页新智元搜狗首创语境引擎:AI同传最强进化,PPT翻译正确率猛升40%!

搜狗首创语境引擎:AI同传最强进化,PPT翻译正确率猛升40%!

新智元报道

编辑:张佳

【新智元导读】手握搜索引擎和输入法两张王牌,搜狗在AI同传领域又放出大招——搜狗同传3.0惊艳亮相。基于搜狗独创的“语境引擎”,搜狗同传3.0以“多模态”和“自主学习“为核心,加入视觉和思维能力,让AI同传不仅会听,还首次具备了会看、能理解会推理的能力。搜狗一小步,同传一大步。戳右边链接上 新智元小程序 了解更多!

“全球95%的信息是用英文所写的,100%的国际商贸活动是用英文的,因此如何帮助中国人跟外国人进行更好的交流,这变成了一个重大的技术课题。”

搜狗公司CEO王小川的这席话道出了多少中国人的心声?

近日,王小川在某科技大会的演讲中谈到了“语言AI的未来构想”:我们作为做输入法、搜索以语言为核心的公司,投了很多的力量来做相关的积累。

这里说的积累包含搜狗的OCR技术、NLP技术、知识图谱技术等等,而这个积累的成果终于重磅亮相,它就是“搜狗同传3.0”。搜狗同传3.0在这场大会上的首秀惊艳四座,快速准确的同步翻译王小川的演讲内容,感受下:

业内首创多模态同传,PPT翻译正确率提升40.3%,搜狗同传3.0如何实现“能听会看会思考”?

在与搜狗AI交互技术部总经理陈伟和项目负责人赵超沟通后我们得知,在2016年“互联网大会”上,搜狗同传1.0首次亮相时语音识别准确率已经达到97%,机器翻译准确率达到90%。

而3年后的今天,搜狗同传3.0再次进化,PPT识别准确率提升21.7%,翻译正确率提升40.3%,靠的就是秘密武器——“语境引擎”。

基于搜狗独创的“语境引擎”,搜狗同传3.0以“多模态”和“自主学习“为核心,加入视觉和思维能力,让机器同传不仅能听,还首次具备了会看、会思考、会推理的能力,引领AI同传进入了多模态认知时代。

  • 能听:准确识别讲述内容
  • 会看:通过OCR、NLP等技术,实时捕捉并分析PPT核心词
  • 会思考:基于知识图谱技术,广泛扩展专业领域词汇

其中,搜狗同传3.0业内首创利用视觉技术加持AI同传,成功破解了大会同传场景下,专业术语的识别和翻译这个难题。

搜狗同传产品总监张晶晶介绍道:“用摄像头或者数据线插在视频上实时通过OCR捕捉演讲人正在演讲的PPT内容,实时分析PPT核心关键词,就增强了视觉的能力。”

紧接着,在捕捉到核心关键词后,利用搜狗的知识图谱技术进行广泛的拓展,把相关的词语以及这个专业领域相关的词语都拓展出来来加强语音识别和翻译。这就是“能理解”。

在这样一套系统下,搜狗同传3.0可以更像一个专家和内行一样的去解读和翻译大会。具体来说,使现有AI同传技术从3方面进行了提升:

  • 更自然,从以往单纯的语音识别,到现在去模拟人工同传的工作方式,增加视觉和大脑扩散知识点的功能,形成一套全方位的感知系统。
  • 更专业,以往的AI同传模型是通用的,现在通过这套系统形成了实时专属的定制加强的能力,能够实时捕捉PPT的内容,补充演讲专业领域的知识,并且针对每一个演讲的模型定制,提升同传效果。
  • 更智能,以往模型训练需要一个被动学习的过程,现在自动学习PPT的内容,自动捕捉海量词汇,确保同传品质非常优秀。

在专业术语多的大会上,搜狗同传3.0的优势更加明显,具体效果见下图:

搜狗同传2.0将围棋专业术语“投子”识别为“投资”,而通过捕捉PPT内容和知识图谱的扩展,搜狗同传3.0可以准确识别出来。

除了大会演讲的同传外,搜狗同传3.0作为一套完整的技术体系正在更多的场景应用,比如记者采访、跨国办公会议、视频直播、旅游出行、法院庭审等。

大厂纷纷押注AI同传,为什么以搜索起家的搜狗更具优势?

这两年,AI同传市场很热闹,以百度、腾讯、讯飞为代表的大厂纷纷推出自家的AI同传,也有一些被用在了世界级大会上。那么,作为最早一批入局AI同传的搜狗优势在哪?又有什么不同的理念呢?

搜狗同传一直代表着 AI 同传领域顶级的水平,早在2018年的IWSLT国际口语机器翻译评测大赛上,搜狗就击败讯飞、阿里、APPTEK、AFRL及KIT等国内外顶尖对手,夺得冠军,实力可见一斑。

在搜狗看来,未来面向人机交互一定是多模态的。其他公司的同传主要以“语音识别+翻译”为主,搜狗则步入了下一代,从语音跨到了多模态,同时加入对于语音和知识的理解,让AI同传具备一定的认知能力。

其实,AI同传面临的挑战主要有两个:一是准确性,二是低延时

越多的感官参与,理解就会越准确,对于AI同传来说也是如此。今天的搜狗同传把识别PPT加入其中,明天可能会调动更多“感官”,甚至把唇语识别也加入其中,提升翻译的准确性。

此外,搜狗的两大利器——搜索引擎和输入法在提升准确性方面也派上了大用场。

“每天在搜狗输入法上的语音识别总的次数在8亿次以上,8亿次以上语音请求数代表着每天差不多有30多万小时的有效数据,基于这样的数据再进一步去学习,本身就使得我们的机器一直在不断成长。”陈伟介绍到。

说话人开口讲了半句话,同声传译就要开始翻译了。为了降低延时,搜狗同传3.0做了一个基于上下流的解码,通过一个信息模块来实时检测说话人什么时候断句,再借助搜狗强大的知识图谱迅速整理翻译,这样就可以大大降低延时。

搜狗同传领先的不仅是技术,还有眼光。当前,搜狗AI的技术布局聚焦在自然交互知识计算上。在语言之上提取出跟语言的关联关系,让机器产生人的“认知”能力,王小川称之为知识计算。怎么更好的把从大量数据中抽取出的知识用在同传中、怎么计算出更多的知识给同传用,这正是搜狗同传努力的方向。

搜狗同传3.0的发布,是搜狗又一次在同传领域的技术创新,让AI同传首次具备了视觉能力和思考能力,开启了AI同传行业全新的“多模态认知”时代。AI同传替代人工同传还会远吗?

本文分享自微信公众号 - 新智元(AI_era)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-12-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 【一文读懂】机器学习最新主战场迁移学习,从原理、方法到应用

    【新智元导读】吴恩达在他的 NIPS 2016 tutorial 中曾说,迁移学习将是监督学习之后的,在ML 的商业应用中得到成功的下一波动力。现实世界是混乱的...

    新智元
  • Nick Bostrom《超级智能》引笔战,专家激辩人类能不能实现超级智能

    【新智元导读】艾伦人工智能研究所CEO、著名的人工智能研究者Oren Etzioni九月在《麻省理工技术评论》上撰文批评Nick Bostrom的新书《超级智能...

    新智元
  • 三伏天,这位小哥给“树莓派4”加了个风扇,温度直降20度!(附视频教程)

    最近发布的“树莓派4”性能强大、价格亲民,新智元此前已经做过比较全面的介绍。但如此强大的性能带来的一个副作用就是猛增的发热量。其实在树莓派官网上说它“性能堪比P...

    新智元
  • 技术大神来一个,关于三方qq登陆。

    116.128.128.41 - - [18/Feb/2020:04:10:15 +0800] "GET xxx.com/qq/callback?code%3D...

    用户3489219
  • 使用js获取url中的get参数并转成json格式

    Theone67
  • Java源码学习 -- java.lang.StringBuilder,java.lang.StringBuffer,java.lang.AbstractStringBuilder

    一直以来,都是看到网上说“ StringBuilder是线程不安全的,但运行效率高;StringBuffer 是线程安全的,但运行效率低”,然后默默记住:一个是...

    YGingko
  • 带你学C带你飞

    失踪人口回归!!!……其实自己都不太好意思讲了,失踪了这么久。因为最近真的特别忙。忙到每天结束的时候都不会想再看电子屏幕,包括手机!(我知道你们的OS:闭嘴,都...

    谭庆波
  • 看看这些被同事喷的JS代码风格你写过多少

    现在写代码比以前好多了,代码的格式都有eslint,prettier,babel(写新版语法)这些来保证,然而,技术手段再高端都不能解决代码可读性(代码能否被未...

    谭庆波
  • 高逼格的代码

    如果你确实用很多的全局变量需要共享,你可以使用 vuex,redux 或者你自己参考 flux 模式写一个也行。

    李才哥
  • 从map函数引发的讨论

    只要你用心,一个细小问题可以引起对一系列设计原则的思考与回味。软件设计与开发技能就是这样通过不停“反刍”与思索而磨砺出来的。当然,对一些实践案例进行升华,进而抛...

    张逸

扫码关注云+社区

领取腾讯云代金券

玩转腾讯云 有奖征文活动