搜狗语音:从输入到输出,要技术也要“接地气”

试想一个场景:不需手动输入,而是对着手机说出你想查看的内容便可以实现网页浏览。这种“动口不动手”的桥段并非只存在于科幻电影,随着人工智能研究的发展,这类语音交互技术也已取得可观的进展,一系列语音技术产品也随之而来。 对于定位人工智能公司的搜狗来说,抱着用语音技术完善搜索引擎体验的想法,6年下来,已逐渐走到语音技术的发展前端。 独创技术成就“机器翻译冠军” 在今年WMT国际评测中,搜狗机器翻译荣获中英和英中翻译双向冠军,同时在八项机器评测指标中实现“七项领跑”。在业界公认的国际顶级机器翻译比赛中夺冠,搜狗向全世界展现了中国人工智能研究的实力。 据悉,此次“夺冠”的背后功臣是搜狗机器翻译独创的神经网络机器翻译技术,其优势在于翻译成句后的流畅度与复杂语法下的翻译能力。 首先,这项技术采用完全“端到端”的学习方式,整个翻译决策过程既是连续的也是全局的,并非是中英文的简单对照,而是由机器基于整个句子进行学习、翻译,因此,其翻译结果也更加流畅。其次,经过长时间的深度学习,神经网络机器翻译看到的历史信息更长,在语序调整和复杂语法结构的翻译上都优于传统统计机器翻译。 同时,以文本断句为桥梁,搜狗机器翻译能够做到在用户说话的同时,将语音进行区分、识别并翻译,再通过已有语音模型对语序进行调整,从而实现“语音同传”。在2016年世界互联网大会上,搜狗CEO王小川携带这项技术演讲时,效果惊艳全场。 5年,深耕语音识别 语音交互过程中,语音输入与识别是核心。搜狗机器翻译、语音同传的输出环节成功,背后离不开搜狗研究团队在输入、识别环节中的探索。 对从2012年开始着手语音技术研究的搜狗来说,从语音助手、语音交互、到语音同传、唇语技术,解决输入端一直是搜狗技术研发的重点。 推出“知音”引擎后,搜狗开始尝试在深度学习平台上搭建新构架。一方面根据人类说话的生物特征将每个音节分为独立一帧,提高机器对静音的识别以及语音识别效率;另一方面,在语音识别框架下建立声学模型,根据人在发音时声音信号和录音信号波形对比,实现录音和文字之间的映射。 除了技术框架搭建,搜狗研究团队还用搜索产品与中文输入法上的数据支持语音技术开发。如今搜狗语音识别已达97%准确率。今年世界互联网大会上,搜狗正式展出唇语识别技术,无疑将弥补噪音环境下语音输入和识别的不足。 在这方面,搜狗也走在了同行队伍的前排。 前沿技术落地实用产品 对用户来说,目前的人工智能还只是前沿技术,融入生活尚需时日。而从以往经验来看,这类产品往往面临着因交互体验差引起用户对其依赖度较低,从而使用率不高的问题,科技产品与用户间存在一道鸿沟。对搜狗来说,纯粹的技术出售商从来不是他们的目标。 搜狗语音负责人王砚峰曾表示,技术应该用在能够真正解决用户实际问题的方向上。搜狗也尝试将技术研发与产品设计相结合,依靠人工智能算法为产品提供对接和解决方案,并将技术应用于垂直领域中的产品开发,如车载语音系统、智能语音电视等。 从使用角度看,语音技术满足了不方便打字的场景下的内容输入,也逐渐成为一种“刚需”。如何将这项技术所依附的产品也成为“刚需”,将是搜狗和其合作厂商所面临的共同问题。 (张羽) (北京晨报)

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/2017122901058400?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券