前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >投喂4万种噪声,20种语言方言实时转录,搜狗「开挂」录音笔这样炼成

投喂4万种噪声,20种语言方言实时转录,搜狗「开挂」录音笔这样炼成

作者头像
机器之心
发布2020-03-11 18:03:31
6400
发布2020-03-11 18:03:31
举报
文章被收录于专栏:机器之心机器之心

机器之心报道

作者:寓扬

一款「开挂」的录音笔,你会喜欢吗?

在 AI 的加持下,录音笔仿佛有了开挂的「人生」:

最高支持 10 米远距离拾音,可过滤 4 万余种真实噪音;可根据用户语言习惯个性化转写,语音转写准确率达 98%;还能区分不同人声,做重点标记,自动提炼摘要。

它还能充当你的翻译官,支持 63 种语言的对话翻译,以及同声传译。

你可以用它做会议录音、听课记录、采访,也可以用它与不同国家的游客交流,甚至可以拿着它刷美剧。

没错,这正是搜狗新推出的新款 AI 录音笔 S1。它的背后,不单单是一款硬件,更是搜狗 AI 能力的集合。

搜狗公司 CEO 王小川道出了他们做 AI 硬件的目的,「随着 AI 技术的进步,我们希望用户能更自由的表达,用你的声音、表情或肢体来表达,机器就可以理解,这些我们能做到的时候,就算达到了一个技术高度。」

01、搜狗 AI 录音笔是如何炼成的?

从搜狗输入法到语音交互、机器翻译,再到 AI 硬件,这背后有着深刻的搜狗 AI 发展逻辑。

早在 2016 年,当时搜狗没有做 AI 硬件,而是做了语音开放平台「知音引擎」,尝试技术输出。

但当时各路语音平台纷纷涌现,方案上没有谁真正不可替代,客户往往在多家间来回切换。另一方面,通用技术平台体验并不理想,加上 AI 行业处于早期,软件免费的思路还停留在很多人心中。

因此从 2017 年下半年开始,搜狗开启 AI 硬件的探索,沉淀技术,打磨硬件与场景。

2018 年上半年,搜狗推出探索之作——AI 翻译机和 AI 录音笔。如今 AI 硬件,已和输入法、搜索一样,是搜狗的几大重要战略之一。

接着 2019 年 3 月,搜狗又推出一款小巧的 AI 录音笔 C1,它具备了最新产品的雏形,支持语音转写、云端分享、中英同传等多种 AI 功能。

更重要的是,C1 的出现让略显疲态的录音笔行业鲜活了起来。经过用户一段时间的使用,搜狗对用户行为数据深入分析后,第一次呈现了用户的真实画像。

搜狗发现,使用录音笔的第一大场景并非大家预想的媒体采访,而是企业内部的商务场景,比如会议记录,占比高达 44%;其次是学习培训占比 24%,媒体采访占比 21%,这三大场景占总使用场景的近九成。

正是基于对三大场景的思考,在 C1 的基础上,搜狗推出全新的 S1 和 E1 两款 AI 录音笔,还与故宫宫廷文化合作推出两款联名产品。

对比这两代产品,搜狗 CTO 杨洪涛解释,C1 系列解决的是随身便携的录音需求,可以像领件一样夹在衣领上,它的使用空间相对近场,一般不要超过 3 米。而最新发布的 S1 和 E1 产品,主要解决复杂场景的录音需求,能在多人会议、课堂听讲、嘈杂背景采访中使用,可将使用范围扩大到 5~10 米。

为了满足更为复杂专业的需求,搜狗在远距离拾音、降噪上投入颇多。AI 录音笔 S1 搭配 2 颗哈曼指向性麦克风和 6 颗全向麦克风,在麦克风阵列算法的加持下,可有效过滤噪音,实现最高 10 米远距离拾音。

更重要的是,它还采用 AI 降噪,能够过滤 4 万余种真实噪音,让人声收录更清晰。

搜狗 AI 交互技术部总经理陈伟解释道,在硬件降噪基础上,搜狗首次将基于深度学习的降噪能力完全产品化。「我们使用了 4 万多种噪声,让模型学习到人声与噪声的区别,从而达到超出麦克风阵列以及行业其他降噪方案的更好降噪效果。」

在现场的测试环节,AI 录音笔 S1 面对键盘敲打、吹风机等的考验下,依然能够过滤噪音,提取清晰的人声。

可以看出,在硬件之路上摸爬滚打近 3 年后,搜狗对于 AI 硬件的理解也更为深刻。

只有面向用户体验,深入场景打磨技术,将技术、硬件、场景融合才能构建 AI 的竞争力。

02、AI 要转化为服务能力

搜狗内部有一句话叫,只做技术是不够的,技术要转化为服务能力。因为没有面向场景的深度优化,技术往往是一种鸡肋。

搜狗 AI 录音笔 S1

围绕多人会议、学习培训、媒体采访等核心场景,搜狗 AI 录音笔 S1 除了做到「超强拾音」外,还具备「准确转写」「高效整理」「全能翻译」的能力,也呈现出搜狗将技术转化为服务能力的思考。

如果放在一个工作流中,录完音后,如何准确快速地语音转写至关重要。如果交给人来做是个繁重的体力活,而语音转写软件多不准确。

搜狗称,AI 录音笔 S1 及 E1 目前已能达到 98% 的转写准确率。这一数字背后搜狗做了大量的优化工作。

首先,搜狗输入法每天 8.3 亿次的语音请求,为听写服务提供了绝佳的「练兵场」,结合远场语音数据和真实场景的优化,已能将准确率达到不错的效果。

在此基础上,搜狗又打通用户输入法账号,根据用户的语言习惯,进行个性化转写。此外,搜狗语音团队还专门围绕财经贸易、医疗卫生、IT 科技、政法、文化体育等 5 个领域,构建专用语言模型,进一步提升行业词汇的识别,做到了 98% 的准确率。

S1 及 E1 这两款产品也十分高效,均可做到录音 1 小时,出稿 5 分钟,并且支持 10 种语言和 10 种方言的录音与转写。

搜狗 AI 录音笔 E1

接下来是高效整理。结合使用场景,搜狗做了一些非常实用的功能点,让人印象深刻的是「敲重点」和智能摘要技术。

当你在听课或者参加会议时,突然听到一句神来之笔或者金句,「敲重点」就派上用场了。S1 有一个专用「M」键,按一下,它就会将这句话标记为重点。

面对一篇万字长文,如何能快速获取其关键信息。正是出于这种考虑,搜狗推出智能摘要功能,但其效果如何呢?

陈伟坦言,在 AI 录音笔中提取摘要,远大于学术研究中的摘要生成问题,因为录音笔是在噪声环境下,语音识别难以保证 100% 的准确率,从噪音文本中整理出符合文章语意的摘要是相当困难的。

因此在技术路线上,搜狗没有使用生成模型,而是采用抽取式的摘要能力,基于原文找到关键词,再通过排序算法,从文章中抽取关键句,形成摘要,保证足够的精度。

此外,AI 录音笔 S1 还能支持 5 人内的人声分离,从而在文稿中自动分段呈现。考虑到掌声、笑声、点赞等节点可能会出现一些重点或金句,它还会自动识别并重点标记。

除了录音笔所需要的服务外,搜狗还将 AI 翻译能力内嵌其中。

目前搜狗 AI 录音笔 S1 支持 63 个语种的在线翻译,9 种离线翻译。在对话过程中,S1 还具备自由对话功能,能够自动识别说话人是否讲完,进而呈现翻译结果,无需手动操作。

此外,它还具备同声传译功能,你可以带着它听英文演讲、报告,屏幕上就会同步翻译中文字幕。

种种服务背后,正如搜狗 CTO 杨洪涛所言,AI 录音笔是为了让人们更自由的表达,而这背后所用到的技术,相当多是对搜狗原有技术体系的复用,并针对硬件做更好的 AI 优化。

03、AI 加持,行业呈现「新蓝海」

与搜狗 AI 录音笔迭代一同上演的是,录音笔行业的洗牌与变革。

录音笔是一个相对狭小的传统市场,过去 20 年间没有太多变化,随着智能手机集成功能的持续丰富,它面临被手机替代的风险。

因此我国录音笔每年销量在 400 多万台徘徊,增长基本停滞,市场多被索尼、爱国者、纽曼等硬件厂商占据。

随着搜狗 AI 录音笔 C1 推出,市场格局开始出现变化。2019 年 6 月,它便成为京东录音笔类目单品销量冠军、天猫录音笔类目单品销售额冠军,随后 11 月又拿下天猫京东双平台单品总销量冠军。

更为重要的是,AI 录音笔的出现,在主流电商平台上,让原本趋于平缓甚至下滑的录音笔品类访客数据明显上升,既有的市场天花板正在被打破,行业呈现「新蓝海」。

到 2020 年一季度,AI 录音笔的销量已占据整个录音笔市场的 35%,行业变革正在上演。

与此同时,行业逐渐意识到 AI 优质服务的重要性,不少公司主动找到搜狗,甚至包括一些硬件上的竞争对手,询问能否购买搜狗的 AI 能力。

对于搜狗而言,尽管在硬件上取得一定成绩,但很难一家独大。因为在 C 端硬件市场,即使是最大的玩家,也很难占据 50% 以上的市场份额。但软件不同,后者可以发挥网络效应,一家独大。

内外部因素碰撞下,搜狗决定再往前迈一步,开放 AI 录音笔背后的听写服务。去年 8 月,搜狗联合爱国者、纽曼、索尼录音笔、万城集团等录音笔行业头部企业,成立 AI 创新联盟,将搜狗 AI 能力开放给业界。

传统录音笔以硬件为主的商业模式也正在被打破,「硬件+服务」的新型收益模式正在形成。

搜狗 CTO 杨洪涛称,「过去传统硬件主要是卖毛利,未来我们希望探索一种服务化模式,通过 AI 能力向用户提供更多增值服务,扩展传统商业模式的空间。」

在 AI 录音笔身上,我们看到两条不断交织的线,一条是搜狗 AI 的演进线,在「自然交互+知识计算」的指引下,从最初的语音识别发展到机器翻译、搜狗分身,再到如今的多模态交互。

另一条是 AI 硬件变革线,将 AI 能力不断注入硬件中,升级一个行业,而录音笔只是第一个。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-02-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档