前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >科大讯飞的3.0时代:用语音连接一切

科大讯飞的3.0时代:用语音连接一切

作者头像
罗超频道
发布2018-04-25 15:52:52
1.4K0
发布2018-04-25 15:52:52
举报
文章被收录于专栏:罗超频道罗超频道

中国语音巨头科大讯飞2014年8月20日在北京召开规模宏大的发布会,展示语音技术最新成果、发布科大讯飞一揽子软硬件产品、启动讯飞超级大脑计划、宣布科大讯飞1亿元创业基金,并对表现突出的讯飞开发者进行了表彰,以鼓励更多开发者进入讯飞生态。科大讯飞董事长刘庆峰在会上做了近两个小时的演讲,并进行了大量的现场演示,为了演示智能语音车载系统,甚至不惜耗费巨资将一辆MPV轿车从场外吊入位于国际会议中心4层的场馆。台上还有一个模拟智能客厅,核心家电一应俱全。这场发布会耗资不少,一定程度表明科大讯飞高调拥抱智能硬件大潮的决心。

灵犀 3.0发布,成科大讯飞大众市场核心品牌

刘庆峰认为人工智能分为三个阶段:计算智能、感知智能和认知智能。计算智能是深蓝机器人时代,存储和计算都是本地化的;感知智能则是让机器能听会说,能看会感知环境,这是当前大多数智能硬件在做的事情;认知智能即智能3.0时代则是机器可以向人的大脑一样思考,理解,推理,预测,解决实际问题。

灵犀3.0就是奔向认知智能的产品。灵犀由科大讯飞与中国移动共同打造,已经成为讯飞面向用户市场的核心品牌。在第三方语音助手市场,灵犀语音助手的用户已超过2-6名的总和,成为中国第一大语音助手。3.0灵犀定位三点:手机操控入口、信息搜索入口和移动特色服务。

手机操控入口可以让用户在驾驶时直接“唤醒”锁屏手机,自动搜索通讯录并拨打电话,支持“放弃拨打”等自然语音命令。“唤醒”的低功耗和高识别能力讯飞做到行业第一。

信息搜索入口则可以进行音乐搜索、哼唱搜索、电商导购、路线导航等维度的搜索,可以很好地识别自然语言、10多种地方方言。它理解用户的情绪、性别、年龄和地域,进而进行更加个性化的语音搜索,男生向灵犀咨询「我要给爱人买个礼物」,灵犀会建议「听你的声音一定是位事业有成的高富帅,快为她买一条钻石项链,她一定会很幸福的」,如果女生向灵犀咨询「我要给爱人买个礼物」,灵犀通过男女声识别后就给你另外的建议「听你的声音一定是位窈窕淑女,快为他买一只新款手表吧,让他显得品味十足」等等。一个让全场震撼的功能则是“语音实时翻译”,譬如你出国旅游时,直接向手机说中文,她就可以转换为英文给外国售货员,然后再将外国人的英语回答转换为中文读出来,可询价、讨价、还价等等。

灵犀 3.0全面连接智能家庭,让用户通过语音控制家里的一切家电、窗帘。刘庆峰现场演示对着灵犀说「开一盏灯」、「灯光调成白色」、「打开剩下的灯」等CASE,客厅灯光随之而变;对着灵犀说「打开空调」,「太热了,调高2度」,空调马上响应;对着灵犀说「我要看央视,顺便帮我煮杯咖啡,别忘了帮我热水」这样一系列的语音指令,对应的设备也会工作起来。

语音云3.0,将强大技术开放给开发者建生态

2010 年 10 月,科大讯飞发布全球首个移动互联网智能语音交互平台-讯飞语音云。现在这个平台有超过4万家合伙伙伴或开发者,已是中国语音开放平台名副其实的寡头。这些合作伙伴中不乏腾讯、小米、微博、58、携程、高德等巨型或大型公司,当然也有BoradLink、GlassX、欧瑞博等智能硬件后起之秀,“讯飞INSIDE”的终端用户数量已超 5 亿,也就是说,绝大部分在手机或者其他设备中使用到的语音交互,里面均是采用的讯飞的语音技术。

这一次讯飞发布的语音云 3.0重点提供了面向智能硬件的能力和服务。包括方言语音识别、高抗噪语音识别、个性化识别、人脸识别、手势识别、声纹识别等创新功能。在灵犀3.0中使用的语音唤醒、离线识别、人脸识别等前沿技术也将被逐步加入。有了这些能力之后,未来人们用“声音开家门、声音开车门,停车场声波找汽车”都成为可能,人类最终会拥有钢铁侠的“贾维斯”一样的无处不在的智能助理。

科大讯飞重点展示了两项技术:语音合成技术和抗噪识别技术。

现在公交车上使用的“报站器”的语音播报不少就是用科大讯飞的语音合成技术生成的,科大讯飞早年的主要业务之一便是售卖拥有语音合成能力的芯片。现在其语音合成已经做到炉火纯青的地步,一是可以模拟真人,譬如高德地图的“林志玲导航”便是使用科大讯飞的技术;二是具有多种风格,中国移动阅读基地使用最多的“评书风格”同样是科大讯飞提供;三是可以做到实时合成,譬如用户在海外游览时的及时翻译,这项技术未来或许可以取代同声传译。

语音应用一大难点便是噪音的存在会让识别率直线下降。它在商场、在户外、在汽车等复杂的声音环境中便会遇到应用的障碍,但这些地方往往又是最需要语音的,因为交互太不方便了。科大讯飞通过现场车载语音交互演示展示了抗噪语音识别的成就。汽车里有气流、发动机、轮胎、车外交通杂音等十分复杂的噪音,讯飞的技术完全可以规避这些杂音,让人们可以在车内简单、可靠地使用语音打电话、播音乐、路线导航。能够证明科大讯飞的抗噪识别能力的是,它在奔驰和通用两家全球语音识别抗噪评测中均列第一。

语音技术是多维度的:语音识别、语音合成、语义理解、声纹识别……刘庆峰没有太多时间展示讯飞在每一个领域取得的瞩目成就,但谁也不能否认科大讯飞的语音技术已是中国第一,全球领先,不少到过讯飞访问的学者专家在访问过身处合肥的科大讯飞之后,其原创技术取得的成就都让人惊叹。

超脑计划,与Google、百度等科技巨头抢占智能3.0

科大讯飞宣布启动人工智能计划——「讯飞超脑」,让机器像人脑一样做到学习和思考。「能听会说」是科大讯已经做到的,下一步重点就是让要机器到能理解、会思考。「讯飞超脑」计划聚集了来自语音及语言国家工程实验室、清华大学、 加拿大约克大学等 10 多位人工智能领域顶级专家,基于讯飞在触摸、语音、图像等领域的成就研究下一代人工智能技术,与生物科学结合模拟人脑神经元,与大数据结合开展深度学习研发,与开发者合作将人工智能技术落地。

科技的未来在于人工智能,已是国内外科技巨头的共识,大家纷纷在这个领域重点布局。百度在今年成立百度研究院,并聘请Google Brain负责人担任首席科学家负责百度大脑项目,李彦宏甚至外对透露百度大脑智力已接近3岁小孩,百度现在要做的是让这个“小孩儿”继续成长,因此在硅谷等高新人才洼地重金挖人。

Google Brain项目更是举世闻名,通过Google强大的计算集群资源、手握的海量多媒体及文字数据以及身处硅谷的人才优势,进行了大量的人工智能研究。这些研究成果被应用在Google Now、Google图像搜索、Google Adsense广告系统、Google无人驾驶汽车以及Google Glass等产品上。

在Google和百度之外,微软有Adam,IBM有waston。Facebook和Apple也在大力招揽人工智能人才,大家纷纷要占据下一个风口。

科大讯飞思路清晰:灵犀3.0抢入口,语音云3.0做开发者生态,超脑则是布局人工智能3.0时代。科大讯飞业已进入3.0时代。1.0时代是软件公司,2.0时代是软件公司+互联网公司;3.0时代要做软硬件一体化、面向未来的互联网科技巨头,它要用语音连接一切。

SuperSofter是WeMedia早期成员。关注SuperSofter与阿超一起围观冷暖科技世界。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2014-08-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 罗超频道 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档