中国语音巨头科大讯飞2014年8月20日在北京召开规模宏大的发布会,展示语音技术最新成果、发布科大讯飞一揽子软硬件产品、启动讯飞超级大脑计划、宣布科大讯飞1亿元创业基金,并对表现突出的讯飞开发者进行了表彰,以鼓励更多开发者进入讯飞生态。科大讯飞董事长刘庆峰在会上做了近两个小时的演讲,并进行了大量的现场演示,为了演示智能语音车载系统,甚至不惜耗费巨资将一辆MPV轿车从场外吊入位于国际会议中心4层的场馆。台上还有一个模拟智能客厅,核心家电一应俱全。这场发布会耗资不少,一定程度表明科大讯飞高调拥抱智能硬件大潮的决心。
灵犀 3.0发布,成科大讯飞大众市场核心品牌
刘庆峰认为人工智能分为三个阶段:计算智能、感知智能和认知智能。计算智能是深蓝机器人时代,存储和计算都是本地化的;感知智能则是让机器能听会说,能看会感知环境,这是当前大多数智能硬件在做的事情;认知智能即智能3.0时代则是机器可以向人的大脑一样思考,理解,推理,预测,解决实际问题。
灵犀3.0就是奔向认知智能的产品。灵犀由科大讯飞与中国移动共同打造,已经成为讯飞面向用户市场的核心品牌。在第三方语音助手市场,灵犀语音助手的用户已超过2-6名的总和,成为中国第一大语音助手。3.0灵犀定位三点:手机操控入口、信息搜索入口和移动特色服务。
手机操控入口可以让用户在驾驶时直接“唤醒”锁屏手机,自动搜索通讯录并拨打电话,支持“放弃拨打”等自然语音命令。“唤醒”的低功耗和高识别能力讯飞做到行业第一。
信息搜索入口则可以进行音乐搜索、哼唱搜索、电商导购、路线导航等维度的搜索,可以很好地识别自然语言、10多种地方方言。它理解用户的情绪、性别、年龄和地域,进而进行更加个性化的语音搜索,男生向灵犀咨询「我要给爱人买个礼物」,灵犀会建议「听你的声音一定是位事业有成的高富帅,快为她买一条钻石项链,她一定会很幸福的」,如果女生向灵犀咨询「我要给爱人买个礼物」,灵犀通过男女声识别后就给你另外的建议「听你的声音一定是位窈窕淑女,快为他买一只新款手表吧,让他显得品味十足」等等。一个让全场震撼的功能则是“语音实时翻译”,譬如你出国旅游时,直接向手机说中文,她就可以转换为英文给外国售货员,然后再将外国人的英语回答转换为中文读出来,可询价、讨价、还价等等。
灵犀 3.0全面连接智能家庭,让用户通过语音控制家里的一切家电、窗帘。刘庆峰现场演示对着灵犀说「开一盏灯」、「灯光调成白色」、「打开剩下的灯」等CASE,客厅灯光随之而变;对着灵犀说「打开空调」,「太热了,调高2度」,空调马上响应;对着灵犀说「我要看央视,顺便帮我煮杯咖啡,别忘了帮我热水」这样一系列的语音指令,对应的设备也会工作起来。
语音云3.0,将强大技术开放给开发者建生态
2010 年 10 月,科大讯飞发布全球首个移动互联网智能语音交互平台-讯飞语音云。现在这个平台有超过4万家合伙伙伴或开发者,已是中国语音开放平台名副其实的寡头。这些合作伙伴中不乏腾讯、小米、微博、58、携程、高德等巨型或大型公司,当然也有BoradLink、GlassX、欧瑞博等智能硬件后起之秀,“讯飞INSIDE”的终端用户数量已超 5 亿,也就是说,绝大部分在手机或者其他设备中使用到的语音交互,里面均是采用的讯飞的语音技术。
这一次讯飞发布的语音云 3.0重点提供了面向智能硬件的能力和服务。包括方言语音识别、高抗噪语音识别、个性化识别、人脸识别、手势识别、声纹识别等创新功能。在灵犀3.0中使用的语音唤醒、离线识别、人脸识别等前沿技术也将被逐步加入。有了这些能力之后,未来人们用“声音开家门、声音开车门,停车场声波找汽车”都成为可能,人类最终会拥有钢铁侠的“贾维斯”一样的无处不在的智能助理。
科大讯飞重点展示了两项技术:语音合成技术和抗噪识别技术。
现在公交车上使用的“报站器”的语音播报不少就是用科大讯飞的语音合成技术生成的,科大讯飞早年的主要业务之一便是售卖拥有语音合成能力的芯片。现在其语音合成已经做到炉火纯青的地步,一是可以模拟真人,譬如高德地图的“林志玲导航”便是使用科大讯飞的技术;二是具有多种风格,中国移动阅读基地使用最多的“评书风格”同样是科大讯飞提供;三是可以做到实时合成,譬如用户在海外游览时的及时翻译,这项技术未来或许可以取代同声传译。
语音应用一大难点便是噪音的存在会让识别率直线下降。它在商场、在户外、在汽车等复杂的声音环境中便会遇到应用的障碍,但这些地方往往又是最需要语音的,因为交互太不方便了。科大讯飞通过现场车载语音交互演示展示了抗噪语音识别的成就。汽车里有气流、发动机、轮胎、车外交通杂音等十分复杂的噪音,讯飞的技术完全可以规避这些杂音,让人们可以在车内简单、可靠地使用语音打电话、播音乐、路线导航。能够证明科大讯飞的抗噪识别能力的是,它在奔驰和通用两家全球语音识别抗噪评测中均列第一。
语音技术是多维度的:语音识别、语音合成、语义理解、声纹识别……刘庆峰没有太多时间展示讯飞在每一个领域取得的瞩目成就,但谁也不能否认科大讯飞的语音技术已是中国第一,全球领先,不少到过讯飞访问的学者专家在访问过身处合肥的科大讯飞之后,其原创技术取得的成就都让人惊叹。
超脑计划,与Google、百度等科技巨头抢占智能3.0
科大讯飞宣布启动人工智能计划——「讯飞超脑」,让机器像人脑一样做到学习和思考。「能听会说」是科大讯已经做到的,下一步重点就是让要机器到能理解、会思考。「讯飞超脑」计划聚集了来自语音及语言国家工程实验室、清华大学、 加拿大约克大学等 10 多位人工智能领域顶级专家,基于讯飞在触摸、语音、图像等领域的成就研究下一代人工智能技术,与生物科学结合模拟人脑神经元,与大数据结合开展深度学习研发,与开发者合作将人工智能技术落地。
科技的未来在于人工智能,已是国内外科技巨头的共识,大家纷纷在这个领域重点布局。百度在今年成立百度研究院,并聘请Google Brain负责人担任首席科学家负责百度大脑项目,李彦宏甚至外对透露百度大脑智力已接近3岁小孩,百度现在要做的是让这个“小孩儿”继续成长,因此在硅谷等高新人才洼地重金挖人。
Google Brain项目更是举世闻名,通过Google强大的计算集群资源、手握的海量多媒体及文字数据以及身处硅谷的人才优势,进行了大量的人工智能研究。这些研究成果被应用在Google Now、Google图像搜索、Google Adsense广告系统、Google无人驾驶汽车以及Google Glass等产品上。
在Google和百度之外,微软有Adam,IBM有waston。Facebook和Apple也在大力招揽人工智能人才,大家纷纷要占据下一个风口。
科大讯飞思路清晰:灵犀3.0抢入口,语音云3.0做开发者生态,超脑则是布局人工智能3.0时代。科大讯飞业已进入3.0时代。1.0时代是软件公司,2.0时代是软件公司+互联网公司;3.0时代要做软硬件一体化、面向未来的互联网科技巨头,它要用语音连接一切。
SuperSofter是WeMedia早期成员。关注SuperSofter与阿超一起围观冷暖科技世界。