前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >云知声黄伟:未来谁能成为 AI 领域的 BAT

云知声黄伟:未来谁能成为 AI 领域的 BAT

作者头像
新智元
发布2018-03-26 17:09:05
9390
发布2018-03-26 17:09:05
举报
文章被收录于专栏:新智元新智元

【新智元导读】2016年12月18日,新智元百人峰会闭门论坛在微软亚洲研究院举行。云知声CEO黄伟在会上带来了《构建AI生态,技术和商业应该是一个良性循环 》的分享。黄伟认为:人工智能领域里面虽然BAT很重视AI,而且有了很强的人才团队,但是跟行业结合恰恰是BAT很难做到的,因为他们在上面。AI和IoT是新的一波机会。

以下是黄伟演讲实录。

大家下午好!今天前面杨总(新智元杨静)说了雾霾天出来做这样的交流其实都是真爱,前面二位老总介绍的一些微软包括海尔做的事情,我非常高兴的一点是,我们选择的方向都是对的,都是这个行业里面共同做的方向。今天我分享的题目是——构建AI生态,技术和商业应该是一个良性循环。

为什么选择这样一个题目?首先我们是一个创业公司,做任何技术最终都要去面对商业市场。我本人做云知声之前有一段商业上没有走完的经历,我做过一个 APP,后来大家问云知声为什么不做 APP?不用谈论这个问题,我一直有一个观点,技术其实本身并不是产品,就像今天说人工智能不是产品,而是底层的技术。在今天我个人认为人工智能泡沫比较大,今天人工智能这么热的情况下,我们怎么用人工智能技术构建商业闭环,这个是所有的创业团队考虑的问题。

人工智能是一个基础的技术资源,我们很难说人工智能到底是一个什么产品,人工智能并不是产品,它离商品离市场还是非常远的。人工智能怎么和产业结合,什么样的AI公司未来成为 AI 领域的 BAT?像今天我们谈为什么过去十年里我们只有 BAT,当从 PC 互联网到移动互联网,当我们认为移动互联网应该是有机会诞生更伟大的公司,但是今天依然是BAT。IoT 时代有没有这样的机会?

我们都知道人工智能过去几起几落,以前为什么不成功?前面赵总(海尔集团CTO赵峰)说到,在当年我们没有数据,没有计算能力。当然神经网络并不是一个特别新的算法,以前我读书的时候翻过70年代很破旧的书,里面就有神经网络、感知机制等等,但是当时算法、数据和计算能力之间是不匹配的,过去的几十年里人工智能包括像神经网络并没有表现出真正的生命力。

在今天随着互联网、移动互联网的产生,有大规模的真实数据,我个人认为这个大数据并不是真正的大数据,而只是数据大。今天数据很多,但是这些数据我们能不能用?坦率来讲无论在机器视觉还是语音识别都是不可用的。今天都是有监督学习,这些数据本身如果并不是一种结构化的数据是不可用的。以机器学习算法为代表,算法更像是火箭引擎。今天以深度学习为代表,在机器视觉、语音识别、自然语义理解、机器翻译等等方面取得突破性的进展,人脸识别方面机器超过了人,语音识别方面机器也超过了人。

还有很重要的一点,我们今天拥有了过去不具备的计算能力,正是这三点使得今天的人工智能能够表现出和以前不一样的表现力,今天我们为什么这么热?因为人工智能是可以落地商业化的。这里面还有一点,人工智能真正成功的要素有四个,而不是三个。第四个要素是大应用。在医疗领域、IoT 领域,三要素跟应用结合才能有成功的可能性。

云知声是以技术出发的创业公司,2012年创业到现在没有忘记我们的本源,一定要在技术夯实好根基。下面给大家介绍一下我们在深度学习、大数据、计算方面做的储备。今年 AlphaGo 事件之后大家才开始关注深度学习,在这里面比较骄傲地来说一点,国内工业界国内创业公司里面,在国内语音创业公司中云知声是第一家把 Deep Learning 应用到工业领域的企业。2010年底到2011年中左右,微软刚刚把深度学习应用到语音识别领域里面,俞栋是我的师兄,我在意大利佛罗伦萨跟他交流,他说这个是趋势。

我们成立云知声遇到一个问题,数据有限,我们定制采购的数据只有八个小时,数据量非常非常小,我们在2012年9月份发布了公有云平台,把中文语音识别准确率做到85%左右,在当年已经是业内NO.1,超过了上市公司。一旦有了问题,数据的积累是需要时间的,那时候我们没有平台,而且我们没有足够的钱去采购数据,只能从算法上挖掘潜力。2012年10月份搞 Deep Learning,2012年12月28号把 Deep Learning 系统上线,2013年1月投放到线上,2013年基于 Deep Learning 引擎开发了业内微信上第一个语音输入插件,APP上线一周日活获超过五万。

我们在行业里面云知声从成立之初就是深度学习公司,一直到现在云知声对技术方面的定位。包括我们从引擎1.0到2.0到3.0,年中发布了引擎3.0,用了最新的技术,语音识别准确率比2.0提升了20%,而且在中英文混读的情况下,我们的效率反而提升了40%。

今天在 AlphaGo 成功之后,我们开始总结人工智能之所以成功,是因为大数据。包括到今天为止,坦率来讲这波人工智能能够成功的很重要的原因就是大数据。2004年那时候我刚刚毕业,在摩托罗拉在做手机系统,我们每个语种能拿到的数据不到一百小时,今天2012年成立的时候我们创业公司就有八百个小时,今天我们可能有几万个小时的语音数据,人工智能真正能够取得突破很重要的原因是在大数据。美国对做 Deep Learning 的高校提出的发明申请基本已经拒绝了,算法这块大家已经看到了,算法确实是一个突破,但是算法突破的根本原因在于大数据。

我之前有过一段创业经历,那个闭环打不通,后来做云知声就在想,对一个系统公司来说什么最重要?2012年以前在工业界的创业经历,意识到数据的重要性,我们作为一家创业公司2012年当时开放了国内第一个Free的开放平台,算是当时开创了国内商业模式的先河。以前我在互联网公司呆过,我们都深刻地知道免费才是王道,我们要通过免费获取数据。

今天回过头来看,在这一波人工智能的PK里面,云知声在数据层面上我们基本上拥有和巨头同样的规模。现在每天大概有几亿次的调用量,在创业公司里面据我们所了解,几乎没有任何一家语音类的创业公司有这个数量级,比我们差了两个数量级不止。我2012年意识到数据的重要性,我们持之以恒包括到今天依然有几十人的团队做这项事情,甚至开发了友盟这样的系统(是指友盟平台中用户反馈的语音模块),分析从哪个地区过来,从哪些设备过来,有效帮助我们做商业判断,最高频的语音请求是和设备结合而不是和APP结合。

曾经我们以为芯片行业是一个夕阳产业,但是今年芯片市场特别火热,芯片代表运算能力,甚至能决定人工智能到底做到什么规模,到底能够走多远。2012年我们已经开始用GPU攒Server,几年下来我们在这方面做得不错。2012年开始搭建超算中心,现在拥有了八千个CPU和超过160块GPU,我们跟曙光5000包括天河2号做了一个对比,今年9月份我们发布了Kubernetes的发行版Sextant,让开发者几乎实现零操作的全自动安装和部署集群。你做大数据的时候遇到很多瓶颈,给你几万个小时的数据跑,我的数据拥堵怎么办?遇到很多具体的问题。这个系统使得我们今天可以非常高效地来从事我们的研发工作,而且从数据规模和计算能力来说,云知声作为创业公司毫无疑问基本是跻身在国内一线公司的技术水平。

除了数据、算法包括计算能力之外,我们在感知认知方面做了长期的布局,大家看得到的是感知能力,比如听觉方面。除了感知能力我们还有表达能力,通过语音合成的方式,另外认知计算方面,包括语言知识的思维等等。以前有人把我们公司的名字写成“云之声”,我们的计算能力更多是Push在云端,“云”对应人工智能三要素之一的技术,“知”是一种算法能力,“声”就是声音大数据。从感知到认知的技术图谱,除了识别技术之外还有很多技术,包括降噪,类似Echo或者 Google Home 必须有这样的技术,还要高性能、低能耗,高自然度的方式语音合成体现出来。

当然这一切感知认知的技术突破的最基础的东西是我们在下面要有超算平台,我们要有足够多的样本,包括今天在声学方面通用领域已经累计了超过三万小时以上的数据,这个数据跟百度是同一个规模的。包括有监督的深度学习,我们跟讯飞、百度在综合指标上基本处在同一水平,而且很多细分领域云知声还有自己独特的优势都是离不开计算能力,离不开我们的数据积累。技术指标的PK说到底都是一个硬碰硬的,没有这些东西是不可能做到的。

云计算像我们以前在谈自然语音对话多轮对话、对话管理,这个只是基于上下文的。能不能和场景结合?我们的云计算更多和场景结合,跟物理场景结合,聊天越多确实证明基础能力,但是用户不希望聊那么多,能不能一两句话搞定,订张票说20句话才能搞定太烦了。我订一张票去青龙峡,提醒我“郊外的晚上温度比较低一些”,类似这样的东西我们希望这种对话能够更加自然更加拟人一些,这个引擎我们目前7月份发布,在车载设备里面已经开始大规模使用。融入双方的人格模型,融入上下文的主题信息,融入知识问答模型,使得对话更像是和人对话而不是机器和设备。

对话云计算是一个助手类的,我们希望不光是像助手倾听你,它有知识、能决策、自学习。像专家一样,你向它求助,不是简单的问询,给你提供信息你自己看着办,能不能帮我来做一些决策。从搜索型向专家型,比如,王总有一个助理,更多交代助理该怎么怎么做,我们到医院问专家,专家就会给你一些决策。明年我们会把这个引擎发布出来。能感知能认知之后,还要有表达能力,比如放到语音里面最简单的我能够把应答用自然语音生成的方式而不是事先试好的文本,自然语音生成类似像机器翻译一样,我把中文的一句话翻译成英文的一句话,自然语音生成结合上下文,上一句话对应下一句话像人一样自动翻译出来,而且用一种像韵律感比较好的合成方式把它表达出来。我们无论是识别、理解、合成、生文识别、唤醒、打断基本都是 Deep Learning 的,当看到有一些PR文章说深度学习芯片的时候,在所有的设备里面芯片里面我们都是基于 Deep Learning 的引擎,Deep Learning 的运算量比较大,要在低功耗低成本芯片里面做的话面临很多问题。我们在过去的一年半里面基本全部解决掉了,而且达到了工业界可以量产的指标。

2012年我们的目标是先把基础做好,把平台做好。2013年底之前云知声基本都是很懵懂的状态,唯一清晰的是技术指标要不断往前提升,因为很多时候技术指标达到一定高度是商业化落地的前提。平台数据上面给我们很多启发,2013年底我们接近了一万家开发者还有企业客户,有很多用户规模很大的APP接入云知声SDK,几乎没有什么量。几乎第一波做语音助手的产品基本都失败了,活跃度很少,当时有些产品用的是我们的SDK,调用量很惨,一天三五千次调用,可以忽略不计。

乐视2012年跟我们合作,2013年第一代产品用我们的交互引擎,那时候乐视电视发货量几十万台,每个用户在语音麦克风不是标配情况下,语音调用量平均20次以上,当时坦率讲我们做的不太好。有人说,老黄你们识别效果不太好。你试试用手机APP通过蓝牙连上性能效果非常好,几乎百分之百。为什么效果不好?因为当时用的按键摇控器为了节约成本丢帧,影响到我们的体验。坦率来讲我们背了黑锅。这样的情况下用户调用量依然非常多。语音的交互一定要跟设备场景相结合。

云端芯战略,我的智能化能力是在云端,但是只有云端不能覆盖所有场景,比如在一些离线情况下面,比如车载或者设备情况下不需要联网或者联网情况不太好能不能本地就能解决问题?这样就要把能力从云端拓展到终端,更不用说可穿戴设备、低功耗设备上。我们现在不说成本怎么样,如果说不把这些能力放到芯片端,这个能力靠软件不能实现。今天说Echo远距离唤醒、打断,没有芯片的支持不可能做到。2014年初我们引入高通作为战略合作方,开始艰苦的商业化过程。当我们看到 Echo、Google Home 给我们提供不一样的解决方案,声波在空气里面是会衰减的,在房间当中会形成混响,音响设备播放音乐,我站在五米之外,麦克风录的音乐声音远远大于人声,怎么通过一个声音打断?

实际应用当中遇到很多问题,耐高温、耐高湿、耐高压、防摔等等一系列问题,今年10月份 Google Home 的双麦克风方案,Echo6+1麦克风方案,两个公司不同的方案,Echo是做单品,Google Home 是做生态,当时为了面向更广的用户我们选择了最难做,不太知道的人以为麦克风越少越简单,巧妇难为无米之炊。当信号源很少要考虑到成本非常低,不能用特别复杂算法,你的用户会说因为麦克风少就可以比Echo差很多的情况下怎么办?反而更难。2014年中我们B轮到后面一系列真是经历了很多技术产品的挑战。今年Q3之后我们欣喜看到,过去的努力得到了回报,我们刚刚看到GOOGLE推出Google Home,我们的产品已经规模量产了,这个也是离不开过去平台数据给我们的启发。端是指AIUI,主要覆盖在后装汽车这一块。

2014年之前中国汽车没有后装市场,只有WinCE,2014年底WinCE和安卓的市场份额是9:1。我们在2014年底选择了切入汽车市场,2015年中把语音交互的界面提供给我们中国的后装设计厂商,现在我们自己做的,使用我们SDK的,我们目前已经从2015年中到今天中国的后装市场一共有七百万台设备,覆盖了五百万台设备。不管怎么样,先把用户圈住,我们相信这个市场一定会起来的。包括前面程总(微软亚太研发集团创新孵化程骉总监)介绍的在医疗,很欣慰我们也是很早就切入了医疗领域,后面可以给大家介绍一下,包括第一个客户就是中国最顶尖的协和医院,包括目前在国内的三甲医院里面TOP50的医院里面我们正式签约超过了15家。

云知声在过去两年选择了一些在今天被证明是正确的领域和平台。它们不仅给我们贡献数据价值、技术价值,也贡献了商业价值,这个商业价值我们并不能说给了我多少钱,而是告诉我该怎么走。云端芯,我们提供感知认知的服务,我们覆盖的领域是医疗、教育,AI芯解决终端感知,应用领域是家居,AIUI解决智能终端交互,除了乐视主要是覆盖车载,语音交互需要跟数据硬件深度耦合,有设备又有内容的只有乐视一家,我们跟乐视的合作案例比较难复制,我们后来快速移植到车载领域去。

前面几位嘉宾在讨论单机智能还是联机智能,我觉得一定是并存过渡,我认同赵总的观点,在一个家里面不可能只有一个中控,是若干个中控,而且这个中控可能就是海尔做的,这个观点我非常认同。很难说客厅里面放一个中控,到卧室怎么办?到卧室里面喊一下,把卧室灯打开吗?一定是在房间里面可能有若干个角落里面放了几个不同智能程度的中控设备。今天讲 IoT,不再是互联网,而是智能化,在这里面怎么样通过技术的形态或者服务的方式,使得我们的设备具备这样的感知认知能力显得尤为重要。

我们的产品形态,为什么要用硬件?没有硬件的话很多功能是不可能做到的,比如无法做到远场识别、冷唤醒、全语音自然交互,通过这种方式可以更好地满足用户的体验。我们的产品形态今天不止于此,我们今天是一个芯片模组。云知声跟国内的出发点不一样,有的公司可能从芯片出发找应用,希望其它厂商能够把应用放到芯片里面去,这个是英特尔、高通做的,不是我们做的,我们从应用出发找芯片,我要想明白,我们云知声不是芯片公司,不会做指标特别牛的生物学芯片,而是我们要有这样的芯片,无论我自己做还是跟外部合作,但是我要把我的应用放到里面,使得它能够成为设备的耳朵,能够感知我们的物理世界,能够完成像人跟设备交互。我们在美的、格力、海尔的出货产品上面做了验证。而不是做一个 demo,找几个亲朋好友看看我们的产品多牛。我们的芯片是要放到产品,要经过(海尔)赵总检验,经过格力董小姐的检验的。最快明年我们会提出能够实现所有功能的低成本的方案。

距离很远的情况下,远场语音识别技术这个难度并不是像我们理解的那样,还有一些朋友过来找我,能不能做硬件直接对接你们的引擎?基本不可能。识别引擎和整个硬件的设计是强耦合的,包括麦克风摆放的角度、间距和算法都是强烈耦合在一起,有很多的技术挑战。格力的演示间是在特别空旷的房间里面,距离11米左右,有各种混响和干扰,而且麦克风放到出风口上面,有很多噪音的干扰。我们可以做成全程非常顺畅的语音交互。

医疗,我们前面讲到当我们有算法,有平台,有计算能力的时候,其实我们要跟商业打通。除了前面介绍的跟家居打通,另外我们也选择了前景非常大的医疗领域,这中间同样有感知认知问题。我们选择先帮助医院解决效率问题。有几个点跟大家分享一下,医院存在的痛点:第一是效率问题,在我们很多医院医生下班之后并不是没事做,平均每个医生要花三到四个小时来整理病例,越是好的医院医生的成本越是高。第二,很多HIS厂商为了提高工作效率,里面有很多模板,看个感冒发烧Copy一下,导致80%的误诊率,之前听到一个男士左腿有问题把右腿锯了,还有男科病例出现了妇科病,这就是节约成本拷贝粘贴带来的难题。

人类的进步离不开医学离不开大数据,一份详实的病例像一本教科书一样。协和医院有三宝,档案、病例、老医生。而且甚至专门给病例有一个博物馆,病例的价值对医院非常大。我们怎么让医生每天把病例详实产生出来,提升医生的效率?

大家都知道作为一家创业公司不要想颠覆这个行业,那是不可能的,一定会被拍死。在不改变现有格局的情况下面帮助医生帮助医院、帮助医院产生数据、帮助医生提高效率,这样的产品非常受欢迎。这是为什么我们用了26个人的团队来开发医疗产品,就是我们的“云知声语音系统-医生专用版”,让医生可以直接语音录入病历。目前为止,正式签约国内超过15家 TOP 50 的医院,例如北京协和医院、北大人民医院、解放军西京医院、平安好医生等,基本国内最好的医院标杆医院我们覆盖到了。目前产品在协和医院实测的平均准确率达到95%以上,在部分科室准确率在98%以上。

汽车这一块,我们目前已经覆盖接近五百万终端,有后视镜、HUD、行车记录仪等产品形态。另外在教育方面,我们做了口语评测系统,我们把口语评测能力也开放出来,这一块差不多每天的日调用量在八千万次以上。目前国内的沪江、网龙所有这些互联网教育公司都是用我们的客户,给我们贡献很多语料等等,未来也能产生价值。

技术和商业怎么能够交互起来,坦率说今天中国的环境比以前好很多,几年以前中国的创新是运营模式的创新,利用中国的人口红利等等,技术创新的公司并不是特别多,这是为什么今天像类似科大讯飞这样的企业在国内如此受人尊敬的很重要的原因,他们从99年开始到今天为止一直坚持技术创新,这也是我们非常尊重的企业。另外悲催的现实是技术往往离商业非常远,技术通过什么商品呈现出来,哪些产品用户愿意买单,而且是可以大规模复制的能够可市场化的产品。技术很强的公司其实在做系统集成,对公司来说也是浪费,没有把精力全部集中在一些很关键的地方,比如公司有一千人,做系统集成把人养活下来。

技术的提升、技术的产品化、商业化需要一个过程,这个过程我们看大方向、看愿景。中间的东西我们可以怀疑,细节可以怀疑,但大方向我们一定要坚定。这方面既需要像创业公司自己要很多思考,我们怎么来构建一个技术和商业的闭环,同时我们也需要很多行业知识,比如海尔赵总对我们的支持,能够在很多商业合作上面展开合作,共同打消外界质疑,当大家觉得家电有没有必要智能化的时候,我们推出一个智能化的产品。这个需要行业共同来推动。

什么样的AI公司成为未来AI圈的BAT。从PC互联网向移动互联网的过渡只是一个屏幕的变化,从PC屏幕变成手机屏幕,从以前的按键输入变成触摸屏输入,但是商业逻辑没有变,总而言之一句话,为什么没有诞生新的巨头?今天所有的变革都在巨头的能力范围之内,但是未来会不会有新的巨头?一定有。

新的机会就是人工智能和 IoT,为什么是一个新的机会?在移动互联网出现之后,我们的信息获取通道从URL变成APP,我们经常听到一个词“碎片化”,因为时间碎片化了,很多APP就有机会了。IoT 时代是设备的碎片化,可能在今天我们的联网设备更多通过手机平板,但是在 IoT 时代可能通过海尔的一个空调,通过一个Echo,通过其它设备,你更加进一步碎片化,而且这些碎片化是和硬件相关的。但硬件恰恰是BAT没有的基因,这是一个新的机会。第二,人工智能领域里面虽然 BAT 很重视 AI,而且有了很强的人才团队,但是跟行业结合恰恰是 BAT 很难做到的,因为他们在上面。AI 和 IoT 是新的一波机会。

2015年以前我们提供 API、SDK 服务,拥有超过三万家合作伙伴。今年我们除了向合作伙伴提供 AIUI 之外,还有一些单品。前面讲我们到底是中控还是分控,不重要,用户习惯最重要。没有用户习惯的时候互联互通没有意义,有用户习惯的时候互联互通是趋势。2017年,连接单品之后会连接一系列的服务,这个是我们在IoT时代、AI时代怎么实现商业应用的逻辑。那么到底像Echo这样的单品有机会还是像海尔或者其它厂商做的设备上带有分控有机会?都有机会,前提是用户习惯养成。但是今天没有 Echo,没有 Google Home,没有海尔,没有格力的探索,用户习惯不养成,这个机会永远不存在,这才是我个人想表达的观点。今天既需要像云知声这样的技术厂商也需要海尔这样的设备厂商,需要外界包括资本市场对未来的探讨和信心。

这个就是我今天的分享,希望通过我们的技术和服务打造更智能化的生活,让我们一起来智享未来,谢谢大家!

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2016-12-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档