云知声黄伟：AI 从感知、认知向通用智能演进，深度学习技术落地秘笈

新智元

发布于 2018-03-23 18:05:02

1.1K0

发布于 2018-03-23 18:05:02

文章被收录于专栏：新智元

【新智元导读】云知声 CEO 黄伟在世界人工智能大会 AI WORLD 2016 发表演讲《AI 已来，未来已来》，分享了云知声在技术、产品、商业上的思考。黄伟在演讲中提到，AI 正从感知迈入认知阶段，交互方式的改革让智能语音市场前景无限。黄伟以云知声在智能语音、智能家居、智能车载等领域的技术和应用落地为例，介绍了深度学习、大数据和云计算的结合如何促进 AI 产业发展。最后，黄伟呼吁 AI 从业者，要通过技术和商业上的努力，真正把人工智能技术带入生活。

【黄伟】：大家下午好！今天非常高兴能够参加这么一个高大上的会议，今天是整个国内人工智能产业界的一次盛会，可以这么说今天在座的人是生逢其时，今天我们赶上了而且能够经历人工智能蓬勃发展的时间点，很多在这个领域里面无论是科研还是产业有过很多年工作经验的人可能知道，在过去很长一段时间里面人工智能相对是偏冷的。今天给大家分享的题目《AI已来，未来已来》。这个题目听起来比较大，我们正在经历一个伟大的时代，人工智能不仅仅在未来对整个社会结构，我们的社会分工各行各业产生巨大的影响，甚至在今天已经进入我们的生活改变我们的生活。作为一个创业公司，我们云知声已经成立了四年多，我们在这里面更多想跟大家分享一些我们在技术、产品、商业上的思考。题目很大，我的内容比较接地气一些。

另外，非常高兴聆听前面三位科大学长的分享。为什么中科大在人工智能领域里面能够积累储备这么多人才，可能也是源于过去很多年里面科大整个专业设置方面的积累，换句话说，人工智能未来的蓬勃发展并不是一蹴而就，可能需要我们各行各业，无论是科研界、产业界甚至资本界，我们对人工智能既抱有一个非常乐观的希望，同时也希望我们在今天做的每一个事情也好，每个产品也好，我们都更要脚踏实地。

AI 从感知阶段进入认知阶段，交互方式变革让智能语音产业市场前景无限

人工智能分为三个比较明显的阶段或者层次，一方面感知智能，感知智能很简单，它就像今天通过摄像头、麦克风或者其他传感器，通过语音识别、图像识别，把物理世界的一些信号映射到数字世界，有了数字世界的信息之后进一步做一些认知方面的智能，比方说记忆、理解、规划、决策等等。今天在谈认知和感知的时候，我们的很多研究机构，很多大学，很多科研巨头会讲很多认知，但是今天可能在产业界里面大家更多做的还是感知。

一个比较好的能够诠释什么叫“认知”、什么叫“感知”的例子——自动驾驶，比如我在车上面有很多传感器，我可以感知周围的路况信息、车与车之间的相对信息，其实这就是一个感知的过程。基于这个感知的结果，再结合我们比如在高速公路上面的交通规则，我们可以对这个车的驾驶情况做出一个规划决策，这就是比较简单的比较好地解释什么叫感知什么叫认知的例子。另外，在未来我们的理想情况希望我们的设备、我们的机器具备像人一样的通用智能，通用智能不仅仅基于声音、基于图像、基于文本，可能是综合智能，甚至包括很多嗅觉还有一些人类历史的知识储备，基于这种综合信息我们得出一种能够模拟人的智能，当然那个目标可能离我们今天的实现还比较遥远。

在过去的一两年里面，应该讲不光在中国，在全球范围之内人工智能都得到了产业界资本界的极大的关注，我们用非常直观的数字，比如像投资金额，我们可以看到2015年在全球直接给人工智能公司的投资达到10亿美金，今年是资本寒冬，今年我们也达到了12亿美金，可以看到其实在这个领域里面我们不光学术界、资本界都对这个方向投入极为关注。

和人工智能相对应的一块是物联网（IoT），物联网并不是一个很新的概念，在我还读书的时候就听说过这个概念，什么叫物联网？物联网我个人理解其实并不是对我们现有的PC互联网还有移动互联网的颠覆，而应该说把它理解为一个升级拓延，十年前我们大家上网的时候更多还是通过PC，09年之后开启的移动互联网大潮，我们开始更多的用手机和平板去获取信息。从现在开始，可能我们上网的时间不再是通过手机平板，而是通过身边的一切事物，比如电视机，比如音箱，比如身边的一切设备，任何时候可能用户习惯的改变，在不经意间完成，但是这个完成对整个行业带来天翻地覆的变化。

我参加的第一份工作在摩托罗拉，十几年前摩托罗拉是科技巨头也是手机巨头，那个时代手机最牛叉的公司是诺基亚，三星第二都算不上，十年前我们用电话干什么？打电话、发短信，很少有人用手机上网，那时候网络带宽不好，而且资费比较贵。2009年谷歌开放了安卓系统，那个时间点我们的整个互联网开始从PC互联网进入移动互联网，随后发生的变化大家都清楚，摩托、诺基亚今天在市场上已经见不到了，而一些伟大的公司诞生了，像谷歌、苹果、Facebook。一个技术的革命可能带来的不仅仅只是产品的变革，而是整个产业结构的巨大变革。今天这个事情仍然继续在发生，出货量可以看到，昨天新智元 AI 领袖闭门峰会上面总结认为，人工智能是多么大的产业，很多嘉宾无一例外用了一个万亿级别，既然 IoT是我们今天移动互联网的升级拓延的话，和今天的移动互联网相比肯定不是倍数关系，至少是一个数量级的关系。

2012年安卓手机的出货量几亿万台，现在华为一家的出货量就超过一亿台。以前分功能机、智能机，智能机不仅仅能打电话发短信还是综合信息终端。在今天除了手机平板之外，我们其他的智能设备出货量也达到百万级别、千万级别。智能手机的触摸屏和摩托、诺基亚的触摸屏手机有什么区别？诺基亚、摩托的触摸屏要用笔，苹果的第一台手机分辨率很低，通话质量很差，诺基亚和摩托对苹果到他们公司挖人不以为然。诺基亚的观点是我们的手机质量非常好，我们每个手机出厂前要从几米高度上摔下来经过防摔测试，诺基亚手机是可以用来砸核桃的。摩托二战的时候为美国大兵提供终端设备，通信问题不是一个新来公司可以解决的。但是，苹果剑走偏锋，多点触碰，我们已经习惯在PAD或者屏幕上不再用笔，可以用一个手指头或者几个手指头旋转图像拉伸，交互革命诞生了伟大的苹果。

很多老年人拿到智能手机不知道该怎么玩，还有其他的交互模式像手势识别，其实手势识别也是通过手势对你的信息进行符号化，当我们跟设备间的交互需要传达非常丰富的时候，手势无法做到。比如我对着电视机或者一个设备，能表达出我想看什么节目吗？我能表达出我现在的心情很好吗？不能。这种符号表达是非常有限的。我们知道人进化到今天很重要一点，人的进化过程中语言起着非常重要的作用，语言承载着非常丰富的信息，很多场景下面你的任何想法都可以通过语言的方式把它自然地任意表达出来，并且今天可以做到在某个领域里面做到非常高的精准度，智能语音在交互方式方面是有一个得天独厚的优势的。

深度学习、大数据结合云计算，AI 技术促进产业发展

今天可以看到亚马逊发布的Echo音箱出货量达到几百万台，苹果TV的出货量达到 2000 万台，国庆期间 Google Home 备受关注，不再是实验室的概念产品，已经是通过工业产品进入千家万户，AI技术如何促进产业驱动？

很多专家表达过，为什么经历过前面两次低谷之后，人工智能能迎来今天的春天？离不开三个主要要素，一方面机器学习算法，以深度学习为代表，另外一块是大数据，PC互联网和移动互联网很大一个效果让设备和设备之间、人和设备之间、人和人之间产生关联，产生海量数据。以前用很简单的神经网络无法表达的东西缺乏训练数据，今天可以得到足够海量的数据，今天不是数据不够多，而是缺乏使用数据的手段。另外，我们都知道云计算在今天大家已经达成共识，像水电煤一样会成为整个社会结构非常基础的资源。正是算法、数据、云计算三者结合，使得在某些技术某些场景上已经达到使用化。通过PC互联网时代、移动互联网时代，对很多用户习惯培养，今天微信的普及使得大家已经习惯对着手机说话。

我记得几年前微信刚刚发布的时候，很多人还保留QQ的使用习惯，依然通过微信来打文字，很多人觉得“我对着手机说话时不是显得很傻？”但今天看到微信每天语音交互的量，非常非常大。这个用户习惯对整个产业发展也是非常重要的。在这里面我们要做什么？技术成熟度和用户需求之间找到一个比较好的结合点，使得我们能够落地，就像前面小 i 机器人的朱总说了，我们要选择一些场景，这些场景里面，第一用户有需求，第二技术能满足。如果用户没有需求的话，这个技术很难推。如果说用户的需求其实远远超出今天技术储备的话也很难落地。在这里面，无论是创业公司还是巨头，可能我们都需要做一些各自的思考，怎么能够把两者结合在一起。

讲到机器学习，比较早的是上一代的机器学习，都是基于统计学习，在语音识别领域，20世纪80年代的时候，李开复先生做了一个非特定人的大规模联合语音识别，包括在那之后的40年，我们其实基本上都是基于统计模型，通过固定结构的模型来对相对有限数据的空间分布做出一个近似的估计。在工业界和学术界里面，2006 年 Hinton 教授应用在图像识别，在工业界 2010 年左右开始把深度学习应用在大规模的语音识别里面，而且迅速获得巨大的突破。在同等的训练情况下我们的准确率提升了30%，在学术领域也是非常巨大的成就。那时还是深度学习在语音识别、图像识别里面一个初步尝试，之后随着今天上午很多专家介绍的很多名词，比如DNN、CNN等等，这些都是深度学习进一步发展，今天不光是用深度学习算法，我们还是很好把深度学习算法和大数据很好结合在一起。和两三年前相比，我们在进入深度学习时代之后，语音识别率依然在不断提高。

深度学习几乎颠覆了所有的模式识别，语音识别、语义理解、语音合成开始全面深度学习化，为什么深度学习在这些领域里面取得那么大的突破？用传统的统计模型可以发现，随着数据规模的增长，这个性能会渐渐趋于平坦。这说明统计模型对大数据缺乏很好的描述能力，大数据大了之后性能不再提升，但是深度学习不同，我们迄今为止可以看到，只要你加数据，这个性能还是在不断提升的，用简单的图来看出深度学习相对比传统的统计学习算法的潜力。

为什么会这样？其实很简单，统计模型其实是利用人的现有知识，它的特征是人为设定的，它的结构也是人为设定的，这种人的现有知识在小数规模可以得到不错的结果，当海量数据的时候，当我们解决的任务更多元化，面对场景更复杂化，我们的现有知识就不够了，这时候深度学习至少可以参与对特征的学习，体现出机器学习相对人脑来说它的巨大威力。在推理、决策、规划，模型的构建方面也能做一个增强学习，可以进一步不断提升它的系统性能。好比说李世石和 AlphaGo 在 PK 的时候，下了一天棋李世石非常疲惫，这时候 AlphaGo 可以继续用数据来进行计算，修正它算法上的缺陷，保证它下一次再遇到这个问题会得到更好的结果。

大数据对AI产业化带来哪些影响？毫无疑问，大数据的积累使得我们可以拥有更好的性能，这让我回想起来我刚参加工作时在摩托罗拉，我们做了很多国家的语言，汉语的、英语的，包括英语做的很多版本，英式英语、美式英语，我们获得的语料是以100小时为单位，今天不光光是算法的突破，还有移动互联网，使得我们可以采集到更真实的数据，我们以前很多机构在采集数据的时候都是靠人去录，我们都知道人念和说是完全不一样的，通过移动互联网我们可以很方便地搜集到用户在自然状态下的真实说的数据而不是朗读数据，包含信道信息、年龄信息、口音信息等等，这个海量信息使得我们在引擎这个层面上能得到更好的结果。

我们有语音平台、语义平台，我们的终端客户提供服务，每天实时收到这样的数据。大数据带来哪些好处？包括朱总讲的Bot，每个Bot上个性化，有了海量数据之后，我们可以对每个用户来做用户画像，甚至来针对每个人来做优化，这样的话我们能为每个用户提供精准服务和定制化学习，这些人无论是企业用户还是个人用户，都能为他们提供更好的服务。

通过云计算平台，做一些模型的更新学习，弊端是把训练和服务割裂开来。我们在底层搭了通用的系统平台，基于GPU、CPU或者FPGA，上层把智能学习和智能服务放到一起，白天给客户提供服务，晚上可以用数据来实时学习，这样保证AI系统每天至少在理论上可以做到实时更新。

这个信息非常重要，我举个例子，昨天有专家说到其实人脑和我们今天的AI系统的显著区别是，第一，我们有很多神经元。第二我们的神经元之间有很多连接，每一个神经元未必很智能，但通过神经元的连接可以使我们具备超出很多其他生物体的智能。人工智能也是如此。谷歌有很多服务器，有很多服务器和你能够利用很多服务器的能力之间是有巨大区别的，我们都知道 AlphaGo 可能在单个任务里面调用了上千个GPU或者CPU，如果我有几百万台服务器，但是单个任务里面只能使用几台服务器或者几万台服务器，无法利用我的大数据能力，怎么搭建这样一个系统？我们内部经常开玩笑，你要有大数据还要有使用大数据的能力，你有好的炼钢材料，但是你还要有好的刀法。

云知声深度学习技术产品多领域落地

AI 和IoT怎么结合？前面讲交互的时候说到 IoT这个场景里面语音可能是最便捷的交互方式，IoT和设备结合，需要我们的产品方案应该多元化、系统化。不光要有云端服务，还要有终端的AIUI交互，还有 AI 芯片，还要整合其他的第三方服务，餐饮的、音乐的、天气的等等，甚至结合用户的使用习惯有一些个性化的服务推荐。无论在家居，还是车载，给用户提供他们需要的服务。

云知声是专注物联网的人工智能服务，云知声的成长历程也是深度学习的历程，2012年6月份成立，9月份在国内发布了第一个完全Free的语音云平台，2012年底把深度学习推向社会。2014年之后我们开始思考人工智能技术怎么和场景结合，怎么给用户提供有价值的服务，2014年开启我们的芯片战略，2015年推出支持五米远讲技术的智能家居，去年已经在市场开卖，乐视第三级超级电视X55，到今天为止每个月和连接到芯片上的结合云端的智能服务，包括其他第三方服务的芯片，每个月出货量已经达到几万台。

云知声作为一个初创的创业公司，我们是怎么样一步步从算法到引擎到平台到产品到商业的？总体来说，我们的产品形态是云端芯，云指云端服务；端指终端交互，我们希望在终端上面用最自然便捷的方式来给用户提供服务；很多产品场景下必须跟芯片结合，深度学习不光在云端终端，在芯片里面也做到了深度学习。我们远讲距离的唤醒、打断，包括离线识别都做到芯片里面去。

一部分应用领域（图片展示），AI 已来这个事情不是未来，而是已经发生的，很有特色的球形空调就是在今年8月1号美的发布会上发布的，这上面用到了云知声的远距离语音交互方案。最右边海尔空调，乐视超级电视，还有华帝，很多产品已经进入千家万户。

除了家居之外，在车里面对语音交互是一个刚性需求，我们把AIUI做到车载交互系统里面去，去年到今年为止在整个中国的车的后装市场应该取得了非常大的市场份额，也赢得客户非常好的反馈。

另外，也是云知声在过去的将近一年里面做的比较好的尝试，在国内第一家把智能语音交互做到医疗系统里面去，而且我们的第一个合作伙伴是国内排名NO.1的北京协和医院。大家都知道医院是相对比较封闭的系统，但是云知声作为一个初创公司而且带着这么新的产品能做到这些医院里面，首先你的性能指标、交互方案真正能给医院给医生创造价值，而且这个方案今天已经在很多医院里面得到了大力推广。今天如果大家有兴趣，当然不希望大家去医院，有机会去协和医院的话可以看一下，这个方案已经在协和医院的住院部全院推广。

另外一块，希望把语音评测服务给中小学教育，给国内的很多互联网教育公司来提供服务，包括沪江、全通、一起作业等等，大家能够想到的这些和教育有关的互联网公司用的都是云知声的产品，仅仅教育这块每天的日请求量接近一个亿。

在过去成立的四年里面，云知声的商业路程并不长，也就一年多，我们今天在中国的汽车后装市场语音交互占有率第一名，在白色家电领域做到国内第一个出货，甚至有可能是在巨头里面唯一批量出货的，我们也是率先把智能语音交互方案做到国家的三甲公立医院里面去，从平台方面来说，这个平台目前国内最大的创业公司的语音平台，每天的日请求量接近2亿次，而且已接代 9000 万台终端。从免费平台到现在，我们作为创业公司资源相对有限，我们每年的增长率接近400%。一方面说明云知声在过去的努力，也从另外一个数据角度来验证了这个市场的蓬勃发展。

最后，用云知声的 Slogan 结束今天的分享，智享未来，不仅我们的科研单位还有我们的从业者，通过我们技术以及商业上的努力，我们希望能够真正把今天的人工智能技术带入生活，不希望它又是昙花一现。好的技术一定要落地，哪怕是技术的中间成果阶段性落地来满足用户，满足市场对这个技术的期待，这个才是使得所有的人工智能从业者能够把这个产业做得更大的一个很重要的基础。