前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【李志飞】人工智能:这些年我们吹过的牛皮该何去何从

【李志飞】人工智能:这些年我们吹过的牛皮该何去何从

作者头像
新智元
发布2018-03-14 16:08:24
9740
发布2018-03-14 16:08:24
举报
文章被收录于专栏:新智元新智元

以下内容根据 GIF2016 极客公园创新大会年度商业变量论坛 出门问问 Ticwatch创始人&CEO 李志飞的演讲整理而成。

李志飞:过去几年人工智能确实非常热,我作为技术人员和工程师一直保持这个谨慎乐观。一方面我希望大家都来讨论,但另外一方面我看到这个讨论有点不太符合实际,所以我也很担心。所以这也是我今天为什么讲这个标题,就是我们过去吹了这么多牛皮,到底应该怎么办。

我的背景是以前在美国读博士,做的是跟人工智能相关领域,比如语音识别、机器翻译、自然语言处理。后来去了谷歌翻译组去做科学家、工程师。后来回到中国创业,建立出门问问的公司。所以大家看到我的背景是从科学界的科研者,再到工业界作为科学家、工程师,再到创建人工智能产品。所以我希望从这几个角度,跟大家讲一下过去这么多年到底是什么状况,未来我也大概想一下我作为一个工程师到底怎么去慢慢弥补我们吹过的牛皮。

大家都知道,“人工智能”这个概念可以追溯到计算机的发明或者图灵这篇很早期的文章想真正“人工智能”这个名词是在1950年美国达特茅斯学校一帮教授在一起开会,创建“人工智能”这个词,希望某天机器模拟人的行为,帮助我们做很多需要做事情。

到底什么叫AI?大家聊天每个人都说在做AI,有工程师、科学家、政府、媒体、记者,还有未来学家和科幻学家等等,每个人都在谈论人工智能,这里面有各种各样的名词,比如无人驾驶、glass、LSTM、siri等,非常混乱的状态。那么到底什么是人工智能?为什么这些词汇出现在不同人的嘴中?我给大家梳理一下,我认为这些词汇代表了几个维度:第一个层面,创业者、媒体、政府这些站在人工智能之外的人看人工智能讲的都是产品,比如glass、siri等,这类是从外面来看人工智能给我们提供什么样的产品、提供什么样的服务。第二个层次,是我们这样的创业者或者真正以人工智能为核心的公司,这时候我们会谈到具体的技术,因为前面说无人驾驶或者机器人,最后都需要技术的支撑,比如语音识别,比如自然语言处理,比如计算机视觉,这都是技术本身。第三个层次,工程师或者科学家他每天写代码和思考把这个事情怎么做出来,他们考虑的问题又不一样,他们可能讨论的是模型和算法,比如神经网络、深度学习、搜索空间的优化,还有一些LSTM、CTC等这些绝大部分非科学家以外的人都不会接触的。所以大家都在讲人工智能,但每个世界的每个人看到的东西不一样,最关键的是一定要是这些工程师、科学家把每一步好好做出来,提供一个技术以后才能提供一个产品,最后把产品推向普通用户,所以这是非常庞大的体系。

接下来跟大家从时间维度梳理一下,过去的接近70年开始到底发生了什么?未来又是怎么样的?根据时间点我它分为三个阶段,1945-2005我把它定位AI1.0,AI就是人工智能,2006-2015年我把它归为2.0,从今年开始到未来的5年、10年我认为是AI3.0的形态。这种分法没有任何科学依据,我更多是从应用的角度去看这个问题,而不是从科学或者从算法去看这个事情。

我刚才提到,AI1.0是1945-2006年这个时间,大家可以认为它是把基础理论、基础学科建立起来,这首先有很多算法,是计算机科学家或者统计学家天天在试验室、天天跟博士生讨论思考,跟学术界人交流,慢慢梳理出来的,慢慢建立了一些学科,比如语音识别、机器翻译、自然语言处理、视觉,这些都是AI里非常具体的学科。

过程中形成很多做事的方法论或者学派,因为我们如果想造一个机器能够模拟人的行为,我们必须把计算机的行为向人类学习,你可以认为是仿生派,尽力理解人是怎么学习这个语言的,人是怎么理解这个语言的,人是大概什么工作过程,然后我们用计算机模拟这个过程。另外一类是计算机学家,他们更多从计算机本身能够做什么,因为他对计算机很了解,知道它大概怎么工作,从根据原理看到底怎么实现人工智能的服务,所以你可以认为根据叫逻辑派。还有另外一派可能不那么学究,前面两派都是比较基于某一些原则,比如人类是怎么工作的或者计算机怎么工作的,另外一派是不管你怎么工作的,我就把数据放进去,比如语音识别只要有一个模型最后能够识别我这些字,其实我不关心这个语音识别的过程跟人类语言识别的过程是不是一样的,我们认为这是行动派或者实干派。

在1956年开始到现在,经历反反复复很多阶段,比如首先我们定义人工智能概念时候,那些最伟大的科学家都非常乐观,认为在未来几年就可以造出一台机器跟人一样,可以代替人的很多活动和很多事情。但是摸索五六年,他们发现最简单的语音识别比如简单识别数字都识别不了,这时候他们开始悲观。很多高科技都是美国军方高级研究院支持的,科学家说我们能够很快识别这个,研究院非常开心,说以后上战场打仗不用投入真实的士兵,所以它们投了很多钱让他们去研究,但是后来发现做了几年,连识别几个简单的号码都识别不了,所以他们把这个研究停掉了。但是人工智能的研究是计算机和科学家的梦想,所以很多人即使在没钱的情况下也在不停的试,突然又找到了另外一些应用。所以是反反复复的这么曲折的过程,但是它是螺旋式上升的过程包括我前面讲的各种学派、各种基础模型和算法都构建都是在这个曲折过程中构建起来的。

AI1.0工业界也有一些形象工程,比如深蓝战胜国际象棋世界冠军,但是系统没有得到大规模的应用,更多是媒体讲这个事情,普通老百姓没有真正感受到这个东西对自己有什么用,就算语音输入在Windows都没有得到应用,所以我觉得更多是形象工程。但是直到2006年,就是我定义的2.0的开端,我以前在Google工作,我认为这确实是个非常象征性的事件,就是2006年谷歌翻译正式上线成为互联网的产品,从那天开始谷歌在不停的迭代,它提供了90种的语言翻译,90*90是8100个语言对,这是非常庞大的,历史上从来没有一个系统有这么多语言对,每天同时有2亿人在使用,每天有10亿个翻译的句子输到Google的这个网站上去,然后机器自动把它翻译出来。所以这确实是在人类历史上,或者在AI发展历史上第一个大规模得到全世界人群去使用,而且频率非常高的一个系统,所以我认为它从这一天开启把人工智能技术面向消费者的过程。

大家会想:为什么前面几十年都没有得到发展,而2005年谷歌就突然推出这个系统而且得到大规模的普及?我觉得这基于两点,一个是谷歌是互联网公司,它做所有的东西都是为了用户的需求,而谷歌又是全球化的公司,用户对这种信息全球化的需求非常大,所以谷歌翻译这个网站才有很大的需求。另外一个是谷歌采用了非常合理的架构,就是数据、算法和基础设施。我们以前在学校里面做的时候,很多时候我们的数据非常少,比如一个中文到英文翻译的系统基于1万个句子对去训练就很不得了,但是谷歌是100万、200万或者1000万个句子对,比如去网上抓,圣经有中文版、英文版、法文版,他们把这个抓下来当作机器训练的语料。另外,谷歌把基础设施做得很好可以处理这么大的数据量,谷歌有大规模云计算的结构,以前我们在学校里有50台机器就非常不得了了,但是这里有几千台几万台机器在算,还有算法也做了很多进展。

谷歌里面崇尚做东西一定要做出产品,而不像以前在学校里更多是做个实验就赶紧发个论文去跟同行讲这个东西。所以谷歌在语言识别得到了同样的结果,一帮既是工程师又是科学家的人,他们天天在想怎么把这个做成产品,怎么能够大规模化、使用量非常大、准确率很高。语言识别基本是谷歌第一个把它变成toC的产品给很多人用,比如现在有40多种语言,每天几亿人在使用这个语音识别系统。

很多人认为深度学习等于AI,确实不是这么个概念,但是过去2、3年深度学习得到重新应用,而且跟大数据结合起来,使得我们在语音识别和机器翻译得到突破,这里面有各种各样移动端产品。所以总结一下,我认为AI1.0到2.0的发展,是从学术界到谷歌这样的公司主导,从以前的军用到民用,以前很多产品都是toB,后来大规模的一定是toC的产品。

那下一步到底是什么?我认为在某种程度上是AI大跃进,AI大跃进是从这个奇点开始。很多人讨论《奇点临近》这本书,这位作者在我看来不是个科学家,他是个未来的科学家,他有很好的愿景,能够给大家描绘未来是什么样子的,但是可惜的是他不是工程师,他们没有告诉你怎么达到那个愿景,他也不知道该怎么做,而且很多预测在我们看来是非常不靠谱的。但是为什么得到这么多人追捧?包括中国很多极客、很多高智商和对技术有很深判断的人都觉得这个事情是很对的?他不是纯粹的科幻学家,他是一位介于科幻与科学之间,比如他的书里面有很多图表,有各种各样的数学公式,比如指数增长曲线。但这都是假设,很难去实现的。所以我认为这个奇点不会像想象那样去实现。全世界有很多“大脑计划”,说机器可以模拟人的大脑,说今年3岁了,过几年就能参加高考了,但是它是在非常局限的情况下。

大家作为普通用户,有时候觉得计算机怎么这么笨呢,还说要代替人、取代人。在某些情况下计算机确实非常笨,比如你说“我想静静”,它会问你这个静静是谁。包括一个凳子的识别,可能左边这种凳子它很容易识别,但是它不一定能够识别右边那个是凳子。计算机能够做的是,当你能够把识别的过程非常机械的抽象出来,知道第一步、第二步、第三步干什么,这个时候计算机可以做得很好。或者你有卖东西各种各样促销的方式,每一种方式能够大概评估是什么样的收益,这时候计算机擅长的是把各种促销方式组合起来,给你算出最优的方式,比如怎么把这100万预算花得很好,这是计算机擅长的。但是人类的直觉、创造力、情感,我们不知道怎么用计算机去建模,这是非常大的一个问题,这也是为什么我们觉得它还是很笨。

前面讲了1.0、2.0,未来是怎么样子的呢?我从一个工程师或者比较现实的创业者去看这个AI3.0它是什么样子。我觉得未来可能会有两个特别大的趋势,第一个是从软件到硬件,第二个是从信息到服务,我下面分开讲讲这到底是什么意思。软件到硬件,过去早期人工智能硬件载体主要是PC,2010年移动起来了,我们更多用的是手机。大家可以想象,确实在未来我们有各种各样新的硬件进来,当然不一定是明年、不一定是后年,有可能是三年五年或者十年,但是这个趋势是不可挡的,比如可穿戴、VR、无人假使、家里面的智能产品,这些硬件产品有什么样的特性?它首先一定是移动性的,可以随身携带,比如可穿戴,天天戴在手上或者穿在鞋上,这是一个很重要的特性,跟以前PC时代是个固定的位置不一样。机器人或者无人驾驶它可以自己移动,它可以自己探索这个世界,这也是和以前很不一样的。

因为这些不一样,未来AI技术发展会不一样,首先,它是从单一到综合的,现在的识别是根据声音去识别,大家可以想象我戴着个头盔说“不要”,同时手也摆一下,它通过视觉、声音等识别得比较精准。第二个,它提供的服务是多维度的,过去的siri是软件服务,现在集成到硬件载体,是综合性的,有手势、声音等各种各样的,还能移动,这是未来巨大的趋势。而且以前更多是人跟机器或者跟物理世界沟通,现在因为有机器人、VR、无人驾驶,很重要的是机器要对物理世界建模,比如机器人知道这边是不是有桌子,这边是不是有个小孩,这个颜色是什么样子的,如果有坡的话这个坡度是多高。过去我们在toC产品比如siri是虚拟产品,但是因为机器人和VR的出现,机器需要对物理世界进行建模,去跟物理世界进行交互,机械可以帮人类主动做很多事情,这是未来比较大的技术趋势。

前面是软件到硬件以及有可能带来的方向,后面我们觉得更多是从信息到服务,这是什么意思?比如以前的siri很多人说“附近有什么咖啡馆?现在是“能不能给我送一杯咖啡?”将来更希望它直接帮你完成这些任务,而不是找到这个信息,这也是移动的特色。包括查飞机票以前只是查,现在是查了以后直接帮我订。但是为了实现这个东西也有很多困难,也是为什么现在siri不能直接进行支付,因为后续有很多复杂的处理,它不一定能够处理得好。

现在我给大家做个现场的DEMO,这个DEMO是从信息到服务,比如有一个用户关注我们的公众微信号,通过这个微信号就可以完成服务。现在请产品经理上台跟大家一起做这个DEMO,DEMO是非常危险的,但我希望大家能给我们鼓励。我们接下来的DEMO是我们产品经理扮演普通的客户,我扮演特别无聊的客服,但有的时候我又得出来做点事情。

产品经理:大家好,正如刚才志飞所说,我会跟他对这个小尝试做个DEMO。在生活中不知道大家会不会遇到这样的问题,就是因为大家都如此的忙,所以对衣、食、住、行中一些简单但重要的事情,特别希望有一个小助手去帮你搞定它们。今天我带着我的小助手魔法小问,给大家展示一下如何通过小问的帮助搞定生活中简单但重要的事情。

在DEMO开始前我给大家介绍下投影里都是些什么内容,我右手边这个屏幕是我现在这个手机,中间这个是系统的后台,也是志飞面前这台电脑,左边是百无聊赖的客服志飞同学。

现在我们开始吧,志飞刚才讲了那么多,口渴了,我帮他叫一杯咖啡吧,呼唤我的小助手“帮我订杯咖啡吧”,小问在这边很迅速捕捉到了我的信息。信息这个东西,因为现场环境的原因可能语音并不是百分之百准确,但小问还是理解了我的需求,它说“想喝点什么?”来杯美式吧,超大杯美式咖啡,热的”,小问很准确的我把我需求捕捉了下来。这件简单的事情做到这里,现在小问向客服发问请求,说请客服确认一下,现在我们就可以下单了。

李志飞:因为涉及到钱,所以我作为客服得看看是不是真的咖啡以及信息对不对,是这位小姐订的,33块钱,电话、地址都有,我认为是对的,所以我帮它下单了。

产品经理:我这边收到了小问已经给我订好了的信息,我点击付下款吧,支付一下,待会儿就会有杯咖啡送过来,希望志飞能够收到。我觉得小问还是不错的。这样子送咖啡的过程就完成了。

今天是周末,我不知道大家周末喜欢看什么,我个人喜欢看电影,不然就去看电影吧。“最近有什么好看的电影?”看看后台是不是能准确的捕捉到我的需求。小问收到了,大家看左边的屏幕,小问帮我推荐附近正在热映并且评价不错的电影,听说《唐人街探案》还是蛮励志的,不然我看一下这个吧。“《唐人街探案》”可能现场环境的原因,小问大致捕捉了我的需求,问我在哪里看。自然是在家附近了。“家附近”,因为我经常用小问,所以小问知道我家的地址在哪里。接下来它问我“要几张票,多长时间?”我不然叫个朋友一块看吧,“两张票”,哎呀,忘记说什么时间了,小问比较聪明,说“什么时间看?”“要不9点以后吧”,现在人比较多,要不然打个字吧,“9店”,哎呀,打错了,看看小问能不能识别。哇,这个小问态度好差呀,但因为我是犯了个比较愚蠢的错误,我还是纠正一下告诉它是9点吧。

这时候大家看我右手边的屏幕,小问做了哪几件事情?它搜索了我家附近的一些影院,并且搜索到我匹配的时间,最后知道我是纠结座次的位置,我喜欢坐中间的位置,看看它是不是帮我选了中间的位置,还真的是。行,还不错,那就点击付款。我觉得小问的服务是不错的,很快帮我搞定了。

李志飞:我们后台收获了106块钱。

产品经理:现在离9点差点时间,公司还有事情没处理完,我得回去加班了。“打车去公司,我要专车”,小问没有听清楚我要专车,于是给我叫了个快车,快车也行,那就先这样,大家再见,希望有一天魔法小问也能成为你的专署小助手。

李志飞:谢谢她,我们明明知道现场DEMO有很多问题,有麦克风、WiFi不稳定的问题,但是作为工程师企业,现场DEMO非常重要,而不是放个漂亮的PPT或者漂亮的视频。同时感谢极客公园给我们的大力配合,这个DEMO非常复杂,要三块屏幕来支持,感谢极客公园的这种极客精神。

人工智能实现的方式是两个极端,要么纯人工,要么纯机器。人工的问题是当我做实时服务时候不能做到24小时在线,态度不一定是标准的,而且响应速度非常慢,比如订个票要打十几分钟客服才能够把票订完。但是因为人比较聪明,他可以处理很多复杂情况。计算机可以24小时在戏,响应速度非常快,但问题是不够聪明。所以未来是中间的模式,“Human in the loop”。人机混合服务在过去也有很多,比如淘宝的客服或者电话客服系统,但是很不一样的是未来人的因素越来越少,反而我们做的智能助理是机器主导,我可以像刚才那样非常悠闲的坐在那里,但是用户感知效率非常快、速度非常高,这是我们大力推的一个方式。

大家可以看到我这画了个非常简单的框架图,左边是用户,机器第一步判断是不是对这个决策很有信心,如果能够搞定那客服不会参与这个过程,所以要有这个自信度的判断。包括它前面提到的很多个性化推荐,比如知道我家在哪里,知道我喜欢坐在中间,喜欢什么电影院,机器要做很多这样的事情。如果机器不是很确认能够处理,要提醒客服去看。我现在只是DEMO三个例子,咖啡、打车和订电影票。用户的需求是非常多的,并不是每个客服都能处理所有的情况,所以涉及到哪个需求送到哪个客服,这是非常复杂的算法。

这虽然是简单的DEMO,但是后面需要做的工作是很多的,但我认为这是一个非常好的开端,因为在过去AI尤其是工程师或者科学家不太希望有人去参与,但是我们慢慢意识到我们必须承认AI本身如果纯粹靠机器是不可能百分之百准确的,只有机器跟人混合的计算才有可能给用户提供一个合理的服务。

前面讲到了AI1.0、2.0、3.0,大家都知道AI要实现什么目标,但关键的是实现路径。创业公司有生存压力,得知道什么时候该干什么事情,不是天天说我们要干什么样的事情。奇迹不会发生,最后都是工程师一行行代码把它敲进去。所以我跟大家分享作为AI公司是什么样的实现路径,跟前面讲的大趋势比较类似,第一,我们做软硬结合的产品,我们做toC的产品,第二,有阶段性的进展,无论是微信公众帐号还是到智能手表的探索,是我们能够接到用户甚至产生现金流的测试。

这个确实是出门问问的发展历史,我们建立很多人工智能的技术,语音识别、自然语言处理、推荐、搜索,这是我们早期花很多时间做的事情,现在我们花很多时间不断的迭代和提升,现在我们把语音搜索做很多场景的尝试,比如微信、智能手表 、Googleglass,智能手表 我们做得更深,大家很多人买过或者正在使用Ticwatch。AI要提供可靠、完整的服务,我们在做人跟机器结合的探索。我们作为创业者要判断什么事情会发生,比如接下来一年我们主要在可穿戴、智能手表 ,因为这是正在发生的事情,我们能够接到用户和产生商业行为,如果我们全力赌在机器人,它不会在未来一两年发生,所以这是我们对进程的估计。

前面分享了我从不同角度给大家的分析,希望大家有启发。DEMO的魔法小问现在是测试阶段,如果大家有兴趣帮我们测试,可以关注出门问问发送“内测”,我们后台会审批。可能我们不能一下子满足所有人的需求,但是我们会尽量去满足。今天这个DEMO也感谢我们的很多合作伙伴,比如微票、滴滴、功夫熊。如果在座有O2O服务或者客服可以帮助你们做的服务,也可以一起跟我们聊、跟我们对接,谢谢大家。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2016-01-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档