近日,在清华大学举办的2017国际大数据产业技术创新高峰论坛上,百度副总裁、百度AI技术平台体系总负责人兼百度研究院院长、国际计算语言学协会前主席王海峰发表了《百度人工智能》的主题演讲,以下附PPT全文及详解,供参看!
人工智能是第四次工业革命
回顾一下人工智能的发展历史,正式的起点是1956年的达特茅斯会议,诞生了AI这个概念。而在1956年之前,已经出现了至今仍然很热门的一些人工智能方向,例如机器翻译、自然语言处理、计算机下棋、神经网络等等。
而从AI诞生以来的60多年,人工智能的发展起起落落,从图中可见一斑。
/ 02 /
百度人工智能已经扬帆起航
百度从做搜索开始,人工智能的研究和发展已经有十几年了,如自然语言处理基础的分词、短语分析等。
而全面布局人工智能大概是在七、八年以前,逐步从NLP、语音、机器学习、图像等方面开始,时至今天,百度已经形成了一个较完整的人工智能技术布局,包括基础层、感知层、认知层、平台层、生态层和应用层,共计六层。
百度从做互联网To C(针对消费者)的产品到开始做大量支持To B(面向企业服务)的应用。这些都依赖于人工智能技术布局的实现。下面将对每层技术布局的关键技术展开说明。
/ 03 /
基础层:大数据、算法和大计算
现在每一个人每一天会产生非常多的数据,一定程度上,互联网已经成为整个客观世界的镜像。所以,掌握好、利用好、分析好这些互联网数据,在很大程度上也是对客观世界很重要的刻画和理解。
/ 04 /
感知层:语音、图像、视频、AR/VR
语音技术的突破有很多方向,如识别、合成和唤醒,这是我们现在比较看重的,因为市场应用的需求很大。比如语音识别,已经达到97%以上的准确率。
图像方面,人脸识别是计算机视觉的一个重要方向。人脸分为静态和动态。静态,如一张图片,检测里面有没有人脸,或者有两张照片,比对一下两处出现的是不是同一个人,这方面的准确率已经很高了。
而识别动态图像的时候更复杂一点,比如有一段视频,首先要定位这些人脸,而这里会产生很多应用,比如在很长的视频流里找到一个人。
视频不同于图像有很多权威的数据集,视频数据集本身还不够成熟。视频很多是人工标注好的,比如标题、内容,但是还有很多视频人工标注不够完善。
这时候就需要视频语义理解技术把这个视频标注出来,包括这个视频到底是哪一类,视频的标题,如果相对长的视频,就把其中亮点怎么样也摘录出来。
/ 05 /
认知层:自然语言处理、知识图谱和用户画像
自然语言处理的范围广泛,如果细分的话,有很多子领域,较宏观地可划分为语言的理解和生成,以及相应的应用系统。一方面要理解人的语言,另一方面要表达,能生成语言。
用传统信息检索和搜索算法搜索“蒋英的女儿是谁”和“蒋英是谁的女儿”,会找到同样的答案,因为传统的信息检索是不管语序的。这时候我们就要做真正的自然语言分析和理解,知道它们实际上是在找不同的答案。这背后是知识图谱的支撑,大家可以看到结构化的图文并茂的结果。
除了分析、理解以外,还有生成。我们尝试过写诗、写对联等,比如在手机百度信息流里看到的文章,很多都是人写的,但也有很大一部分是机器自动写成的。我们做过各种测试,用户基本上分辨不出来到底是人写的还是机器写的,这说明机器写的还是很不错的。
其次,人要与智能硬件展开交互,对话过程中涉及到对“人说的话”的理解和预测人如何说下一句话,相当于理解和生成两方面都在用,这里面就是对话管理以及交互的技术。
人类几千年传承下来的知识,是人类能一步一步不断向前进步的原动力,而做这些知识的累积和传承很重要的载体是知识图谱。
知识不只是静态的存取,而且涉及到知识计算和推理。
其次,我们要了解用户本身的需求,所以对用户画像也是非常重要的方向。
/ 06 /
平台以及生态层
这一层更多集中在百度大脑,完整的生态包括云和端两大部分。
/ 07 /
应 用 层
语音搜索,是典型的在搜索上引入一些AI能力之后的产品形态,这里不是一个“语音识别+简单的搜索”,而是我们直接语音输入我们想要的字的时候,如果出现多音字,如俪、莉,就会出现错误,但如果用户说:“茉莉的莉”,语音纠错就会自动修改成“莉”,然后找到用户最终想要的答案。所以这就需要很多相关技术的支持。
图像搜索也是,我们做了很多图像搜索相关的尝试。
智能问答、个性化推荐等同样是综合了多种AI能力,如知识图谱、NLP、用户理解等,把答案或资讯更直观、更有针对性地展现给用户。
除了互联网应用,我们也在尝试AI能力与各行各业的结合,如智能客服、智慧机场等。
人工智能正在成为这个时代技术变革的核心驱动力,AI在To B领域的渗入将会给各行各业带来革命性的改变,也会对人们的日常生活产生巨大的影响。
附件下载
https://pan.baidu.com/s/1o820SWi
领取专属 10元无门槛券
私享最新 技术干货