腾讯提出共享 AI,抢先布局游戏与多媒体 AI,首秀同声传译

腾讯AI实验室 2017-11-09 175 标签: 行业资讯人工智能

导语:感谢阅读腾讯AI Lab微信号第12篇文章。在昨日举办的腾讯2017全球合作伙伴大会上,腾讯AI Lab披露了AI发展布局的最新动态。本文整理了四个重磅演讲的干货内容,包括腾讯AI的发展路线图、游戏AI研究的挑战与应对、多媒体AI从图片到视频的演进,及惊艳全场的同声传译产品,以飨读者。完整文章可到官网阅读。

一、腾讯AI路线图:共享AI是大势所趋

《共享AI:让AI无处不在》
演讲人:腾讯AI Lab主任 张潼博士

张潼博士的演讲勾勒了AI行业未来发展的路线图:共享AI的三大关键元素:企业共享研究应用成果、行业共享发展平台,到学界共享新思路的「共享AI时代」

「在设定AI Lab作为企业级AI实验室的愿景时,我们希望能代表腾讯打造世界级的AI能力,让科技以创新的方式去解决人类所面临的困难与挑战,未来能让AI无处不在(Make AI Everywhere)。」张博表示,腾讯的AI发展路线图,将围绕企业、行业到学界的AI共享共联展开。

第一是企业内外部共享研究应用成果,缩短技术迭代时间,小步快跑构建核心技术竞争力。

在研究上,腾讯AI Lab自成立一年来,本着「学术有影响,工业有产出」的发展目标,在计算机视觉领域的CVPR、自然语言处理领域ACL、机器学习领域的ICML和NIPS等衡量机构研究能力的多个AI顶级学术会议中,被收录论文80多篇,位居国内企业前列;此外还在人脸识别检测MegaFace Challenge2、前沿的图片描述生成数据集微软MS COCO中排名第一。

在应用上,除了技术已落地到微信、QQ、音乐和视频平台,还围绕游戏、内容和社交等核心业务有的放矢进行技术突破,通过技术提升用户的游戏体验,内容AI中文字、图像和视频的理解、生成与推荐,及社交AI中的终端硬件与全新交互方式等。

第二是行业共享大生态,赋能中小从业者和传统产业。

一方面是针对中小从业者与合作伙伴,共享AI基础能力,如通过腾讯开放平台,将算法、数据到模型等AI基础能力开放,并为从业者提供方便易用的以API和SDK为主的AI服务解决方案。

另一方面针对传统行业,通过对「行业AI+X」计划与AI创业者的扶植开放腾讯AI能力,推动AI在更多垂直领域台落地。比如腾讯发布的首款AI医学影像产品「腾讯觅影」,使用AI Lab技术发现早期食管癌的准确率已高达90%;而此次论坛发布的「AI生态计划」将从场景、技术、人才、资本四个方面全面扶植AI创业者,与合作伙伴共建共享AI行业生态。

第三是学界共享新思路,将工业界资源、经验反向输入到AI人才「造血库」。

我们宣布启动全球博士生奖学金计划,前者会授予入选博士生丰厚的奖学金,到AI Lab实地研究,接触真实需求和数据的机会,与学界联合培养AI领域的顶级人才。

此外每年一届的学术论坛也打造为吸引国外顶级学者到华学术研究交流的顶级平台。

二、游戏AI:赋能现实世界,研究的奥义远不止于游戏

《游戏AI:虚拟世界对物理世界的赋能》
演讲人:腾讯AI Lab机器学习中心负责人 刘晗博士

我们最想强调的,是游戏AI研究的奥义——远不止于游戏本身。这是一个富有挑战而令人振奋的研究课题,研究当中累积的经验、方法与结论,能在更广大深远的范围被利用。首先是打通虚拟与现实世界的藩篱,从而赋能物理世界,比如无人车和机器人的发展;其次,游戏中对话智能的研究,或能成为通向强人工智能的重要路径;第三,研究游戏中人、智能体和环境的交互,能让智慧城市这样复杂而意义深远的项目受益。

游戏AI是人工智能与博弈论的一个交叉领域。从小的方面来说,游戏AI研究如何用人工智能技术来提升人类玩游戏的体验。从大的方面来说,游戏AI研究人,智能体,以及环境之间的复杂交互关系。 游戏AI驱动了人工智能的发展,从国际象棋到围棋击败人类顶尖高手,而目前所挑战的游戏已从棋盘类转向《星际争霸》Real Time Strategy(RTS)和《DOTA 2》Multi-Player Online Battle Arena (MOBA)等游戏。

游戏AI涉及到三个核心能力:对外界环境的感知,根据状态做出的决策,人与智能体之间的对话。比如在围棋的游戏场景,可以通过感知棋盘的全局表达状态决定在哪里落子。而现实中的无人车,同样可以通过视觉,激光雷达的感知对方向盘,刹车等动作做出决策。

理解了游戏AI的三个核心能力。接下来我解释研究中三个核心挑战,及腾讯的解决方案。

第一个挑战是游戏的状态空间过大。比如很多战略型游戏的状态空间是无穷维,远大于围棋空间。腾讯提出了一套整合了模型,算法,与计算体系结构的解决方案,叫做腾讯机器大脑,整个系统的核心是使用深度神经网络来建模超大规模的状态空间。

第二个挑战是许多复杂的多玩家游戏需要多个智能体协调操作,目前这方面理论比较缺乏。为设计出一个完善的多智能体AI,一个核心问题是将强化学习的价值网络与描述宏观战略的行为树进行互操作,并使其融合。

第三个挑战是绝大部分游戏AI是用模拟器在一个理想化的虚拟世界中开发。如何打通虚拟与现实,又是一个核心挑战。我们的解决方案结合反向强化学习及动态探索机制,对游戏AI中的参数进行贝叶斯升级。这样得到的系统能保证在现实世界花最小的成本,就能成功部署。

这一套感知、对话与决策模块,形成了一套通用系统,未来有望在现实中被应用到更多场景中,这就是我们说的虚拟对现实的赋能。

多媒体AI:从图片到视频的深度内容探索

《多媒体AI:睁开机器之眼》
演讲人:腾讯AI Lab计算机视觉中心负责人 刘威博士

我们正在进入一个「多媒体内容消费」的时代,每个中国人每天都在消费大量的多媒体内容,也在提供大量的多媒体数据。在AI领域,多媒体AI将赋予计算机处理、识别、理解内容的综合能力。从图像到多媒体,数据维度大大提升,我们希望走出一条自主的创新之路,因此发展了三个基础AI能力:处理、识别、理解。

我们的目标是要打造最好的多媒体AI技术,通过建立一个有效的技术矩阵,涵盖产生、处理、识别、理解、分发等多种基础AI能力,应用上从视频制作到视频推荐覆盖完整的视频产业链。

数字化内容是腾讯的战略之一,内容AI是腾讯AI Lab四大应用方向之一,而多媒体AI则首当其冲。我们的愿景,是在全球范围内做内容AI的引领者、实践者和贡献者。

我们也取得了一些科研成果。比如在OCR(Optical Character Recognition,译为光学字符识别)任务中取得六个第一,其中三项是针对网络图片文本,另外三项是针对聚焦场景文本。我们把算法识别精度提高到了90%以上,这是巨大的升级。

第二个是视频人脸检测和识别。需要克服视频中人脸的低分辨率、姿态、遮挡、表情、妆容、光照等挑战。我们在这方面也取得了比较好的结果。

还有图像描述生成技术。我们对整个深度学习架构(包括卷积神经网、长短时记忆网、多阶段注意力)进行端对端的训练,实现图像到文本的有机过渡,得到一个很好的模型。这项技术目前在最权威的MS COCO数据集上排名第一。

基于这项技术,机器可在人们上传图片到QQ空间后知道图片在说什么;进行图像搜索、图像推荐和图像文本间的对话;帮助视障人群看到图像世界。

翻译AI:AI同声传译亮相惊艳全场

《翻译AI:重建巴别塔》
演讲人:腾讯AI Lab机器翻译平台侧负责人 杨月奎

准确、自然而流畅的同声传译产品惊艳全场

时至今日,翻译已成为具有千亿规模的巨大市场。一方面,人工翻译价格高昂、供给不足,机器翻译的水平则在日益提升带来了更低的成本和更高的效率;另一方面,机器翻译的研究牵涉到自然语言的分析、转换与生成,可作为NLP的重要研发平台,也是人工智能的里程碑式目标。

2014年,随着神经网络机器翻译(NMT)的出现,错误率大幅下降,各互联网巨头也陆续推出了自己的机器翻译平台。可惜NMT也未提供完美的解决方案,面临众多挑战。首先是译文忠实度问题,存在译文丢失或跑飞的可能。其次是对低频词的训练难度更大,一些实体词很可能翻译不出来;最后是对训练数据的规模,也有着更高的要求。

针对NMT面临的这些挑战,我们也相对应地做了一些优化工作。为了提高译文忠实度,我们使用交互式的Attention模型来增强Attention机制,利用重构模型加强翻译完整性的学习,利用Rerank模型选取更优的译文;为了加强对低频词的训练,我们引入子词模型;为了提升训练效率,我们采取并行训练框架,支持多机多卡并行训练。除此之外,我们也加入了深层网络、残差网络和模型融合等技术。

目前我们已支持中文、英语、粤语、日语、韩语、法语、德语、西班牙、越南语等多种语言。

有了这样的机器翻译技术,我们也在公司内外积极谋求应用落地,包括结合语音识别技术的同声传译、结合图像识别技术的拍照翻译、结合人机交互能力的辅助翻译等。一方面应用于公司内部的微信、手机QQ和微云等产品,另一方面开放能力,赋能更多合作伙伴。

这些能力我们都已经在腾讯开放平台(AI.QQ.COM)上推出了,而在出境游、商务会议、跨国交流等场景上我们期待能有更广泛应用。

原文来自:腾讯AI实验室 公众号