前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >William Wang:语言与视觉研究的未来—多语种与真实环境下的导航与推理

William Wang:语言与视觉研究的未来—多语种与真实环境下的导航与推理

作者头像
马上科普尚尚
发布2020-05-13 16:55:44
8280
发布2020-05-13 16:55:44
举报

报告导读

本文报告主要介绍语言与视觉领域的探索以及未来,主要是真实环境下的导航与推理以及多语种任务,包括了视觉与语言在深度结合时的难点问题和目前的研究进展,以及研究团队在这些问题上的研究工作,以及对于语言与视觉跟机器交互等多模态融合方面未来研究趋势的展望。

专家介绍

William Wang,UC Santa Barbara自然语言处理实验室主任、机器学习中心主任、Mellichamp讲席教授、计算机系助理教授。曾获得谷歌教员研究奖(2019)、脸书研究奖(2018)、IBM教员奖(2017,2018)。担任过NAACL、ACL、EMNLP和AAAI等国际顶级会议的区域主席。主要从事信息抽取、知识图谱推理、语言与视觉、语言生成领域的研究。

报告内容

如果总结一下语言与视觉的研究,其实是远远不止五年的,再往前追随,十年、二十年前也有人做语言与视觉的研究,那是在深度学习之前。广为接受的一个工作,就是在CVPR2015的时候,由谷歌、斯坦福、微软各大公司分别用机器学习中的神经网络网络做一些看图说话之类的工作。

看图说话工作彻底火了起来,给任何一张图可以自动加上字幕和描述。这项技术非常有用,包括给盲人指路等等。2015年之后,在CVPR之后还有个很有意思的工作,对图片问一些问题,看机器能不能自动给一些答案。还有一个工作是2016年的时候通过更加动态的视频,比如YouTube这些视频,当然这是梅涛老师的工作。最近几年比较有意思的是把视觉跟语言进行深度结合,做更深入的交互,视觉跟语言深度结合。

什么是视觉跟语言进行深度结合呢?机器人方向的研究者比较熟悉,语言和视觉稍微做得比较少的任务,就是如何教机器人给机器人一些指令,通过这扇门往右走,再往台阶上走,能不能达到指定的目的地。现在的机器人还做不到,不能很好地理解人的指令,跟现实的视频做动态分析,就是如何教机器人渐进式做一些正确指令,到达我们想要的目的地。

这个任务难在哪里呢? 第一点比较难的是跨模态的理解,什么是跨模态之间的理解呢?这是我们的一个俯视图,这是室内的场景,机器人是没有这个输入的,它不能接受到这样的信息,但是我们的任务可以看到,给一个指令,机器人要从原始位置,也就是三角形的位置,要走向目标位置,比较靠近卫生间的区域。给另外一些指示的话,机器人只能看到的是眼前的视觉效果,只能看到一些本地的特征,比如当前能看到的环境,并不知道这个房屋的布局。这是其中的一个难点,如何理解每一个字、每个词,如何理解视觉跟像素之间的变化,使得机器人渐进式一步步走向正确的目的地,这是比较难的地方。为什么这个比较难呢?其实涉及到之后机器人会接受什么样的反馈输入。训练机器学习模型的话肯定有反馈输入,但是这个比较难。

举个例子,假设现在要一个机器人在室内环境下,在三角形区域走到接近卫生间的区域,肯定有很多路线。比如左边这个路线比较快,红色这个线是比较有效的路径。同时也可以想象这个机器人在房间里乱走,可以走非常长的路径,像蓝色的区域,通过蓝线最后也到了目的地。但是在机器学习训练的时候,在左图和右图接受的奖励信号是一样的,就没有办法区分开左边这个比较快的、比较短的红色线路比右边的蓝色线路要好,光从传统的强化学习的一个奖励函数,最后有没有达到目的地,是无法分辨出来的。

我们在这上面做了一些工作,我们今年CVPR的最佳学生论文,主要想法是两点:第一点是不光得到外部的奖励信息,除了外部的奖励函数,还可以检测机器人有没有遵从人类原始的指令,这是一个内部的奖励函数。内外部奖励函数相结合,就能告诉你有没有达到目的地,同时有没有遵从比较短的路线这个指令。

另外一点是泛化,什么是泛化呢?通俗一点,比如房屋有5层楼,我们在4层楼上做的训练,你现在用在5楼,如果5楼布局不一样,机器人就会做的比较差。所以我们就加入自监督,跟强化学习里面有比较相关的,主要参考机器人在训练的时候,能不能看一下有什么比较好的表现。传统的情况下,这个地方是碰都不能碰的,但是可以想像,把机器人从4楼放到5楼做测试,机器人是探索位置的环境,看一下跟之前训练时候做的行为有没有相近的情况。

这个是我们做自监督之前,这个机器人在陌生的环境确实比较难找到目的地,它也是到处乱逛,效率非常低。在我们接受机器人的自监督之后,在这个指令里面,机器人非常迅速能够找到目标,走了比较短的路径,直接就到了最后的目的地,就是一个白色的大门。

另外一个方向,多语种的研究这也是非常有意思的,多语言的图形,包括自然语言的研究。在当前工作中,英语使用上是比较多一点,英语的看图说话,英语的看图讲故事或者英语的视频描述。如果用中文做会怎么样?我们今年也耗费比较大的人力物力,与头条合作收集了比较大的中英文双语视频描述的数据集,可以看到不仅可以直接做翻译,同时还请人直接对视频进行中文的描述,得到了中文的描述部分。

我们提出MSN-VTT数据集是一个多语种,词汇量还是比较大的。大家可以看出来一段视频,我们不光做英文的描述,还有中文的描述,很多实际应用中会使用到这种描述的模型。这是我们的一个架构,大家可以看到这个架构还是比较简单的,主要是一个数据集的工作。我们主要用比较简单的Monolingual video captioning对视频进行提取,然后用解码器生成语言的描述。

多语言有意思的部分是在于思考怎么样利用多语言的优势,比如在编码器的时候,不光用英文,也可以用中文,用两个语言分享同样的编码器,这样的话参数会变少,训练有更高效率。但解码器也可以,在两个语言的时候同时分享同样的解码器,看看能不能有英文帮到中文,或者用中文帮到英文。还有比较有意思的,通过数据集不光做描述,这个数据集有中英文的描述,不光可以做自动的描述,也可以做机器翻译。在很多情况下有含混不清的动词情况下,可以通过视频的信息提高机器翻译的准确性。比如这个例子,如果只用英语文本翻译成中文,那结果其实非常不好的,是完全翻错了,但是通过视频的信息可以看出这个人在做拉杆运动,在健身,这样的话机器就能得到比较正确的结果。

最后和大家分享我在语言和视觉领域最近几年的想法,有一些趋势是可以看出来的。第一点,目前的研究已经从单一的图像进行到了真实的视频环境的研究,视频是比较难处理的,数据量很大,同时又非常复杂。还有一个动态,从单一的信源,语言语音视觉多模态结合,才能取得比较好的成就。还有一个是需要更多交互,语言与视觉跟机器的很多交互,是渐进式的决策过程,之后能不能到达目的地。还有一个是刚才讲的从单一语言到多语言的语言与视觉的研究,不光是用英文做这种看图讲故事、看图说话,同时也可以用中文帮助英文,用英文帮助中文,实现视觉多语言的识别和推理。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-12-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 人工智能前沿讲习 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档