计算机视觉都学会抢答了,你呢?新研究使用图像回答问题 | 一周AI最火论文

大数据文摘专栏作品

作者:Christopher Dossman

编译:Jiaxu、fuma、云舟

呜啦啦啦啦啦啦啦大家好,拖更的AIScholar Weekly栏目又和大家见面啦!

AI ScholarWeekly是AI领域的学术专栏,致力于为你带来最新潮、最全面、最深度的AI学术概览,一网打尽每周AI学术的前沿资讯。

每周更新,做AI科研,每周从这一篇开始就够啦!

本周关键词:对象检测、BERT、视频理解

本周最佳研究

深度学习再进一步:对象检测全回顾

最近,研究人员对深度学习在视觉目标检测方面的最新进展进行了全面的研究。

他们回顾了大量最新的对象检测工作,并系统地分析了当前的对象检测框架。他们的研究包括对象检测器组件、机器学习策略、实际应用和基准评估。他们还讨论了未来的发展方向,以促进深度学习的视觉对象检测。

虽然深度学习理论一直在不断地创新,但最重要的是它们的应用。

不可否认,在当今的人工智能系统中,对象检测是一项重要的技术。例如,它被用于最先进的驾驶辅助系统(ADAS)中,该系统允许汽车识别车道或检测行人和其他物体,以提高行驶安全。它在视频监控和图像检索应用中也很有用。

这一工作有助于以结构化、系统的方式展示当前在对象检测方面的贡献。通过这种方式,到目前为止,人工智能社区通过深度学习获得了对对象检测的全面理解。此外,这项工作有助于激发对未来对象检测方法和应用的研究工作。

原文链接:

https://arxiv.org/abs/1908.03673v1

用BERT做标记和解析:更简单、更准确

美国埃默里大学(Emory University)的研究人员最近提出了一种新的模型,利用BERT作为词性标记、语法分析和语义分析任务的标记级嵌入。这是第一个使用BERT进行语法和语义分析的项目,它比传统方法简单得多,但同时却更准确。

对于这三项任务中的每一项,研究人员都复制并简化了当前最先进的方法,提高了模型效率。然后,他们使用BERT生成的token嵌入来评估任务的简化方法。

深度学习方法通常需要大量的计算和记忆。现在看来,研究人员已经从语法、语义和多语言视角发现了BERT有趣的特性。这项工作表明,可以使用更简单的模型来处理标记和解析。

平均而言,在不损失精度的情况下,所提出的BERT模型比现有的性能最好的模型性能高出2.5%。研究人员和整个人工智能社区现在可以利用和改进这些模型,为未来建立强大的基准线。

代码链接:

https://github.com/emorynlp/bert-2019

原文链接:

https://arxiv.org/abs/1908.04943

使用时间周期一致性(TCC)学习的视频理解

为了解决当前逐帧视频跟踪中存在的问题,谷歌的研究人员提出了一种潜在的解决方案,即使用一种名为时间周期一致性学习(TCC)的自监督学习方法。该方法利用相似序列过程中实例间的对应关系,学习适合于细粒度时间视频理解的表示形式。

该模型的主要目标是学习帧编码器,使用网络架构处理图像,通过编码器将所有视频帧进行对齐,从而产生相应的嵌入。

研究表明,每一帧嵌入都具有显著的潜力,可以实现一系列有趣的应用,包括无监督视频对齐、少镜头动作相位分类、视频间模态传输、视频帧检索等。

随着对细粒度标记的需求不断增长,这项工作刺激了对可伸缩学习模型的需求,这种模型可以理解视频,而不需要像机器人、体育分析等应用程序那样繁琐的标记过程。

包括TCC在内的代码已经发布,可以帮助视频理解方面的研究人员和希望使用机器学习实现视频对齐的艺术家们更好的工作。

原文链接:

https://ai.googleblog.com/2019/08/video-understanding-using-temporal.html

用于异常声音检测的小型机器运转数据集

NTT媒体智能实验室与日本立命馆大学合作推出了一个新的数据集“ToyADMOS”,用于机器操作声音(ADMOS)中的异常检测。为了建立一个大规模的ADMOS数据集,研究人员通过故意破坏机器来收集微型机器的异常操作声音。 ToyADMOS大约有540小时的正常机器操作声音,包括超过12,000个异常声音样本,使用采样率为48 kHz的四个麦克风收集。

它由三个子数据集组成,一个用于机器状态检查,一个具有几何形状固定任务下的机器故障诊断,一个具有移动任务下的机器故障诊断。每个子数据集包括超过180小时的正常机器操作声音和超过4,000个异常声音样本,使用四个麦克风以48 kHz采样率收集。

ToyADMOS数据集可以帮助推动ADMOS系统的设计,这为深度学习研究进入异常声音检测领域打下了良好的基础。

代码链接:

https://github.com/YumaKoizumi/ToyADMOS-dataset

原文链接:

https://arxiv.org/abs/1908.03299

通过计算机视觉来回答问题

VideoNavQA是一个新的数据集,包含在House3D环境中生成的成对问题和视频。这一新发布的数据集能够从近乎理想的导航路径评估问答性能,同时考虑比当前EQA任务实例更全面的问题集合。

他们在新的基准测试中,从常见的VQA方法中研究了许多模型。他们的工作初步了解了VQA风格的方法在这种新颖的EQA范例中的表现。

VideoNavQA数据集在很大程度上有助于研究EQA类型任务的实用性,它可以帮助我们更好地理解EQA领域中的可实现内容,以及环境中丰富的元素。这项工作更像是Habitat Challenge的补充任务,其重点是导航,而不一定是问题回答。

原文:

https://arxiv.org/abs/1908.04950

其他爆款论文

数据集和随之而来的挑战,鼓励计算机视觉社区解决非洲粮食安全问题:

https://arxiv.org/abs/1908.02900v1

Google AI:改善语音障碍患者的ASR:

https://ai.googleblog.com/2019/08/project-euphonias-personalized-speech.html

基于深度学习,由语言驱动的面部表情动画:

https://arxiv.org/abs/1908.03904

实现语音分析中隐私保护的框架:

https://arxiv.org/abs/1908.03632

Fog Robotics的现状及其应用:

https://arxiv.org/abs/1908.04935

AI新闻

Nvidia大幅提升BERT,53分钟完成训练,2.2毫秒产生结果:

https://www.zdnet.com/article/nvidias-ai-advance-natural-language-processing-gets-faster-and-better-all-the-time/

麻省理工学院使用人工智能实现分子生产自动化:

https://news.mit.edu/2019/automate-molecule-production-ai-0808

原文发布于微信公众号 - 大数据文摘(BigDataDigest)

原文发表时间:2019-08-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

扫码关注云+社区

领取腾讯云代金券