前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >人类理解视频再进一步,新研究提出微型视频网络 | 一周AI最火学术

人类理解视频再进一步,新研究提出微型视频网络 | 一周AI最火学术

作者头像
大数据文摘
发布2019-10-24 15:33:04
4240
发布2019-10-24 15:33:04
举报
文章被收录于专栏:大数据文摘大数据文摘
作者:Christopher Dossman

编译:VICKY、Joey、云舟

呜啦啦啦啦啦啦啦大家好,拖更的AIScholar Weekly栏目又和大家见面啦!

AI ScholarWeekly是AI领域的学术专栏,致力于为你带来最新潮、最全面、最深度的AI学术概览,一网打尽每周AI学术的前沿资讯。

每周更新,做AI科研,每周从这一篇开始就够啦!

本周关键词:视频理解、Chatbot、语音识别

本周最佳学术研究

微型视频网络:已知最快的视频网络

研究人员一直在努力真正理解视频,但视频的本质非常复杂。与静态图像不同,视频内容在本质上是动态的,处理起来很有难度。现有的视频理解解决方案都是计算密集型的,即便是在功能强大的GPU上,最快的算法在每个视频片段上运行的时间也要超过半秒。

为了解决这个问题,研究人员提议使用进化算法来自动设计网络,从而以较低的成本提供可比的性能。他们提出了一种有关视频学习架构的新想法,即微型视频网络(Tiny Video Networks),来自动设计用于视频理解的高效模型。

微型视频网络,物如其名,它们所需的运行时间非常短,这在视频模型领域当中是前所未有的。微型视频网络拥有极具竞争力的性能,每个视频能在CPU上以低至37毫秒的速度运行,在标准GPU上则能低至10毫秒。

微型视频网络是学习高效视频网络的第一种方法。这种方法允许以更低的成本在视频架构中进行更多的探索。当规模扩大后,它们将与一些最先进的模型竞争,并且速度能提高数百倍,同时参数也将减少。

更值得注意的是,TVN在实现更高效、更少计算量的视频架构上具有很大潜力,这能提高许多实时应用程序的准确性。视频理解对于任何涉及视频数据的业务都至关重要,Facebook认为该技术许多用户应用程序都会有用处,比如增加用户的参与度。

原文:

https://arxiv.org/abs/1910.06961v1

大规模、多语言的神经机器翻译

谷歌的研究人员近日建立了一个能够翻译任何语言对的通用神经机器翻译(NMT)系统。他们建立了单一的大规模多语言NMT模型,该模型在250多亿个示例中进行训练,并且能够处理大约103种语言。

这一系统显示出了有效的迁移学习能力,从而显著提高了低资源语言的翻译质量,同时使高资源语言的翻译质量与竞争性双语基准保持一致。研究者们对模型构建的各个方面进行了深入分析,这些方面对于实现通用NMT的质量和实用性都至关重要。

考虑到对实现模型准确性所需的高质量训练数据的需求,研究人员在遇到数据稀缺或数据不可得的情况时,必须打破成规进行思考。

这项工作有助于在多语言NMT研究中进一步明确需要进行的研究和需要考虑的问题。尽管这项工作已经为高质量的通用翻译系统提供了一个原型,但整个AI社区在这方面仍然有很长的路要走。

除了减轻运营成本外,通过联合训练以及随之而来的高资源语言的正迁移,多语言模型还提高了低资源和零资源语言对翻译的性能。

原文:

https://ai.googleblog.com/2019/10/exploring-massively-multilingual.html

端到端的多频道多说话人语音识别

来自美国约翰·霍普金斯大学语言和语音处理中心、上海交通大学语音实验室和美国三菱电机研究实验室的研究人员们提出了一个用于多频道多说话人语音分离和识别的MIMO-Speech模型。

MIMO-Speech是一种全神经的端到端网络,由单声道掩蔽网络、多源神经波束形成器和多输出语音识别模型组成。它以由麦克风阵列记录的多个说话人的语音作为输入,并为每个说话人输出文本序列。该模型的前端包含一个神经波束形成器,即使在不使用显式的信号重建准则下也能学习进行语音分离。MIMO-Speech扩展了原有的seq2seq来处理多频道的输入和输出。

在spatialized wsj1-2mix语料库的评估中,MIMO-Speech的字错率(WER)与拥有高质量增强信号系统的单声道系统相比降低了60%以上。MIMO-Speech的一个主要优点是整个模型是可微分的,并且可以在自动语音识别(ASR)目标丢失的情况下进行优化。研究人员还设计了一种有效的学习策略来帮助提高该模型的性能。

原文:

https://arxiv.org/abs/1910.06522

Facebook AI再创佳绩,赢下WAT19 缅甸语到英语翻译任务

Facebook AI Research研究团队参加了由亚洲翻译研讨会组织的 Myanmar-English 2019的竞赛。这篇论文则介绍了他们的作品:该作品在比赛中获得了最高的人类评价和BLEU分数。 按照人类评估和BLEU排名,他们的系统在两个方向上均排名第一,比第二好的系统高出8个BLEU点。

值得一提的是,它探索了利用单语数据来提高自己的水平这一领域。其中包括自我训练、回译及其组合。 首先,他们使用反向翻译来规范化和匹配测试数据。 其次,他们使用自我训练来更好地利用域内源端的单语数据。 第三,鉴于这两种方法的互补性,他们以迭代方式将它们组合在一起。 最后,它们通过使用干扰数据重新排序和合并改善了解码。

他们通过使用干扰数据的频道重新排序和合并进一步改善了结果,并证明这些技术不仅可以显著改善其他单语数据训练出来的系统,而且甚至可以改善仅在小的并行数据集上训练的基准系统。

作为在MyanmarEnglish英语机器翻译竞赛中表现最佳的作品,FBAI的这一研究成果着实值得大家的关注。他们提交的方案是几种方法的混合,这也使得它可以在不使用其他单语数据的情况下实现良好的性能。

未来,如果想进一步提升这一模型的水平,他们可以通过利用干扰数据的并行数据资源、不同附加数据源的更好组合以及设计更好的方法来利用源端单语数据。

原文:

https://arxiv.org/abs/1910.06848v1

学习解决权重分配问题

在学习时,大脑是如何解决工作分配问题的? 每个神经元如何知道其在+ ve或-ve结果中的作用,以便改变其行为以使其下次表现更好? 对于机器学习模型来说,这仍然是一个长期存在的疑问。

近日,宾夕法尼亚大学的研究人员在一篇论文中提出了一种RL算法来训练反馈系统。 尽管最近的工作已经探索了类似的想法,但它们并没有一个类似于反向传播的明确目标。

研究人员提出了一种混合式的学习方法,其中每个神经元都使用RL型策略来学习由反向传播计算出的梯度近似值。对于某些类别的网络,该方法收敛于真实梯度。在前馈和卷积网络中,他们都从经验上证明了他们的方法学会了近似梯度,并且可以匹配基于梯度的学习的性能。

他们所提出的这个混合方法可用于完全连接网络和卷积网络。与许多基于扰动的方法相反,该方法具有解决大规模问题的潜力。

研究人员表示“我们相信这种方法可以提供强大且符合生物学逻辑的学习算法。”

但是这种方法也有一个缺点——该方法无法在比较新的数据集(如CIFAR)上达到最优性能,相反,它只专注于证明自己在学习反馈权重方面相比于固定权重更加优秀,在这一点上它确实做到了。

原文:

https://arxiv.org/abs/1906.00889v3

其他爆款论文

如何消除打车时司机的“绕远路”行为:

https://arxiv.org/abs/1910.06949v1

一种用于检测带有怨恨情绪内容的监督学习模型——VAIS仇恨语音检测系统:

https://arxiv.org/abs/1910.05608

一个关于可解释人工智能(XAI)的调查——迈向医学的XAI:

https://arxiv.org/abs/1907.07374v3

一个基于场景与机器人进行口头对话交互的平台——与人类进行多机器人对话的研究平台:

https://arxiv.org/abs/1910.05624

设计风格匹配的绘画代理:

https://arxiv.org/pdf/1910.07514.pdf

数据集

一个无需任何额外预处理的免费数据集,可用于测试脉冲神经网络的软件和神经形态的硬件实现:

https://compneuro.net/posts/2019-spiking-heidelberg-digits/

一个基于Twitter的数据集,可用于测试语言识别系统:

https://arxiv.org/abs/1910.06748v1

探讨会话代理的数据集创建所面临的挑战:

https://arxiv.org/abs/1910.07357v1

AI大事件

LeCun描绘AI的下一个阶段:

https://www.zdnet.com/article/high-energy-facebooks-ai-guru-lecun-imagines-ais-next-frontier/

https://theblog.adobe.com/adobe-introduces-ai-powered-personalization-and-streamlined-activation/

我们是否能用AI来调解冲突? 或许还为时尚早:

https://www.sciencedaily.com/releases/2019/10/191016094909.htm

专栏作者介绍

Christopher Dossman是Wonder Technologies的首席数据科学家,在北京生活5年。他是深度学习系统部署方面的专家,在开发新的AI产品方面拥有丰富的经验。除了卓越的工程经验,他还教授了1000名学生了解深度学习基础。

LinkedIn:

https://www.linkedin.com/in/christopherdossman/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-10-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据文摘 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档