前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >改进反向传播算法实现高效训练,端到端的目标跟踪结构,微型机器人的新视觉系统 | AI一周学术

改进反向传播算法实现高效训练,端到端的目标跟踪结构,微型机器人的新视觉系统 | AI一周学术

作者头像
大数据文摘
发布2019-05-07 15:53:15
5180
发布2019-05-07 15:53:15
举报
文章被收录于专栏:大数据文摘大数据文摘

大数据文摘专栏作品

作者:Christopher Dossman

编译:conrad、笪洁琼、云舟

呜啦啦啦啦啦啦啦大家好,本周的AI Scholar Weekly栏目又和大家见面啦!

AI Scholar Weekly是AI领域的学术专栏,致力于为你带来最新潮、最全面、最深度的AI学术概览,一网打尽每周AI学术的前沿资讯。

周一更新,做AI科研,每周从这一篇开始就够啦!

本周关键词:反向传播、目标跟踪、CNNs、身份再识别、合成视觉神经系统

本周热门学术研究

利用进化后的反向传播算法实现快速、高效的训练

在最新的机器学习自动搜寻方法的推动下,一些谷歌研究人员提出了一种自动生成反向传播方程的方法。

新方法的工作原理:研究人员尝试修改反向计算(流程)图,并实现了一种搜索方法:找到更好的公式,生成全新的传播规则。他们使用进化后算法来寻找可能的更新方程。进化控制端在每次迭代中向研究人员群发送一组修改后的更新方程以进行评估。然后,每位研究人员使用接收到的变异方程来训练一个固定的神经网络结构,并向控制端报告所达到的精准度。

潜在应用及影响

研究人员发现一些变异可以像传统的反向传播方法一样有效。这些变化可以在短的训练周期内实现更高的准确性,因此可以用于改进基于准确性的决策算法。

由于反向传播是深度神经网络的基础,利用这种新发现的变异可以用来增强对各种神经网络的训练。

原文:

https://arxiv.org/pdf/1808.02822.pdf

端对端的目标跟踪结构

研究人员提出了一种离线型端到端训练的鉴别目标跟踪方法。在Python中可以使用PyTorch实现,新方法是通过迭代优化从具有辨别性的学习损失中衍生得出的。它构成卷积层的权重以及输出目标分类得分。而且它还实现了一个预测模型,其中包括一个初始化网络,以便仅使用外观(特征),就能有效地提供模型权重的初始估计。

然后由优化模块处理权重,同时考虑目标和背景样本。优化功能是特地设计的,只包括一些可学习的参数,以避免在离线训练期间过度拟合。在使用时,预测模型就能够泛化为不可见的目标,这在常规目标跟踪中是至关重要的。

整个跟踪模型,包括目标分类、边界框预估和Backbone模块,都可以在跟踪数据集上进行离线训练。在评估方面,它在6个跟踪基准上都达到了最新的技术水平,在运行速度超过40FPS的情况下,在VOT2018(Visual Object Tracking Challenge全球目标追踪领域中最高水平赛事)上获得了EAO得分:0.440(Expect Average Overlap Rate,追踪算法评价标准之一)。

在单块Nvidia GTX 1080 GPU上,新模型在使用ResNet-18为主时,跟踪速度为57 FPS,对于ResNet-50则为43FPS。训练及推导过程请见☟

https://github.com/visionml/pytracking

潜在应用与影响

现在我们有了一种辨别性的目标跟踪方法,而且这种方法是离线训练的,只需几个优化步骤就可以进行稳健型的预测。结合这一方法以及其他最近的目标跟踪方法,我们即将迎来下一代目标跟踪(方法)的进步。

阅读更多:

https://arxiv.org/abs/1904.07220v1

3.DG-Net:增强行人身份再识别(Re-Identification)

为了提高行人的再识别能力,研究人员最近提出了DG- Net,这是一个结合再识别学习和端到端数据生成的联合学习框架。为此,DG-Net包含一个生成模块,该模块将特定的人分别编译为外观代码和结构代码。它还集成了与生成模块共享外观编码器的判别模块。

因此,DG-Net中的生成模块可以生成高质量的交叉id合成图像,然后在线将图像反馈给外观编码器,通过切换外观代码或结构代码来改进模型的判别模块。在包括Market-1501、dukemtc - reid和MSMT17在内的标准基准数据集上对DG-Net进行了评估,结果显示,与传统模型相比,DG-Net在图像生成质量和再识别精度方面都有显著的改进。

将新方法与LSGAN[29],PG2-GAN[28],FD-GAN[10],PN-GAN[31]通过基于Market-1501而产生的真实图像进行对比,放大后可以更清楚地看到图片的表层和深层。

潜在应用与影响

从GANs被发现到最近的研究进展,判别和生成网络在图像构建和生成任务中不断证明自己。DG-Net是另一个当代的方法,将会显著和持续地提高再识别的准确性。这项研究表明,人工智能领域还可以继续更深入地研究GANs,以便找到更好的方法,来运用生成的数据完成更多稳健的基于图像任务。

原文:

https://arxiv.org/abs/1904.07223v1

4 .实现CNNs端到端培训时间减少31%

通过着重关注加速训练,一组研究人员提出了PruneTrain,一种新的经济有效的方法,可以缓慢但稳定地降低CNN的训练成本。与传统的CNN训练方法不同,PruneTrain在训练过程中通过稀疏化过程实现了模型剪枝方法scratch。模型剪枝主要是在稠密模型中减少权值或参数的数量,从而在保持原有模型精度的同时降低内存和推理成本。

PruneTrain非常实用,它使CNN的端到端训练成本降低了约31%。总体而言,它减少了大约一半的计算成本——对于大数据集和小数据集,它分别减少了37%到40%之间的计算成本,实现了31%和28%的成本降低。总的来说,这是由于计算延迟减少了37%,内存占用减少了35%,加速器间通信减少了54%。

潜在用途及影响

在机器学习社区中,谁不认为这是一个好消息?人工智能研究人员和行业从业人员现在都可以期待使用PruneTrain进行成本更低的CNN训练,并且PruneTrain将CNN架构重构为更节省成本的形式,同时仍然保留一个密集的结构。为了更快地进行推理,这样的模型剪枝是值得深入研究的!

详情请见:

https://arxiv.org/abs/1901.09290v3

5 . 自主微型机器人的合成神经视觉系统

一种新的基于嵌入式视觉系统的自主微机器人方法被提出,用于识别动态机器人场景中的运动模式。该方法将基本的运动模式分为隐现(接近)、衰退、平移等运动。该系统由两个协调子系统组成,其中包括蝗虫巨叶状体运动探测器(LGMD1和LGMD2),它有四个突起神经元,用于感知若隐若现和衰退。另一类是用于平动运动提取的果蝇定向选择神经元(DSN-R和DSN-L)。

通过对开关函数和决策机制的时空计算,图像被转换为峰值,从而在动态机器人场景中唤起适当的避碰、跟踪和漫游行为。对多机器人的评估证实了系统在识别运动特征以进行碰撞检测的有效性,与现有方法相比有显著改进。

潜在用途及影响

为了在动态场景中应用合适的机器人行为,毫无疑问,更多的研究工作和行业实践是必要的。所提出的人工神经视觉系统能够较好地识别运动规律。研究人员呼吁在系统中继续加入其他视觉神经元,提取更多的运动特征,以丰富运动模式,使机器人的视觉系统更加高效。

原文请见:

https://arxiv.org/abs/1904.07180v1

其他爆款论文

蝗虫为无人机室内导航提供了一种新的避免碰撞的方法

https://arxiv.org/abs/1904.07206v1

用递归神经网络(RNN)实现的一种基于学习的多视图密集深度图和里程计估计方法。

https://arxiv.org/abs/1904.07087v1

一种针对端到端对话代理行为空间的加强学习新方法

https://arxiv.org/abs/1902.08858v2

基于注意力传递模型的鲁棒、高效的端到端语音翻译

https://arxiv.org/abs/1904.07209v1

卷积神经网络(CNNs)如何提高合成歌声的自然度

https://arxiv.org/abs/1904.06868v1

AI新闻

如何正确实现人工智能(AI)。

https://www.forbes.com/sites/tomtaulli/2019/04/13/implementing-ai-the-right-way/#3b22745457e4

谷歌为简单、快速、更小的神经网络架构,引入了MorphNet技术。

https://ai.googleblog.com/2019/04/morphnet-towards-faster-and-smaller.html

人工智能是在推动还是在破坏全球经济增长?

https://www.bbc.com/news/business-47852589

纽约大学(New York University)的一项新研究突出科技行业的劳动力性别失衡是如何助长人工智能内部的偏见的。

https://www.cbsnews.com/news/ai-bias-problem-techs-white-male-workforce/

以下是人工智能改变客户体验的5种方式。

https://www.forbes.com/sites/danielnewman/2019/04/16/5-ways-ai-is-transforming-the-customer-experience/#7a2b0f64465a

专栏作者介绍

Christopher Dossman是Wonder Technologies的首席数据科学家,在北京生活5年。他是深度学习系统部署方面的专家,在开发新的AI产品方面拥有丰富的经验。除了卓越的工程经验,他还教授了1000名学生了解深度学习基础。

LinkedIn:

https://www.linkedin.com/in/christopherdossman/

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-04-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据文摘 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档