专栏首页新智元港中大等打造光流预测新模型SelFlow,自监督学习攻克遮挡难题 | CVPR 2019

港中大等打造光流预测新模型SelFlow,自监督学习攻克遮挡难题 | CVPR 2019


新智元报道

来源:arxiv

编辑:大明

【新智元导读】对光流的学习和跟踪是计算机视觉领域的基本任务。在3D目标跟踪、处理和重建等实际任务中,经常需要对被遮挡的光流进行预测。本文介绍在CVPR2019上发表的一篇论文,在多个数据集的光流预测任务上大幅提升了预测性能。

光流是计算机视觉的一个基本任务,它描述了视频中的运动信息,相关技术广泛应用于视频理解和处理、物体跟踪、三维重建、自动驾驶等场景。近日,来自中国香港中文大学和腾讯AI实验室团队的一篇论文入选了CVPR2019。

论文题为《一种自监督的光流学习方法》。论文团队探索了使用卷积神经网络估计光流的一个关键挑战:预测被遮挡像素的光流。

论文地址:

https://arxiv.org/abs/1904.09117

论文第一作者刘鹏鹏详细阐述了该论文的意义:“首先,我们提出了一种从没有标注的数据中学习光流的自监督训练框架。这个方法会人为创造一些遮挡,然后利用已经学习到的比较准确的没有被遮挡像素的光流去指导神经网络学习被遮挡像素的光流。其次,我们设计一个可以利用多帧图像时序连续性的网络结构来更好地学习光流。

基于这两个原则,我们的方法在MPI Sintel, KITTI 2012和KITTI 2015等数据集上取得了最好的无监督学习效果。更重要的是,我们的无监督方法得到的模型为有监督的微调提供了一个很好的初始化,消除了训练光流神经网络对仿真数据的依赖。经过有监督微调,我们的模型在以上三个数据集上取得了目前最优的性能,这是光流研究历史上第一次不使用额外仿真数据达到的最高准确度。

我们在写这篇文章的时候(2018年11月),我们的模型在Sintel评测集上取得EPE=4.26,超过来自世界各地研究机构的所有180多种已经提交的方法。直到今天,我们的算法在Sintel榜单上还是第一。”

自监督光流学习框架SelFlow:刷新多项预测精度纪录

表1:与基于最先进学习的光流估计方法的比较。我们的方法优于所有数据集上的所有无监督光流学习方法。我们的监督微调模型在Sintel Final数据集和KITTI 2012数据集上实现了最高精度。除KITTI 2012和KITTI 2015测试集的最后一列外,所有数字均为EPE,我们报告了所有像素(Fl-all)上的错误像素百分比。( - )表示未报告相应方法的结果。括号表示训练和测试是在同一数据集上执行的。粗体字为无监督和监督方法中的最佳结果。

图2 在每个级别的网络架构(类似于PWC-Net)。˙wl表示水平l的初始粗流,F l表示翘曲的特征表示。在每个级别,将初始流量和成本量作为输入交换,以便同时估计前向流量和后向流量。再将这些估计传递到l-1层上,估计更高分辨率的流。

图3 多帧自训练的数据流。为了估计三帧流学习的遮挡图,我们使用五个图像作为输入。这样,我们可以进行前后一致性检查,以分别估计I t和I t + 1之间,I t和I t-1之间的遮挡图。

图4 在Sintel和KITTI数据集上对无监督结果进行抽样。图中由上至下依次为在Sintel Final,KITTI 2012和KITTI 2015数据集上的取样。

图5 在Sintel Clean培训和Sintel Final测试数据集的不同设置下的定性比较。遮挡处理,多帧制定和自我监督不断提高性能

实验结果与分析:多项数据集预测性能显著提升

如表1所示,我们在所有评估指标下的所有数据集上实现了无监督和监督光流学习的最新结果。图4所示为Sintel和KITTI的样本结果。

无监督学习

本文中的方法在基准测试中实现了无监督学习方法的最高精度。在Sintel Final基准测试中,将之前的最佳EPE从7.40 降低到6.57,相对提升幅度为11.2%。这甚至比包括FlowNetS,FlowNetC和SpyNet在内的几种完全监督方法更优秀。在KITTI数据集上的改进更为明显。

对于训练数据集,我们实现了EPE = 1.69,KITTI 2012的相对改进幅度为28.1%,EPE = 4.84,与之前最佳无监督方法DDFlow相比,KITTI 2015的相对改进为15.3%。在KITTI 2012测试集中,实现了Fl-all = 7.68%,这比包括FlowNet2,PWC-Net,ProFlow和MFF在内的最先进的监督学习方法实现了更好的性能。在KITTI 2015基准测试中,实现了Fl-all=14.19%,优于所有无监督方法。其中一些无监督学习的结果也优于一些完全监督的方法,包括DCFlow和ProFlow等。

监督式微调

使用Ground-truth流程进一步对无监督学习模型进行微调后,模型在所有三个数据集上都获得了最先进的结果,KITTI 2012上的Fl-all = 6.19%,KITTI 2015上的Fl-all = 8.42%。最重要的是,我们的方法在Sintel Final数据集上实现了EPE = 4.26 ,在所有提交的方法中实现Sintel了基准测试的最高精度。所有这些都表明,我们的方法减少了预训练对合成数据集的依赖,不必再遵循不同数据集来专门制定训练计划。

结论与未来方向:有效降低对标记数据集的依赖

本文提出了一种自我监督的方法来学习准确的光流估计,此方法将噪声注入到超级像素中以创建遮挡,让一个模型引导另一个模型来学习遮挡像素的光流。我们通过简单的CNN有效地聚合来自多个帧的时间信息,改进流量预测精度。大量实验表明,我们的方法明显优于所有现有的无监督光流学习方法。在使用我们的无监督模型进行微调后,模型在所有领先的基准测试中实现了最先进的流量估算精度结果。我们的研究可以完全降低预训练过程对合成标记数据集的依赖,并通过对未标记数据进行自监督的预训练,实现优异的预测性能。

本文分享自微信公众号 - 新智元(AI_era)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-07-02

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 对儿童性虐待内容说不!谷歌推出AI鉴黄工具,效率提升7倍

    对于大型互联网企业来说,及时阻止儿童性虐待内容(CSAM)的传播是属于第一优先级的任务。但对于一线工作人员来说,这项工作是异常艰巨而困难的,必须要靠人类来识别并...

    新智元
  • reddit网友吵爆!算力和数据真能解决一切?

    近日,一位reddit用户发起一个讨论帖:如果我们只有更多的数据和计算能力而停止理论工作的发展,今天的哪些问题可以解决?哪些问题绝对无法解决?

    新智元
  • AI进入大规模推理时代,英特尔技术矩阵强力支撑“深度森林”落地

    AI不是围城——外面的人依然想冲进去,但里面的人不想逃出来,而是思索如何呆得更久。

    新智元
  • 在docker容器中使用非root用户执行脚本 (

    应用容器化之后,在docker容器启动时,默认使用的是root用户执行命令,因此容器中的应用默认都是使用root用户来运行的,存在很高的安全风险,那么如何能够...

    双面人
  • LINUX系统性能调谐

    邓延军 (deng.yanjun@163.com), 硕士研究生, 西安电子科技大学软件工程研究所

    一见
  • 现代版荆轲刺秦王:Struts2 REST插件漏洞分析

    战国末期,大秦实力强盛,大有横扫六合之势,在灭了韩、赵两国后,下一个目标就是燕国。

    FB客服
  • 提权工具整理

    fz因为工(ban)作(zhuan)无暇更新文章,我是接下来比较长一段时间的公众号编辑,也欢迎各位粉丝投稿,直接后台联系。因为我最近在研究提权的一些内容,这里整...

    用户5878089
  • sftp配置导致ssh连接闪断

    研发同事需要用他测试服务器上的一个特定用户去连接另外一台ftp服务器,进行上传和下载文件,为了安全,这个用户连接ftp服务器后,只能访问它自己的家目录下的内容...

    有暗香盈袖
  • 基于深度学习的艺术风格化研究【附PDF】

    廖菁博士,获浙江大学和中国香港科技大学双博士学位;毕业后曾工作于微软亚洲研究院,担任视觉计算组研究员,主要研究方向为计算机图形学、计算机视觉、图像视频处理等;现...

    马上科普尚尚
  • 2017年度盘点:Github上十大有趣的机器学习项目

    目录: 1 AlphaZero-Gomoku 2 OpenPose 3 Face Recognition 4 Magenta 5 YOLOv2 6 MUSE 7...

    企鹅号小编

扫码关注云+社区

领取腾讯云代金券