ECCV 2020 五项大奖出炉！李飞飞高徒、徒孙共摘最佳论文奖

AI科技评论

发布于 2020-08-28 15:30:42

5310

发布于 2020-08-28 15:30:42

文章被收录于专栏：AI科技评论

作者 | 陈大鑫

今日，ECCV 2020五项大奖出炉，分别是最佳论文奖、最佳论文提名奖、Koenderink奖、Mark Everingham奖、Demo奖。

在每年大奖中都最受期待的最佳论文奖这一次来到了李飞飞的三代门下！

ECCV的全称是European Conference on Computer Vision(欧洲计算机视觉国际会议) ，两年一次，与ICCV和CVPR并称计算机视觉三大会议。

以下我们对各个大奖一一作介绍。

最佳论文奖

获奖论文：《RAFT：Recurrent All-Pairs Field Transforms for Optical Flow 》论文作者为Zachary Teed和邓嘉，他们实为师徒二人，而邓嘉正是李飞飞的徒弟。

Zachary Teed，普林斯顿大学邓嘉门下的一名博士生，是普林斯顿视觉与学习实验室的一名成员。Zachary Teed目前的研究重点是从视频进行3D重建；包括运动，场景流和SLAM中的结构。在此之前，他曾获得圣路易斯华盛顿大学的计算机科学学士学位，并在那里获得了Langsdorf 奖学金和 McKevely研究奖。

Zachary Teed个人主页：https://zachteed.github.io/。

邓嘉，2006年本科毕业于清华大学计算机系，随后赴美国普林斯顿大学师从 Kai Li（李凯，普林斯顿大学教授，美国工程院院士）攻读博士学位。2007 年，当时李飞飞回到他的母校普林斯顿大学任职后便开始启动 ImageNet 项目，李凯教授作为支撑，将邓嘉介绍到李飞飞的实验组中。2012 年于普林斯顿大学获计算机科学博士学位。 2014 起任密歇根大学计算机科学系助理教授。2018年邓嘉在密歇根大学的时候获得了美国斯隆研究奖。邓嘉现在在普林斯顿大学视觉与学习实验室任助理教授，主要研究方向为计算机视觉和机器学习，即通过感知、认知和学习相结合来实现人类层面的视觉理解。

而邓嘉本人其实还有个更为出名的称号，那就是ImageNet的第一作者：

邓嘉是李飞飞的弟子，Zachary Teed则称得上是李飞飞的徒孙，这一次他们凭借在ImageNet之外的光流估计领域做出的不平凡研究获奖也是实至名归。以下是具体论文。

论文链接：https://arxiv.org/abs/2003.12039.pdf

代码链接: https://github.com/princeton-vl/RAFT

论文摘要：

我们介绍了一种新的光流深度网络架构——递归全对场变换（RAFT）。RAFT提取每个像素特征，为所有像素对构建多尺度4D相关体，并通过一个循环单元迭代更新流场，该单元执行相关体积的查找。

RAFT达到了SOTA的性能。在KITTI上，RAFT的F1-all误差为5.10%，比已知的最佳结果（6.10%）减少了16%。

在Sintel上，RAFT获得的end-point-误差为2.855像素，比已知最佳结果（4.098像素）减少了30%。此外，RAFT算法具有较强的跨数据集泛化能力，在推理时间、训练速度、参数计数等方面具有较高的效率。

最佳论文提名奖

今年有两篇论文获得了最佳论文提名奖：

最佳论文提名一：《Towards Streaming Image Understanding》

论文链接：https://arxiv.org/abs/2005.10420.pdf

论文摘要：

实体感知是指一个自主的主体感知其所处环境从而能够（重新）行动的能力。智能体的响应很大程度上取决于其处理pipeline的延迟。虽然过去的工作已经研究了算法在延迟和准确度之间的权衡，但是还没有一个明确的指标来比较不同的方法沿着帕累托最优的延迟精度曲线。

我们指出了标准离线评估和实时应用程序之间的一个差异：当一个算法完成对特定图像帧的处理时，周围的世界已经发生了变化。为了达到这些目的，我们提出了一种方法，将延迟和准确度统一到一个用于实时在线感知的指标中，我们称之为流式准确性（streaming accuracy）。

此指标背后的关键洞察是在每个时刻联合评估整个感知堆栈的输出，迫使堆栈考虑在进行计算时应忽略的流数据。更广泛地说，基于这个指标，我们引入了一个元基准，它系统地将任何图像理解任务转换为流图像理解任务。针对城市视频流中的目标检测和实例分割，提出了一种具有高质量和时间密集标注的数据集。我们提出的解决方案及其实证分析证明了许多令人惊讶的结论：

（1）在帕累托最佳延迟精度曲线上，存在一个最优点，最大限度地提高流媒体的准确性；

（2）异步跟踪和未来预测自然而然地成为支持流式图像理解的内部表示形式；

（3）动态调度可用于克服时间混叠，产生一个矛盾的结果，即有时通过闲置和“无所事事”来最小化延迟。

最佳论文提名奖二：

《NeRF：Representing Scenes as Neural Randince Fields for View Synthesis》

论文链接：https://arxiv.org/pdf/2003.08934.pdf

论文摘要：

我们提出了一种通过使用稀疏输入视图集优化底层连续体积场景函数来获得合成复杂场景新视图的方法，这种方法取得了SOTA结果。

我们的算法使用一个全连接（非卷积）的深度网络来表示场景，其输入是一个单连续的5D坐标（空间位置（x，y，z）和观察方向（θ，φ）），其输出是该空间位置的体积密度和视景相关的发射辐射。我们通过查询沿相机光线的5D坐标来合成视图，并使用经典的体积绘制技术将输出的颜色和密度投影到图像中。因为体积绘制是自然可微的，所以优化表征的唯一输入是一组已知相机姿态的图像。我们描述了如何有效地优化神经辐射场，以渲染具有复杂几何和外观的真实感场景的新视图，并展示了优于先前神经渲染和视图合成的结果。视图合成结果最好以视频形式查看，因此我们敦促读者观看我们的补充视频，以便进行令人信服的比较。

最佳论文奖委员：

Koenderink奖

Koenderink奖表彰在计算机视觉领域有重大贡献且发表在十年前并经得十年时间检验的论文，2020年Koenderink奖授予以下两篇论文：

1、《Improving the Fisher Kernel for Large-Scale Image Classification》

论文链接：https://lear.inrialpes.fr/pubs/2010/PSM10/PSM10_0766.pdf

论文摘要：

Fisher内核（FK）是一个通用框架，它结合了生成和区分方法的优点。在图像分类的背景下，FK被证明超越了计数统计，扩展了流行的视觉单词包（BOV）。然而，在实践中，这种丰富的代表性还没有显示出它优于BOV。在第一部分中，我们展示了在原始框架的基础上，通过一些动机良好的修改，我们可以提高FK的准确性。在PASCAL VOC 2007上，我们将平均精度（AP）从47.9%提高到58.3%。同样，我们在CalTech 256上展示了SOTA的精确度。一个主要的优点是这些结果只使用SIFT描述符和无代价线性分类器获得。有了这种表示法，我们现在可以在更大范围内探索图像分类。

在第二部分中，作为应用，我们比较了ImageNet和flickrgroups这两个丰富的标记图像资源来学习分类器。在一项涉及数十万个训练图像的评估中，我们发现在Flickr组中学习的分类器表现得出奇地好（尽管它们并不是用于此目的），而且它们可以补充在更仔细注释的数据集上学习的分类器。

2、《Brief：Binary robust independent elementary featueres》

论文链接：https://www.cs.ubc.ca/~lowe/525/papers/calonder_eccv10.pdf

论文摘要：

我们建议使用二进制字符串作为一个有效的特征点描述符，我们称之为BRIEF。我们表明，即使使用相对较少的比特，它仍然具有很高的分辨力，并且可以通过简单的强度差分测试来计算。此外，可以使用汉明距离来评估描述符相似度，这是非常有效的计算，而不是像通常所用的L2范数。

因此，BRIEF的构建和匹配都非常快。我们将其与标准基准测试中的SURF和U-SURF进行了比较，结果表明它产生了相似或更好的识别性能，而运行时间只需其中一个的一小部分。

Mark奖

该年度奖项授予在计算机视觉社区对其他成员做出重大自我贡献的研究者或研究团队。

该奖项被创立一是为了纪念在2012年逝去的Mark Everingham，二是为了鼓励其他人追随他的脚步通过在计算机视觉领域做出更加深远贡献。

Mark Everingham最被人所熟知的贡献是他是PASCAL VOC数据集和挑战赛的发起人。

该奖项被授予ICCV和ECCV，获奖人会经PAMI-TC奖委员评选。

今年首先获得PAMI Mark Everingham 奖的是Antonio Torralba 和多数据集的合作者,以表彰他们持续了十多年定期发布新的数据集和创建这些数据集的新方法。这些数据集包含Tiny images，SUN/SUN-3D，MIT-Places，创建数据集新方法的工具包括LabelMe，它们已经在视觉领域影响深远。