前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >7 Papers & Radios | 升级版StyleGAN生成年轻的LeCun、吴恩达,CVPR 2021获奖论文

7 Papers & Radios | 升级版StyleGAN生成年轻的LeCun、吴恩达,CVPR 2021获奖论文

作者头像
机器之心
发布2023-03-29 17:12:16
3940
发布2023-03-29 17:12:16
举报
文章被收录于专栏:机器之心

机器之心 & ArXiv Weekly Radiostation

参与:杜伟、楚航、罗若天

本周的重要论文包括以色列特拉维夫大学的研究者提出的升级版StyleGAN可以生成精细的人脸图像;CVPR 2021 最佳论文、最佳学生论文等。

目录:

  1. Pivotal Tuning for Latent-based Editing of Real Images 
  2.  Regularization is all you Need: Simple Neural Nets can Excel on Tabular Data 
  3. GIRAFFE: Representing Scenes As Compositional Generative Neural Feature Fields
  4. Task Programming: Learning Data Efficient Behavior Representations
  5. A Peek Into the Reasoning of Neural Networks: Interpreting with Structural Visual Concepts 
  6. Learning High Fidelity Depths of Dressed Humans by Watching Social Media Dance Videos
  7.  Exploring Simple Siamese Representation Learning
  8. ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)

论文 1:Pivotal Tuning for Latent-based Editing of Real Images

  • 作者:Daniel Roich、Ron Mokady、Amit H. Bermano、Daniel Cohen-Or
  • 论文链接:https://arxiv.org/pdf/2106.05744.pdf

摘要:最近,一波先进的面部编辑技术被提出,这些技术利用预训练 StyleGAN 的图像生成能力。要用这种方法成功地编辑图像,必须首先将图像投影到预先训练好的生成器域中。然而,事实证明,StyleGAN 的潜在空间在失真和可编辑性之间产生了内在的折衷,即在保持原始外观和改变其某些属性之间需要折中。实际上,这意味着将保留 ID 的面部潜在空间编辑应用于生成器域之外的面部仍然具有挑战性。在本文中,来自以色列特拉维夫大学的研究者提出了一种方法来弥补这一差距。该研究稍微改变了生成器,使得一个域外的图像如实的被映射到一个域内的潜码。该研究一个关键的调整,一个简短的训练过程,保留域内潜在区域的编辑质量,同时改变其描述的身份和外观。

PTI(Pivotal Tuning Inversion)方法的示意图。

PTI 的生成效果图,Yann Lecun 原图、变年轻的 Lecun 和微笑的 Lecun。

推荐:年轻的 LeCun、吴恩达长啥样?升级版 StyleGAN 告诉你

论文 2:Regularization is all you Need: Simple Neural Nets can Excel on Tabular Data

  • 作者:Arlind Kadra、 Marius Lindauer、 Frank Hutter、 Josif Grabocka
  • 论文链接:https://arxiv.org/pdf/2106.11189.pdf

摘要:表格数据集是深度学习的最后一座「不可征服的城堡」,传统的机器学习方法,如梯度提升决策树,即使面对最近的专业神经架构,仍表现强劲。本文假设提升神经网络性能的关键,在于重新思考一整套现代正则化技术的联合及共用。

通过为每个数据集寻找 13 种正则化技术的最佳组合 / 混合,对决定应用哪些正则化技术及其附属超参数进行联合优化,使普通多层感知器 (MLP) 网络正则化。在一项包括 40 个表格数据集的大规模实证研究中,评估了这些正则化混合方案对 MLP 的影响,并证明(i)经过良好正则化的 MLP 明显优于目前 SOTA 性能的专业神经网络架构,(ii)甚至优于强大的传统机器学习方法,如 XGBoost。

推荐:深度学习应用于表格数据集。

论文 3:GIRAFFE: Representing Scenes As Compositional Generative Neural Feature Fields

  • 作者:Michael Niemeyer、 Andreas Geiger
  • 论文链接:https://arxiv.org/pdf/2011.12100.pdf

摘要:深度生成模型允许以高分辨率进行高真实感图像合成。但对于许多应用程序来说,这还不够:内容创建还需要可控。虽然近来一些工作研究了如何解开数据中变化的潜在因素,但其中大多数是在 2D 场景下运行的,而忽略了现实世界是 3D 的。此外,只有少数研究考虑了场景的构图性质。而该研究的关键假设是将组合 3D 场景表征结合到生成模型中,以生成更加可控的图像合成。通过将场景表征为组合的生成神经特征场,该研究能够从背景中分离出一个或多个目标以及单个目标的形状和外观,同时从非结构化和未定位的图像集合中学习,而无需任何额外的监督。该研究通过将场景表征与神经渲染 pipeline 相结合,得到了快速且逼真的图像合成模型。实验表明,该模型能够分离出单个目标,并允许在场景中平移和旋转它们以及改变相机位姿。

GIRAFFE 框架示意图。

神经渲染算子。

推荐:CVPR 2021 最佳论文,一作 Michael Niemeyer 是马普所 AVG 组 CS/ML 方向的博士生。

论文 4:Task Programming: Learning Data Efficient Behavior Representations

  • 作者:Jennifer J. Sun、Ann Kennedy、Eric Zhan 等
  • 论文链接:https://arxiv.org/pdf/2011.13917.pdf

摘要:专业领域知识对于准确注释训练集以进行深入分析通常是必需的,但从领域专家那里获取这些知识可能既繁琐又耗时。这个问题在自动化行为分析中尤为突出,该领域通常从视频跟踪数据中检测出智能体运动或其他感兴趣的动作。为了减少注释工作,该研究提出了 TREBA:一种基于多任务自监督学习,用于行为分析的学习注释样本有效轨迹嵌入的方法。该方法中的任务可以由领域专家通过一种称为「任务编程」的过程进行有效设计,该过程使用程序明确编码来自领域专家的结构化知识。通过构建少量编程任务来换取数据注释时间,可以减少领域专家的工作量。该研究使用来自行为神经科学的数据来评估这种权衡,其中使用专门的领域知识来识别行为。该研究在两个领域(小鼠和果蝇)的三个数据集中展示了实验结果。与 SOTA 特征相比,使用来自 TREBA 的嵌入可以在不影响准确率的情况下将注释负担减少 10 倍。该研究的结果表明,任务编程和自监督可以成为减少领域专家注释工作的有效方法。

方法概览图。

用于分类器训练的任务编程与数据标注。

推荐:CVPR 2021 最佳学生论文,作者来自加州理工学院和西北大学。

论文 5:A Peek Into the Reasoning of Neural Networks: Interpreting with Structural Visual Concepts

  • 作者:Yunhao Ge、Yao Xiao、Zhi Xu 等
  • 论文链接:https://arxiv.org/pdf/2105.00290.pdf

摘要:本文主要介绍了被 CVPR 2021 录用的文章《A Peek Into the Reasoning of Neural Networks: Interpreting with Structural Visual Concepts》。这项工作对神经网络推理逻辑的可解释性进行了探究:区分于大多数现有 xAI 方法通过可视化输入图像和输出结果之间的相关性对网络进行解释,该研究提出用结构化的视觉概念(Structural Visual Concept)对神经网络决策背后的推理逻辑和因果关系进行解释,通过解答网络决策中「为什么是 A?为什么不是 B?」 的问题,用人们更容易理解的 high-level 视觉概念和视觉概念之间的结构和空间关系解释神经网络的推理逻辑,并将其作为一种直接指导来提升被解释网络的性能。

视觉推理解释框架 pipeline。

视觉推理解释和逻辑一致性实验示例。

推荐:本文已被 CVPR 2021 大会接收,亮点在于用结构化视觉概念作为解释网络推理逻辑的「语言」。

论文 6:Learning High Fidelity Depths of Dressed Humans by Watching Social Media Dance Videos

  • 作者:Yasamin Jafarian、Hyun Soo Park
  • 论文链接:https://arxiv.org/pdf/2103.03319.pdf

摘要:学习穿戴人体几何的一个关键挑战在于真值数据(如三维扫描模型)的有限可用性,这导致三维人体重建在应用于真实世界图像时性能下降。该研究通过利用一种新的数据资源来应对这一挑战:大量的社交媒体舞蹈视频,涵盖了不同的外观、服装风格、表演和身份。每个视频描述了一个人的身体和衣服的动态运动,然而缺乏 3D 真值几何。

为了利用这些视频,该研究提出了一种新的方法来使用局部变换,即将预测的局部几何体从一幅图像在不同的时刻扭曲到另一幅图像。通过变换,预测的几何可以通过来自其他图像的扭曲几何进行自监督。此外,该研究还通过最大化局部纹理、褶皱和阴影的几何一致性,联合学习深度以及对局部纹理、褶皱和阴影高度敏感的曲面法线。

该研究的方法是端到端可训练的,可以产生高保真深度估计来预测精细几何贴近输入真实图像。该论文表明所提方法在真实图像和渲染图像上都优于 SOTA 人体深度估计和人体形状恢复方法。

上图展示了通过扭曲两帧视频之间的 3D 人体几何图形。

HDNet 架构。

推荐:端到端可训练的,可以产生高保真深度估计来预测精细几何贴近输入真实图像。

论文 7:Exploring Simple Siamese Representation Learning

  • 作者:Xinlei Chen、何恺明
  • 论文链接:https://arxiv.org/pdf/2011.10566.pdf

摘要:Siamese 网络已成为各种无监督视觉表征学习模型中的常见结构。这些模型最大限度地提高了一个图像的两个增强之间的相似性,但需要满足一定的条件,以避免模型崩溃。该论文给出了令人惊讶的实证结果,即使不使用以下任何一种形式,简单的 Siamese 网络也可以学习有意义的表征:(i) 负样本对、(ii)大 batch 和(iii)momentum 编码器。实验证明,对于损失和结构确实存在崩溃解 (collapsing solutions),但停止梯度操作在防止崩溃方面起着至关重要的作用。该论文提供了一个关于 stop-gradient 含义的假设,并通过概念验证实验进一步验证了这一假设。该研究提出的 SimSiam 方法在 ImageNet 和下游任务上获得了具有竞争力的结果。该研究希望这个简单的基线将激励研究者重新思考 Siamese 体系架构在无监督表征学习中的作用。

SimSiam 伪代码,类似 PyTorch

网络架构。

推荐:CVPR 最佳论文提名 。

ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation,在 7 Papers 的基础上,精选本周更多重要论文,包括NLP、CV、ML领域各10篇精选,并提供音频形式的论文摘要简介,详情如下:

本周 10 篇 NLP 精选论文是:

1. Reinforcement Learning-based Dialogue Guided Event Extraction to Exploit Argument Relations.  (from Philip S. Yu, Zheng Wang)

2. Towards Understanding and Mitigating Social Biases in Language Models.  (from Louis-Philippe Morency, Ruslan Salakhutdinov)

3. Comparative Error Analysis in Neural and Finite-state Models for Unsupervised Character-level Transduction.  (from Eduard Hovy)

4. On the Evaluation of Machine Translation for Terminology Consistency.  (from Philipp Koehn)

5. JointGT: Graph-Text Joint Representation Learning for Text Generation from Knowledge Graphs.  (from Minlie Huang)

6. CPM-2: Large-scale Cost-effective Pre-trained Language Models.  (from Minlie Huang, Yang Liu)

7. End-to-End Task-Oriented Dialog Modeling with Semi-Structured Knowledge Management.  (from Minlie Huang)

8. Subjective Bias in Abstractive Summarization.  (from Wei Liu)

9. AIT-QA: Question Answering Dataset over Complex Tables in the Airline Industry.  (from Soumen Chakrabarti)

10. A Condense-then-Select Strategy for Text Summarization.  (from Irwin King)

本周 10 篇 CV 精选论文是:

1. VOLO: Vision Outlooker for Visual Recognition.  (from Shuicheng Yan)

2. Vision Permutator: A Permutable MLP-Like Architecture for Visual Recognition.  (from Ming-Ming Cheng, Shuicheng Yan)

3. Florida Wildlife Camera Trap Dataset.  (from Mubarak Shah)

4. ChaLearn Looking at People: Inpainting and Denoising challenges.  (from Isabelle Guyon)

5. DeepLab2: A TensorFlow Library for Deep Labeling.  (from Daniel Cremers, Alan L. Yuille, Liang-Chieh Chen)

6. Euro-PVI: Pedestrian Vehicle Interactions in Dense Urban Centers.  (from Bernt Schiele)

7. VSAC: Efficient and Accurate Estimator for H and F.  (from Jiri Matas)

8. The Hitchhiker's Guide to Prior-Shift Adaptation.  (from Jiri Matas)

9. DeepMesh: Differentiable Iso-Surface Extraction.  (from Pascal Fua)

10. TGRNet: A Table Graph Reconstruction Network for Table Structure Recognition.  (from Dacheng Tao)

本周 10 篇 ML 精选论文是:

1. Who Leads and Who Follows in Strategic Classification?.  (from Michael I. Jordan)

2. Test-time Collective Prediction.  (from Michael I. Jordan)

3. Particle Cloud Generation with Message Passing Generative Adversarial Networks.  (from Hao Su, Maurizio Pierini)

4. Shallow Representation is Deep: Learning Uncertainty-aware and Worst-case Random Feature Dynamics.  (from Bernhard Schölkopf)

5. Learning to Generate Code Sketches.  (from Alexey Svyatkovskiy)

6. From Canonical Correlation Analysis to Self-supervised Graph Neural Networks.  (from Philip S. Yu)

7. Machine Learning-based Orchestration of Containers: A Taxonomy and Future Directions.  (from Rajkumar Buyya)

8. MADE: Exploration via Maximizing Deviation from Explored Regions.  (from Stuart Russell)

9. Software for Dataset-wide XAI: From Local Explanations to Global Insights with Zennit, CoRelAy, and ViRelAy.  (from Klaus-Robert Müller)

10. Learning Language and Multimodal Privacy-Preserving Markers of Mood from Mobile Data.  (from Ruslan Salakhutdinov, Louis-Philippe Morency)

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-06-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档