前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >7 Papers & Radios | 李旻辰获SIGGRAPH 2021最佳博士论文奖;韩国研发仿变色龙软体机器人

7 Papers & Radios | 李旻辰获SIGGRAPH 2021最佳博士论文奖;韩国研发仿变色龙软体机器人

作者头像
机器之心
发布2023-03-29 17:33:36
2100
发布2023-03-29 17:33:36
举报
文章被收录于专栏:机器之心

机器之心 & ArXiv Weekly Radiostation

参与:杜伟、楚航、罗若天

本周重要论文包括首尔大学与汉阳大学的研究团队开发出的仿变色龙软体机器人;SIGGRAPH 2021 最佳博士论文奖等。

目录:

  1. Biomimetic chameleon soft robot with artificial crypsis and disruptive coloration skin
  2.  SofGAN: A Portrait Image Generator with Dynamic Styling 
  3. Robust and Accurate Simulation of Elastodynamics and Contact
  4.  SoundStream: An End-to-End Neural Audio Codec 
  5. ConvNets vs. Transformers: Whose Visual Representations are More Transferable? 
  6. Are Pre-trained Convolutions Better than Pre-trained Transformers? 
  7. CMT: Convolutional Neural Networks Meet Vision Transformers 
  8. ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)

论文 1:Biomimetic chameleon soft robot with artificial crypsis and disruptive coloration skin

  • 作者:Hyeonseok Kim 、 Joonhwa Choi 等
  • 论文链接:https://www.nature.com/articles/s41467-021-24916-w

摘要:近日,科研界终于迎来了「机器版」变色龙。首尔大学与汉阳大学的研究团队开发出了一个仿变色龙软体机器人,它具备实时、自动融入背景环境的伪装能力。从各项参数上来看,这款软体机器人长约 38 厘米,宽约 15 厘米,重量仅为 0.9 公斤,其实现实时匹配背景颜色的关键在于背部覆盖的「人造变色龙皮肤 」。

研究者采取了一种开发人造变色龙的全新策略,他们选择将热致变色液晶(thermochromic liquid crystal, TLC)层与纵向堆叠、有图案的多层银纳米线网络加热器集成在一起,制成了人造变色龙皮肤(英文缩写为 ATACS),从而通过加热器诱发的温度分布(temperature profiles)叠加克服传统横向像素化的局限。下图分别为热致变色液晶层、纵向堆叠有图案多层银纳米线加热器和多层人造变色龙皮肤的结构示意图,以及关闭和启动加热器时变色龙软体机器人的状态。

下图 a 为光学图像,b 为反馈控制系统:

变色龙软体机器人实现变色的整体原理如下图所示:

推荐:仿变色龙软体机器人登上 Nature 子刊。

论文 2:SofGAN: A Portrait Image Generator with Dynamic Styling

  • 作者:ANPEI CHEN、RUIYANG LIU 等
  • 论文链接:https://arxiv.org/pdf/2007.03780.pdf

摘要:尽管生成对抗网络(GAN)已被广泛用于人像图像生成,但在 GAN 学习的潜在空间中,不同的属性,如姿态、形状和纹理风格,通常是纠缠在一起的,这使得对特定属性的显式控制变得困难。为了解决这个问题,该研究提出了一个名为 SofGAN 的图像生成器,将人像的潜在空间解耦为两个子空间:几何空间和纹理空间。从两个子空间采样的潜在代码分别馈送到两个网络分支,一个生成具有规范姿态的人像的 3D 几何图形,另一个生成纹理。对齐的 3D 几何图形还带有语义部分分割,编码为语义占用字段(semantic occupancy field,SOF)。SOF 能够在任意视图渲染一致的 2D 语义分割图,然后将其与生成的纹理图融合并使用语义 instance-wise(SIW)模块将其风格化为人像图像。该研究通过大量实验表明该系统可以生成具有独立可控几何和纹理属性的高质量人像图像。此外,该方法还可以很好地推广到各种应用中,例如外观一致的面部动画生成等。

在 StyleGAN 中,基于不同级别的输入潜在向量,图像的风格在每个卷积层上通过特征来控制。这种控制机制虽然有效,但并没有提供对单个属性的独立控制,很大程度上是由于各种属性的纠缠。为了解决这个问题,该研究将生成空间分解为两个子空间:几何空间和纹理空间,如下图左所示。

该研究提出的生成 pipeline 概览。

相比于先前已有的方法,该研究提出了一个更稳定的光线移动器,用于根据当前位置特征和光线方向预测步长,如下图所示。

推荐:ACM Transactions on Graphics 2021 的研究。

论文 3:Robust and Accurate Simulation of Elastodynamics and Contact

  • 作者:李旻辰
  • 论文链接:https://www.proquest.com/openview/178e7289d88473c8df74c493cc3b501c/1?pq-origsite=gscholar&cbl=18750&diss=y

摘要:接触,包括摩擦接触,是许多科学领域的经典课题,如计算机图形学、机械工程、计算力学、制造设计和机器人技术等。随着时间的推移,目前研究者已经提出了相应的算法公式和时间离散化方法,这些方法在物理正确性和形状限制(例如平滑度或凸度)之间,以及在算法鲁棒性和计算效率之间提供了不同的权衡。但是在李旻辰博士的研究之前的数值方法要么计算效率高,要么是物理上正确,但不是两者兼而有之。

李旻辰研究描述了以 IPC(Incremental Potential Contact) 方法为中心的许多贡献,一种考虑摩擦接触的隐式 time-stepped 非线性弹性动力学变分解的新模型和算法。他的方法结合了碰撞间隙函数的几何精确公式,一种光滑的摩擦公式,可以将其转换为变分形式,并使用基于障碍的内点法进行优化。李旻辰的研究设计了一种可靠、统一的方法,适用于非常具有挑战性的条件,从而将可变形体模拟的稳定性、鲁棒性和表现力提升到前所未有的水平。这项研究提供了无条件的可行性和可微性,从而保持 intersection-free 和 inversion-free 轨迹,从而不受材料参数、时间步长、冲击速度、变形严重程度和边界条件的影响。

推荐:SIGGRAPH 2021 最佳博士论文奖。

论文 4:SoundStream: An End-to-End Neural Audio Codec

  • 作者:Neil Zeghidour, Alejandro Luebs, Ahmed Omran, Jan Skoglund, Marco Tagliasacchi
  • 论文链接:https://arxiv.org/pdf/2107.03312.pdf

摘要: 该研究介绍了 SoundStream,一种新型的神经音频编解码器,它可以有效地压缩语音、音乐和一般音频的比特率,而这种比特率通常是由语音定制编解码器设定的。SoundStream 依赖于一个模型架构,该架构由一个全卷积的编码器 / 解码器网络和一个残差矢量量化器组成,它们端到端联合训练。训练过程利用了文本转语音和语音增强方面的最新研究,结合对抗性和重建损失,允许从量化嵌入生成高质量的音频内容。通过将结构化 dropout 应用于量化器层进行训练,单个模型可以在 3 kbps 到 18 kbps 的可变比特率下运行,与以固定比特率训练的模型相比,质量损失可以忽略不计。此外,该模型适用于低延迟实现,支持流推理并可以在智能手机 CPU 上实时运行。在使用 24 kHz 采样率的音频进行评估时,3 kbps 的 SoundStream 优于 12 kbps 的 Opus,并且接近 9.6 kbps 的 EVS。此外,该研究能够在没有额外延迟的情况下在编码器或解码器端执行联合压缩和增强,并通过对语音的背景噪声抑制来证明这一点。

编码器和解码器模型体系架构。

推荐:端到端神经音频编解码器。

论文 5:ConvNets vs. Transformers: Whose Visual Representations are More Transferable?

  • 作者:Hong-Yu Zhou、Chixiang Lu、Sibei Yang、 Yizhou Yu
  • 论文链接:https://arxiv.org/pdf/2108.05305.pdf

摘要:视觉 transformer 引起了计算机视觉研究人员的广泛关注,因为它们不受 ConvNet 的空间归纳偏差的限制。然而,尽管基于 Transformer 的主干在 ImageNet 分类方面取得了很大进展,但仍不清楚学习到的表示是否与 ConvNet 的特征一样具有可迁移性,甚至更具有可迁移性。为了解决这一点,该研究在 15 个单任务和多任务性能评估中系统地研究了 ConvNet 和视觉  transformer 的迁移学习能力。鉴于预训练模型的性能与迁移学习之间的强相关性,该研究包括 2 个残差 ConvNet(即 R-101×3 和 R-152×4)和 3 个基于 Transformer 的视觉主干(即 ViT-B、ViT-L 和 Swin-B) ,它们在 ImageNet 上有相近的错误率,这表明在下游数据集上有相似的迁移学习性能。

推荐:ConvNet、Transformer 相比较。

论文 6:Are Pre-trained Convolutions Better than Pre-trained Transformers?

  • 作者:Yi Tay 、 Mostafa Dehghani 、 Jai Gupta 等
  • 论文链接:https://arxiv.org/pdf/2105.03322.pdf

摘要:在这个预训练已成为惯用方法的现代,Transformer 架构与预训练语言模型之间似乎已经有了密不可分的联系。BERT、RoBERTa 和 T5 等模型的底层架构都是 Transformer。事实上,近来的预训练语言模型很少有不是基于 Transformer 的。

本文将展示一种预训练的序列到序列模型,即 Seq2Seq。卷积模型的训练使用了基于跨度的序列到序列去噪目标,其类似于 T5 模型使用的目标。研究者在原始范式(无预训练)和预训练 - 微调范式下对多种卷积变体模型进行了评估,比如扩张模型、轻量模型和动态模型。这些评估的目标是理解在预训练时代卷积架构的真正竞争力究竟如何。

实验结果表明,在毒性检测、情感分类、新闻分类、查询理解和语义解析 / 合成概括等一系列 NLP 任务上,预训练卷积能与预训练 Transformer 相媲美。此外,研究者发现在某些情况下,预训练的卷积模型在模型质量和训练速度方面可以胜过当前最佳的预训练 Transformer。而且为了平衡考虑,研究者也描述了预训练卷积并不更优或可能不适用的情况。

下表 2 是在毒性检测、情感分类、问题分类和新闻分类上,预训练卷积和预训练 Transformer 的表现比较。

实验发现,在多个领域的 7 项任务上,(1)相比于没使用预训练的 Transformer,没使用预训练的卷积是具有竞争力的,而且常常更优;(2)预训练卷积在 7 项任务中的 6 项上都优于预训练 Transformer。这是问题 RQ2 的答案。

推荐:谷歌大规模研究发现预训练卷积模型往往更优。

论文 7:CMT: Convolutional Neural Networks Meet Vision Transformers

  • 作者:Jianyuan Guo、 Kai Han、Han Wu、Chang Xu、 Yehui Tang、 Chunjing Xu、 Yunhe Wang
  • 论文链接:https://arxiv.org/pdf/2107.06263.pdf

摘要:视觉 transformer 已成功应用于图像识别任务,因为它们能够捕获图像中的远程依赖关系。然而,transformer 和现有的卷积神经网络 (CNN) 在性能和计算成本方面仍然存在差距。在本文中,该研究的目标是解决这个问题,并开发一个不仅可以胜过规范 transformer,还可以胜过高性能卷积模型的网络。该研究提出了一种新的基于 transformer 的混合网络,利用 transformer 来捕获远程依赖关系,并利用 CNN 来对局部特征进行建模。

此外,该研究对其进行扩展以获得一系列称为 CMT 的模型,与之前的基于卷积和 transformer 的模型相比,获得了更好的准确性和效率。特别是,该研究的 CMT-S 在 ImageNet 上实现了 83.5% 的 top-1 准确率,同时在 FLOP 上分别比现有的 DeiT 和 EfficientNet 小 14 倍和 2 倍。该研究提出的 CMT-S 还可以很好地泛化到 CIFAR10 (99.2%)、CIFAR100 (91.7%)、Flowers (98.7%) 和其他具有挑战性的视觉数据集,例如 COCO (44.3% mAP),并且计算成本要低得多。

模型架构

(a) 表示的是标准的 R50 模型;(b) 表示的是标准的 VIT 模型;(c) 表示的是本文所提出的模型框架 CMT,由 CMT-stem、 downsampling、cmt block 所组成,整体结构则是类似于 R50,所以可以很好的迁移到 dense 任务上去。

推荐:Transformer+CNN 混合架构。

ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation,在 7 Papers 的基础上,精选本周更多重要论文,包括NLP、CV、ML领域各10篇精选,并提供音频形式的论文摘要简介,详情如下:

本周 10 篇 NLP 精选论文是:

1. Facebook AI WMT21 News Translation Task Submission.  (from Philipp Koehn)

2. DEMix Layers: Disentangling Domains for Modular Language Modeling.  (from Noah A. Smith)

3. SWSR: A Chinese Dataset and Lexicon for Online Sexism Detection.  (from Yang Liu)

4. Controllable Summarization with Constrained Markov Decision Process.  (from Irwin King)

5. Offensive Language and Hate Speech Detection with Deep Learning and Transfer Learning.  (from Ajay Gupta)

6. LadRa-Net: Locally-Aware Dynamic Re-read Attention Net for Sentence Semantic Matching.  (from Meng Wang)

7. What do Bias Measures Measure?.  (from Kai-Wei Chang)

8. A Study of Social and Behavioral Determinants of Health in Lung Cancer Patients Using Transformers-based Natural Language Processing Models.  (from Yonghui Wu)

9. CLSEBERT: Contrastive Learning for Syntax Enhanced Code Pre-Trained Model.  (from Hao Wu)

10. Generation Challenges: Results of the Accuracy Evaluation Shared Task.  (from Ehud Reiter)

本周 10 篇 CV 精选论文是:

1. PASS: Protected Attribute Suppression System for Mitigating Bias in Face Recognition.  (from Rama Chellappa)

2. Enhancing MR Image Segmentation with Realistic Adversarial Data Augmentation.  (from Liang Chen)

3. Neighborhood Consensus Contrastive Learning for Backward-Compatible Representation.  (from Liang Chen)

4. NI-UDA: Graph Adversarial Domain Adaptation from Non-shared-and-Imbalanced Big Data to Small Imbalanced Applications.  (from Huan Liu)

5. MicroNet: Improving Image Recognition with Extremely Low FLOPs.  (from Zicheng Liu, Lei Zhang, Nuno Vasconcelos)

6. One-Shot Object Affordance Detection in the Wild.  (from Dacheng Tao)

7. Learning Visual Affordance Grounding from Demonstration Videos.  (from Dacheng Tao)

8. DnD: Dense Depth Estimation in Crowded Dynamic Indoor Scenes.  (from Dinesh Manocha)

9. Learning Canonical 3D Object Representation for Fine-Grained Recognition.  (from Ig-Jae Kim)

10. Multi-Modal MRI Reconstruction with Spatial Alignment Network.  (from Dinggang Shen)

本周 10 篇 ML 精选论文是:

1. Jointly Attacking Graph Neural Network and its Explanations.  (from Jiliang Tang, Charu Aggarwal)

2. Meta-repository of screening mammography classifiers.  (from Kyunghyun Cho)

3. A Look at the Evaluation Setup of the M5 Forecasting Competition.  (from Rob J Hyndman)

4. Skill Preferences: Learning to Extract and Execute Robotic Skills from Human Feedback.  (from Pieter Abbeel)

5. Edge-augmented Graph Transformers: Global Self-attention is Enough for Graphs.  (from Mohammed J. Zaki)

6. Mixture of Linear Models Co-supervised by Deep Neural Networks.  (from Jia Li)

7. Learning Bias-Invariant Representation by Cross-Sample Mutual Information Minimization.  (from Jiebo Luo)

8. Label-informed Graph Structure Learning for Node Classification.  (from Liang Wang)

9. Explaining Algorithmic Fairness Through Fairness-Aware Causal Path Decomposition.  (from Changshui Zhang, Fei Wang)

10. The Benefits of Implicit Regularization from SGD in Least Squares Problems.  (from Sham M. Kakade)

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-08-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音合成
语音合成(Text To Speech,TTS)满足将文本转化成拟人化语音的需求,打通人机交互闭环。提供多场景、多语言的音色选择,支持 SSML 标记语言,支持自定义音量、语速等参数,让发音更专业、更符合场景需求。语音合成广泛适用于智能客服、有声阅读、新闻播报、人机交互等业务场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档