前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >7 Papers & Radios | Stable Diffusion采样速度翻倍;MIT解决神经网络百年难题

7 Papers & Radios | Stable Diffusion采样速度翻倍;MIT解决神经网络百年难题

作者头像
机器之心
发布2022-12-16 16:48:59
4150
发布2022-12-16 16:48:59
举报
文章被收录于专栏:机器之心机器之心

机器之心 & ArXiv Weekly Radiostation

参与:杜伟、楚航、罗若天

本周重要论文包括清华大学朱军教授 TSAIL 团队提出的 DPM-Solver 和 DPM-Solver++ 将扩散模型的快速采样算法提升到极致;MIT 提出的快速高效新型人工智能算法 CfC 实现类似于人脑的神经模拟,速度快且成本低。

目录:

  1. Closed-form Continuous-time Neural Networks
  2. Learning to Explore Distillability and Sparsability: A Joint Framework for Model Compression
  3. InternImage: Exploring Large-Scale Vision Foundation Models with Deformable Convolutions
  4. Galactica: A Large Language Model for Science
  5. DPM-Solver++: Fast Solver for Guided Sampling of Diffusion Probabilistic Models
  6. AI and ML Accelerator Survey and Trends
  7. Large-batch Optimization for Dense Visual Predictions
  8. ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)

论文 1:Closed-form Continuous-time Neural Networks

  • 作者:Ramin Hasani等
  • 论文地址:https://www.nature.com/articles/s42256-022-00556-7

摘要:随着神经元数量的增加,人工智能模型的训练和计算成本都变得非常高昂。有没有一种模型能够既实现类似于人脑的神经模拟,又速度快成本低呢?MIT 的「liquid」神经网络团队发现了缓解这一瓶颈的方法,即求解两个神经元通过突触相互作用背后的微分方程。

基于此,他们提出了一种快速高效的新型人工智能算法 CfC(closed-form continuous-depth networks),其具有与 liquid 神经网络相同的特征——灵活性、因果性、鲁棒性和可解释性——但速度更快,且可扩展。

推荐:解决神经网络的百年难题,MIT 新模型 Liquid CfC 让模拟大脑动力学成为可能

论文 2:Learning to Explore Distillability and Sparsability: A Joint Framework for Model Compression

  • 作者:Yufan Liu 等
  • 论文地址:https://ieeexplore.ieee.org/abstract/document/9804342

摘要:面对越来越深的深度学习模型和海量的视频大数据,人工智能算法对计算资源的依赖越来越高。为了有效提升深度模型的性能和效率,通过探索模型的可蒸馏性和可稀疏性,本文提出了一种基于 “教导主任 - 教师 - 学生” 模式的统一的模型压缩技术。

该成果由人民中科和中科院自动化所联合研究团队合作完成,相关论文发表在人工智能顶级国际期刊 IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI) 上。该成果是首次将 “教导主任” 角色引入模型蒸馏技术,对深度模型的蒸馏与裁剪进行了统一。

基于可蒸馏性与可稀疏性联合学习的模型压缩算法示意图。

推荐:首次将「教导主任」引入模型蒸馏,大规模压缩优于 24 种 SOTA 方法。

论文 3:InternImage: Exploring Large-Scale Vision Foundation Models with Deformable Convolutions

  • 作者:Wenhai Wang 等
  • 论文地址:https://arxiv.org/pdf/2211.05778.pdf

摘要:浦江实验室、清华等的研究人员提出了一种新的基于卷积的基础模型 InternImage,与基于 Transformer 的网络不同,InternImage 以可变形卷积作为核心算子,使模型不仅具有检测和分割等下游任务所需的动态有效感受野,而且能够进行以输入信息和任务为条件的自适应空间聚合。InternImage-H 在 COCO 物体检测上达到 65.4 mAP,ADE20K 达到 62.9,刷新检测分割新纪录。

推荐:用 CNN 做基础模型,可变形卷积 InternImage 实现检测分割新纪录。

论文 4:Galactica: A Large Language Model for Science

  • 作者:Ross Taylor 等
  • 论文地址:https://galactica.org/static/paper.pdf

摘要:近年来,随着各学科领域研究的进步,科学文献和数据呈爆炸式增长,使学术研究者从大量信息中发现有用的见解变得越来越困难。通常,人们借助搜索引擎来获取科学知识,但搜索引擎不能自主组织科学知识。现在,Meta AI 团队提出了一种新的大型语言模型 Galactica,可以存储、组合和推理科学知识。

推荐:大模型能自己「写」论文了,还带公式和参考文献。

论文 5:DPM-Solver++: Fast Solver for Guided Sampling of Diffusion Probabilistic Models

  • 作者:Cheng Lu 等
  • 论文地址:https://arxiv.org/pdf/2211.01095.pdf

摘要:清华大学计算机系朱军教授带领的 TSAIL 团队提出 DPM-Solver(NeurIPS 2022 Oral,约前 1.7%)和 DPM-Solver++,将扩散模型的快速采样算法提升到了极致:无需额外训练,仅需 10 到 25 步就可以获得极高质量的采样。

推荐:Stable Diffusion 采样速度翻倍!仅需 10 到 25 步的扩散模型采样算法。

论文 6:AI and ML Accelerator Survey and Trends

  • 作者:Albert Reuther 等
  • 论文地址:https://arxiv.org/pdf/2210.04055.pdf

摘要:本文关注深度神经网络和卷积神经网络的加速器和处理器,它们的计算量极大。本文主要针对加速器和处理器在推理方面的发展,因为很多 AI/ML 边缘应用极度依赖推理。本文针对加速器支持的所有数字精度类型,但对于大多数加速器,它们的最佳推理性能是 int8 或 fp16/bf16。

表 1 中总结了加速器、卡和整体系统的一些重要元数据。

推荐:总结过去三年,MIT 发布 AI 加速器综述论文。

论文 7:Large-batch Optimization for Dense Visual Predictions

  • 作者:Zeyue Xue 等
  • 论文地址:https://arxiv.org/pdf/2210.11078.pdf

摘要:本文提出了一种大批量训练算法 AGVM (Adaptive Gradient Variance Modulator),不仅可以适配于目标检测任务,同时可以适配各类分割任务。AGVM 可以把目标检测的训练批量大小扩大到 1536,帮助研究人员四分钟训练 Faster R-CNN,3.5 小时把 COCO 刷到 62.2 mAP,均打破了目标检测训练速度的世界纪录。论文被 NeurIPS 2022 接收。

详细对比 AGVM 和传统方法,体现出了本研究方法的优势。

推荐:四分钟内就能训练目标检测器,商汤基模型团队是怎么做到的?

ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation,在 7 Papers 的基础上,精选本周更多重要论文,包括NLP、CV、ML领域各10篇精选,并提供音频形式的论文摘要简介,详情如下:

本周 10 篇 NLP 精选论文是:

1. Gradient Imitation Reinforcement Learning for General Low-Resource Information Extraction. (from Irwin King, Philip S. Yu)

2. On Measuring the Intrinsic Few-Shot Hardness of Datasets. (from Christopher D. Manning)

3. Holistic Evaluation of Language Models. (from Christopher D. Manning, Christopher Ré)

4. The CRINGE Loss: Learning what language not to model. (from Jason Weston)

5. Lifelong and Continual Learning Dialogue Systems. (from Bing Liu)

6. On the Compositional Generalization Gap of In-Context Learning. (from Dzmitry Bahdanau, Aaron Courville)

7. When to Use What: An In-Depth Comparative Empirical Analysis of OpenIE Systems for Downstream Applications. (from Kevin Chen-Chuan Chang, Chengxiang Zhai)

8. Towards Computationally Verifiable Semantic Grounding for Language Models. (from Michael Collins)

9. CREATIVESUMM: Shared Task on Automatic Summarization for Creative Writing. (from Kathleen McKeown, Dragomir Radev)

10. An Efficient Active Learning Pipeline for Legal Text Classification. (from Karl Aberer)

本周 10 篇 CV 精选论文是:

1. Weakly-supervised Fingerspelling Recognition in British Sign Language Videos. (from Andrew Zisserman)

2. Language Conditioned Spatial Relation Reasoning for 3D Object Grounding. (from Cordelia Schmid, Ivan Laptev)

3. MOTRv2: Bootstrapping End-to-End Multi-Object Tracking by Pretrained Object Detectors. (from Xiangyu Zhang)

4. Towards 3D Object Detection with 2D Supervision. (from Xiangyu Zhang)

5. Assessing Neural Network Robustness via Adversarial Pivotal Tuning. (from Serge Belongie)

6. Understanding ME? Multimodal Evaluation for Fine-grained Visual Commonsense. (from Kai-Wei Chang, Shih-Fu Chang)

7. Point-DAE: Denoising Autoencoders for Self-supervised Point Cloud Learning. (from Lei Zhang)

8. A Unified Mutual Supervision Framework for Referring Expression Segmentation and Generation. (from Lei Zhang)

9. InstructPix2Pix: Learning to Follow Image Editing Instructions. (from Alexei A. Efros)

10. SMR: Satisfied Machine Ratio Modeling for Machine Recognition-Oriented Image and Video Compression. (from Wen Gao)

本周 10 篇 ML 精选论文是:

1. Realization of Causal Representation Learning to Adjust Confounding Bias in Latent Space. (from Jia Li, Michael Steinbach, Vipin Kumar)

2. Teaching Algorithmic Reasoning via In-context Learning. (from Hugo Larochelle, Aaron Courville)

3. Augmented Physics-Informed Neural Networks (APINNs): A gating network-based soft domain decomposition methodology. (from George Em Karniadakis)

4. Continuous Soft Pseudo-Labeling in ASR. (from Tatiana Likhomanenko, Ronan Collobert, Navdeep Jaitly, Samy Bengio)

5. Test-time adversarial detection and robustness for localizing humans using ultra wide band channel impulse responses. (from Horst Bischof)

6. On Inferring User Socioeconomic Status with Mobility Records. (from Zheng Wang)

7. Build generally reusable agent-environment interaction models. (from Hongming Zhang)

8. Multi-Label Quantification. (from Fabrizio Sebastiani)

9. Robust Training of Graph Neural Networks via Noise Governance. (from Jian Wu)

10. Denoising Diffusion Models for Out-of-Distribution Detection. (from Sebastien Ourselin)

© THE END

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-11-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
图像识别
腾讯云图像识别基于深度学习等人工智能技术,提供车辆,物体及场景等检测和识别服务, 已上线产品子功能包含车辆识别,商品识别,宠物识别,文件封识别等,更多功能接口敬请期待。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档