前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >深度学习领域,你心目中 idea 最惊艳的论文是哪篇?

深度学习领域,你心目中 idea 最惊艳的论文是哪篇?

作者头像
墨明棋妙27
发布2022-09-23 11:27:16
4000
发布2022-09-23 11:27:16
举报
文章被收录于专栏:1996

链接:https://www.zhihu.com/question/440729199 编辑:计算机视觉cv 声明:仅做学术分享,侵删

科研路上我们往往会读到让自己觉得想法很惊艳的论文,心中对不同的论文也会有一个排名。希望本问题下大家能分享自己心目中的排名,同时相互学习。

抛砖引玉,我个人认为最惊艳的一篇论文是Hourglass作者的Associate Embedding(姿态识别)发表于NIPS 2017。

作者:王晋东不在家

https://www.zhihu.com/question/440729199/answer/1697212235

有两个: ResNetTransformer

时至今日,许多大领域都离不开这两种结构。Transformer更是从NLP领域走入了CV领域,大有一统天下之势。

ResNet大道至简,更倾向于从原来的CNN结构设计出发,通过大量的实验和分析,添加了skip connection,一招封神。

Transformer则另起炉灶,干脆完全抛弃了RNN的结构,从根本上尝试self-attn加全连接层对于序列建模的能力。

今日的你或许通过实验可以大概搞出来ResNet的skip connection结构,但是能想出来跟transformer一样完全不用RNN、并能让这种当时看来“非主流”的结构work的比RNN还好,就能称得上是天才了。

这其中,固然要有科研的敏锐嗅觉,更多的还是源于超强的代码能力,以及愿意为你这种尝试提供资金和设备支持的大环境。

所以说,要想取得绝对的成功,天时(CNN与NLP发展的大环境)、地利(所在单位的资源投入)、人和(老板与同事的支持),三者缺一不可。

作者:波尔德 https://www.zhihu.com/question/440729199/answer/1697646704

搞3D的举双脚提议:PointNet/PointNet++。

时间回到2017年之前,那时候想用深度学习处理点云基本只有体素化一条路。那时候稀疏卷积还没有技术上实现,dense 3D CNN处理一下简单CAD模型还行,放到高分辨率的点云上分分钟就会塞爆显存。

PointNet的motivation非常清楚,设计一种网络,可以直接提取点云特征(丢掉体素化),并且保证顺序不变性(从invariance出发设计网络)。具体的实现就是MLP加global max pooling。非常简洁直观。

PointNet++基本是同时期的论文。在PointNet的基础上进了一步,引入了CNN常见的上采样和下采样操作。相当于在不同的scale level上提取特征。

不像图像有CNN,NPL有Transformer。点云处理这一块至今没有一统江湖的最佳基本结构。PointNet开了个头,从此,深度学习方法可以直接处理点云了。新的基本结构一天冒出来八个,基于稀疏卷积的,基于kernel的,基于图卷积的,基于欧氏空间的,基于特征空间的,把transformer借过来用的,以及魔改上述一切的等等。

然而大部分新结构都摆不脱PointNet/PointNet++的影子。

作者:rainy https://www.zhihu.com/question/440729199/answer/1693346011

来分享一篇小众方向(视频增稳/Video Stabilization)的论文,可能不是那种推动领域进步的爆炸性工作,这篇论文我认为是一篇比较不错的把传统方法deep化的工作。https://arxiv.org/pdf/2011.14574.pdf

看样子应该是投稿CVPR21,已开源。https://github.com/Annbless/DUTCode

首先介绍一下视频增稳的定义,如名称所示,视频增稳即为输入一系列连续的,非平稳(抖动较大)的视频帧,输出一系列连续的,平稳的视频帧。

由于方向有点略微小众,因此该领域之前的工作(基于深度学习)可以简单分为基于GAN的直接生成,基于光流的warp,基于插帧(其实也是基于光流的warp)这么几类。这些论文将视频增稳看做了“视频帧生成问题”,但是理想的视频增稳工作应该看做“轨迹平滑”问题更为合适。

而在深度学习之前刘帅成大神做了一系列的视频增稳的工作,其中work的即为meshflow。这里贴一个meshflow解读的链接:https://www.yuque.com/u452427/ling/qs0inc

总结一下,meshflow主要的流程为“估计光流-->估计关键点并筛选出关键点的光流-->基于关键点光流得到mesh中每一个格点的motion/轨迹-->进行轨迹平滑并得到平滑后的轨迹/每一个格点的motion-->基于motion得到满足平滑轨迹的视频帧”。

总结了meshflow之后,这篇DUT主要进行的工作其实很简单,在meshflow的框架下,将其中所有的模块都deep化:

LK光流---->PWCNet

SIFT关键点----->RFNet

基于Median Filters的轨迹平滑------>可学习的1D卷积

除此之外,由于原始的meshflow是基于优化的方法,因此DUT在替换了模块之后依旧保留了原始的约束项,并且可以使用无监督的方式完成训练,效果也好于一票supervised的方法。

作者:陀飞轮 https://www.zhihu.com/question/440729199/answer/1695810150

当年看Deformable Convolutional Networks(DCN)的时候最为惊艳,可能看过的文章少,这种打破固定尺寸和位置的卷积方式,让我感觉非常惊叹,网络怎么能够在没有直接监督的情况下,学习到不同位置的offset的,然后可视化出来,能够使得offset后的位置能够刚好捕捉到不同尺寸的物体,太精彩了!

作者:知乎用户 https://www.zhihu.com/question/440729199/answer/1694165248

当然是AlexNet论文。

我直到现在,还是很好奇,在当时的情况下,Alex是怎么把这个8层网络设计出来,并调参成功,性能提升到那种水平的,对他的任务执行路径非常好奇,尤其是其中经历了多少失败尝试!!!

作者:叶小飞 https://www.zhihu.com/question/440729199/answer/1698687630

我想从深度学习框架图像识别、图像生成、模型优化 、自然语言处理五个领域评选出一篇最惊艳的论文, 并且对每一篇论文都赋予一个武侠小说里对应的绝顶武功,以此来表达我的膜拜与狂热。

深度学习框架

  • 论文名称:Caffe: Convolutional Architecture for Fast Feature Embedding
  • 论文链接:https://arxiv.org/abs/1408.5093
  • 惊艳理由:在那个大家都用matlab和自己diy深度学习框架的年代,贾大神的Caffe横空出世,为深度学习领域创立了一个通用、易拓展的框架,使复现、开发各种新型算法变得更加容易,可以说是开山鼻祖。
  • 对标武功:《天龙八部》内的易筋经。易筋锻骨,重塑七经,这不正和caffe的效用不谋而合?caffe不就相当于重塑了深度学习的筋骨,使得后续各种五花八门的算法变得可能实现?

图像识别

  • 论文名称:Deep Residual Learning for Image Recognition
  • 论文链接:https://arxiv.org/pdf/1512.03385.pdf
  • 惊艳理由:一个简简单单的skip connection一招制敌,优雅至极,直接将CNN的表现提升了一个大档次。
  • 对标武功:《天涯明月刀》里傅红雪的刀法。傅红雪的武功就一招——拔刀收刀,简单却致命,正如resnet的skip connection. 这一刀是傅红雪拔了千万次刀后凝练的精魂,正与skip connection是作者做了无数实验与分析后凝练的结构如出一辙。

图像生成

  • 论文名称:Generative Adversarial Networks
  • 论文链接:https://arxiv.org/abs/1406.2661 惊艳理由:Encoder-decoder 出现已久, 分类器出现也很久,Goodfellow却是真正意义上把这二者完美结合起来的第一人,是现如今图像视频模拟生成的鼻祖。
  • 对标武功:《射雕英雄传》里的左右互博。老顽童让左手和右手打架,结果两只手突飞猛进,Goodfellow 让generator 和discriminator 互相打架,结果两个模型变得越来越强,最后甚至可以以假乱真。

模型优化

  • 论文名称:Distilling the Knowledge in a Neural Network
  • 论文链接:https://arxiv.org/pdf/1503.02531.pdf 惊艳理由: 知识蒸馏的开山之作,在不增加任何online inference资源的情况下,让模型得到极大优化。
  • 对标武功:《天龙八部》里的北冥神功。段誉吸各个高手的内功变成了天龙三绝之一,student net吸取teacher net的知识变成了更robust的模型。

自然语言处理

  • 论文名称:Language Models are Few-Shot Learners(GPT-3)
  • 论文链接:https://arxiv.org/pdf/2005.14165.pdf 惊艳理由:在看到这篇论文之前,我做梦也想不到一个NLP模型居然有175亿个参数,可以说是深度学习里的暴力美学的极致了。
  • 对标武功:降龙十八掌。降龙十八掌刚猛无双,遇到强敌以刚劲的掌力与无所畏惧的气势压倒对方。GPT-3庞大无比,遇到语言数据以175亿的模型参数与超出想象的计算资源死磕硬刚。如果乔峰是个深度学习科学家,一定会爱死这个模型。

作者:RandomWalk https://www.zhihu.com/question/440729199/answer/1697785042

牛逼的论文是改变范式的论文。

  1. alexnet 和 俞栋老师的speech论文。从此大家都开始用深度神经网络。
  2. resnet,神经网络进入极深时代。
  3. attention,序列建模与序列生成。
  4. GAN 图像生成
  5. transformer,基于前馈网络的序列建模
  6. bert,预训练+微调成为nlp问题的新范式。……

作者:Yan Chi https://www.zhihu.com/question/440729199/answer/1694339346

CV领域:resnet

NLP领域:attention is all you need

这两篇论文都有一种给人大道至简的感觉。

CV之前有VGG16/19,发现CNN堆叠层数已经堆不上去了,NLP之前以LSTM+attention也出现了LSTM叠太多会过拟合的问题。而resnet的出现,论文原文是叠了1000层,也不会出现严重的过拟合或者degraduate problem。

虽然实际一般也不会用这么多层,但resnet这个block架构表明他能支撑起这么多层,而不必担心过拟合。transformer系(包括后面的bert系、gpt系)则证明了attention机制的重复叠加也不必担心过拟合,只要数据量上去了,模型大概率是能训练出来一个收敛且可用的结果的。这两个模型的优雅之处在于,结构单元本身是很简单的,但又能支持简单的重复叠加,只要算力+数据支持得住,就能大幅叠加,可扩展性非常好。

作者:侯小柒的終末路 https://www.zhihu.com/question/440729199/answer/1697403471

说个 Deep Learning 子领域,Neural Architecture Search 的两篇。

其一是 Barret Zoph 的 Learning Transferable Architectures for Scalable Image Recognition。俗称 NASNet,是 cell-based search space 的开山之作。

其 search space 找到了一个先验知识与搜索自由的 trade off。宏观连接包含了人工设计的优雅整洁,微观结构展现了搜索的粗犷无章。

再者是 Hanxiao Liu 的 DARTS: Differentiable Architecture Search,提出用微分方法做 NAS,把 operation 的决策代理为 one-hot 概率,使用渐进式的 supernet 进行 weight sharing。思想很帅,速度很快。

作者:匿名用户 https://www.zhihu.com/question/440729199/answer/1693655651

我是做gan方面的..包括I2I,image synthesis,interpretability等。

1.GAN本身,goodfellow开的大坑。idea是真的太惊艳。

2.PGGAN,渐层增长resolution的思路影响了很多后续工作,如stylegan,singan等。

3.GANpaint,主要在研究单个neuron的role。效果惊艳,idea可能最惊艳的是开启这一块的研究。

作者:fan frank https://www.zhihu.com/question/440729199/answer/1698400583

写一个非监督学习领域里面最惊艳的idea。

聚类是经常用的一种方法,2014年,《science》上面发表了一篇《Clustering by fast search and find of density peaks》,这篇论文仅仅用了两个公式,第一个公式描述局部密度,另一个公式表示任意一个局部密度的点与其他更高局部密度的点之间的最小距离。其聚类算法非常优异。

这彻底颠覆了我之前的观念,从未见过一篇论文两个公式,还发表在《Science》这么重磅的期刊上面。至今引用已经2803次。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-01-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 计算机视觉CV 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 深度学习框架
  • 图像识别
  • 图像生成
  • 模型优化
  • 自然语言处理
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档