编辑:Amusi
https://www.zhihu.com/question/385326992
本文仅作为学术分享,如果侵权,会删文处理
这个问题是2020年新提出来的,我觉得非常有参考和学习价值。AI方向本身就是一个多融合的领域,将基础性知识迁移应用到各个子方向,其实也是目前一大主流。本文主要分享深度学习的前沿研究,下次会特别分享计算机视觉方向的前沿研究。
作者:Zhanxing Zhu https://www.zhihu.com/question/385326992/answer/1164005349
其实自从2018年三大佬靠深度学习拿了图灵奖之后,基本宣告深度学习容易解决的问题做的差不多了,这两年这个领域没有太大的突破,因为剩下的问题都是硬核问题,想要比较好的解决很困难,这个可以从这几年的顶会NeurIPS, ICML和 ICLR 可以看出来。我大体列一下自己认为值得 follow 的几个大方向。
作者:夕小瑶 https://www.zhihu.com/question/385326992/answer/1141673234
我给可解释性问题投一票。
这个研究分支是唯一一个让我觉得,看不懂也想看,自己做不了也要偶尔延伸一些小实验验证一些小猜想,别人都说没意义但我觉得最有意义,虽然不会轻易写paper但是希望自己能坚持follow的一个研究方向。
回想起来自己读研的时候曾经很傻很冒险的一个人花了小半年的时间陷入在了一个现在看来非常扯淡的词向量迁移到分类模型时的训练行为和结果可解释性问题上,当时以为自己就要构建起一个比较naive的数学模型了,跑了五六个数据集去验证都发现模型预测出来的现象都与实际炼丹结果一致!
我相信根本没有人在乎这个问题的,简直感觉自己就是一个民科瞎搞的既视感。当时给 @Simon John看我的论文初稿时他觉得我疯了哈哈哈哈,最后我还是死缠烂打的求他给了很多建议,帮我完善了这么一篇扯淡文。
最后这篇paper经历也是非常搞笑,第一次投稿到某顶会后,唯一一个给了strong reject的审稿人却是对这篇工作评价最高的,大体意思就是,虽然哪里跟哪里的建模存在缺陷,但是这个工作非常有意思,也相信我们的大方向是对的,希望我们一定要把这个模型完善下去,千万不要放弃,非常期待看到后续进展巴拉巴拉之类的,巨煽情,差点把我看哭。
后来就是因为秋招的原因,急于让它出现在简历上,就转投了一个水会,果然水会就中了。。几个审稿人都没有发现那个建模的缺陷。但是想了想,这样放出去太不负责了,万一这个缺陷真的会导致全篇的建模都是错的,那就把后人误导死了,所以在收到accept邮件后的第二天又发了封邮件主动撤稿了。哎,还是再去试图修正一下那个问题吧。
最后的挣扎结果是,修复的过程中发现了新的问题,于是提出新的假设,检验新的补丁,最后发现没法收场了。最终搁置,投入秋招大业中。
再后来,出了elmo,出了bert,谁还会去关心w2v呢。这篇扯淡的工作也更加没有意义了。不过还好,有一天可以在知乎上作为故事写出来hhhh
虽然最后这件事情上0产出,但由衷感觉解开深度学习黑箱是很有挑战性但也非常有意思的事情。不建议一个人瞎搞,但建议持续追踪,黑盒的秘密很令人着迷呀
作者:MrPhD https://www.zhihu.com/question/385326992/answer/1138155479
深度学习的解耦(Disentanglement,或者叫解纠缠)表示
推荐一些论文及资料:
作者:魏通 https://www.zhihu.com/question/385326992/answer/1141976198
斗胆投一下 semi-supervised learning & data augmentation. 毕竟有 Google 和辣个蓝人 (Quoc) 坐镇 lol,但看好不等于觉得它可以很快落地(雾...
最近两年,Google Research 出了一系列 semi-supervised learning 的工作(本质上也是探索了 Data augmentation 对 DNN 模型训练的正面影响),如:
此外,Data Augmentation 的 paper 也有著名的:
上面只列出了 Google 在改问题上部分代表性的 paper. 希望有更多的小伙伴关注 Deep Learning 在 semi-supervised learning 和 data augmentation 中的应用.
作者:机智的叉烧 https://www.zhihu.com/question/385326992/answer/1141908138
做工程一段时间了,其实感觉很多东西还是要落地,这个研究才有意义。(当然也要包括领先上百年甚至更多的数学),从应用角度还是希望有一些东西能快速落地,快速解决问题(赚取KPI)更加平民化的落地会更好。
但是!
现在很多模型其实只考虑了准确率,而牺牲了很多东西(其实我的理解最终变成了一个比赛,大家都在刷数据),追高不是错,但是只追高就有问题了,一整套方法要考虑所有流程,配套设施的完整性,可用性,从我的实践角度看,深度学习目前在这些问题上应该说上升空间比较大,也有巨大的研究需求。主要是这么几点吧:
我一直觉得,各种模型不是目的,只是方法,能解决问题的方法,深度学习的确能够在很多领域带来提升,然而由于数据和一些工程上的压力,深度学习的使用范围被限制,那么其实如果我们能够扩大他的适用范围,突破他的限制,这个贡献是不是会比哪怕是特定领域提升几个点来的更加有意义?
作者:青春没有终点 https://www.zhihu.com/question/385326992/answer/1161171596
能真正让模型适合落地的研究,都值得追踪。
1、Semi-supervised, self-supervised, unsupervised learning. 俗话说“有多少智能就有多少人工”,那么能不能不需要太多标记样本,甚至不需要标记样本。
2、Transfer learning, generalization. 模型提取特征的能力也是需要大量数据加持,但不是所有应用场景都有大数据,比如医疗和遥感。所以如何利用别人已经训练精美的模型,是一个很值得思考的问题。换个一个角度思考,你已经学会识别大花猫了(训练好的模型),那么再给你一只蓝猫,你肯定也知道他是猫(transfer到其他猫),所以模型泛化能力也蛮重要的。
3、Imcremental learning, lifelong learning, online learning. 你今天有一批数据,训练了一个模型,过了一段时间积攒了一批新的训练数据(甚至包含了新的类别),想让模型学习一下,怎么办?用新数据接着训练旧模型?显然不行,旧样本的知识会产生“灾难性遗忘”。所以在原模型的基础上,如果只用新样本就能把模型调整好,甚至极端一点,一个样本只学习一次就能让模型记住,是不是非常节省时间。
4、Model Compression, lightweight model. 深度学习动辄百八十层,嵌入式场景下怎么办,所以要把大模型压缩成效果相当的小模型。同时训练大模型也劳民伤财吧,那么设计什么样的小模型和参数优化方法,能达到大模型的效果呢?
5、Model interpretation, domain knowledge. 你说你的模型好就好?准确率高模型就一定好?你说这一层提取了什么特征就提取了什么特征?那你具体说说到底提取了什么,别说提取了“局部视觉特征”。所以模型的可解释性非常重要,如果模型每个计算每个特征都有直观的含义,那么不但模型更加可靠,甚至调参都将会变得有依据。如果还能融入人类的生活经验以及领域专家的见解,那么模型更容易朝着我们想象的结果走。
6、Optimization. 机器学习模型利用各种凸优化的方法求解(求闭式解啊,交替迭代啊,还有梯度下降,牛顿,拟牛顿),深层网络也是基本靠反向传播(梯度下降),甚至也有另辟蹊径的(智能群体算法)。但是你获取的数据有很多问题(样本不均衡,多源数据,错误标记等等),而且优化的速度、消耗资源、解的质量(局部最优)都有待提升。这些问题解决的好,也能对上面几位的发展起到推动作用。
7、最后,编程框架翻译,虽然放在最后,但是这是我最想说的(当然这个东西并不存在)。不知道大家有没有因为找不到合适的开源代码而发愁,比如你擅长TensorFlow,但是代码却是PyTorch写的。虽说要有精通多个语言多个框架的能力,但是大部分人精力有限,而且读自己不擅长语言非常浪费时间。这个时候,如果可以把PyTorch翻译成TensorFlow该有多好,希望有大牛分分钟搞出来。嗯,苟富贵,毋相忘。