专栏首页量子位完胜ReLU!斯坦福的神经网络采用这种激活函数,竟高保真还原各种图像视频

完胜ReLU!斯坦福的神经网络采用这种激活函数,竟高保真还原各种图像视频

萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI

一个来自斯坦福团队研究的、名为SIREN的简单神经网络结构,刚引爆了机器学习圈。

不为别的,实在是因为它展现出来的音/视频及图像复原效果,太令人惊叹了(效果展示中,Ground Truth为原始视频、音频或图像数据)。

视频中对一只猫咪的动态进行了还原,可以看见,使用SIREN重构的猫咪明显具有更高的清晰度。

从图中就能看见,SIREN对音频的还原几乎可以用“完全一致”来形容。

对于图像的还原,SIREN的效率有点高,视频中可见,SIREN以极少的迭代次数将图像高度还原了出来。

要问为什么这个神经网络架构能表现出这么好的效果?

接着往下看。

以连续的方式存储图像数据

在采样的过程中,我们所获得的的数据往往是离散的,这也就意味着,在还原图像时,需要通过插值的方式来对图像进行表示。

不仅如此,以离散的形式存储大量原始数据也需要占据一定的空间。

SIREN在这个方向上进行了突破,通过采用周期性激活函数Sine代替常见的非线性激活函数(如ReLU、TanH等),以连续的方式进行数据存储。

相比于ReLU、TanH等非周期性的激活函数来说,SIREN将正弦周期函数用作激活函数,相当于为神经网络引入了周期性

由于周期性的正弦激活函数处处可微,使得其能够快速适应复杂信号,很好地对自然图像空间进行参数化,建模更为精细。

这不仅意味着函数能以连续的方式表示图像,而且能在不丢失任何信息的情况下,以任一种分辨率表示它。

不仅图像如此,在3D模型上也是如此。照这样看,是不是可以3D修复建筑物了?

建模效果就像精装房对比毛坯房一样

即使原始数据显然是离散的,通过连续的方式存储数据也有一个好处,就是不必再担心采样的问题。

这对于数据压缩和图像修复研究的影响不可忽视。

基于梯度的监督学习

有没有想过对神经网络中函数的导数进行监督学习?

SIREN就这么做了。

之所以它能这么做,是因为其所采用的正弦激活函数,导数仍然具有周期性(余弦函数),即SIREN的导数仍然是SIREN。

因此,SIREN的导数继承了SIREN的特性。这使得在进行监督学习时,我们能够使用复杂的信号来对SIREN的任何阶次的导数进行监督。

下图是SIREN对海星图像采用梯度或Laplacians(绿色下划线表示采用的监督方式)进行监督学习的效果。

与图左的真值相比,这两种方式的重构效果都不错,其中中间的图像是采用梯度监督、针对原图进行的重构,而右边的图像则是采用Laplacians监督、针对图像导数进行的重构。

结果证明了当使用导数监督SIREN时,其仍然有良好的表现,这项结论对于解决边值问题(BVP)的效果非常好。

不仅如此,SIREN相较于其他结构而言,收敛速度更快,往往只需要在GPU上花费几秒钟,就能获得高保真的图像重构效果。

是突破性创新还是有所局限?

别忘了,周期性正弦激活函数是在隐式表示神经网络的基础上使用的。

隐式表示,与之相对的是显性表示,后者函数的表达式只用自变量表示,前者则无法将函数与自变量很好地区分开来。

隐式表示举例:f(x)= [f(x)]^2 + x,表达式中仍然包含f(x)

显式表示举例:f(x)= x + 2

相较于显式神经表示,隐式神经表示的研究近年来逐渐兴起,这种函数能表达的关系式更丰富多样,但与此同时也存在着建模不够精细的问题。

此次斯坦福团队的研究可以说是在隐式神经表示领域内的一次突破,采用了周期性激活函数和适当的初始化方案,取得了不错的效果。

研究成果刚出来时,不少网友在Twitter上对这次研究作出了评论,其中大部分表示惊叹

这位网友显然对这次的研究成果非常狂热。

震惊!必读!没时间解释了,快上车!这是Vincent 无与伦比的作品!

有的网友已经开始重新考量ReLU在当今神经网络中的地位。

这种周期性正弦激活函数会成为新的“ReLU”吗?

也有网友表示,相较于整篇论文的研究成果,将正弦激活函数用于神经网络这个观点,对机器学习领域的影响显然更大。

相较于这篇拙劣的论文所进行的研究,将正弦激活用于神经网络的想法对机器学习的影响应该更大吧。

也有网友认为这次研究依旧具有局限性。

以正弦激活的神经网络展现的结果令我惊讶,特别是与旧的ReLU相比,它可以非常精确地表示图像和视频。但是,与SOTA AFAIK相比,以这种方式表示神经PDE仍然效果不佳。

在Reddit上,一名网友在对论文进行仔细研读后,更是毫不留情地提出了自己的质疑

我认为论文中有许多难以解释的漏洞,以至于极大地降低了结论的可信度……(举出6点质疑) 我的看法是,尽管这篇论文给我带来了新奇感,但作者实际上并没有将太多心思放在论文观点的证明、以及判断研究成果的实用价值上。

立刻有网友表示同意。

这些用MNIST或CelebA数据集作为测试结果的图像重构论文都非常具有误导性,没有实例能证明这些神经网络算法可以用于实际生活中的图像处理。

由此看来,这项研究的实际应用价值,也许还需要更多的考量。

目前,已经有专业的网友对论文进行了详细解析,在不到一个小时的时间里,清晰易懂地介绍了论文核心内容。

论文解析时间轴如下,如果你对其中某一部分感兴趣的话,可以了解一下~(视频链接在文章末尾哦)

0:00 - 概要介绍 2:15 - 隐式神经表达 9:40 - 图像示例 14:30 - SIREN网络 18:05 - 初始化方案 20:15 - SIREN导数 23:05 - 泊松图像重构 28:20 - 泊松图像编辑 31:35 - 符号距离函数(SDF) 45:55 - 研究网站 48:55 - 其他应用 50:45 - SIREN中的超网络 54:30 - 广泛影响

研究团队

Vincent Sitzmann

主作者Vincent Sitzmann是刚毕业于斯坦福大学的博士,目前在麻省理工学院攻读博士后,主要研究的方向包括神经场景表示、计算机视觉和深度学习。

这是一个人均博士水平的研究团队,对于计算机视觉方向的研究非常深入。

在计算机视觉日渐发达的今天,行业希望机器达成的远不仅是“像照相机一样,能够对图像进行简单的二维复制”,而是像人类一样,能够拥有视觉感知能力。

传送门

论文链接 https://arxiv.org/pdf/2006.09661.pdf

项目介绍 https://vsitzmann.github.io/siren/

论文解析 https://www.youtube.com/watch?v=Q5g3p9Zwjrk&feature=youtu.be

作者系网易新闻·网易号“各有态度”签约作者

本文分享自微信公众号 - 量子位(QbitAI),作者:关注前沿科技

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-06-22

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 不懂卷积神经网络?别怕,看完这几张萌图你就明白了

    林鳞 编译自 authomaton.blogspot 量子位 出品 | 公众号 QbitAI 这篇文章用最简明易懂的方式解释了卷积神经网络(CNN)的基本原理,...

    量子位
  • 在任天堂Switch上倒贴30块钱“加班”,我一个程序员还觉得很刺激

    一款打完折只要30块的游戏很快吸引了我的目光——程序员升职记(Human Resource Machine)。

    量子位
  • 波士顿动力机器狗解锁“自动驾驶”,会跑步的Atlas真的很稳

    清晨,Atlas来到自家门前的草坪上慢跑,还开心地跃过了人类无(cheng)意(xin)摆在地上的木棍。

    量子位
  • Android开发笔记(九十)建造者模式

    建造者模式是一种常用的设计模式,它用于把类的表现和构建分离开来。引入建造者模式的缘由,且看博主下面细细道来。

    用户4464237
  • String,StringBuffrer,StringBuilder 三兄弟

    String这个类是Java中使用得最频繁的类之一,并且又是各大公司面试喜欢问到的地方,今天就来和大家一起学习一下String、StringBuilder和St...

    爱敲代码的猫
  • 蓝桥杯 基础练习 01字串

    对于长度为5位的一个01串,每一位都可能是0或1,一共有32种可能。它们的前几个是:

    Debug客栈
  • 【Go 语言社区】算法课程 第一季 第4节 100以内的素数

    package main import ( "fmt" "math" ) func main() { var i, j, n int ...

    李海彬
  • js去掉字符串前后空格的五种方法

    第一种:循环检查替换 [javascript] //供使用者调用   function trim(s){   return trimRight(trimLeft...

    joshua317
  • 吐槽,Java 设计的槽点

    你是否曾经在面试的时候,经常被问到:数组有没有 length() 方法?字符串有没有 length() 方法? 集合有没有 length() 方法?

    一猿小讲
  • Android 点九图机制讲解及在聊天气泡中的应用

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 ...

    用户2965908

扫码关注云+社区

领取腾讯云代金券