前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >「麻省理工在Nature发表最新成果」!颠覆传统神经网络!19个神经元驾驶一辆车!

「麻省理工在Nature发表最新成果」!颠覆传统神经网络!19个神经元驾驶一辆车!

作者头像
ShuYini
发布2022-12-06 15:33:24
1.3K0
发布2022-12-06 15:33:24
举报

去年,麻省理工学院的研究人员宣布,他们已经建立了“液体”神经网络,灵感主要来自小型物种的大脑(文章连接在后面)。它是一种灵活、健壮的机器学习模型,它能够在工作中学习适应不断变化的条件,可以应用于安全且关键的场景,如驾驶和飞行。这些“液体”神经网络的灵活性意味着增强我们与世界之间的连接,可以为时间序列相关的任务提供更好的决策,如大脑/心脏监测、天气预报和股票定价等。

但随着神经元和突触数量的增加,这些模型的计算成本变得非常昂贵,并且需要笨重的计算机程序来解决其潜在的复杂数学问题。所有这些数问题学,类似于许多物理现象,随着模型规模的增长将变得更难解决,这意味着需要计算很多小步骤才能得出解决方案。

现在,同一组科学家发现了解决这一瓶颈的方法,即「通过突触求解两个神经元相互作用背后的微分方程,从而解锁一种新型快速高效的人工智能算法」。这些模式具有与液体神经网络相同的特征——灵活、因果性、鲁棒性和可解释性——但速度要快几个数量级,而且可扩展。因此,这种类型的神经网络可以用于任何需要长期洞察数据的任务,因为它们即使在训练之后也很紧凑且适应性强——而许多传统模型是固定的。

这些模型被称为“封闭式连续时间”(closed-form continuous-time:CfC)神经网络,在一系列任务中优于最先进的同类模型,在从运动传感器识别人类活动、物理建模模拟步行机器人的动力学和基于事件的时序图像处理。例如,「在一项医学预测任务中,新模型对8,000名患者的抽样速度提高了220倍」

一篇关于这项工作的新论文今天发表在 Nature Machine Intelligence 上,「文章连接在最后」

麻省理工学院计算机科学和人工智能实验室(CSAIL)主任、这篇新论文的资深作者Daniela Rus教授说:“「我们称之为‘CfC’的新机器学习模型,用一个封闭的近似形式取代了定义神经元计算的微分方程,保留了液体网络的优秀属性,而不需要数值积分」。”“CfC模型是因果的、紧凑的、可解释的,训练和预测是有效的。它们为安全关键应用打开了可信赖的机器学习之路。”

保持流动性

微分方程使我们能够计算世界的状态或一种现象的演变,但不是整个时间的全部——只是一步一步的。为了建模自然现象,了解过去和未来的行为,比如人类活动识别或机器人的路径,该团队从一堆数学技巧找到了答案:一个“封闭形式”的解决方案,在一个单一的计算步骤中建模整个系统的描述。

根据他们的模型,「人们可以在未来的任何时候计算这个方程,也可以在过去的任何时候计算这个方程。不仅如此,计算速度也快得多因为你不需要一步一步地解微分方程」

想象一下,一个端到端神经网络可以从安装在汽车上的摄像头接收驾驶信息。这个网络经过训练,可以产生输出,比如汽车的转向角度。2020年,该团队通过使用19个节点的液体神经网络解决了这一问题,因此19个神经元加上一个小型感知模块可以驾驶一辆汽车。微分方程描述了系统的每个节点。对于封闭形式的解,如果你把它替换到这个网络中,它会给出精确的行为,因为它很好地近似了系统的实际动力学。因此,他们可以用更少的神经元数量来解决这个问题,这意味着它将更快,计算成本更低。

这些模型可以接收时间序列(时间中发生的事件)的输入,「可用于分类、控制汽车、移动人形机器人或预测金融和医疗事件」。使用所有这些不同的模式,它还可以提高准确性、鲁棒性和性能,重要的是,还可以提高计算速度——这有时是一种权衡。

解决这个方程对推进自然和人工智能系统的研究都有深远的意义。麻省理工学院新论文的第一作者说:“当我们对神经元和突触的通信有了一个封闭的描述时,我们就可以建立具有数十亿细胞的大脑计算模型,由于神经科学模型的高度计算复杂性,这一能力在今天是不可能实现的。封闭形式的方程可以促进这种大层次的模拟,这为我们理解AI打开了新的研究途径。”

嵌入式应用

此外,早期的证据表明,Liquid CfC模型可以在一个环境中从视觉输入学习任务,并将它们学到的技能转移到一个全新的环境中,而无需额外的训练。这就是所谓的分布外泛化,这是人工智能研究中最基本的开放挑战之一。

“基于微分方程的神经网络系统很难求解,也很难扩展到数百万和数十亿个参数。获得神经元如何相互作用的描述,不仅仅是阈值,而是解决细胞之间的物理动力学,能够让我们建立更大规模的神经网络,”哈萨尼说。“「这个框架可以帮助解决更复杂的机器学习任务——实现更好的表示学习——并且应该成为任何未来嵌入式智能系统的基本构建块」。”

“最近的神经网络架构,例如神经 ODE 和液体神经网络,具有由代表无限潜在状态的特定动态系统组成的隐藏层,而不是显式堆叠的层,”Aurora Flight Sciences 的人工智能和机器学习小组负责人Sildomar Monteiro说, “这些隐式定义的模型展示了最先进的性能,同时比传统架构需要的参数少得多。其中传统网络架构由于训练和推理需要的高额计算成本,它们在实际应用受到了很大的限制。”他补充说,这篇论文“表明这类神经网络的计算效率有了显着提高,有可能实现与安全关键型商业和国防系统相关的更广泛的实际应用。”

相关论文

Paper:https://www.nature.com/articles/s42256-022-00556-7

Code:https://arxiv.org/pdf/2006.04439.pdf

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-11-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AINLPer 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 保持流动性
  • 嵌入式应用
  • 相关论文
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档