专栏首页鸿的学习笔记The Brain vs Deep Learning(四)

The Brain vs Deep Learning(四)

---人的大脑是怎么学习记忆的呢?在今天的推文将会看到

Learning and memory in the brain

现在我们经历了整个过程,让我们把所有这一切都放在全文中,看看大脑如何使用所有的这一切。大多数神经元每秒重复接收输入和发射的过程约50到1000次; 射击频率高度依赖于神经元的类型和如果神经元正在积极地处理任务。即使神经元不处理任务,它将以随机方式连续地发射。 一旦处理了一些有意义的信息,这种随机激发活动使得在脑区域中的相邻神经元之间的高度同步活动成为可能。 这种同步活动了解很少,但被认为是理解大脑中的信息处理和如何学习的整合。

目前,不是很精确地知道大脑如何学习。我们知道,它通过调整突触与某种强化学习算法,以学习新的记忆,但精确的细节并不清楚,有些证据表明,我们失去了一些重要的问题。我们得到了大的图片,但我们不能弄清楚大脑的学习算法。我们依然缺乏没有精细的细节。

关于记忆,我们知道一些记忆直接存储在海马,大脑的主要学习区域(如果你失去你大脑里的的海马,你将不能形成新的记忆)。然而,大多数长期记忆是在你的REN睡眠阶段中创建和整合其他记忆,当所谓的睡眠纺锤解开海马的信息到所有其他脑区。长期记忆一般都是本地的:你的视觉记忆存储在视觉系统中;你的舌头的记忆(味道,纹理)存储在负责你的舌头的大脑区域。

还已知的是,海马体是充当记忆缓冲液的。 一旦它充满,你就需要睡觉了,以清空其内容给你的大脑的其余部分(在REM睡眠期间通过睡眠纺锤); 这可能是为什么婴儿睡得这么多,所以不规则的来看 - 他们的学习缓冲区是满的,因此他们睡眠,以快速清除他们的缓冲区,以便在他们醒来后学习更多。 你仍然可以知道这个内存缓冲区是否已满,但是保留会更糟,新的内存可能会与缓冲区中的其他内存一起摆脱空间,并替换它们,从而真正获得所需的睡眠。少睡觉和不规律睡觉是非生产性的,特别是对于需要学习的学生。

The hippocampus in each hemisphere is shown in red.

因为在“写入缓冲区到硬盘驱动器”阶段期间,存储器与其他存储器集成,所以睡眠对于创造性也是非常重要的。 下一次你睡觉后记得一定的记忆,它可能会改变一些新的信息,你的大脑认为适合附加到那个记忆。我想我们都有这个经历:我们醒来有一个疯狂的新想法,所以我们的大脑不是完美的,可能会犯错误的。但其他时候它只是工作:一次我不停地折磨自己与数学问题7小时,上床时失望地发现只有大约四分之一的整个问题解决了。我醒来后,我立即有两个新的如何解决问题地想法:第一个没有用; 但第二个使事情变得容易了,我可以在15分钟内草绘一个解决数学问题的解法。

现在为什么我谈论的记忆,但是这篇博客是关于计算的? 原因是,内存创建 - 或者换句话说,一种存储计算结果很长时间的方法,对于任何智能是至关重要的。在脑模拟中,如果突触和激活发生在与在真实大脑中相同的分布中,则人们很满意,但是人们不关心这些突触或激活是否对应于任何意义 -像功能所需的存储器或“分布式表示”, 例如对象识别。 这是一个很大的缺陷,脑模拟没有记忆。

在脑模拟中,电化学颗粒的扩散是通过微分方程建模的。这些微分方程是复杂的,但可以用简单的技术如欧拉方法来近似这些复杂的微分方程。结果便具有相当差的准确性(意味着高的误差),但是该算法是非常计算高效的,并且准确性足以再现真实神经元的活动以及它们的突触的大小和分布。最大的缺点是我们通常不能从这样的方法学习参数 - 我们不能创建有意义的回忆。

然而,正如我在我的博客文章中显示的卷积,我们也可以通过应用卷积模型扩散 - 一个非常计算复杂的操作。卷积的优点是,我们可以使用诸如最大似然估计与反向传播的方法来学习导致类似于回忆的有意义表示的参数(就像我们在卷积网中一样)。这完全类似于具有其卷积运算的LNP模型。

除了与深度学习模型非常相似之外,LNP模型也是合理的,因为实际上可以学习产生有意义的存储器的参数(其中,存储器我指的是分布式表示,就像我们在深度学习算法中发现的那样)。这也证明了一点,我可以通过使用卷积而不是欧拉的方法估计大脑的复杂性微分方程。

从我们模型中得到的另一个点是,我们当前没有为创建记忆而分配复杂性(我们只是建模了正向传递,而不是反向传播的反向传递)。 因此,我们低估了大脑的复杂性,但是因为我们不知道大脑如何学习,我们不能对学习的计算复杂性做出任何准确的估计。有了这一点,让我们继续使整个模型在一起的计算复杂性的下限。

The next part is a bit tricky: We need to estimate the numbers for N, M, nand m and these differ widely among neurons.

我们知道大脑中的86亿个神经元中有50个是小脑颗粒神经元,因此这些神经元及其连接在我们的估计中相当重要的。小脑颗粒神经元是具有约4个树突的非常小的神经元。 他们的主要输入来自皮质。 他们整合这些信号,然后沿着一个T形轴突发送他们,进入浦肯野(Purkinje)神经元的树突。

Purkinje神经元是迄今为止最复杂的神经元,但只有大约1亿个。 它们可以具有多于100000个突触和约1000个树突。 多个Purkinje神经元捆绑他们的输出在大约十几个深的细胞核(一群密集的神经元)中,然后发送信号回到皮层。这个过程对非语言智力,抽象思维和抽象创造力非常重要(创造力:从字母A开始命名多个字;抽象创造力:如果重力弯曲时空(广义相对论)怎么办?如果这些鸟属于同样的物种是因为他们来到这个岛(进化)?)。几十年前,人们认为小脑只计算运动的输出; 例如,当爱因斯坦的大脑被仔细处理和研究时,他的小脑基本上只是被切断和放弃,因为它被认为是一个“原始”的脑部分。

但从那时起,它被证明小脑与皮层的大多数脑区域形成1:1的连接。 事实上,在23到25岁的小脑前部的变化可能会改变你的非语言智商高达30个点,并且10-15智商点的变化是常见的。 这在大多数情况下非常有用,而我们失去执行我们在日常生活中不需要的功能的神经元(微积分,或您学习但从未使用过的外语)。因此,获得对小脑的能力的估计是至关重要的,不仅因为它包含大多数神经元,而且因为它对于一般的智能和信息处理是重要的。

Estimation of cerebellar filter dimensions

现在,如果我们看到单个树突,它分支成几个分支,因此具有树状结构。 沿着其总长度通常包装与突触。 树突状突起可以源于树突的任何分支(空间维度)。当我们采取每树突3个枝,和4个树突总计我们有大小3和4的小脑颗粒神经元的卷积过滤器。 由于在二维上的线性卷积与在一维上的卷积相同,随后在另一维上卷积,所以我们还可以将其建模为单个3×4卷积运算。 还要注意,这在数学上与描述源自不同源头(特征图)的粒子扩散的模型相同,该源根据在它们的邻域(核)中的规则扩散 - 这正是在物理层面发生的。

这里我选择用一个维度来表示空间域。 显示树状树的形状在所得信息处理中也是重要的,因此我们将需要空间域的两个维度。 然而,数据缺乏以在数学上有意义的表示,因此我继续简化到一个空间维度。时间维度在这里也很重要:带电粒子可能会暂停一段时间,直到它们被泵出神经元。很难估计有意义的时间框架,因为大脑使用连续时间,而我们的深度学习算法只知道离散时间步长。

从生物学角度来看,单一的估计是没有意义的,但是从心理学的角度来看,我们知道大脑可以在大约20毫秒(这只涉及一些快速的,大脑的特殊部分)中呈现在图像中呈现的无意识信息。为了有意识地识别物体,我们需要更多的时间 - 至少65毫秒,并且平均约80-200毫秒用于可靠的意识识别。这涉及对于对象识别有效的所有常见部分。

从这些估计中,可以将该过程认为是“在一个神经元内随时间建立所看到的图像的信息”。然而,神经元只能处理信息,如果它可以区分有意义的信息从随机信息(记住,神经元随机火,如果他们不积极处理信息)。一旦存在某一水平的“有意义的信息”,神经元主动地对该信息做出反应。因此,在某种意义上,信息处理可以被认为是传播到大脑的有用信息的流行:如果相邻神经元已经感染了该信息,则信息只能传播到一个神经元。以这种方式思考,使得这样的信息流行在80-200毫秒内感染大脑中的所有神经元。

因此,我们可以说,虽然对象在前20毫秒缺乏细节,但是在约80-200毫秒有完整的细节。如果我们将它以每秒30帧(正常的视频播放)的速率(换句话说时间步长)转换成离散图像,则20毫秒将是0.6个时间步长,以及80-200毫秒是2.4-6个时间步长。这意味着神经元需要用于其处理的所有视觉信息将在2.4至6帧内存在于神经元中。

为了使计算更容易,我现在在这里为神经过程选择5个时间步长的固定时间维度。这意味着对于树突,我们有大小为3x4x5的小的空颗粒神经元的时空卷积滤波器。对于浦肯野神经元,类似的估计将是大约10×1000×5的滤波器。非线性然后将这些输入减少到每个枝晶的单个数。该数字表示瞬时发射速率,即,数字表示在相应的时间间隔内神经元发射的频率,例如5Hz,100Hz,0Hz等。如果电位过低,不会产生尖峰(0 HZ);如果电位足够正,则尖峰的大小通常与电位的大小成比例,但不总是成比例。

已经表明,该激活速率的树枝状加和可以是线性的(总和),亚线性的(小于总和),超线性的(大于总和)或双稳态的(小于总和),这些取决于相应的输入; 这些求和的行为通常在神经元和神经元之间是不同的。 已知Purkinje神经元使用线性求和,并且因此它们的求和形成尖峰率非常类似于在深度学习中常用的校正线性函数max(0,x)。 非线性和可以被认为是不同的激活函数。重要的是添加,激活函数由神经元的类型决定。体细胞(或细胞体)中的滤波器可以被认为是空间域中具有大小为1的附加时间卷积滤波器。因此,这是一个过滤器,将时间维度为5的单维度的输入减少,也就是说,1x1x5卷积过滤器(这对于所有神经元都是相同的)。

再次,非线性然后将其减少到瞬时激活速率,然后通过泊松过程退出,然后将其反馈到加权矩阵中。在这一点上,我想再次强调,将神经元的输出视为二进制是不正确的; 由激活神经元传递的信息更像是一个if-then-else分支:“if(fire == True and dropout == False){release_ neurotransmitters(); } else {sleep(0.02); }”

神经递质是神经元的真正输出,但这常常是困惑的。 这种混乱的根源是,很难用突触研究神经递质的释放及其动力学,而研究动作电位是很容易的。因此,大多数神经元模型将输出建模为动作电位,因为我们在这里有很多可靠的数据; 我们在实时水平上没有这样的神经递质相互作用的数据。这就是为什么动作电位经常被混淆为神经元的真正输出时,但他们不是。

当神经元激发时,该脉冲可以被认为在轴突末端被转换为离散数(释放的泡囊数目),并且乘以代表突触上的受体量的另一离散数(该整个过程对应于卷积网络中的密集或完全连接的权重)。在信息处理的下一步骤中,带电粒子流入神经元并建立实值电势。这也与批次标准化有一些相似之处,因为值被归一化到范围[0,阈值](神经元:相对于神经元的初始电位;卷积网:相对于批次标准化中的激活的平均值)。当我们看整个过程时,我们可以将它建模为两个实数矩阵之间的矩阵乘法(在数学上等效之前或之后进行标度归一化,因为矩阵乘法是一个线性运算)。

因此,我们可以认为神经元之间的轴突 - 终端突触相互作用是两个实值矩阵之间的矩阵乘法。

本文分享自微信公众号 - 鸿的学习笔记(shujuxuexizhilu)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2016-12-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 白底黑字or黑底白字,眼睛更喜欢哪一个?

    腾讯大讲堂
  • 今天我就说三句话

    腾讯NEXT学位
  • 理工男图解零维到十维空间,烧脑已过度,受不了啦!

    让我们从一个点开始,和我们几何意义上的点一样,它没有大小、没有维度。它只是被想象出来的、作为标志一个位置的点。它什么也没有,空间、时间通通不存在,这就是零维度。

    钱塘数据
  • 知识体系解决迷茫的你

    最近在星球里群里都有小伙伴说道自己对未来的路比较迷茫,一旦闲下来就不知道自己改干啥,今天我这篇文章就是让你觉得一天给你 25 个小时你都不够用,觉得睡觉都是浪费...

    桃翁
  • 不只是软件,在线也可以免费下载百度文库了。

    不管是学生,还是职场员工,下载各种文档几乎是不可避免的,各种XXX.docx,XXX.pptx更是家常便饭,人们最常用的就是百度文库,豆丁文库,道客巴巴这些下载...

    课代表
  • 【系统设置】CentOS 修改机器名

    ken.io
  • 复杂业务下向Mysql导入30万条数据代码优化的踩坑记录

    从毕业到现在第一次接触到超过30万条数据导入MySQL的场景(有点low),就是在顺丰公司接入我司EMM产品时需要将AD中的员工数据导入MySQL中,因此楼主负...

    haifeiWu
  • 中国互联网协会发布:《2018中国互联网发展报告》

    在2018中国互联网大会闭幕论坛上,中国互联网协会正式发布《中国互联网发展报告2018》(以下简称《报告》)。《中国互联网发展报告》是由中国互联网协会与中国互联...

    钱塘数据
  • 你可以从面试中学到什么?

    讲一下我对面试的一些。。。“偏见”,哈哈,熟悉我的同学们一定要批判的读接下来的内容哈。

    web前端教室
  • SQL中GROUP BY用法示例

    GROUP BY我们可以先从字面上来理解,GROUP表示分组,BY后面写字段名,就表示根据哪个字段进行分组,如果有用Excel比较多的话,GROUP BY比较类...

    Awesome_Tang

扫码关注云+社区

领取腾讯云代金券