【DLND 机器学习算法全栈工程师】干货!小白也能看懂的神经网络入门

导语: 干货来了,Udacity Machine Learning 课程导师 Walker 亲自出马,教你简单形象有趣地掌握神经网络!

神经网络是什么?神经网络就是一系列简单的节点,在简单的组合下,表达一个复杂的函数。下面我们来一个个解释。

线性节点

节点是一个简单的函数模型,有输入,有输出。

1、最简单的线性节点: x+y

我能想到的最简单的线性节点当然就是 x + y

2、参数化线形节点:ax+by

x + y 是一个特殊的线形组合,我们可以一般化所有x, y的线性组合, 即 ax + by。这 a, b 就是这个节点的参数。不同的参数可以让节点表示不同的函数,但节点的结构是一样的。

3、多输入线性节点: a1x1 + a2x2 + a3x3+...+anxn

我们进一步把 2 个输入一般化成任意多个输入。这里 a1,a2,a3,...an 是这个节点的参数。同样,不同的参数可以让节点表示不同的函数,但节点的结构是一样的。注意 n 并非是这个节点的参数,输入个数不同的节点结构是不一样的。

4、 线性节点的向量表达:aTx

上面的式子太过冗长,我们用向量 x 表示输入向量 (x1, x2, . . . , xn), 用向量 a 表示参数向量 (a1,a2,...,an),不难证明aTx=a1x1 +a2x2 +a3x3+...+anxn。这里向量 a 就是这个节点的参数,这个参数的维度与输入向量的维度相同。

5、带常量的线性节点:aTx+b

有时, 我们希望即使输入全部为 0 的时候,线形节点依然可以有输出,因此引入一个新的参数 b 作为偏差项,以此来增加模型的表达性。有时,为了简化,我们会把表达式写作 aT x此时,x = (x1,x2,...,xn,1),a = (a1,a2,...,an,b)

6、带激活函数的线性节点: 1(aT x + b > 0)

对于二项分类问题,函数的输出只是真或假,即 0 或 1。函数 1 : R → {1, 0} 将真命题映射到 1, 将假命题映射到 0。

线性节点实例

1、线性节点表达 x y (或函数) ,或函数的真值表如下:

定义节点 1(x + y − 0.5 > 0), 不难验证,它与 x y 是等价的。

2、线性节点表达 x ∧ y (与函数) ,与函数的真值表如下:

定义节点 1(x + y − 1.5 > 0), 不难验证,它与 x y 是等价的。

线性节点的表达力

单个线性节点可以表达所有线性函数(函数值域为实数集)、以及所有线性可分的分类 (函数值域为{0, 1})。概念定义和命题的证明我们这里不再阐述。虽然单个线性节点已经很强 ,但依然有图的局限性。对于线性不可分的函数,它无能为力, 例如异或函数 x y

线性节点的组合

1、多个线性节点同层组合:WTx

上述的线性节点输入是多维的,但输出只是一维,即一个实数。如果我们想要多维的输出,那么就可以并列放置多个节点。a1 ,a2 ,...,am 分别是 m 个节点的参数,那么输出则分别为 a1Tx,a2Tx,...,amT x. 最终的输出结果为

其中 W = [a1,a2,...,am] 是一个 n 行m 列的参数矩阵。

2、多层线性节点:

多层线性节点中,某一层带激活函数的线性节点,输出作为下一层的输入 。通常中间层(或者隐藏层,图中的蓝色节点)会带有一个激活函数,来增加模型的表达力 。(思考: 如果隐藏层没有激活函数,为什么两层线性节点和一层等价?)

多层线性节点实例

1. 多层表达异或函数 x y,异或函数的真值表为:

这是一个不可线性分隔的函数,不可以一个线性节点表达。但我们可以使用多层的线性节点来完成这个任务。

多层线性节点的表达力

可以证明,多层神经元可以表达所有连续函数。证明比较复杂,有兴趣的粉丝可以去看下: A visual proof that neural nets can compute any function

总结

其实在本篇文章中,我们还有很多常见的节点没有讲到, 如 ReLu, sigmoid, dropout 等。神经网络不仅有正向计算,还有反向传导,这些节点的出现和反向传导息息相关……

原文发布于微信公众号 - 机器学习算法全栈工程师(Jeemy110)

原文发表时间:2018-01-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能头条

实战 | 手把手教你用PyTorch实现图像描述(附完整代码)

1K7
来自专栏数据科学学习手札

(数据科学学习手札39)RNN与LSTM基础内容详解

  循环神经网络(recurrent neural network,RNN),是一类专门用于处理序列数据(时间序列、文本语句、语音等)的神经网络,尤其是可以处理...

2384
来自专栏机器之心

教程 | 从字符级的语言建模开始,了解语言模型与序列建模的基本概念

选自imaddabbura 机器之心编译 你有没有想过 Gmail 自动回复是如何进行的?或者手机在你输入文本时如何对下一个词提出建议?生成文本序列的通常方式是...

2985
来自专栏量化投资与机器学习

【深度学习研究系列】漫谈RNN之长短期记忆模型LSTM

? 推送第三日,量化投资与机器学习公众号将为大家带来一个系列的 Deep Learning 原创研究。本次深度学习系列的撰稿人为 张泽旺 ,DM-Master...

2177
来自专栏ml

NYOJ-------三角形

Problem A 三角形 时间限制:1000 ms  |  内存限制:65535 KB 描述 在数学中,如果知道了三个点的坐标,我们就可以判断这三个点能否组成...

33913
来自专栏Coding迪斯尼

使用矩阵运算驱动神经网络数据加工链

766
来自专栏java达人

决策树是如何工作的

作者:Rahul Saxena 译者:java达人 来源:http://dataaspirant.com/2017/01/30/how-decision-tre...

18610
来自专栏机器之心

学界 | Nested LSTM:一种能处理更长期信息的新型LSTM扩展

2739
来自专栏Pulsar-V

OpenCV图像哈希计算及汉明距离的计算

OpenCV均值哈希与感知哈希计算,比对图像相似度,当计算出来的汉明距离越大,图像的相似度越小,汉明距离越小,图像的相似度越大,这种没有基于特征点的图像比对用在...

3174
来自专栏用户2442861的专栏

循环神经网络教程第四部分-用Python和Theano实现GRU/LSTM循环神经网络

作者:徐志强 链接:https://zhuanlan.zhihu.com/p/22371429 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,...

453

扫码关注云+社区