因为前几章都是介绍,不做记录了.近期更新中
f(\frac{x_1+x_2}{2})\leq{\frac{f(x_1)+f(x_2)}{2}}
把残差函Loss数描述成待定的若干个w所描述的凸函数-Loss(w),那么就可以用梯度下降法,更新w的各个维度,最后找到满足Loss(w)极值点的位置.
直接上手了.
1.1 传统的机器学习中的监督学习方法概括:
而深度学习与此不同的是,它通过大量的线性分类器或非线性分类器、可导或不可导的激励函数,以及池化层(卷积网络中会用到这种设计)等功能对观测对象的特征进行自动化的提取。 然而存在的问题:
深度学习中数据的切分:
1.1 同样是一种前馈神经网络,卷积神经网络的两个特点:
1.2 用途 卷积网络主要用来识别位移、缩放及其他形式扭曲不变性的二维图形。
2.1 解释
卷积:在泛函分析中,卷积(convolution)是一种函数的定义。它是通过两个函数f和g生成第三个函数的一种数学算子,表征函数f与g经过翻转和平移的重叠部分的面积。
卷积的数学定义:
h(x)=f(x)*g(x)=\int^{+\infty}_{-\infty}f(t)g(x-t)dt$$. 卷积过程可以看成是特征的一种压缩过程,一般卷积函数后可能还会跟一个激励函数ReLu函数等。 2.2 卷积层其他参数 * Padding:边界填充 - 保持边界信息 - 如果输入图片有差异,可以通过Padding来进行填充,使得输入尺寸一致 * Stride:步幅,Stride可以理解为每次滑动的单位。 ### 3.池化 ![池化操作](https://raw.githubusercontent.com/DuncanZhou/images/master/pooling.jpg) 3.1 常见的池化处理有两种方式: * Max Pooling:最大化,在前面输出过来的数据上做一个取最大值的处理 * Mean Pooling:平均值,同理求平均 3.2 池化层有这样几个功能: * 它又进行了一次特征提取,所以肯定是能够减小下一层数据的处理量的。 * 由于这个特征的提取,能够有更大的可能性进一步**获取更为抽象的信息**,从而防止过拟合,或者说提高一定的**泛化性**。 * 由于这种抽象性,所以**能够对输入的微小变化产生更大的容忍,**也就是保持其不变性。(容忍包括图形的**少量平移、旋转以及缩放**等变化) ### 4.SoftMax函数 ![Softmax函数](https://raw.githubusercontent.com/DuncanZhou/images/master/Softmax.png) 4.1 Softmax函数数学定义: $$\sigma_i(z)=\frac{e^{z_i}}{\sum_{j=1}^{m}e^{z_j}}
从Softmax函数的定义可以看出,最后一层的结点的输出值加和都是1.
4.2 交叉熵 Softmax这种激励函数使用的损失函数看上去比较特殊,叫做交叉熵(cross entropy)损失函数。
本书将这一章安排在第七章,可我总觉这一章貌似应该放在讲完几种神经网络更靠后的位置。
下面罗列一些知识点,供之后再汇过来补充。
1.1 隐马尔可夫模型:训练一个HMM模型是比较容易的,输入为:状态序列$X_i$和输出序列$O_i$,得到的模型由两个矩阵构成,一个是状态X之间的表示隐含状态转移关系的矩阵,一个是X到O之间的输出概率矩阵.
2.1 输入:$X_t$向量,输出:$Y$,需要训练的待定系数$W_X$和$W_H$.前面一次的输入缓存在$H_t$中,每次$W_X$和输入$X_t$做乘积,然后与另一部分Ht-1和$W_H$乘积共同参与运算得到$Y$.最后训练得到的就是$W_X$和$W_H$系数矩阵.
2.2 训练过程:传统的RNN在训练过程中的效果不理想,改进后的出现了LSTM算法.
3.1 LSTM与传统的RNN网络相比多了一个非常有用的机制,忘记门(forget gate).
3.2 优点:减少训练的时间复杂度,消除梯度爆炸
3.3 构造
3.4 LSTM和传统的RNN对比: 传统的RNN只有一个状态,对短期的输入非常敏感,而LSTM增加了一个状态C,用来保存长期的状态