转载自:模型视角
原文:全面整理:深度学习(ANN,CNN,RNN)和强化学习重要概念和公式
神经网络是一类用层构建的模型。常用的神经网络类型包括卷积神经网络和递归神经网络。
关于神经网络架构的描述如下图所示:
记i 为网络的第i层,j 为一层中隐藏的第j 个单元,得到:
式中\omega,b,z 分别表示权重,偏移和输出。
在隐含单元的末端使用激活函数向模型引入非线性复杂性。以下是最常见的几种:
在神经网络中,交叉熵损失L(z,y) 是常用的,定义如下:
学习率通常记作\eta ,表示在哪一步权重得到了更新。这个可以是固定的,也可以是自适应变化的。目前最流行的方法是 Adam,这是一种自适应学习率的方法。
反向传播是一种通过考虑实际输出和期望输出更新神经网络权重的方法。权重\omega 的导数用链式法则计算(chain rule),它的形式如下:
因此权重更新如下:\omega \leftarrow \omega-\eta\frac{\partial L(z,y)}{\partial \omega}
在神经网络中,权重的更新方式如下:
第一步:对训练数据取一批(batch);第二步:进行正向传播以获得相应的损失;第三步:反向传播损失,得到梯度;第四步:使用梯度更新网络的权重。
它是一种通过在神经网络中删除单元来防止过度拟合训练数据的技术。实际应用中,单元被删除的概率是p ,或被保留的概率是1-p 。
记W 为输入量大小,F 为卷积层神经元大小,P 为 zero padding 数量,那么匹配给定体积输入的神经元数量N 为:
这一步是超参数(hyperparameter) \gamma,\beta 正则化批量 \{x_i\} 。记 \mu_B,\sigma_B^2 分别为批量值的平均值和方差,正则化表示如下:
它通常用于完全连接或卷积层之后,且在非线性层之前。目的是允许更高的学习率,减少初始化的强依赖。
以下是在我们碰到的典型递归神经网络中存在的不同类型的门:
长短期记忆网络是RNN模型的一种,它通过添加“忘记”门来避免梯度消失问题。
强化学习的目标是让代理(agent)学会如何在环境中进化。
马尔科夫决策过程(MDP)是一个5元组(S,A,\{P_{sa}\},\gamma,R) ,其中:S 是一组状态。A 是一组行为。\{P_{sa}\} ,是s \in S 和a \in A 的状态转换概率。
\gamma \in[0,1] 是discount系数。R:S \times A \rightarrow \mathbb{R} 或者R:S\rightarrow\mathbb{R} 是算法要最大化的奖励函数。
策略\pi 是一个映射状态到行为的函数 \pi: S\rightarrow A 。
备注:我们说,如果给定一个状态s ,我们执行一个给定的策略p_i ,得到的行为是a=\pi(s) 。
对于给定的策略\pi和状态s ,我们定义价值函数如下V^* :
V^*=E[R(s_0)+\gamma R(s_1)+\gamma^2R(s_1)+...|s_0=s,\pi]
最优贝尔曼方程描述了最优策略\pi^* 的价值函数V^{\pi^*} :
备注:对于给定的状态s ,我们记最优策略\pi^* 为:
算法包含2步:
第一步,初始化价值:V_0(s)=0
第二步,基于之前的价值进行迭代:
状态转移概率的最大似然估计如下:P_{sa}(s')=\frac{状态s到s'行为a的次数}{状态s} 的行为次数
Q-learning是Q 一种无模型,公式如下:
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。