NN——回归预测 CNN(convolution NN)卷积神经网络——图片 RNN (Recurrent Neural Network)递归神经网络——声音、语言处理 LSTM长短期记忆网络——
sigmoid ReLU——rectified linear unit 修正线性单元
Cost function 每个样本的误差均值 Loss function 单个样本的误差 贝叶斯误差 泛化——提取特征的能力? 归一化,不同变量分布尺度调整一致 正则化,减少过拟合 正交化,调整变量,不影响其他变量 迁移学习,把model从一个task1 应用到 task2 玻尔兹曼机-无监督学习
General methodology As usual you will follow the Deep Learning methodology to build the model:
发
扩展到高维,同样的道理,L2 的限定区域是平滑的,与中心点等距;而 L1 的限定区域是包含凸点的,尖锐的。这些凸点更接近 Ein 的最优解位置,而在这些凸点上,很多 wj 为 0。
类似于信号滤波,造成延迟
bias correction 初始值:\(v_0\)设置为0导致的 处理办法,✖️\(\frac{1}{(1-\beta)^t}\)
与指数加权滑动平均类似 对梯度加权滤波
压制导数过大的项,使各个特征值上的导数尽可能 \((dw)^2\)是element operation
将 带动量GD 和 均方根RMS-prop 算法 结合
\(\alpha\) \(\beta_1 = 0.9\) \(\beta_2 = 0.999\) \(\epsilon = 10^{-8}\)
Predict时,用训练集得到的参数,进行同样的缩放
将线性变量的概率,用e幂增大分辨率,归一化到0-1 激活函数为 \(func(Z) = np.exp(Z) \sum^{n^{l}} e^{Z_i}\)
将变量归一化到[1 0 0 0]
针对某个问题,作出调整,不改变其他特性 Training -> Dev -> Test -> Real world
例如分类器存在多个评价指标 Precision精度 & Recall查准率, \(F sore = \frac{PR}{P+R}\) 多分类器,一般用均值
精度、运行时间
理论值:贝叶斯最优误差 人类performance距离上限不远,一旦ML表现超过人类,人类很难根据偏差和方差,指导算法提高。
在错误集合中找到主要影响因素,对训练集做适应性改造
Robust,如果error比较大,则主要成分不是少量的错误标签
训练集保留原数据 dev 和 test 集 去除原标签,得到新数据的精度
添加新样本后,D、T分布改变,其误差已经无法反应变差和方差 从训练集T中,选出一小部分,作为Train-Dev集,验证训练,计算偏差和方差
如果误差在D、T集下降了,说明测试集较为简单 横坐标:原集合、新集合 纵坐标:人performance、新训练model、原训练model(训练集未加入新样本)
在相似的任务重,将Task1训练好的模型Model1,稍作修改生成用于Task2的Model2,让新任务的模型参考之前模型已经学习到的经验。
预训练(pre-training)for Model1 细微训练(fine-tunning)for Model2
根据数据量,决定需要训练的层数 数据量较小,只训练Model1的末层
相比于多类别分类器,y向量不一定只有一个1,存在多个1
任务之间的相似性
规模不够大时,多任务学习比单项学习 损害准确率
Start -> End,复杂任务不需要中间的各个模块 缺陷是数据量需求巨大