“深度学习是一个基于赋予大型神经网络多层隐含的机器学习领域,以学习具有较强预测能力的特征。尽管深度学习技术是早期神经网络的后代,但它们利用无监督和半监督学习,结合复杂的优化技术,实现了最新的精确度。”
为了从训练样本中提取代表性特征,通常通过堆叠自编码器来构建深度神经网络,这是一种特殊类型的单层神经网络(Hinton and Salakhutdinov 2006)。自动编码器通过使用与训练实例和目标标签相同的未标记输入来训练。去噪自动编码器是通过随机破坏自编码器的输入矩阵来训练的。由于自动编码器不使用训练样本标签作为目标,而是使用训练样本本身,所以它们被分类为半监督学习技术。
本文使用NEURAL程序来介绍一下在SAS里如何实现图像识别。例子所用的数据集是MNIST数据集,从http://yann.lecun.com/exdb/mnist/可以获取。训练集 (training set) 由来自 250 个不同人手写的0-9的数字构成,正确地识别这些手写数字是机器学习研究中的一个经典问题。
01将数据下载解压并导入SAS
把训练数据集导入后,得到一个SAS数据集有60,000条观测,785个变量。
02模型训练过程:采用SAS中的神经网络过程步:
***自编码识别*******************
03结果展示
最后,来看一下原始数据和模型训练结果的对比效果:
10个 MNIST 数据集的原始数字
模型训练生成的10个数字
参考文献:
An overview of machine learning with SAS.pdf
https://communities.sas.com/kntur85557/attachments/kntur85557/data_mining/5205
领取专属 10元无门槛券
私享最新 技术干货