机器学习之深入理解神经网络理论基础、BP算法及其Python实现

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/sinat_35512245/article/details/55224524

  人工神经网络(Artificial Neural Networks,ANN)系统是 20 世纪 40 年代后出现的。它是由众多的神经元可调的连接权值连接而成,具有大规模并行处理、分布式信 息存储、良好的自组织自学习能力等特点。BP(Back Propagation)算法又称为误差反向传播算法,是人工神经网络中的一种监督式的学习算法。BP 神经网络算法在理 论上可以逼近任意函数,基本的结构由非线性变化单元组成,具有很强的非线性映射能力。而且网络的中间层数、各层的处理单元数及网络的学习系数等参数可根据具体情况设定,灵活性很大,在优化、信号处理与模式识别、智能控制、故障诊断等许 多领域都有着广泛的应用前景。


神经元模型

神经网络中最基本的成分是神经元模型。在这个模型中,神经元接收到来自n个其他神经元传递过来的输入信号,这些输入信号通过带权重的连接进行传递,神经元接收到的总数入值将与神经元的阈值进行比较,然后通过激活函数处理以产生神经元的输出。

理想中的激活函数是下图中(a)所表示的阶跃函数,它将输入值映射为输出值0或者1,然而,阶跃函数具有不连续性、不光滑等不太好的性质,因此实际常用Sigrnoid函数作为激活函数,典型的Sigrnoid函数是下图中(b)所示,它把可能在较大范围内变化的输入值挤压到(0,1)输出值范围内。


多层前向神经网络

常见的神经网络层级结构是多层前向神经网络

多层前向神经网络由三部分组成:输出层、隐藏层、输出层,每层由单元组成;

输入层由训练集的实例特征向量传入,经过连接结点的权重传入下一层,前一层的输出是下一层的输入;隐藏层的个数是任意的,输入层只有一层,输出层也只有一层;

除去输入层之外,隐藏层和输出层的层数和为n,则该神经网络称为n层神经网络,如下图为2层的神经网络;

一层中加权求和,根据非线性方程进行转化输出;理论上,如果有足够多的隐藏层和足够大的训练集,可以模拟出任何方程;

使用神经网络之前,必须要确定神经网络的层数,以及每层单元的个数;

为了加速学习过程,特征向量在传入输入层前,通常需要标准化到0和1之间;

离散型变量可以被编码成每一个输入单元对应一个特征值可能赋的值,比如:特征值A可能去三个值(a0,a1,a2),那么可以使用3个输入单元来代表A

如果A=a0a_0,则代表a0a_0的单元值取1,其余取0; 如果A=a1a_1,则代表a1a_1的单元值取1,其余取0; 如果A=a2a_2,则代表a2a_2的单元值取1,其余取0;

神经网络既解决分类(classification)问题,也可以解决回归(regression)问题。对于分类问题,如果是两类,则可以用一个输出单元(0和1)分别表示两类;如果多余两类,则每一个类别用一个输出单元表示,所以输出层的单元数量通常等一类别的数量。

没有明确的规则来设计最佳个数的隐藏层,一般根据实验测试误差和准确率来改进实验。


误差逆传播算法(BP算法)

通过迭代来处理训练集中的实例;

对比经过神经网络后预测值与真实值之间的差;

反方向(从输出层=>隐藏层=>输入层)来最小化误差,来更新每个连接的权重;

算法详细介绍:

输入:数据集、学习率、一个多层神经网络构架;

输出:一个训练好的神经网络;

初始化权重和偏向:随机初始化在-1到1之间(或者其他),每个单元有一个偏向;对于每一个训练实例X,执行以下步骤:

1、由输入层向前传送:

结合神经网络示意图进行分析:

由输入层到隐藏层:

Oj=∑iwijxi+θj

O_j=\sum\limits_{i}^{}w_{ij}x_i+\theta_j 由隐藏层到输出层:

Ok=∑jwjkOj+θk

O_k=\sum\limits_{j}^{}w_{jk}O_j+\theta_k 两个公式进行总结,可以得到:

Ij=∑iwijOi+θj

I_j=\sum\limits_{i}^{}w_{ij}O_i+\theta_j IjI_j为当前层单元值,OiO_i为上一层的单元值,wijw_{ij}为两层之间,连接两个单元值的权重值,θj\theta_j为每一层的偏向值。我们要对每一层的输出进行非线性的转换,示意图如下:

当前层输出为IjI_j,f为非线性转化函数,又称为激活函数,定义如下:

f(x)=11+e−x

f(x)=\frac{1}{1+e^{-x}} 即每一层的输出为:

Oj=11+e−Ij

O_j=\frac{1}{1+e^{-I_j}}

这样就可以通过输入值正向得到每一层的输出值。 2、根据误差反向传送 对于输出层:其中TkT_k是真实值,OkO_k是预测值:

Errk=Ok(1−Ok)(Tk−Ok)

Err_k=O_k(1-O_k)(T_k-O_k) 对于隐藏层:

Errj=Oj(1−Oj)∑kErrkwjk

Err_j=O_j(1-O_j)\sum\limits_{k}^{}Err_kw_{jk} 权重更新:其中ll为学习率:

Δwij=(l)ErrjOi

\Delta w_{ij}=(l)Err_jO_i

wij=wij+Δwij

w_{ij}=w_{ij}+\Delta w_{ij} 偏向更新:

Δθj=(l)Errj

\Delta \theta_j=(l)Err_j

θj=θj+Δθj

\theta_j=\theta_j+\Delta \theta_j

3、终止条件

① 偏重的更新低于某个阈值; ②预测的错误率低于某个阈值; ③达到预设一定的循环次数;

算法举例:


BP神经网络的python实现

需要先导入numpy模块

import numpy as np

定义非线性转化函数,由于还需要用到给函数的导数形式,因此一起定义

def tanh(x):
    return np.tanh(x)
def tanh_deriv(x):
    return 1.0 - np.tanh(x)*np.tanh(x)
def logistic(x):
    return 1/(1 + np.exp(-x))
def logistic_derivative(x):
    return logistic(x)*(1-logistic(x))

设计BP神经网络的形式(几层,每层多少单元个数),用到了面向对象,主要是选择哪种非线性函数,以及初始化权重。layers是一个list,里面包含每一层的单元个数。

class NeuralNetwork:
    def __init__(self, layers, activation='tanh'):
        """
        :param layers: A list containing the number of units in each layer.
        Should be at least two values
        :param activation: The activation function to be used. Can be
        "logistic" or "tanh"
        """
        if activation == 'logistic':
            self.activation = logistic
            self.activation_deriv = logistic_derivative
        elif activation == 'tanh':
            self.activation = tanh
            self.activation_deriv = tanh_deriv

        self.weights = []
        for i in range(1, len(layers) - 1):
            self.weights.append((2*np.random.random((layers[i - 1] + 1, layers[i] + 1))-1)*0.25)
            self.weights.append((2*np.random.random((layers[i] + 1, layers[i + 1]))-1)*0.25)

实现算法

 def fit(self, X, y, learning_rate=0.2, epochs=10000):
        X = np.atleast_2d(X)
        temp = np.ones([X.shape[0], X.shape[1]+1])
        temp[:, 0:-1] = X
        X = temp
        y = np.array(y)

        for k in range(epochs):
            i = np.random.randint(X.shape[0])
            a = [X[i]]

            for l in range(len(self.weights)):
                a.append(self.activation(np.dot(a[l], self.weights[l])))
            error = y[i] - a[-1]
            deltas = [error * self.activation_deriv(a[-1])]

            for l in range(len(a) - 2, 0, -1):
                deltas.append(deltas[-1].dot(self.weights[l].T)*self.activation_deriv(a[l]))
            deltas.reverse()

            for i in range(len(self.weights)):
                layer = np.atleast_2d(a[i])
                delta = np.atleast_2d(deltas[i])
                self.weights[i] += learning_rate * layer.T.dot(delta)

实现预测

def predict(self, x):
        x = np.array(x)
        temp = np.ones(x.shape[0]+1)
        temp[0:-1] = x
        a = temp
        for l in range(0, len(self.weights)):
            a = self.activation(np.dot(a, self.weights[l]))
        return a

我们给出一组数进行预测,我们上面的程序文件保存名称为BP

from BP import NeuralNetwork
import numpy as np

nn = NeuralNetwork([2,2,1], 'tanh')
x = np.array([[0,0], [0,1], [1,0], [1,1]])
y = np.array([1,0,0,1])
nn.fit(x,y,0.1,10000)
for i in [[0,0], [0,1], [1,0], [1,1]]:
    print(i, nn.predict(i))

结果如下:

([0, 0], array([ 0.99738862]))
([0, 1], array([ 0.00091329]))
([1, 0], array([ 0.00086846]))
([1, 1], array([ 0.99751259]))

参考:神经网络理论基础


相关博客:

1、机器学习系列之机器学习之决策树(Decision Tree)及其Python代码实现

2、机器学习系列之机器学习之Validation(验证,模型选择)

3、机器学习系列之机器学习之Logistic回归(逻辑蒂斯回归)

4、机器学习系列之机器学习之拉格朗日乘数法

5、机器学习系列之机器学习之深入理解SVM

6、机器学习系列之机器学习之深入理解K-means、与KNN算法区别及其代码实现

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

资源 | 从全连接层到大型卷积核:深度学习语义分割全指南

选自qure.ai 机器之心编译 参与:路雪、蒋思源 语义分割一直是计算机视觉中十分重要的领域,随着深度学习的流行,语义分割任务也得到了大量的进步。本文首先阐...

47760
来自专栏机器学习算法与Python学习

Pre-training到底有没有用?何恺明等人新作:Rethinking ImageNet Pre-training

使用基于ImageNet预训练(Pre-training)的网络已成为计算机视觉任务中一种常规的操作。何恺明等人在新作Rethinking ImageNet P...

11220
来自专栏智能算法

图像金字塔分层算法

一. 图像金字塔概述 1. 图像金字塔是图像中多尺度表达的一种,最主要用于图像的分割,是一种以多分辨率来解释图像的有效但概念简单的结构。 2. 图像金字塔最初用...

54360
来自专栏技术碎碎念

基于深度学习的图像风格转换

距离上次写博客已经好久好久好久了,真是懈怠的生活节奏,整天混吃等死玩游戏,前些日子做毕业设计时总算又学了点新东西。学了一点深度学习和卷积神经网络的知识,附带着...

46670
来自专栏SIGAI学习与实践平台

理解Spatial Transformer Networks

随着深度学习的不断发展,卷积神经网络(CNN)作为计算机视觉领域的杀手锏,在几乎所有视觉相关任务中都展现出了超越传统机器学习算法甚至超越人类的能力。一系列CNN...

16350
来自专栏机器学习算法工程师

EM算法原理总结

地址:http://www.cnblogs.com/pinard/p/6912636.html

11420
来自专栏人工智能头条

北大、北理工、旷视联手:用于图像语义分割的金字塔注意力网络

22280
来自专栏机器之心

徒手实现CNN:综述论文详解卷积网络的数学本质

选自arXiv 机器之心编译 参与:黄小天、路雪、蒋思源 近日南洋理工大学研究者发布了一篇描述卷积网络数学原理的论文,该论文从数学的角度阐述整个卷积网络的运算与...

384110
来自专栏技术随笔

[ILSVRC] 基于OverFeat的图像分类、定位、检测引言相关理论计算机视觉三大任务Alexnet图片分类回顾基础学习OverFeat图片分类定位任务检测总结Reference

84560
来自专栏ArrayZoneYour的专栏

用Python从零开始构建反向传播算法

在本教程中,你将探索如何使用Python从零开始构建反向传播算法。

1.8K90

扫码关注云+社区

领取腾讯云代金券