机器学习与网络安全(三)线性代数

现在的人工智能完全由数据来驱动,我们所见到的数据,比方说一张图片有三个通道,分为R(红)、G(绿)、B(蓝),每个通道是一个图层,相当于有三张图层,比如每一张图片是50*50像素,50*50*3就是整个数据的大小。这种数据在人工智能使用时,会被变成一个矩阵,相当于有一个50行50列高度3的矩阵,矩阵里面每一个小单元是一个数字,这个数字就是像素。从0到255反映颜色的色阶从少到多,三通道反映了点的颜色从而绘制了整个画面,这样的数据我们把它叫做原数据,把原数据送进我们的人工智能系统,学习完特征后,把结果读出来,“结果”其实是一个概率。

比如现在的任务是画面里有一只猫画,想要让电脑去认一下。让电脑知道这是只猫,他通过学习以后再把图片给到电脑,让电脑去认,会得到一个概率。如果是猫,它可能概率是93%,如果是狗,可能概率就是6%。其他概率是1%,最后认得出来是猫。我们可以看到,基本所有的人工智能问题都会涉及到一个决策性的东西即概率。应用方面就会很多,比方说我们在医学造影的时候会让你区分一张X光片,最后得到结果是肿瘤是恶性还是非恶性,以及我们的自动驾驶的话,比如前面在视频中进入了一只猫,或者进入了一个老人,系统会区分这个老人是否会被我撞到,或者是前面到底是一个什么东西、路线是否正确,前面是否有斑马线红绿灯这些,最后所有的结果会集中到一个概率上,包括我们对自然语言的处理也是一样的,一句话读出来可能是个什么意思褒义或贬义。 又或一些影评系统去读大量的影评,让人工智能的系统去学习,学习完以后,我就从豆瓣的影评之类的,我随便输入影评,让人工智能去读一下他最后一个结果good或bad类人的判断,这就是人工智能为我们带来的比较好的应用范围。

人工智能与信息安全

分析IP地址被攻击的规律性 、APP日志数据等中间件的告警、恶意代码等等通过一定的方式把它们全部转换成数字,这是数据科学的第一步要求。

接下来按照一定的标签把它们聚类,不同的攻击者的危害性不同,好一点的安全设备可以根据告警的特征来告诉我们这可能是哪一个工具,那么有一些高级的黑客他是用自己写的工具,或者是用自己编的这种脚本来攻击,系统检测不到他具体使用哪种工具哪个攻击方向。在不同的攻击行为中,我们有两两种办法可以将它区分出来,一种是我们找专家分析,专家有限我们只能把这个任务交给机器来做。现在也有一些比较好一点的IPS系统IDS系统可以有效分类。

线性代数中会有一些基本的计算单元,1个数2.5这就是一个计算单元,我们称它为标量;一列数,2.5、3.7、4.2我们把它称为向量;再多一点,好多列数我们把它叫做矩阵;超过二维的矩阵我们把它称为张量

三维是指360度全景,四维是时间方面,能够掌握四维就能控制时间,显然我们人类是没有办法控制时间的,五维指空间,能掌握五维就能够在任意的空间穿梭(平行宇宙),目前人类是没法掌握的,听起来很玄幻,但在信息论里是有描述的,我们没办法穿越时间穿越空间,但是超声波、电波或能量是可以穿越的,比如数学界的傅里叶变换。

现在人工智能的图像识别这一块是非常发达的,可以把任何的数据绘制成图片,人工智能学习到里面的特征可以把特征提取出来,再跟现有的数据去比较,他可能认为75%的可能性是一个僵尸网络控制的主机。

矩阵

  1. 分配律

2.对角矩阵

3.线性相关

这个标签是已知的,A是已知的。

范数

指一个向量的距离,可以衡量一个向量的大小。

我们从最小的开始罗列,L1范数就是P等于1,L1范数通常用来区分零元素以及非常接近于零的元素,它是用来做这个事情的。

L2范数叫欧几里得范数,表示从原点出发到向量X确定的点的欧几里得距离,也我们常简称为欧式距离,在一些算法中会有这个东西,欧式距离它就是类似于他会衡量一个比较确定的距离,那就不像是说L1它是衡量一个你是不是零,有数据支撑的距离。

特征分解

我们生活中的所有的一切深度学习都可以分解为一个最小的模块不断地叠加,叠加成一个最小的模块,再叠加成一个比较大的模块,然后再用大的模块叠加成一个更大的模块,然后再用大的模块再叠加出来。生活中大自然中是存在这样的规律的,包括我们的声音,声音也是由声音信息来进行叠加的,声纹数据是机器学习中比较重要的数据,以及包括我们的指纹、DNA不断的重复的叠加,不同的信息序列的叠加,最后就变成了我们大自然中生命的表现方式,可叠加性是大自然存在的一个现象。我们把基本单位称为特征向量,在我们的矩阵里面,可以分解为一组特征向量和特征值。向量指的是方向,特征值指的是这个方向需要走多少。

如果你能找到这个特征向量,那么你就可以提取出这样的特征值,特征值就表示像A这一类的矩阵。

奇异值分解

每个实数矩阵它都有一个奇异值分解的,但不一定都有特征分解,奇异值分解是将矩阵分解成三个矩阵的乘积,只要是矩阵都可以进行奇异值的分解,但是特征分解就不行,它必须是满足条件的才能进行特征分解。

迹运算

主成份分析

内容来自安全牛课堂《机器学习与网络安全》

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

0 条评论
登录 后参与评论

扫码关注云+社区

领取腾讯云代金券