机器学习与网络安全(一)

深度学习技术目前是人工智能这个领域里面最核心的一门技术。

首先就是说要从人工智能来谈起,人工智能它是研究开发用于模拟延伸和扩展人类智能的理论方法技术以及应用系统的一门新的技术科学。人工智能好早以前就有的,局限于当时的技术,还有一些理论方法都不够成熟,所不能达到人们想要的一些要求。目前来说,人工智能的突破仅仅体现在应用于某些个别的领域,包括以下几种类型:

人工智能要分为“人工”跟“智能”这两个词语来谈。人工就是说这个东西是由人来创造的,不是我们自然界中本本身所具有的一类东西。人类也是一种智能体,主要体现在以下这几个方面:

       首先我们可以感知,我们可以理解跟我们不一样的事物,你可以感知到别人、可以感觉到别的动物、可以感觉到外界的环境,我们还有视觉可以接收光的反射物(光反射的东西),在我们的视觉中就会形成一定的颜色;我们还有听觉就可以接受一定程度的声波信号(像蝙蝠它可以接收超声波,那么人类是不能接受的,就说我们人类能接受的听觉的信号的宽幅平,这个频幅是有限制的);我们还能够理解,这也是人类的一个最大的特征,我们的理解力是强于低等动物的。比如说我们对于特征以及关键点的提取,读完一篇文章,你能很快知道这篇文章主要讲了什么,你看见一幅画,别人一问你这幅画是画什么,你可以说出来,比如这幅画是画了一座山,那么我们还有一定的关联能力,就是类同事物的搜寻能力,什么叫类同事物?就是说当你看见一个一只蝴蝶,一只很漂亮的蝴蝶,你的蝴蝶谷看见一只蝴蝶,你就有能力去搜寻其它长的类似的蝴蝶,以及有能力去辨认其它长的不一样的蝴蝶,这是对于某种低等动物来说它们是做不到的。

       我们还可以进行归类,当你搜寻完很多类同事物以后,你的经验会以记忆的方式累积在你的大脑中。比如你读书,有些人它是读的书越多,它读书的能力越强,它读得越快。其实说它在读书的不断的训练中,它对文字间的特征关键点的提取,对书的理解能力关联能力也上升了。比如说这一本是福尔摩斯一个侦探,那一本又换成了另一部侦探小说,这个时候它读另一本的时候就很快,但是如果你老师给你不同类型的书来读,对你的是阅读是有横向发展的成长的。

然后我们还有一定的抽象能力,即经验的总结概括能力。

       当我们读到一句话的时候,会把关键点抽出来,同样人工智能也要做到这样的能力,这是非常重要的。短时间内让你看一看一篇连环画,看完以后可能那些比较喜欢的长得好看的角色的样貌你是记得住的,打酱油角色的只出来一帧画面的可能你很快就会忘掉了。一见钟情的你就会非常的对她们有印象,这个就很容易把它们的特征、轮廓、眼睛眉毛等脸部特征身材样貌这些特征抽象出来。

       我们还可以表达,前面所列的这些东西以及对最后你抽象出来的东西我们会输出,但是这个输出就跟输入是不一样的,它们也是一样的也是不一样的。为什么这样说?在比如说你看到一个明星范冰冰,你在杂志上看到它你去跟别人说,我在杂志上看到范冰冰了,她长什么样,你说出来的这一个和你看到的那一个它们一样是范冰冰,但是它们又不一样,因为你说出来的这一个和你看到的那一个在信息表达上它们绝对是不一样的东西,我们人们不可能把同类的东西就原封不动的可以表达出来,这就犹如达芬奇它是不能够画出两个一样的鸡蛋,这是一样的道理,它在画鸡蛋的时候或自己亲手构造的鸡蛋,它再来一遍,这个都是不可能的。这个也是人类的一种能力。然而对于我们不同的个体,这些能力都是不太相同的。例如有的警察它可能办案的时候,它在证据链的搜索上就非常拿手,这说明它的关联能力很强,跟证据链有关的跟这一起案件有关的事情,它都能够很好地关联起来。然后有一些学霸就说什么的,像理科学霸它们的理解能力会很强,然后它们的表达能力也会很强,因为有的人可能不同意,说那些理科男可能都不会表达怎么样,它是不是表达这个意思?就是说首先它们理解能力很强,是为什么?因为对吧?你对着一个数学公式或者物理公式或者一个定义,你也在看,它也在看,那么为什么人家学霸考试就考的会比较好?因为它能把数学公式或者是这些例题里面的特征提取出来,很快的提取出来,有可能它自己都不知道。

       比如说当学霸面对题海战术的时候,它就从很多的题里面很容易归类了,这些题是属于哪些,那些题是属于哪些。这不是它的归类能力很强,而是它的理解能力很强,它很容易把特征找出来。然而对于我们来说,题海战术它就是一片海有1万道题,那就是1万道题,可能对学习好的同学那些学霸来说,那1万道题它不是1万的,它可能就是10道。因为可能它有一千到根本就是一样的东西,用的是一样的方法,就是它们很能够总结之类的东西,把理解的东西只要提取出来,特征一提取出来,标签就打个标签一插。 这个时候这个山头你谁看过去都知道那是什么。这个就好理解了。它们就是插标签的能力会很强。它们在看到自己插过的标签的时候,很容易从这一个将它的定义再反向解答出来,这是表达能力很强的体现,在我们人工智能里也有,我们要提高智能人工智能的表达能力生成对抗模型,同时来学习让智能体让我们编的代码,同时来学习一些图图中的一些事务,然后学习做一些类似的图同时,要理解这个图中的特征,然后还要用自己的方法将这个特征表达到自己所画的新的图中。这个就好像学霸要理解那些例题中的原理,然后再把这些原理应用在自己要做的新的题目中。这个是表达能力很强。然后像有些文科学霸它们的归类能力很强,它们的记忆力和理解能力很好,因为有些历史事件要有自己的理解,由于归类能力强它们很容易就把事物进行分类,甚至是金字塔型分类。在自己的大脑中可能不善于学习的同学,就本来就是三篇课文,三篇历史课文,你分类出来,还是那三篇,就先等于没分一样。然后这一方面的例子还有很多,大家可以在课外再扩展一下,也可以从生活中找一找,看看你在面对不同的事物的时候,除了这几种感知听视觉听觉理解关联归类抽象表达这些以外,还有哪些能力是你所具备的?人工智能下一步可能要研究的就是这些能力,大家可以提前来占领这一片区域。

人工智能的发展历程

1、“人工”智能阶段

条件性智能反应,人类目的驱使,技术单一的假智能。

像以前我们玩电脑游戏的时候,CS反恐精英有好多BOT机器人,这种可以称为是一种人工智能,它能像个人一样和你玩,但是你玩的多了,你就会发现它们行动是很有规律的。包括一些一切的游戏机都是这样的,它们的行动往往是很有规律的。而且行动不规律的那些也是通过一些随机算法,比如说时间算法,我们往往是结要结合时间的,也是一种假随机,就是说在现在的随机算法中来说,没有真正的随机,有的只能是和当前的时间甚至和当前产生的一些东西所结合起来的。因为电脑是没有办法做到真正的像人一样,我脑子里随便想一个数字55,这就是我突然想到的,我没有任何原因,没有任何逻辑。计算机现在是做不到这一点的,这种是条件性智能反应。像反恐精英里面的BOT,它是根据你的条件,你的BOT可以选难度简单普通困难,如果是困难的话,看到你马上鼠标那个坐标可以飘到你身上去,然后开枪。当自己生命值低于多少的时候,它可能会选择回避,周围那些回避点都是提前计算好的。这些就是一个条件驱使的智能反应,你在碰到真正的人的时候,发现你还是打不过。

2、统计概率学阶段

数据与人类经验所驱使,利用数据来拟合函数,最终获得从数据中判断得出的概率。

比如我们预测股票价格,现在有很多种方法了,早先的时候,它就是通过一个回归的算法来进行的,看看之前的数据,用一定的算法来计算一下之前的数据。比如说一支股票前五年的开盘价是怎么样,然后我们来预估一下,通过一个数据来预估一下我们之后的开盘价是怎么样,它是以统计学为核心算法,大家也可以看一下统计学。

3、自主学习阶段

完全的数据趋势,使智能体自主学习没自己寻找特征,实现基础的人机互动。

就是说这个里面就没有人类经验了,统计学那个阶段还是需要一定人类经验的,比如你要预测股票的话,你得有一个预测股票的大师再配合你的系统,通过大师的和工程师要跟人家业务的代表来交流,根据业务代表来慢慢调整算法,调整你的各种参数来和数据,最后让数据的表现和你的计算机的表现贴近于很牛的那个人,这是当时统计概率学阶段所达到的一个成果,现在自主学习阶段就是完全是数据趋势了。

最简单的例子就是阿尔法狗(AlphaGo),谷歌并没有聘请围棋专家,通过一定的算法使智能体进行自主学习,计算量达到要求了。自主学习阶段就是表现出我们的计算机可以自己寻找特征来实现基础的人机互动,就包括现在什么百小度,还有什么微软小兵那些一系列的东西。

4、(未来推测)记忆结构化阶段

数据驱使+场景驱使,从不同场景产生的不同数据中自动提取类同经验,并自行规划逻辑经验存储结构。

下一个阶段可能会发展到由记忆结构化的一个阶段。最早人机互动没有上下文的连接性,你问问几句话它就傻了,它就会忘掉至比如说问你同样问有关一个问题的,你比如说鼠标好不好看,然后你知道这是哪买的吗? 可能第二句它就不知道了。你知道这个鼠标是哪买的吗?当然这个鼠标我没说出来,你是人的话你都懂,对吧?它就知道我指的就是这个鼠标,但是对于一开始的人机互动程序来说,它就认为你这个里面没有出现和上一个里面相关的词汇,往往它给我们的表达就很牵强,但是在现在来说这个已经好多了。我们未来更会趋向于就是说把我们的记忆按照人脑的结构,或者是它们计算机自己的结构把它结构化。

对感知过搜寻过对话内容所产生的权重,把它按照记忆的结构化的形式来存储,根据鞋想报电商网站女性喜欢爱买的东西这些。在未来可能就是说人工智能会发展为数据驱动加场景驱动,就从不同场景产生的不同数据中自动提取类同的经验,这个就把场景就归类了,现在是只有数据归类场景,现在很少能做到有归类的,并自行规划逻辑经验中的存储结构。

这个结构不是人制定,不像一个结构化数据库人来写,那些数据库可能人家发展到之后,自己来规划自己的数据库,按照类型把数据合理的存放进去。

5、(未来推测)智能神经聚合阶段

       智能驱使,自由控制多神经网络计算重叠进行,大规模神经网络被聚合为不同的体征网络,大量体征网络的不同表态形成基本的类人意识。谷歌Facebook那些大型的公司有TPO集群能耗像就跟一个小型城市那么大,图像识别经验可能直接导入进来,很多图像就自动就可以识别、边缘检测等等。 这些东西都是由机器来自动完成,什么样的任务有怎么样的神经网络来好,而且以后可能就是神经网络反应都极快,比方说现在共享单车, 一个机器人看到共享单车,马上要建立神经网络,它要去想这个东西,它要去获得这个东西,要分析共享单车的图片边缘检测,它的二维码检测一下,这是一个什么是哪家公司的,我应该用什么APP来扫,?然后它还有神经网络操纵它的手,只是一个预测,当然以后也不一定要往这个方向发展。大家也可以大胆的预测一下,根据前三个阶段来预测一下,往后的阶段可能十年二十年后,看看你是不是一个预言家。

人工智能应用场景

       根据用户行为看看用户是注册多久,每天多久会登录一次,登陆频繁,频率是怎样,登陆几次以后会东西买东西会花多少钱,评价怎样,你老是打差评,有退货怎么样,都是可以分析得到的,还有就是推荐系统,你买了这个东西,给你推荐类似的,看着你的喜欢的,你老喜欢买那些稀奇古怪的鞋子,我就给你推荐一些更稀奇古怪的,还有就是导购系统,无人超市的机器人导购,还有一些就是系统后台导购,像扫码导购这些,那么就可以智能的来判断,判断你的需求,然后告诉你应该买什么东西。

  还有导航场景,比如说现在有一些自动驾驶车、无人机,无人机现在还是好多无人机还是人在操作,只能说是真正的无人机,就是你告诉它我要比方说我要去海上给我拍一张照片回来,它自己就去了,给你拍完照片它自己回来了,并且它自己可以遵循无人机的,把那些经验化装成程序放在无人机里,你无人机自动在飞的时候,再选择路线避让,这些它就自己会搞了。

还有地图路径规划,比如百度地图高德地图;

  还有空间路径规划,像现在那些扫地机器人。它在清扫一间屋子的时候,首先它根据摄像头拍到的空间建模,根据这个房子的空间来规划,尽量少走路全程扫完;

接下来是在医疗场景,就是说肿瘤识别,比方说是一张肿瘤大小颜色各种参数拿过来以后,可能要专家才能判断,这是一个恶性的切。也可能专家看到这是一个良性的不用切用其它办法。

医院专家比较少但是病人比较多,病人都集中到那些医院里面也不合理,不如把那些专家的经验传递给人工智能来判断给肿瘤里面照照X光或者罩什么核磁共振之类的,你照片拿出来,你看人工智能一判断这是一个恶性,这是一个良性,可能还比那些经验没有那么丰富的大夫判断得很准一些,这也是有可能的, 也包括手术的选择(医学影像识别一样的道理)。

       还有工业场景,比如大规模的3D打印,这个时候就需要深度学习介入,还有一些机械的工程机械臂。

  生命科学场景,比如DNA的序列探索,这些序列太长了,针对一种病的DNA序列做一些监测等,现在慢慢发展,有深度学习来做这个事情,效率会越来越高。还有一些生命机能的探索,从DNA其它环境中,你比方说在地震灾后救人的话,这个也是人工智能所能体现自己价值的一个地方。

  还有日常生活场景,智能超市刚才说过了,家庭机器人智能家电等。 

艺术创造场景,智能作画也在商场,很有做派得很有艺术家做派的人在那里可以帮你几分钟帮你画一幅画油画素描都有吗?当然现在也差不多我蛮好用的,手机上也有,APP直接可以你自己把你的照片一拍,然后你想要什么艺术效果你自己挑。它可以以像素级别来为你生成,我们在photoshop上面也有,对你整幅画面按照统一的比例,比如10%按照就这样10%,比如说是透明特效,10%你就整幅画面都是透明。但是你用人工智能来做一个透明的创作,或者你手里端着一盆水,可能那盆水的盆就给你搞透明了。还有智能作曲也是,之前好像有人写了一个听歌的一个人工智能程序来,最后评论下来,反正有几个歌手的歌是人工智能也觉得实在是难听。

   然后还有影视制作,影视剧本身呈现在国外好多做美剧的在用,它们会先用人工智能生成第一版的影视剧的剧本,它们给这些说它们给人工智能提供的是文字形式的东西,就是什么剧的描述来做一个什么样的剧,环境是怎么样子的,历史设定是怎么样子的,我需要多少个人,主人公的性格是大概怎么样子的,它们这些作为参数来提供给人工智能然后人工智能通过它自己阅读了好多剧本以后,它从里面吸取经验,然后搞出一个新的和你这个比较相近的。还有虚拟人脸生成等。

       讲了这么多,都没有跟信息安全挂钩,那么信息安全是不是就跟人工智能很难结合呢?其实信息安全老早就跟人工智能又结合了。比如密码算法、验证算法这些就用了我们机器学习里面的好多算法,所以其实机器学习人工智能这块先被应用到其它行业之前,就是最先应用到信息安全行业的。如说现在物联网、嵌入式的信息安全。

信息安全的现状大概分了这么几类:

       攻击场景如何复原现在是一个大问题,网络安全上我们其实更需要的是快速的响应,由机器来代替人来响应,很多解决方案,就是说当然做的好的才行,好多都是做得不好的,做的好的就是快速响应,互联网上有类似的攻击行为,IPS级识别的行为,马上就可以来防火墙阻拦或者至少自动告警,然后给它录入一个就像是我们用户行为识别那样的一个信用的一个级别。

当它再过来做一段事情比如它访问了系统A以后,它又去访问系统B,它都没有成功的访问,这个时候它的信用评级会越来越差,差到一定地步的时候它登陆任何的系统你都要弹验证码,甚至是要短信验证码,或者是用其它的方法直接隔离。

       一般现在都是搞很多复杂的机制你才能够用,缺一样不行,这个东西人家都说是短板效应,缺一样也不行。现在说水桶原理有另一个方法,就是你把水桶有一块板是最长的,然后你把水桶放平,然后最长那块摆在最下面,这发现你也能接很多水。你还能放很多水,就不要放平,这样你也能放很多水。

      服务器安全服务器运维人员会很清楚,安全人员很好管,一个是加固改配置,然后就打补丁,运维人员服务器管理者很头疼,打补丁风风险大,不打风险也大。真正以智能化的形式来打补丁,让人工智能来理解服务器的一些底层的组件影响服务器的一些东西,打补丁之后这些组件发生了哪些变化,让智能体来反应。

     现在有公司把恶意恶意代码、木马的病毒等给那些人工智能深度学习来认但是往往那些变种了,你都不报警的拿过来深度学习照样报警,现在是有英国有几家有两家在做这种事情。

      密码安全,多少密码才能让你一生的账户足够安全?比如说你一生可能很可能就不下500个,起码各个大小的网站。你不可能天天带个本,上街上带个本去取钱也带个本记着你的500个密码,你在家里上公司,你反正你包里装个本,记着你所有的密码,这也不现实。 所以很多人都是基本上你如果真的是500个网站的话,可能顶多不会超过十个密码,很多都是重复的,就很容易造成撞库。搞安全的人们看待一个密码最好就是随机算法的密码,从随机的字符库取个十位的密码,可能前四位你从大写库取后三位,你从小写库中取三位,但这种也不切实际属性,这种密码不好记。

        深度学习的出现让人类在人工智能训练过程中的控制过程就逐渐减少了,像AlphaGo可能团队就那十来个人,那就能搞出那么大的创举,你可能没有深度学习的话,上几百号人估计都搞不出来效果。现在深度学习出现以后,这个数据的主导地位慢慢占据了,有数据了,人类就调参完了。

接下来还会跟大家分享什么?

        我们能给到大家的一些现在做的效果比较好的数据预测、图像识别、语义识别这些都会给到大家,本课程这个东西我也会更新,可能有更好的东西出来了,我就会换更好的东西了,尽量给大家就是说把新的东西给到大家。你那是厉害的东西你也拿不出来,你说你拿出谷歌去年到今年研究的一个东西拿出来跟你讲,这个不可能,人家都没有泄密的东西,像之前Facebook不是说传闻搞出了两个机器人相互对话,然后对话除了只有机器人自己懂得语言,然后两个机器人还聊得挺开心的。它们是把一些着重的语言,比如说机器人A想跟机器人B来骂自己的老板,它就会说这boss它会重复很多的字,来强调这个单词,老板来强调这个东西,但是我们人可能就说,可能说的话就直接是加重语气,可能看了半天人也看不懂它们在说啥。它们那边机器人就在那里聊,聊得有模有样了,从这个程序的运行效果准确率各方面来看没有偏离到太玄乎的东西,在机器认为上下文关系还是OK的,只不过你看不懂而已。 然后Facebook之后马上叫停了这个项目,它们也害怕慢慢发展起来会有什么问题,当然这个肯定不可能,机器从通过这个例子来慢慢发展到自己有了真的智能,根本做不到。

       要给大家就是说提前声明一下,深度学习,就是说当你学完课程以后,可能你觉得好多东西我都做过了,好多都能做了,就不要有这种想法,深度学习是现在就是说比较接近于我们能够用自己的大脑的一些结构,人类发觉了一些大脑结构来做东西的,但是大脑的结构仅仅占1%都不到,这真正大脑你用的真正大脑的结构的1%都不到,然而你用的大脑占你整个大脑的20%都不到,这是我们的人类的一个现在的一个特征。我们还会给一些信息安全的实例,我们不但会提供深度学习的实例,还会给一些信息安全的事情,把现在能够搜得到的那些信息安全的论文后用代码来复现然后跟大家讲解一下这是怎么回事。 包括我们可能最后会涉及到人工智能系统,你看不懂代码没关系,我们也有python基础,你不懂代码的话,在安全界不好混的。我们免费赠送了数据处理的课,会教你数据处理中的过程,每个项目都是的,把数据清洗进到模型里面测试验证最后达到我们项目的效果。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

0 条评论
登录 后参与评论

扫码关注云+社区

领取腾讯云代金券