专栏首页相约机器人人工智能网络安全?请再认真点!

人工智能网络安全?请再认真点!

今天无意中从朋友的朋友圈中看到了一篇技术文章,名字叫做《一篇报告了解国内首个针对加密流量的检测引擎》。首个针对加密流量的检测引擎!好大的口气,一股吹牛的味道强烈的唤起了我想要点开看看的冲动。因为早在09年我就开始从事类似流量监测引擎相关的工作,而且在那个时候,市面上就已经有同类的产品了,很好奇网络安全产业界十年后做到了什么水准。

打开文章迎面而来的是一堆用来浪费读者时间的文字,介绍了加密流量的趋势和作用。同时还放了一幅红红的大图,图上面一把大锁十分醒目,“要加密就买锁,安全可靠还防撬!”。看在是安全牛专业推荐,耐着心思继续看下去。

图1 文章的开篇

接下来请出Gartner大神来捧场,讲述未来加密市场美好的故事……。

图2 Gartner预测

话锋一转直奔主题,对待吹牛这个事情,我们是认真的,请注意。我们说的是正式发布!重要的事情说3个大便——正式发布!正式发布!正式发布!

图3 加密检测引擎正式发布

这是个多么值得纪念的日子,有效针对而已加密流量的AI检测引擎终于正式发布了!每个牛分析师的脸上都展露出热情洋溢的笑容,仿佛努力了很久的便秘小强在马桶上拉出第一坨屎般的快感!(抱歉抱歉,看到后面你会理解我的情绪)

那么接下来一定要看看这么屌的引擎什么样的!这可是“国内首个”啊!嘿嘿,抱歉,接下来的文章内容并不是这个,咱们先来聊聊加密流量的恶意应用吧。不管你有没有兴趣看,反正文字都在那里。

图4 加密流量的恶意应用

加密流量的恶意应用有很多种,可以这么用!那么用!想咋用就咋用……此处掠过10000字。

我们还是快速跳过这部分,看看引擎啥样子吧。于是来到了标题二。

什么!

我们还不聊这个!!!

标题二是聊聊“人工智能与恶意加密流量的对抗”。

这是产品发布的说明吗? 怎么一种手把手教你做系统的感觉。

好吧,既然要教,那我就学学,人工智能还是很热门的。认真学学也好。先不管你的啥啥产品了。耐住性子往下看。

看呀!看呀!一直没找到人工智能是怎么跟恶意加密流量对抗的。直到看到最后一段。终于看到“人工智能”这四个字了!

图5 人工智能与恶意加密流量的对抗

看过这段文字之后,终于明白了标题二所要表述的内容。原来是我想多了。其实这里只是要说明一句话:可以用人工智能与恶意加密流量进行对抗。这段看了跟没看一样的文字,真的堪称为废话中的经典,如果文字能换钱,这就是如何写出无意义文字的经典案例。

图6 人工智能可以与恶意加密流量对抗

这是一段即没有量化,又没有逻辑的废话。“人工智能算法赋予机器以专家的智慧”这是要换头吗?“机器可以获得媲美专家的能力”这是需要数据的,都是成年人,不能说这么没有责任的话好吗?

嗯,标题二也没有讲这个引擎。那么标题3总该讲讲了吧。不错!我猜对了。但是猜对了一半,是开始讲引擎了,但不是讲这个引擎如何如何,而是讲这个引擎的技术跑稀! 跑稀!还没怎么就跑稀了!不是国内首个引擎嘛!先干点实事呗,上来就装病可不行呀!

随便你吧,你咋写我咋看,接着往下读:

文中将引擎的技术分为6步。第一步是“数据实时搜集”,看到“实时”我会想到再训练的相关事情。然而,文中没有对实时做任何介绍。怎么收集的也没有介绍,只是介绍了要收集什么数据。

图7 实时搜集数据

图7中可以看到。所有收集的数据全是加密通信数据。请问是如何区分这些数据,并进行收集的呢? 是用你的那个“国内首个检测引擎”区分的吗?但是应该是先有了数据才有的引擎呀!如果在有引擎之前就可以区分这些数据了,那为啥还要做这个引擎呢 ?

要么就是人工来区分,如果人工进行区分的话,又怎么实现实时呢?要么就是该引擎的开发团队中,具有一个思维敏捷、玉树临风的分析师,他可以实时的对数据进行分类和收集!嗯。这么牛的引擎,应该会有这样的牛人存在!

另外文中用的是“搜集”!意味着收集数据的过程中,还有“搜”的动作存在!怎么搜?如何搜?或许这是该引擎不愿意公开的技术机密吧!感觉好高级啊!

看看第2步吧,数据的分析与处理

对着第1步来看,把实时“搜集”来的数据进行深度分析!然后再给模型进行训练。貌似时态有些混乱!一般来讲,AI系统会分为两种时态,训练时态和工作时态。工作时态直接使用训练好的模型进行工作,训练时态使用特定数据进行模型的生成。这个“国内首个引擎”居然合二唯一,而且是无缝结合,可见其团队中的分析师一定很牛,即深度分析的速度堪比实时的搜集速度。而且机器也很牛可以实时产出模型。哇!这套系统屌炸了!使用的量子计算机吗?运行得这么快。

图8 数据分析与处理

有点看不下去了,看人家的技术这么牛,做出的技术理论想都想不通,多少有些失落。跳过一步,往下看看感兴趣的特征工程吧。

图9 构建特征工程

终于看到一些有点共鸣的技术了,特征工程,降维可视化分析,嗯,非常好。可是文中指出用CNN、RNN算法来实现? 这个怎么实现?

CNN是卷积网络,RNN是循环网络。其中CNN网络侧重于对空间特征数据的处理,善于发现数据中的局部空间特征,并且没有全局位置信息。RNN网络侧重于对时间序列特征数据的处理,善于发现由序列关系所产生的数据表征。但是二者在训练过程中,都需要与目标值进行损失计算才能优化其自身网络。需要配合有监督学习或无监督学习的具象化网络模型才能实现降维功能,并不是CNN或RNN对特征训练来实现的降维。

将加密流量特征化是很必要的做法,但是特征化之后直接就用CNN或RNN处理的话其实什么都得不到。况且CNN和RNN是神经网络模型,并不是算法!

如果降维处理,可以用卷积和反卷积搭建自编码网络,或RNN搭建seq2seq模型进行。也可以使用CNN或RNN搭建分类器模型,并取其顶层的倒数第二层向量当作低维特征。坦白说,作者可能已经并不知道我在说什么了。

读到这里大致知道文章的质量了,应该归类为一篇没有技术含量的吹牛文章。可是看标题明明是个产品介绍的文章呀!再往下看看吧。

第5步检测模型训练,这真的是一段让我愤怒的内容。

图10 检测模型训练

一上来就堆了一堆模型名称,一个不挨一个。真的想问问“国内首个引擎”的开发团队们,你们真明白它们是什么吗?都放在一起罗列,最后居然还能比较出来个结果。随机森林效果最好是吧?我姑且相信你们会用随机森林算法。那么线性回归呢? 处理什么问题可以用线性回归来解决?线性回归是指输入和输出之间呈线性关系。如果加密流量的区分是个线性问题,那么是不是这“国内首个引擎”也就没技术含量了?

再看这个:神经网络(MLP),这里还有个错误。MLP是多层感知机,其实就是一个多层的全连接网络。它属于神经网络中的一种。多层全连接网络理论上可以拟合任意数据分布。但是取决于参数的配置。而且也有很多优化技巧,它不是一个固定的机器学习算法。一般在比较性能时,常常会用MLP搭建一个模型,比较该模型的性能, MLP是个概念没有具象化,请问你们怎么拿它去比较?扯呢!

还有这个:卷积神经网络(CNN),与MLP是一样的道理。CNN与MLP是可以比较的,但不是比较性能,而是比较网络结构的优缺点。在神经网络中,一个模型是由多个网络结构组成的,里面会含有CNN也会含有MLP,最终比较的是搭建好的模型,例如: ResNet、VGG等。

逻辑回归(LogReg),这是个模型的任务而不是模型,更谈不上效果比较了。逻辑归回是指将网络模型回归到一个具体的数上面,是个回归任务。与其相对应的还有分类任务。这东西放在一块比!怎么比!是不是在实时分析流量时压力太大,这些概念都分不清楚了!

最有意思的是该文章居然还放出来实际模型的训练截图,简直是惊天大雷!

图11 模型训练1

看到没,图11,千万别笑。人家用的是CPU! CPU!没错就是CPU!太牛了!为什么会用CPU!是因为GPU太贵了吗? 还是说样本太少了!样本数量6万多,迭代1次就达到95%以上,尼玛可以说这个实验很成功!这是在开发玩具模型吗?还是说这个模型超级的牛,用少量的数据就可以将模型训练好。并且模型的拟合度极高,6万多样本仅1次就能达到95%以上的正确率。这样的模型可以用于网络中的加密流量识别。我只能惊叹一下,加密流量的特征好明显啊,用个屁的人工智能。

下面的模型更是雷,如图12所示。训练1步准确率达到85%,训练50步准确率达到99%。最牛的是Loss值在不断的向负的方向延申,训练500步已经到-3140了!这是什么情况? Loss值发飙了吗!

Loss是代表损失值的意思。是用来表述模型的计算结果与真实的目标结果间的差异。通过对这个差异值求关于网络参数的偏导数,来进行每个网络参数的调节。这也是模型的训练过程。这个Loss值的大小取决于损失函数的使用,一般会将其控制在0个1之间,以便模型每次训练的调整幅度不至于太大。现在这个值变得负方向越来越大。从表现上看,这是很不正常的现象。

图12 模型训练2

管中窥豹,以上截图至少说明了以下结论:

  1. 能在CPU上跑可以推断模型非常的小。
  2. 训练所需次数少,可以推断数据的维度非常低,数据样本非常少。
  3. 少量的样本数据,低维的特征提取,最终只能出来个玩具模型。
  4. 准确率基于的是已提供样本识别率,并非现网流量识别率,这个在文中无从衡量。
  5. 这样就敢说实现xxx种协议的识别,准确率达到99%。确实有点不合实际。

不服来辨……

文章到最后也没有对检测引擎的产品给出具体的量化指标,比如:训练样本为多少条,都有哪些类型,各多少条。测试样本为多少条,都有哪些类型。在现网的布署使用情况、整个引擎的吞吐率等。难道说这篇文章只是为了给大家画个饼吗?从文章的描述来看,就是Toy级的水平,是否会存在该系统都是个问号,更谈不上发布了。

暂不说引擎的有无,本是技术文章,写得这么不专业,实在是误导大家。还是个技术创业公司,投资人你们可长点心吧。还望作者以后写作时多下功夫,尽量别犯这种专业上的错误。既对读者不好,又有损自家产品形象。人工智能是个好方向,有热度,但是还是希望该作者能够将热度用起来,而不是蹭起来。

人工智能用来解决的问题是确定性的,人脑都想不清楚的东西并不会用了人工智能让机器想清楚。文章写得略有犀利,只望能够激励该作者以后产出更高质量的文章,别无它意,有得罪之处还望见谅。期待“国内首个加密流量检测引擎”早日上线,以证清白。届时最好能给个体验的接口,我等也祝贵公司产品大卖。

如果你是这个公司老板,不懂人工智能,最好换个人工智能算法工程师。要是你自己做的算法,劝你换个创业方向。

本文分享自微信公众号 - 相约机器人(xiangyuejiqiren),作者:AI大嘴

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-03-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 使用深度学习从安全摄像头中检测车位占用率

    在停车场找到一个空位是一个棘手的问题。如果传入的流量变化很大,甚至很难管理这些批次。哪个车位在这个时刻空置?什么时候需要更多车位?驾驶员是否发现很难到达特定的位...

    代码医生工作室
  • 时域音频分离模型登GitHub热榜,效果超传统频域方法,Facebook官方出品

    用AI对歌曲音轨的分离研究很多,不过大多数都是在频域上进行的。这类方法先把声音进行傅立叶变换,再从频谱空间中把人声、乐曲声分别抽离出来。

    代码医生工作室
  • 数据可视化|用斜率图进行对比分析

    比如说,为了对比分析某产品不同功能的用户满意度,经过问卷调查和数据统计,得到下面这个调查结果:

    代码医生工作室
  • HTTPS 原理浅析及其在 Android 中的使用

    本文首先分析HTTP协议在安全性上的不足,进而阐述HTTPS实现安全通信的关键技术点和原理。然后通过抓包分析HTTPS协议的握手以及通信过程。

    腾讯Bugly
  • Https详解+wireshark抓包演示

    在说HTTPS之前先说说什么是HTTP,HTTP就是我们平时浏览网页时候使用的一种协议。HTTP协议传输的数据都是未加密的,也就是明文的,因此使用HTTP协议传...

    用户2929716
  • 详解Https是如何确保安全的?

    HTTPS(全称:Hypertext Transfer Protocol over Secure Socket Layer),是以安全为目标的HTTP通道,简单...

    哲洛不闹
  • 详解Https是如何确保安全的?

    HTTPS(全称:Hypertext Transfer Protocol over Secure Socket Layer),是以安全为目标的HTTP通道,简单...

    哲洛不闹
  • 人工智能在商业营销中的十个应用

    WZEARW
  • 对称加密、非对称加密、RSA、消息摘要、数字签名、数字证书与HTTPS简介

    对称加密算法使用的加密和解密的密钥一样,比如用秘钥123加密就需要用123解密。实际中秘钥都是普通数据在互联网传输的,这样秘钥可能会被中间人截取,导致加密被破解...

    Dabelv
  • PKI信息安全知识点详细解答包含HTTPS

    1. 什么是X.509? X.509标准是ITU-T设计的PKI标准,他是为了解决X.500目录中的身份鉴别和访问控制问题设计的。 2. 数字证书 数字证书的意...

    Janti

扫码关注云+社区

领取腾讯云代金券