人工智能网络安全？请再认真点！

代码医生工作室

发布于 2019-06-21 17:16:10

1K0

发布于 2019-06-21 17:16:10

文章被收录于专栏：相约机器人

今天无意中从朋友的朋友圈中看到了一篇技术文章，名字叫做《一篇报告了解国内首个针对加密流量的检测引擎》。首个针对加密流量的检测引擎！好大的口气，一股吹牛的味道强烈的唤起了我想要点开看看的冲动。因为早在09年我就开始从事类似流量监测引擎相关的工作，而且在那个时候，市面上就已经有同类的产品了，很好奇网络安全产业界十年后做到了什么水准。

打开文章迎面而来的是一堆用来浪费读者时间的文字，介绍了加密流量的趋势和作用。同时还放了一幅红红的大图，图上面一把大锁十分醒目，“要加密就买锁，安全可靠还防撬！”。看在是安全牛专业推荐，耐着心思继续看下去。

图1 文章的开篇

接下来请出Gartner大神来捧场，讲述未来加密市场美好的故事……。

图2 Gartner预测

话锋一转直奔主题，对待吹牛这个事情，我们是认真的，请注意。我们说的是正式发布！重要的事情说3个大便——正式发布！正式发布！正式发布！

图3 加密检测引擎正式发布

这是个多么值得纪念的日子，有效针对而已加密流量的AI检测引擎终于正式发布了！每个牛分析师的脸上都展露出热情洋溢的笑容，仿佛努力了很久的便秘小强在马桶上拉出第一坨屎般的快感！（抱歉抱歉，看到后面你会理解我的情绪）

那么接下来一定要看看这么屌的引擎什么样的！这可是“国内首个”啊！嘿嘿，抱歉，接下来的文章内容并不是这个，咱们先来聊聊加密流量的恶意应用吧。不管你有没有兴趣看，反正文字都在那里。

图4 加密流量的恶意应用

加密流量的恶意应用有很多种，可以这么用！那么用！想咋用就咋用……此处掠过10000字。

我们还是快速跳过这部分，看看引擎啥样子吧。于是来到了标题二。

什么！

我们还不聊这个！！！

标题二是聊聊“人工智能与恶意加密流量的对抗”。

这是产品发布的说明吗？怎么一种手把手教你做系统的感觉。

好吧，既然要教，那我就学学，人工智能还是很热门的。认真学学也好。先不管你的啥啥产品了。耐住性子往下看。

看呀！看呀！一直没找到人工智能是怎么跟恶意加密流量对抗的。直到看到最后一段。终于看到“人工智能”这四个字了！

图5 人工智能与恶意加密流量的对抗

看过这段文字之后，终于明白了标题二所要表述的内容。原来是我想多了。其实这里只是要说明一句话：可以用人工智能与恶意加密流量进行对抗。这段看了跟没看一样的文字，真的堪称为废话中的经典，如果文字能换钱，这就是如何写出无意义文字的经典案例。

图6 人工智能可以与恶意加密流量对抗

这是一段即没有量化，又没有逻辑的废话。“人工智能算法赋予机器以专家的智慧”这是要换头吗？“机器可以获得媲美专家的能力”这是需要数据的，都是成年人，不能说这么没有责任的话好吗？

嗯，标题二也没有讲这个引擎。那么标题3总该讲讲了吧。不错！我猜对了。但是猜对了一半，是开始讲引擎了，但不是讲这个引擎如何如何，而是讲这个引擎的技术跑稀！跑稀！还没怎么就跑稀了！不是国内首个引擎嘛！先干点实事呗，上来就装病可不行呀！

随便你吧，你咋写我咋看，接着往下读：

文中将引擎的技术分为6步。第一步是“数据实时搜集”，看到“实时”我会想到再训练的相关事情。然而，文中没有对实时做任何介绍。怎么收集的也没有介绍，只是介绍了要收集什么数据。

图7 实时搜集数据

图7中可以看到。所有收集的数据全是加密通信数据。请问是如何区分这些数据，并进行收集的呢？是用你的那个“国内首个检测引擎”区分的吗？但是应该是先有了数据才有的引擎呀！如果在有引擎之前就可以区分这些数据了，那为啥还要做这个引擎呢？

要么就是人工来区分，如果人工进行区分的话，又怎么实现实时呢？要么就是该引擎的开发团队中，具有一个思维敏捷、玉树临风的分析师，他可以实时的对数据进行分类和收集！嗯。这么牛的引擎，应该会有这样的牛人存在！

另外文中用的是“搜集”！意味着收集数据的过程中，还有“搜”的动作存在！怎么搜？如何搜？或许这是该引擎不愿意公开的技术机密吧！感觉好高级啊！

看看第2步吧，数据的分析与处理

对着第1步来看，把实时“搜集”来的数据进行深度分析！然后再给模型进行训练。貌似时态有些混乱！一般来讲，AI系统会分为两种时态，训练时态和工作时态。工作时态直接使用训练好的模型进行工作，训练时态使用特定数据进行模型的生成。这个“国内首个引擎”居然合二唯一，而且是无缝结合，可见其团队中的分析师一定很牛，即深度分析的速度堪比实时的搜集速度。而且机器也很牛可以实时产出模型。哇！这套系统屌炸了！使用的量子计算机吗？运行得这么快。

图8 数据分析与处理

有点看不下去了，看人家的技术这么牛，做出的技术理论想都想不通，多少有些失落。跳过一步，往下看看感兴趣的特征工程吧。

图9 构建特征工程

终于看到一些有点共鸣的技术了，特征工程，降维可视化分析，嗯，非常好。可是文中指出用CNN、RNN算法来实现？这个怎么实现？

CNN是卷积网络,RNN是循环网络。其中CNN网络侧重于对空间特征数据的处理，善于发现数据中的局部空间特征，并且没有全局位置信息。RNN网络侧重于对时间序列特征数据的处理，善于发现由序列关系所产生的数据表征。但是二者在训练过程中，都需要与目标值进行损失计算才能优化其自身网络。需要配合有监督学习或无监督学习的具象化网络模型才能实现降维功能，并不是CNN或RNN对特征训练来实现的降维。

将加密流量特征化是很必要的做法，但是特征化之后直接就用CNN或RNN处理的话其实什么都得不到。况且CNN和RNN是神经网络模型，并不是算法！

如果降维处理，可以用卷积和反卷积搭建自编码网络，或RNN搭建seq2seq模型进行。也可以使用CNN或RNN搭建分类器模型，并取其顶层的倒数第二层向量当作低维特征。坦白说，作者可能已经并不知道我在说什么了。

读到这里大致知道文章的质量了，应该归类为一篇没有技术含量的吹牛文章。可是看标题明明是个产品介绍的文章呀！再往下看看吧。

第5步检测模型训练，这真的是一段让我愤怒的内容。

图10 检测模型训练

一上来就堆了一堆模型名称，一个不挨一个。真的想问问“国内首个引擎”的开发团队们，你们真明白它们是什么吗？都放在一起罗列，最后居然还能比较出来个结果。随机森林效果最好是吧？我姑且相信你们会用随机森林算法。那么线性回归呢？处理什么问题可以用线性回归来解决？线性回归是指输入和输出之间呈线性关系。如果加密流量的区分是个线性问题，那么是不是这“国内首个引擎”也就没技术含量了？

再看这个：神经网络（MLP），这里还有个错误。MLP是多层感知机，其实就是一个多层的全连接网络。它属于神经网络中的一种。多层全连接网络理论上可以拟合任意数据分布。但是取决于参数的配置。而且也有很多优化技巧，它不是一个固定的机器学习算法。一般在比较性能时，常常会用MLP搭建一个模型，比较该模型的性能， MLP是个概念没有具象化，请问你们怎么拿它去比较？扯呢！

还有这个：卷积神经网络（CNN），与MLP是一样的道理。CNN与MLP是可以比较的，但不是比较性能，而是比较网络结构的优缺点。在神经网络中，一个模型是由多个网络结构组成的，里面会含有CNN也会含有MLP，最终比较的是搭建好的模型，例如： ResNet、VGG等。

逻辑回归（LogReg），这是个模型的任务而不是模型，更谈不上效果比较了。逻辑归回是指将网络模型回归到一个具体的数上面，是个回归任务。与其相对应的还有分类任务。这东西放在一块比！怎么比！是不是在实时分析流量时压力太大，这些概念都分不清楚了！

最有意思的是该文章居然还放出来实际模型的训练截图，简直是惊天大雷！

图11 模型训练1

看到没，图11，千万别笑。人家用的是CPU！ CPU！没错就是CPU！太牛了！为什么会用CPU！是因为GPU太贵了吗？还是说样本太少了！样本数量6万多，迭代1次就达到95%以上，尼玛可以说这个实验很成功！这是在开发玩具模型吗？还是说这个模型超级的牛，用少量的数据就可以将模型训练好。并且模型的拟合度极高，6万多样本仅1次就能达到95%以上的正确率。这样的模型可以用于网络中的加密流量识别。我只能惊叹一下，加密流量的特征好明显啊，用个屁的人工智能。

下面的模型更是雷，如图12所示。训练1步准确率达到85%，训练50步准确率达到99%。最牛的是Loss值在不断的向负的方向延申，训练500步已经到-3140了！这是什么情况？ Loss值发飙了吗！

Loss是代表损失值的意思。是用来表述模型的计算结果与真实的目标结果间的差异。通过对这个差异值求关于网络参数的偏导数，来进行每个网络参数的调节。这也是模型的训练过程。这个Loss值的大小取决于损失函数的使用，一般会将其控制在0个1之间，以便模型每次训练的调整幅度不至于太大。现在这个值变得负方向越来越大。从表现上看，这是很不正常的现象。