首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

安全:学术 vs 业界

既然已经开启话痨模式,那就话痨到底吧

2016年12月26日,我一脚从学术圈跨到了业界,开始了我三观坍塌再到重构的艰辛历程。首先声明一点,以下观点不特指任何人!

一、杀软的特征码,恶意代码相关论文基本必提的老梗。

很多学术论文中不管自己方法好不好都会讲这么一句类似的话(我也提到过):“特征码无法应对新出来的病毒,因此我们提出了……”。不用脸红,之所以我们论文也用这句话,无非是被其他论文作者带偏了,正所谓没有调查就没有发言权。

首先,为什么即使是目前的绝大多数杀软,仍然在采用特征码形式,主要两点,对用户系统的性能消耗小,检出效果明显,基本能应对流行的绝大多数恶意代码,再加上其他的一些检测点,即使是新出现的恶意代码也有很好的检出效果,当然特别新的高级的除外。

其次,学术论文中提到的方法,真的能取代特征码吗?依据我对恶意代码相关论文的了解(精读、泛读加起来不下600),Key idea也就两类,新的特征,新的分类方法(检测方法)。先看新的特征,说实在的,作者看的论文应该是足够了,但是看的专利还是太少,另外,要考虑为什么杀软厂商不用提到的新特征,是在客户端根本没法提还是本身就经受不住深入思考!再看新的方法,所有新的方法,基本都是机器学习,这里要问几个问题,杀软有没有机器学习方法,用的话在哪用了,没用的话为什么不用?有用ML没,其实很多杀软都用了,要知道搞杀软的也是业界极其聪明的一批人,有帮助他们减小工作量的工作和方法,他们不会不用。那么用到了哪,依据我的了解,绝大部分,用在了后台,也有一部分用在了客户端。在客户端用机器学习方法要解决两个问题,一个是特征提取,一个是误报,为了降低客户端的性能消耗,提取的特征大多是易于提取的特征,所以这里就限制了机器学习方法的发挥。对于误报,杀软厂商有相当简单有效的处理方法,哈哈,过白名单,要是在白名单里,那就不是黑的,要是不在且被机器学习模型判黑了,那至少是可疑的。

希望以上能够对从事恶意代码研究的学术界同仁有些启发,那就有了点价值!

二、机器学习,现在是人工智能,神化(话)!

例子同上,机器学习,是一个好技术好工具,但并不是万能的,这句话同样适用于现在火热的人工智能。在成熟产品的背后,除了ML、AI这个词之外,还应用了多少的或粗或精的技术,有多少人了解过呢!

举一个特别有趣的例子,有年是微软还是哪家厂商举办了一个病毒分类竞赛,给的是用IDA逆向后的汇编代码。IDA逆向后的汇编代码如下图所示,会带有一个路径,而厂商并未将这个路径清除,导致最后的冠军只通过学习大约100个字节就获得了最好的效果

所以说,机器学习有时候真的不知道它到底学了个什么玩意。用机器学习的时候,必须对其误报率有个很好的保障机制,就像杀软里的白名单,同时对机器学习判定的结果,后续必须有个可靠的解释机制,否则最后给出一个结果“80%的可能性认为blabla”,用户可能觉得好玩,客户不会买账的。

希望将来学术和产业界多些交流、沟通,进行优势互补。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180207G011CS00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券