AVAR 2017 之感悟

12 月 6 日 ,以“不忘初心——对抗日益严重的网络犯罪”为主题的第二十届亚洲反病毒大会 (AVAR 2017) 在京召开,来自全球 20 多个国家和地区的 200 多位顶级专家学者汇聚一堂,共议反病毒前沿技术及发展趋势。

依我的看法,反病毒的工作以后会越来越依赖三样东西:互联网、大数据和人工智能。病毒和反病毒本身就是一正一反的两个面,大家也在不断地借鉴对方的新技术、新趋势、新的发展方向,魔高一尺道高一丈的情况会继续演绎下去,只是看哪一边走的更快一些,在短期内获得更大的主动权。

会议中,腾讯的马斌发表名为《开放、共享、共建 数字经济时代的网络安全》主题演讲。他指出,伴随着互联网与现实世界的不断融合,人工智能技术的应用拓宽,网络安全领域的研究要实现思维升级,网络安全人才的培养要实现知识升级,网络安全概念的普及要实现认知进化,由此才能从容应对数字经济下的网络安全展趋势。

瑞星安全研究院院长叶超则表示,瑞星一直以来都致力于 AI 技术的研究与落地,早在2012年瑞星就开始探索机器学习在反病毒中的应用,基于指令流的 Malware-Crypter 识别、PDF Exploits 识别,同年,瑞星又尝试了基于决策树的恶意软件识别方案。

2016 年,瑞星根据之前应用机器学习获得的经验,研发了高维度、大规模的基于随机森林的 Windows 恶意软件识别引擎 - RDM+。高维度特征提取自文件结构、内容以及分析,训练样本达数千万。

坊间常说,“数据和特征决定了机器学习的上限。模型和算法只是逼近这个上限而已”。瑞星在研发RDM+时,主要的工作放在了特征工程上,设定了 4778 维的特征向量,这些特征来自文件基本指标、编译器分析、异常节表分析、PE 结构各指标、关键数据熵、指令流及指令流分析以及代码数据分析。

上次老庄参加 AVAR 会议还是在 2007 年,在韩国首都首尔认识了包括金山、江民、安博士、K7、ESet等一大群反病毒行业的同行,当时大家谈论的焦点还在于如何识别变形病毒,如何实现快速的家族病毒处理,如何运用虚拟机来分辨病毒。当年的ESet的模式匹配算法给我印象深刻。

今年的 AVAR 会议上,可以看到大家的研究都在向大数据分析,人工智能、深度学习等方向延伸。无论是有互联网基因的腾讯还是老牌的反病毒厂商瑞星,在这些领域上都进行了深入的研究并开始和自身业务结合。

谈到大数据,就不能不介绍一位好友:赵国栋(中关村大数据产业联盟秘书长、北京大数据研究院副院长)。早在2014年,我们两家一起去海南度假时,一整晚的闲聊,让我获益匪浅,真正认识到大数据的魅力和力量,也对老赵渊博的知识,清晰的思路、卓越的理念及敏锐的直觉钦佩不已。

在此之前,自己觉得对大数据也还算是有些了解,对大数据的认识限于:对很多很多的数据进行标准化、清洗后,根据业务进行分析,得出一些潜在或者隐含的结论。

被老赵扫盲后,突然发现原来搭建一个大数据分析平台其实并不难,难就难在如何和现有的业务相结合,获得现有业务无法获取或很难获取到结论。收集到的大数据,不仅需要进行简单的数据分析,更需要懂得业务相关专业知识的人员,建立在专业知识基础上的分析模型。这就需要一批既了解大数据理念,又熟悉自身行业的专业知识人员。现在市面上绝大多数的“大数据”公司,都是通过 Hadoop 、MapReduse、Spark 等工具来搭建个大数据平台,然后利用别人的数据来生成一些“有用”的结论,轻易赚个盆满钵满,和真正的要求相差较远,这也是近几年来,大家对“大数据”诟病的一点。私下认为:大数据中最值钱的就是【大数据】,其次是【模型】,中间的联系就是最重要的【专业知识】。

在我看来,人工智能无法脱离深度学习,深度学习无法脱离分析模型,而分析模型的建立还是脱离不开大数据的支持,至少短期内是不会发生太大变化的(不知道短期内,Google会不会弄出个创造人工智能的人工智能)。

反病毒行业应把人工病毒处理的方法和经验整理出来,把大量的病毒样本和判断方法导入大数据,通过大数据来分析活跃病毒的行为特征、文件特征、网络特征,获得病毒识别的新方法、新模型。利用新的识别方法和现有的分析方法进行比对,不断调整模型,进行深度学习。

另外一个方向应该是充分利用互联网,监听互联网上的网络传输特征包,通过大数据分析出病毒网络数据特点的时候,自动获取样本,加入数据分析及病毒判断处理。一旦能够确认是病毒的情况,可以自动进行病毒库的更新,快速抵御病毒的侵袭。

从今年AVAR会议的报告内容上来看,无论是大数据还是人工智能分析,都对反病毒技术产生了促进作用。我们期盼着,也许真的有一天,能够像瑞星的叶超介绍的那样:反病毒工程师能够脱离繁重的体力劳动,能够真正做到比病毒快那么一点点。相信最终总有一天,通过大数据的识别方法能够超越现有分析的数据和准确率,让我们能够真正享用安全的计算机环境。

关注信息安全,关注老庄(^_^ )

本文来自企鹅号 - 梦蝶老庄媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏ThoughtWorks

超越SAFE,创新需要EDGE|TW洞见

肖然 ThoughtWorks EDGE(边缘)和SAFE(安全)这两个短语在字面上给人的感觉是截然不同的。在没有具体上下文时,我相信大部分的人会选择“安全”,...

2455
来自专栏CDA数据分析师

面对毫无基础的业务人员,好的分析师解释逻辑,而不是细节

“每天一个数据分析师”新一期内容奉上,请享用~ 人物档案 谢宇,中国联通广西分公司的大数据负责人,有超过7年的电信行业数据挖掘经验,目前主要负责大数据应用规划、...

1767
来自专栏大数据文摘

智能的过去和未来,谢耘演讲实录

1838
来自专栏大数据文摘

业界 | 别跟风了!你的公司根本不需要数据科学家

数据科学家不是魔法师,当所需的数据不可得或者质量很差的时候,数据科学家能做的很有限,这已经超过了技术的范畴。企业管理者如果能从全局出发部署数据战略,才能真正解决...

670
来自专栏大数据文摘

警惕大数据中的“陷阱”

1373
来自专栏人工智能头条

未来5-10年,自然语言处理将走向成熟

713
来自专栏PPV课数据科学社区

【观点】智能的过去和未来,谢耘演讲实录

在日前的中关村创业讲坛上,神州数码首席科学家谢耘对人工智能进行了主题演讲;在演讲时,谢耘分享了人工智能研究的几个阶段,并表示,随着让计算机运算的速度越算越快,I...

2656
来自专栏大数据挖掘DT机器学习

为什么“高大上”的算法工程师变成了数据民工?

算法与算法工程师 在知乎里回答“做算法工程师是一种怎样的体验?”的答案(其中的思想并非原创,而是山寨自新加坡某大学一门Quantitative Investme...

7269
来自专栏量子位

微软推出AI打游戏大赛:比的是在Minecraft里合作

李林 编译整理 量子位·QbitAI 出品 微软举办了一项比赛,想借此让研究人工智能的PhD们开发一个乐于合作的AI出来。具体的比赛形式呢,就是给AI随机分配几...

2654
来自专栏PPV课数据科学社区

【每天一个数据分析师】面对毫无基础的业务人员,好的分析师解释逻辑,而不是细节

论坛君 “每天一个数据分析师”在第七期有幸采访到谢宇先生,他是中国联通广西分公司的大数据负责人,有超过7年的电信行业数据挖掘经验,目前主要负责大数据应用规划、基...

3487

扫码关注云+社区