我最近使用了DARPA网络流量数据包及其在KDD99中用于入侵检测评估的派生版本。
请原谅我有限的计算机网络领域知识,我只能从DARPA数据包头中获得9个特征。而不是KDD99中使用的41个特性。
我打算继续我在UNB ISCX入侵检测评估DataSet上的工作。但是,我想从pcap文件中派生出KDD99中使用的41个特性,并将其保存为CSV格式。有没有一种快速/简单的方法来实现这一点?
发布于 2012-12-30 20:02:23
请小心使用此数据集。
http://www.kdnuggets.com/news/2007/n18/4i.html
以下是一些摘录:
人工数据是使用封闭网络、一些专有网络流量生成器和手动注入攻击生成的
在提出的问题中,最重要的似乎是没有执行任何验证,以表明DARPA数据集实际上看起来像真实的网络流量。
2003年,马奥尼和陈构建了一个简单的入侵检测系统,并将其与DARPA的tcpdump数据进行对比。他们发现了许多不规则性,包括--由于数据的生成方式--所有恶意数据包的TTL都是126或253,而几乎所有良性数据包的TTL都是127或254。
DARPA数据集(通过扩展,KDD Cup '99数据集)从根本上被破坏,并且人们无法从使用它们运行的任何实验中得出任何结论
我们强烈建议(1) 所有研究人员停止使用KDD Cup '99数据集
至于所使用的特征提取。IIRC大多数特征只是解析的IP/TCP/UDP报头的属性。例如端口号、IP最后一个八位字节以及一些分组标志。
因此,这些发现不再反映现实的攻击。今天的TCP/IP协议栈比创建数据集时要强大得多(),在那个时候,“死亡ping”会立即锁定一台windows主机。到目前为止,TCP/IP堆栈的每个开发人员都应该意识到这种格式错误的数据包的风险,并针对此类情况对堆栈进行压力测试。
有了这些,这些功能就变得几乎没有意义了,。不正确设置的SYN标志等不再用于网络攻击;这些攻击更加复杂;并且很可能不再攻击TCP/IP堆栈,而是在下一层上运行的服务。因此,我不会费心去找出在那个99年的有缺陷的模拟中使用了哪些低级包标志,使用的是90年代初有效的攻击……
https://stackoverflow.com/questions/14090121
复制相似问题