《当人工智能遇上安全》系列博客将详细介绍人工智能与安全相关的论文、实践,并分享各种案例,涉及恶意代码检测、恶意请求识别、入侵检测、对抗样本等等。只想更好地帮助初学者,更加成体系的分享新知识。该系列文章会更加聚焦,更加学术,更加深入,也是作者的慢慢成长史。换专业确实挺难的,系统安全也是块硬骨头,但我也试试,看看自己未来四年究竟能将它学到什么程度,漫漫长征路,偏向虎山行。享受过程,一起加油~
前一篇文章普及了基于机器学习的入侵检测和攻击识别。为了更好的帮助大家从事安全领域机器学习和深度学习(AI+安全)相关的研究,这篇文章将分享安全相关的数据集供大家下载和实验,包括恶意URL、流量分析、域名检测、恶意软件、图像分类、垃圾邮件等,也欢迎大家留言推荐数据集供我补充。基础性文章,希望对您有所帮助~
文章目录:
作者的github资源:
作者作为网络安全的小白,分享一些自学基础教程给大家,主要是在线笔记,希望您们喜欢。同时,更希望您能与我一起操作和进步,后续将深入学习AI安全和系统安全知识并分享相关实验。总之,希望该系列文章对博友有所帮助,写文不易,大神们不喜勿喷,谢谢!如果文章对您有帮助,将是我创作的最大动力,一起加油喔!
KDD CUP 99 dataset 是KDD竞赛在1999年举行时采用的数据集。1998年美国国防部高级规划署(DARPA)在MIT林肯实验室进行了一项入侵检测评估项目收集而来的数据,其竞争任务是建立一个网络入侵检测器,这是一种能够区分称为入侵或攻击的“不良”连接和“良好”的正常连接的预测模型。该数据集包含一组要审核的标准数据,其中包括在军事网络环境中模拟的多种入侵。
数据文件包括:
kddcup.names 功能列表。
kddcup.data.gz 完整数据集(18M; 743M未压缩)
kddcup.data_10_percent.gz 10%的数据集(2.1M; 75M未压缩)
kddcup.newtestdata_10_percent_unlabeled.gz(1.4M; 45M未压缩)
kddcup.testdata.unlabeled.gz (11.2M; 430M未压缩)
kddcup.testdata.unlabeled_10_percent.gz (1.4M; 45M未压缩)
corrected.gz 正确标签的测试数据
training_attack_types 入侵类型列表
typo-correction.txt 关于数据集中的简要说明
推荐作者文章:
HTTP DATASET CSIC 2010 包含已经标注过的针对Web服务的请求。该数据集由西班牙最高科研理事会 CSIC 在论文 Application of the Generic Feature Selection Measure in Detection of Web Attacks 中作为附件给出的,是一个电子商务网站的访问日志,包含 36000 个正常请求和 25000 多个攻击请求。异常请求样本中包含 SQL 注入、文件遍历、CRLF 注入、XSS、SSI 等攻击样本。其中,下载地址已经为我们分类好了训练用的正常数据,测试用的正常数据,测试用的异常数据。
推荐文章:
honeypot 是由多种类型的蜜罐采集回来的数据,主要是WEB请求,约99万条数据。由于没有分类和规整,需要自己数据清洗,也可以用作校验模型的数据。
Masquerading User Data 是Matthias Schonlau 教授通过正常数据构造出来用于训练和检测 Masquerading User攻击的数据集。内部攻击者分为两种,一种是内鬼[Traitor],一种是窃取了身份凭证的正常用户的伪装者[Masquerading User]。由于是构造出来的数据,缺乏实际攻击的真实性,在一定程度上,训练出来的模型会存在一定的过拟合。
ADFA IDS Datasets 是澳大利亚国防大学发布的一套关于HIDS的数据集。分为linux(ADFA-LD)和window(ADFA-WD)。
DGA 正常域名和可疑域名检测,主要用于DGA的检测。这里直接用Alexa Top 100W 作为正常域名,用其他的开放的DGA数据作为黑样本。
Webshell数据集 是github有一个比较多样本的收集,涵盖了很多的语言。
auth.log 主要是都是登录失败的日志 适合用作判断是爆破登录还是正常的输错密码
malicious-URLs 在Github上面一个 使用机器学习去检测恶意URL的项目 ,里面有一个训练集,有做标记是正常的URL还是恶意的URL
推荐作者文章:
在github上有一个叫 Security-Data-Analysis 的项目,里面有4个实验室,每个实验室的数据都不一样,包含http、连接记录、域名、host等等。
MCFP 是捷克理工大学用于捕抓恶意软件的而抓去的网络流量,里面的数据非常多,有他们自己分析出来的恶意流量,也有所有的流量,包括网络文件、日志、DNS请求等。
MalwareDB 包含了恶意软件列表 hash检测结果,所属域名等数据。
非常棒的两个数据集,APT样本HASH值和APT报告。
下载推荐:
Sort_1000pics数据集 包含了1000张图片,总共分为10大类,分别是人(第0类)、沙滩(第1类)、建筑(第2类)、大卡车(第3类)、恐龙(第4类)、大象(第5类)、花朵(第6类)、马(第7类)、山峰(第8类)和食品(第9类),每类100张。
通常会将所有各类图像按照对应的类标划分至“0”至“9”命名的文件夹中,如图所示,每个文件夹中均包含了100张图像,对应同一类别。
比如,文件夹名称为“6”中包含了100张花的图像,如下图所示。
推荐作者文章:
MNIST数据集 是手写体识别数据集,也是入门级的计算机视觉数据集。MNIST图片数据集包含了大量的数字手写体图片,如下图所示,我们可以尝试用它进行分类实验。该数据集在对抗样本和AI安全论文中也很常见。该数据集共包含三部分:
MNIST数据集中的一个样本数据包含两部分内容:手写体图片和对应的label。这里我们用xs和ys分别代表图片和对应的label,训练数据集和测试数据集都有xs和ys,使用mnist.train.images和mnist.train.labels表示训练数据集中图片数据和对应的label数据。如下图所示,它表示由28x28的像素点矩阵组成的一张图片,这里的数字784(28x28)如果放在我们的神经网络中,它就是x输入的大小,其对应的矩阵如下图所示,类标label为1。
推荐作者文章:
SpamBase数据集 入门级垃圾邮件分类训练集,其包含57个属性和4601个实例,该数据集主要用于垃圾邮件的识别分类,其中垃圾邮件的资源均来自于邮件管理员和提交垃圾邮件的个人,其可被用于构建垃圾邮件过滤器。该数据集由惠普实验室于1999年7月发布,主要发布人有Mark Hopkins、Erik Reeber、George Forman和Jaap Suermondt。另一个垃圾邮件数据集是 Enron。
xBD数据集 是迄今为止第一个建筑破坏评估数据集,是带注释的高分辨率卫星图像的规模最大、质量最高的公共数据集之一。该数据集包含22068张图像,均是1024x1024的高分辨率卫星遥感图像,标记有19种不同的事件,包括地震、洪水、野火、火山爆发和车祸等。这些图像包括了灾前、灾后图像,图像可用于构建定位和损伤评估这两项任务。
总结
学习安全或深度学习数据集是第一步,可能很多同学会受到数据集的困扰,真心希望这些数据集对您有所帮助,也欢迎大家继续补充新的数据集。作者后续会整理这些年抓取的文本数据以开源,供大家进行文本挖掘或NLP研究。
同时感觉自己要学习的知识好多,也有好多大神卧虎藏龙,开源分享。作为初学者,我和他们有很大差距,但不论之前是什么方向,是什么工作,是什么学历,我都会朝着这个目标去努力!有差距不可怕,我们需要的是去缩小差距,去战斗,况且这个学习的历程真的很美,AI和安全真的有意思,共勉~