我正在寻找一个有标签的日志文件的数据集网络安全问题。当我试图建立一个网络安全日志分析模型时,对日志的类型没有偏好,但是数据中存在已知的网络安全问题。
目前,我所能找到的所有日志数据集(HDFS,BGL)都有异常,这些异常不是网络安全问题,而是执行流错误。此外,我还发现了大量的网络数据,比如在https://vizsec.org/data/中,但是它们包含网络流量而不是日志。此外,我还发现日志数据集实际上存在网络安全问题,但它们的数量太少,无法对模型进行培训。
还应该知道,如何能够大量地生成这样的数据集。
发布于 2020-09-15 16:50:35
参考你发现的小数据,要么增加它,要么在上面应用交叉验证。
否则在https://datasetsearch.research.google.com/中查找您期望的数据
发布于 2020-09-15 16:56:50
看看能不能帮上忙- 公开可用的数据集
此外,如果您没有足够的数据,也可以使用SMOTE技术。
https://datascience.stackexchange.com/questions/81737
复制相似问题