SEVENLLM | 网安事件分析大模型的训练与评测

公众号-arXiv每日学术速递

发布于 2024-05-31 21:04:46

2420

发布于 2024-05-31 21:04:46

摘要

网络威胁情报（Cyber Threat Intelligence, CTI）在现代网络安全领域日益重要，为了提高安全人员安全事件分析能力，文章提出一个用于基准测试、引导和改进LLMs（Large Language Models, 大语言模型）在安全事件分析和响应方面的能力的框架（SEVENLLM）。并通过收集网络安全网站的大量网络安全原始文本，构建了高质量双语多任务指令语料库SEVENLLM-Instruct，用于训练具备多任务学习目标（包括28个精心设计的任务）的网络安全LLMs。

构造的基准测试（SEVENLLM-Bench）的大量实验结果表明SEVENLLM能够进行更复杂的威胁分析，并强化对不断演变的网络威胁的防御能力。

原文链接：https://arxiv.org/abs/2405.03446

代码链接：https://github.com/CSJianYang/SEevenLLM

一、介绍

PART 01

网络安全厂商Comcast Business发布的《2022年网络威胁态势报告》中复杂的网络态势和专业的网络安全术语给当前网络安全专业从业人员和情报分析人员带来了更大的挑战，并且基于传统人工智能分析方法难以获取规整的语料和专业的背景知识。

大型语言模型（LLMs）在理解和生成基于语言的内容方面带来了革命性变化，通过指令调优领域的特定LLMs进一步提升了特定领域的能力，如代码和数学。

对于CTI，目前还没有包含指令语料库、领域特定LLMs和评估基准的全面工作。文章通过构建大量网络安全事件报告的双语（英文和中文）语料库，解决了安全事件分析高质量、任务特定数据集的稀缺性。使用构造的数据集得到微调后的SEVENLLM与强大的通用LLM GPT-3.5相比能够在参数量级更少的情况下，提供更完整和专业的响应，体现出领域特定LLM对于CTI的重要性。

文章的贡献主要有以下几点：

1、创建高质量双语多任务指令语料库SEVENLLM-Instruct，解决CTI数据稀缺问题，增强数据集在现实场景中的实用性和相关性。

2、基于开源基础LLMs，使用SEVENLLM-Instruct微调针对网络威胁情报定制的SEVENLLM，能够简化分析过程，减少对人类专家的依赖，从而加速并增强分析师在威胁识别和响应方面的能力。

3、构建评估基准SEVENLLM-Bench，填补了网络威胁情报评估的空白。同时结合多种方法综合评估LLMs在网络安全背景下的性能。

二、方法

PART 02

方法介绍：首先使用LLM（GPT-4）生成候选任务，然后由人类专家根据安全组织和机构（如MITRE和OASIS CTI TC）提出的威胁情报分析标准和关注信息修正任务，形成任务池。给定网络安全原始文本后，提示LLM从任务池中选择合适的任务，同时生成所选任务的查询和响应，使用Select-Instruct生成指令语料库SEVENLLM-Instruct。根据不同基础模型定制的开源LLMs在SEVENLLM-Instruct上进行多任务学习微调。通过构建SEVENLLM-Bench有效评估SEVENLLM在网络威胁情报方面的表现，从而弥合通用领域和网络安全领域在理解和生成方面的差异。

2.1

数据集构建

Select-Instruct 为提高生成数据集的质量和价值，研究人员针对网络安全事件分析任务改进了Self-Instruct方法。首先，输入原始语料库，并使用精心设计的提示，使LLM能够从任务池中选择指定数量和格式的任务，生成任务种子。然后，输入任务种子和原始语料库，要求LLM根据任务从语料库中提取有价值的部分，生成指令和相应回答。

SEVENLLM-Instruct&SEVENLLM-Bench 在构建训练和测试数据集时文章将网络安全事件分析任务分为两大类28个子类。一类是理解类任务，属于强定义任务。主要目的是将网络安全事件中的非结构化数据转化为结构化数据，进行关键要素信息的提取，包括的子类任务有恶意软件特征提取 (Malware Feature Extraction)、加解密算法识别 (Encryption-Decryption Algorithm Identification)等；另一类是生成类任务，属于弱定义任务。主要目的是快速分析和应用网络安全事件信息，包括的子类任务有攻击意图分析 (Attack Intent Analysis)、防护策略研究 (Protection Strategy Research)等。构建针对各类任务的训练数据集有90000余条，构建选择题和问答题共1300条作为测试数据集，每一条测试集都经过人类专家的校对，保证测试结果的准确性和有效性。

2.2

模型微调

文章选择了在中英文能力上表现杰出的Llama-2和Qwen-1.5作为模型基座，并针对20B以下的量级进行微调。思维链构建被证实是一种有效的激发模型生成能力的方式，文章在微调的过程中加入这一思想，引导模型通过思考来优化处理网络安全事件分析能力，为了能够对不同量级不同方法进行评估，文章设置了统一的训练参数。

同时随机选择{1k，2k，10k，50k，...，ALL }的样本进行训练，分析数据集量级对模型效果的影响，对训练结果逐一评分。

2.3

模型能力评估

基于匹配相似性评分 使用 Rouge-L 来评估 LLM 的输出和测试集结果的相似性来评分，英文用空格分词，中文用 jieba 分词。

基于语义相似性评分 使用支持多语言的multilingual sentence-transformers model文本映射到 384 维密集向量空间，用于诸如聚类或语义搜索之类的任务，从而评估测试词典中的值是否可以从语义理解的角度进行评分。

基于GPT4评分 采用5分制，使用GPT4对训练后的模型的答案做评分，要求gpt对结果的准确性、相关性和价值性进行打分，并在没有给出满分时需要给出一个优化的结果。

基于选择题评分 针对两种语言和两大类任务设计 100 道选择题，以全面评估模型对网络安全事件专业领域的理解和推理能力。输出结果经过人工验证，以确保有效评估模型处理客观题的能力。

基于人类专家评分 请三位相关领域专家按照五分制对SEVENLLM和Llama-2-Chat生成的结果进行评分。

三、实验结果

PART 03

基于设计的大量实验表明SEVENLLM对网络安全事件分析能力有了较大提升，在模型的非主流语言上更加明显。同时发现，SEVENLLM-Instruct训练后的模型即使在较小的参数量级下也可以具备强于较大量级通用大模型的能力，可用于针对该任务的轻量化部署和快速应用。如下表展示了基于GPT-4的评分结果，文章的工作对大模型在网络安全事件分析和应用领域的研究提供一定参考。