自适应网络安全意识测评系统研究综述

论文精选

文章摘要:

为降低国民网络安全风险,提高人员网络安全意识水平,自适应网络安全意识测评系统作为测评领域的最新理论成果,结合了自然语言处理、知识图谱构建、基于认知诊断的自适应测试等前沿技术,是人工智能在测评领域的新应用,具有重大的现实意义和应用价值。本文阐述了测评系统的理论模型和各关键技术的研究发展现状。首先介绍了测评系统的模块框架构成,然后根据模块内容具体分析了主要研究问题、主流思想和研究进展等,剖析了现有方案的优势与不足,最后对技术的未来研究方向进行了展望。

文章节选

自然语言处理

自然语言处理,又称自然语言理解或“计算语言学”,是当前人工智能领域中较为重要研究方向,目的在于通过计算机自动理解并生成人类日常通用语言。自然语言处理技术在英语等规范语种的国家取得了相对成熟的应用,但中文语句因具有一词多义、一语双关等歧义特性,句子的深层语义分析、句法及语用分析难以达到理想效果。

2.1 基于语义文法的NLP

正文内容语义文法可用4元组G= (VT,VNT,S,R)表示,其中VT表示语义文法中的终结符,VNT表示语义文法中的非终结符,S表示语义文法的开始符集合,R表示语义文法中的确定型产生式集合。

语义文法描述语言的优势是可以提供语句中丰富的语义结构,为降低语义文法设计难度,PALOGIANNID等[8]利用众包收集文法学习所需的语料,通过设置不同模块收集语料并利用困惑度模型从语料中抽取质量较高的部分用于语义文法中的语义类学习。GEORGILADAKIS等[9]在学习Non-temimal型规则时融入了语义特征,在文法学习不同阶段融入数据驱动分析方法来提高文法学习的覆盖度。部分学者通过计算未识别文本段与已有文法规则的相似度,同已知规则相匹配,从而推理出新文法规则[10]。GASPERS等[11]采用弱监督方法来学习语义文法,并基于语料给规则赋予权重,着重考虑了语义理解系统,避免数据的错误传输。WANG等[12]在语义文法的训练中将关联领域知识融入到统计模型中辅助对语料的语义标注,从而可以大量减少训练语料。

人机交互过程中,输入的自然语言通常是不规范的,对NLP的鲁棒性、容错性提出了较高的要求。为解决自然语言的非规范输入,语义文法的解析过程可直接对输入的部分片段解析,生成解析树再被转化成语义框架,利用启发式规则进行整合。

2.2 基于机器学习的NLP

基于机器学习的NLP可以极大地降低文法设计复杂性,鲁棒性及可移植性较强,通常采用的机器学习方法如贝叶斯分类器、VSM模型构造分类器等,但因产生无层次的分类,不带有嵌入变元的结构,所以不适用于语句结构分析。

为提高语义理解的准确度和改善结构性问题,WU[13]提出了一种弱指导学习的限定领域自然语言处理方法,通过使用主题分类器识别语句的主题,再根据已经训练好的槽分类器从语句中提取出槽值序对,最终生成句子的语义表示。Psarologou[14]在前人研究的基础上,将HMMs与n元语法模型相结合来刻画自然语言,通过语料标注进行训练,实现了处理带嵌套语义结构的功能,进一步提高了语义层次的理解与识别。

2.3 基于规则与统计相结合的方法

基于文法规则的NLP能够获得语句的结构信息,基于统计方法容错性较高,对于某些领域来说使用单一的方法不能满足现实需求,所以通常将两类方法以不同的方式进行结合。

随着目前语言训练数据累积得越来越多,NLP系统主要以数据驱动方法为主。微软研究院 Wang等[15]提出了一种将统计模型与语义文法相结合的语言理解系统,该系统首先采用SVM和Naive Bayes等分类器识别用户的查询意图,再根据识别出的查询意图选择与其相关的文法对句子进行解析,并最终依据解析结果生成句子的语义表示。该方法充分结合了统计模型的鲁棒性以及语义文法能够生成复杂结构的特性。为克服领域训练语料不足的问题,WANG等[16]又通过将领域知识(领域专家定义的语义框架)与条件随机模型结合进行语义理解,提高了识别效果。

2.4 深度文本匹配

随着深度学习的快速发展,基于深度学习的自然语言处理逐渐受到重视。深度学习模型便于描述自然语言中的层次结构,直接从数据中学习并模拟出规则或特征以描述语言规律,提高处理精度[17]。

2.4.1 基于单语义文本表达

基于单语义的深度学习模型是通过将两个待匹配的对象经深度学习生成高维度稠密向量,用相似度度量两个对象的匹配度,一般可根据全连接神经网络、卷积神经网络和循环神经网络等继续划分。

深度语义结构模型[18]主要针对查询项和文档的匹配度进行建模。为提高语义判断的准确度,微软研究院提出了基于单词序列的卷积深度语义结构模型[19]。Hu等[20]提出了ARC-I模型,将句子表达为定长向量,拼接一个全连接的多层神经网络。Qiu等 [21]提出CNTN模型,使用张量神经网络作为相似度度量来建模两个文本向量之间的关系。为解决CNN深层匹配结构无法表达远距离依存关系和复杂语义的问题,Palangi等[22]提出基于长短时记忆(Long Short Term Memory,LSTM)的文本匹配模型,将查询项和文本表达成向量的形式,余弦距离计算相似度并输出匹配值。

单语义表达具有易于数据储存、计算速度快等优势,适合对存储和速度要求都比较高的任务。缺陷表现为:匹配不具备传递性,对局部化信息的有效性要求较高,压缩句子的过程中信息损失严重。

2.4.2 基于多语义文本表达

为解决单语义模型的缺陷,考虑文本的局部性表达和全局性表达以及向量的相似程度,多语义模型生成局部短语表达进行匹配。

Socher等[23]提出了一种递归神经网络,可伸展递归自动编码器uRAE,对两段文本进行句法分析并自动构建句法树,作为递归自动编码器树状连接的结构,通过匹配相似度矩阵表现匹配关系。Yin等[24]提出使用卷积神经网络分别得到不同层面的文本表达,将向量拼接或建模向量相似度得到最终的匹配值。因RNN在扫描句子的过程中能够从不同位置分别输出表达,Wan等[25]提出了多视角循环神经网络MV-LSTM,形成了由不同中心词产生的多个视角表达的集合,效果提高明显。

多语义文档表达丰富了语义信息,模型仍然有如下缺陷:依赖句法树算法的准确性难以保障,鲁棒性不足;无法区分局部化信息的重要性,因语言多义性难以整合局部和全局信息;仅对两个对象独立提取特征,难以捕获匹配中的结构信息。

2.4.3 直接建模匹配模式

直接建模匹配模式的深度学习模型,两段文本的匹配主要是关注关键词及其相对位置的匹配,再结合文本的语义对匹配程度进行评估。

主题深度匹配模型[26]包含局部匹配层和综合层两个部分,局部匹配层将输入的文本对表达为多个局部匹配结果,综合层是一个多层神经网络,将得到的局部匹配结果进一步综合并形成综合的最终匹配结果。树深度匹配模型[27]采用依存树作为文本的表示,每一个局部匹配模型都对应一个子树对,而匹配模型的输出取决于输入的句子对是否含有这两个子树对所表示的依存结构。

直接建模匹配模式初始将文本交互得到细粒度的匹配信息,避免了细节匹配信息丢失,但需要大量有监督文本匹配的数据训练,存在预测消耗资源大,难以单独计算文本的特征等缺陷。因此这类模型一般都是用于问答系统、对话系统等匹配程度高、句式变化复杂的任务。

文章结论

针对我国国民网络安全意识不强的现实性问题,网络安全意识测评系统应运而生,受到了各界的重视并逐步展开了深入研究。但测评系统在上述领域小结的基础上仍需注重并加强以下方向的研究。

1) 理论、模型的创新研究。技术的创新性研究往往需要科学的理论作为支持,测评系统的核心是知识系统的完善,当前网络安全领域仍需要进一步研究知识体系等框架性知识结构。网络安全意识测评系统的理论模型非本文所述的单一模型,故构建更为合理、高效的测评系统模型是理论创新与研究的重心。

2) 多领域模型的融合性研究。自然语言处理模型等,知识图谱技术的知识融合、推理模型等,针对不同应用领域存在着不同的优势和不足,因此自主选用不同模型或者相应模型的优势融合、跨领域模型等也是研究的重要方向。

3) 交叉学科的应用研究。本质上,自适应网络安全意识测评系统是交叉学科的应用研究,即融合以计算机教育学、网络安全、人工智能、计算语言学等多个领域的综合性系统研究,因此在关键技术研究时应加强多领域学科的知识融合,以完善整体系统。

4) 基于深度学习的数据挖掘。深度学习、迁移学习、加强学习等技术作为大数据处理的优势方法,应针对在文本匹配、参数估计、语义理解等关键技术上提高训练集和模板的准确性和训练效率。

原创内容,欢迎分享,转载请注明来源!谢谢

编辑排版:彭璟 实习:刘连喜

  • 发表于:
  • 原文链接:https://kuaibao.qq.com/s/20190117G0V4SP00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券