目前,服务提供商通常会以人工的方式编写隐私政策,告知数据被共享、存储和使用的所有方式。在这种背景下,当一个新的服务推出时,隐私政策也要做相应的调整,同时要确保符合相关法律法规。因此许多服务提供商都试图开发一个自动政策维护的系统,通过NLP的相关技术,从政策文本中提取半结构化数据,在知识图谱中表示出来。然而实际上,隐私政策在大多数用户看来都非常模糊不清、难以阅读。在这篇论文中,作者设计了一个从隐私政策中提取影响其模糊性的特征的系统,对隐私政策模糊性水平进行分类,在OPP-115隐私政策语料库中大多数都是模糊的。并且作者在这篇论文中证明了,当隐私政策文本模糊不清时,基于NLP的提取方法难以得到准确的结果。
实验的数据集来自OPP-115(Online Privacy Policy)隐私政策语料库,包含115个网站的隐私政策文档,表3显示了数据集中8个特征的分布范围。
作者使用了人工分类、半监督聚类和SVM三种分类方式进行对比。因为有监督学习数据集标记工作量太大,因此在这一数据集上作者认为半监督聚类的方式是最佳的。表4显示了三种分类方式的结果对比,大多数的隐私政策文档都被认为是模糊、有歧义的。
进一步实验中作者将文本段落细分为7个类型,使用LR、SVM、CNN三种方式,对不同模糊程度的隐私政策文本段落进行分类,以评价这些分类器在不同模糊性的文本中的分类性能。
表中可以看出,三种分类器分类歧义性较大的文本时,平均F1分数仅为0.6左右,相比分类无歧义文本时下降了10%。因此可以证明,文本的歧义对于自然语言处理有着比较大的影响,从模棱两可的文本中提取结构化的政策规则,比从表达清晰的文本中提取困难得多。
原文作者:Anantaa Kotal, Anupam Joshi, Karuna Pande Joshi 原文标题:The Effect of Text Ambiguity on creating Policy Knowledge Graphs 原文链接:https://ebiquity.umbc.edu/file_directory/papers/1107.pdf 原文来源:IEEE International Conference on Big Data and Cloud Computing (BDCloud 2021) 笔记作者:2rrrr@SecQuan 文章小编:bight@SecQuan 文章翻译:安全学术圈