文本歧义在隐私政策知识图谱构建中的影响

C4rpeDime

发布于 2021-09-07 10:52:42

7890

发布于 2021-09-07 10:52:42

文章被收录于专栏：黑白安全

介绍

目前，服务提供商通常会以人工的方式编写隐私政策，告知数据被共享、存储和使用的所有方式。在这种背景下，当一个新的服务推出时，隐私政策也要做相应的调整，同时要确保符合相关法律法规。因此许多服务提供商都试图开发一个自动政策维护的系统，通过NLP的相关技术，从政策文本中提取半结构化数据，在知识图谱中表示出来。然而实际上，隐私政策在大多数用户看来都非常模糊不清、难以阅读。在这篇论文中，作者设计了一个从隐私政策中提取影响其模糊性的特征的系统，对隐私政策模糊性水平进行分类，在OPP-115隐私政策语料库中大多数都是模糊的。并且作者在这篇论文中证明了，当隐私政策文本模糊不清时，基于NLP的提取方法难以得到准确的结果。

隐私政策文本模糊性特征

词义不精确的单词频率：英语中某些单词本身的词义是不精确的，如"generally", "typically"等。表1中显示了作者定义的所有不精确词汇，将这些单词的出现次数除以总词数来计算不精确单词频率。

连接词使用频率：连接词用于连接英语中的从句或句子，但过度使用连接词会增加文档的复杂性。表2是作者分类出的连接词，同样通过单词的出现次数除以总词数计算连接词的使用频率。

多义词出现频率：政策文件应当表述清晰，使用含义明确的词汇。如"execution"就是一个多义词，可以表示“履行义务”或“签署文件”，如果上下文没有进一步的说明，就很可能产生歧义。作者使用Wordnet词汇数据库来对这类多义词进行标记，并计算多义词的出现频率。
可读性分数：隐私政策应当有较高的可读性。目前许多语言学家开发了文本的可读性测试方法，大多数的方法都是基于更长的单词、句子更难阅读的观点。作者采用了Dale-Chall可读性公式来衡量阅读文本时面临的困难，其中包含了一个3000单词的“美国四年级学生词汇”列表，所有其他不在列表内的单词都被认为是"difficult word"。

标点符号的使用频率：与连接词类似，过度使用标点符号会增加文本的复杂性，降低可读性。因此将标点符号的频率作为评价模糊性的指标之一。
首字母缩略词的频率：首字母缩略词的合理使用能够缩短文本长度，方便记忆。但过度的使用或没有正确的定义，读者可能无法理解，也会使文本变得复杂，因此将其作为衡量指标之一。
拼写错误的单词：保持拼写正确对于书面文档的质量至关重要，作者使用python拼写检查器查找文本中拼写错误的单词，同时剔除专有名词，计算拼写错误单词的出现频率。
语法正确性：与单词拼写正确类似，语法的正确性也需要得到保证。作者同样用python的语言检查库，统计语法错误的句子出现频率。

实验

实验的数据集来自OPP-115(Online Privacy Policy)隐私政策语料库，包含115个网站的隐私政策文档，表3显示了数据集中8个特征的分布范围。

作者使用了人工分类、半监督聚类和SVM三种分类方式进行对比。因为有监督学习数据集标记工作量太大，因此在这一数据集上作者认为半监督聚类的方式是最佳的。表4显示了三种分类方式的结果对比，大多数的隐私政策文档都被认为是模糊、有歧义的。

进一步实验中作者将文本段落细分为7个类型，使用LR、SVM、CNN三种方式，对不同模糊程度的隐私政策文本段落进行分类，以评价这些分类器在不同模糊性的文本中的分类性能。

表中可以看出，三种分类器分类歧义性较大的文本时，平均F1分数仅为0.6左右，相比分类无歧义文本时下降了10%。因此可以证明，文本的歧义对于自然语言处理有着比较大的影响，从模棱两可的文本中提取结构化的政策规则，比从表达清晰的文本中提取困难得多。

原文作者：Anantaa Kotal, Anupam Joshi, Karuna Pande Joshi 原文标题：The Effect of Text Ambiguity on creating Policy Knowledge Graphs 原文链接：https://ebiquity.umbc.edu/file_directory/papers/1107.pdf 原文来源：IEEE International Conference on Big Data and Cloud Computing (BDCloud 2021) 笔记作者：2rrrr@SecQuan 文章小编：bight@SecQuan 文章翻译：安全学术圈

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

如有侵权请联系 cloudcommunity@tencent.com 删除

python