前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >文本歧义在隐私政策知识图谱构建中的影响

文本歧义在隐私政策知识图谱构建中的影响

作者头像
C4rpeDime
发布2021-09-07 10:52:42
7600
发布2021-09-07 10:52:42
举报
文章被收录于专栏:黑白安全黑白安全

介绍

目前,服务提供商通常会以人工的方式编写隐私政策,告知数据被共享、存储和使用的所有方式。在这种背景下,当一个新的服务推出时,隐私政策也要做相应的调整,同时要确保符合相关法律法规。因此许多服务提供商都试图开发一个自动政策维护的系统,通过NLP的相关技术,从政策文本中提取半结构化数据,在知识图谱中表示出来。然而实际上,隐私政策在大多数用户看来都非常模糊不清、难以阅读。在这篇论文中,作者设计了一个从隐私政策中提取影响其模糊性的特征的系统,对隐私政策模糊性水平进行分类,在OPP-115隐私政策语料库中大多数都是模糊的。并且作者在这篇论文中证明了,当隐私政策文本模糊不清时,基于NLP的提取方法难以得到准确的结果。

隐私政策文本模糊性特征

  1. 词义不精确的单词频率:英语中某些单词本身的词义是不精确的,如"generally", "typically"等。表1中显示了作者定义的所有不精确词汇,将这些单词的出现次数除以总词数来计算不精确单词频率。
  1. 连接词使用频率:连接词用于连接英语中的从句或句子,但过度使用连接词会增加文档的复杂性。表2是作者分类出的连接词,同样通过单词的出现次数除以总词数计算连接词的使用频率。
  1. 多义词出现频率:政策文件应当表述清晰,使用含义明确的词汇。如"execution"就是一个多义词,可以表示“履行义务”或“签署文件”,如果上下文没有进一步的说明,就很可能产生歧义。作者使用Wordnet词汇数据库来对这类多义词进行标记,并计算多义词的出现频率。
  2. 可读性分数:隐私政策应当有较高的可读性。目前许多语言学家开发了文本的可读性测试方法,大多数的方法都是基于更长的单词、句子更难阅读的观点。作者采用了Dale-Chall可读性公式来衡量阅读文本时面临的困难,其中包含了一个3000单词的“美国四年级学生词汇”列表,所有其他不在列表内的单词都被认为是"difficult word"。
  1. 标点符号的使用频率:与连接词类似,过度使用标点符号会增加文本的复杂性,降低可读性。因此将标点符号的频率作为评价模糊性的指标之一。
  2. 首字母缩略词的频率:首字母缩略词的合理使用能够缩短文本长度,方便记忆。但过度的使用或没有正确的定义,读者可能无法理解,也会使文本变得复杂,因此将其作为衡量指标之一。
  3. 拼写错误的单词:保持拼写正确对于书面文档的质量至关重要,作者使用python拼写检查器查找文本中拼写错误的单词,同时剔除专有名词,计算拼写错误单词的出现频率。
  4. 语法正确性:与单词拼写正确类似,语法的正确性也需要得到保证。作者同样用python的语言检查库,统计语法错误的句子出现频率。

实验

实验的数据集来自OPP-115(Online Privacy Policy)隐私政策语料库,包含115个网站的隐私政策文档,表3显示了数据集中8个特征的分布范围。

作者使用了人工分类、半监督聚类和SVM三种分类方式进行对比。因为有监督学习数据集标记工作量太大,因此在这一数据集上作者认为半监督聚类的方式是最佳的。表4显示了三种分类方式的结果对比,大多数的隐私政策文档都被认为是模糊、有歧义的。

进一步实验中作者将文本段落细分为7个类型,使用LR、SVM、CNN三种方式,对不同模糊程度的隐私政策文本段落进行分类,以评价这些分类器在不同模糊性的文本中的分类性能。

表中可以看出,三种分类器分类歧义性较大的文本时,平均F1分数仅为0.6左右,相比分类无歧义文本时下降了10%。因此可以证明,文本的歧义对于自然语言处理有着比较大的影响,从模棱两可的文本中提取结构化的政策规则,比从表达清晰的文本中提取困难得多。

原文作者:Anantaa Kotal, Anupam Joshi, Karuna Pande Joshi 原文标题:The Effect of Text Ambiguity on creating Policy Knowledge Graphs 原文链接:https://ebiquity.umbc.edu/file_directory/papers/1107.pdf 原文来源:IEEE International Conference on Big Data and Cloud Computing (BDCloud 2021) 笔记作者:2rrrr@SecQuan 文章小编:bight@SecQuan 文章翻译:安全学术圈

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 介绍
  • 隐私政策文本模糊性特征
  • 实验
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档