专栏首页arxiv.org翻译专栏一个用于Android隐私政策文档结构分析的语料库(CS CY)
原创

一个用于Android隐私政策文档结构分析的语料库(CS CY)

随着移动设备的日益普及和移动应用的广泛应用,隐私问题逐渐受到关注。隐私政策作为一种表明法律条款的适当媒介,如GDPR,被认为是约束服务提供商和用户之间的法律协议。然而,对于终端用户来说,隐私政策通常很长且很模糊,难以阅读和理解。因此,能够自动分析隐私策略的文档结构以帮助用户理解是非常重要的。在这项工作中,我们创建了一个手动标记的语料库,包含167个隐私政策(超过447K个单词和5276个注释段落)。我们将报告注释后的语料库的注释过程和细节,并用4个文档分类模型对我们的数据语料库进行基准测试,深入分析结果,同时讨论研究委员会使用语料库的挑战和机遇。我们将会发布我们的标记语料库以及分类模型供公众访问。

原文题目:APPCorp: A Corpus for Android Privacy Policy Document Structure Analysis

原文:With the increasing popularity of mobile devices and the wide adoption of mobile Apps, an increasing concern of privacy issues is raised. Privacy policy is identified as a proper medium to indicate the legal terms, such as GDPR, and to bind legal agreement between service providers and users. However, privacy policies are usually long and vague for end users to read and understand. It is thus important to be able to automatically analyze the document structures of privacy policies to assist user understanding. In this work we create a manually labelled corpus containing 167 privacy policies (of more than 447K words and 5,276 annotated paragraphs). We report the annotation process and details of the annotated corpus. We also benchmark our data corpus with 4 document classification models, thoroughly analyze the results and discuss challenges and opportunities for the research committee to use the corpus. We release our labelled corpus as well as the classification models for public access.

原文作者:Shuang Liu, Renjie Guo, Baiyang Zhao, Tao Chen, Meishan Zhang

原文地址:https://arxiv.org/abs/2005.06945

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 避免护理机器人对痴呆症患者的不当治疗(CS RO)

    “最残忍和最令人发指的罪行”一词被用来描述历史上那些本应有责任保护和帮助患者的人,对脆弱的患者实施的一些不良护理。我们相信历史在不断重演,因为越来越多像人类一样...

    奥斯特洛夫斯萌
  • 克服神经网络灾难性遗忘的自然方法(CS LG)

    不久前,人们发现了一种成功克服神经网络灾难性遗忘的方法。虽然我们知道,针对特定任务,可以用这种方法将预先训练好的神经网络应用于该特定任务,并且通过这种方法来保存...

    奥斯特洛夫斯萌
  • 伯克利大学计算机科学的大规模教学观(CS CY)

    在过去的十年中,全国各地的计算机科学(CS)的本科招生人数呈爆炸式增长,因为计算机技能在许多领域中已被证明越来越重要。在这种前所未有的学生需求推动下,加州大学伯...

    奥斯特洛夫斯萌
  • 自动解码图(CS ML)

    我们提出了一个系统,允许用户在依赖图上使用句法模式搜索大型语言注释语料库。与之前的尝试不同,我们引入了一种轻量级的查询语言,它不需要用户知道底层语法表示的细节,...

    蔡秋纯
  • 在不破坏加密的情况下检测WhatsApp的错误信息(CS CY)

    诸如WhatsApp之类的智能手机通信App的普及,正在彻底改变很多用户与Internet通信和交互。直接发送到用户手机的信息的即时性和通过端到端加密进行的安全...

    小童
  • 【论文推荐】最新七篇知识图谱相关论文—知识表示学习、增强神经网络、链接预测、关系预测与提取、综述、递归特性生成、深度知识感知网络

    【导读】专知内容组整理了最近七篇知识图谱(Knowledge graphs)相关文章,为大家进行介绍,欢迎查看! 1. Does William Shakesp...

    WZEARW
  • 开源ALNS 自适应大邻域搜索(Adaptive Large Neighborhood Search)

    This package offers a general, well-documented and tested implementation of the ...

    用户1908973
  • 【论文推荐】最新5篇行人再识别(ReID)相关论文—迁移学习、特征集成、重排序、 多通道金字塔、深层生成模型

    【导读】专知内容组整理了最近五篇行人再识别(Person Re-identification)相关文章,为大家进行介绍,欢迎查看! 1.Unsupervised...

    WZEARW
  • 柏拉图对话系统:一个灵活的人工智能会话研究平台(cs AI)

    随着语音对话系统和会话人工智能领域的发展,对工具和环境的需求也在增长,这些工具和环境可以抽象出实现细节,从而加快开发过程,降低进入该领域的门槛,并为新思想提供一...

    RockNPeng
  • [Hot Technology系列]从此之后再无Load Balancer--SmartStack

    什么是SmartStack? SmartStack is an automated service discovery and registration fr...

    包子面试培训

扫码关注云+社区

领取腾讯云代金券