专栏首页arxiv.org翻译专栏数据定制索引的代价:病毒对学习型索引结构的攻击 (CS CR)
原创

数据定制索引的代价:病毒对学习型索引结构的攻击 (CS CR)

学习型索引结构的概念依赖于这样一种想法,即数据库索引的输入输出功能可以被看作是一种预测任务,因此,可以使用机器学习模型而不是传统的算法技术来实现。这个新颖的角度对几十年前的问题激发了机器学习和数据结构交叉领域的许多令人兴奋的成果。然而,学习型索引结构的主要优势,即通过底层ML模型调整现有数据的能力,从安全的角度来看可能会成为一个劣势,因为它可能会被利用。

在这项工作中,我们首次提出了对学习索引结构的病毒攻击研究。所需的中毒方法与之前所有的工作都不同,因为被攻击的模型是在累积分布函数(CDF)上训练的,因此,对训练集的每一次注入都会对多个数据产生级联影响。我们规划第一个在CDF上训练的线性回归模型的中毒攻击,CDF是推荐的的学习索引结构的基本构件。我们将我们的病毒攻击技术推广到攻击一种更先进的两阶段设计的学习索引结构,称为递归模型索引(RMI),它已被证明优于传统的B-Trees。基于模型的各种参数化下,对我们的实际情况和合成数据集上的攻击进行了评估,并表明RMI的误差增加到300×,其第二阶段模型的误差增加到3000×。

原文题目:The Price of Tailoring the Index to Your Data: Poisoning Attacks on Learned Index Structures

原文:The concept of learned index structures relies on the idea that the input-output functionality of a database index can be viewed as a prediction task and, thus, be implemented using a machine learning model instead of traditional algorithmic techniques. This novel angle for a decades-old problem has inspired numerous exciting results in the intersection of machine learning and data structures. However, the main advantage of learned index structures, i.e., the ability to adjust to the data at hand via the underlying ML-model, can become a disadvantage from a security perspective as it could be exploited.

In this work, we present the first study of poisoning attacks on learned index structures. The required poisoning approach is different from all previous works since the model under attack is trained on a cumulative distribution function (CDF) and, thus, every injection on the training set has a cascading impact on multiple data values. We formulate the first poisoning attacks on linear regression models trained on the CDF, which is a basic building block of the proposed learned index structures. We generalize our poisoning techniques to attack a more advanced two-stage design of learned index structures called recursive model index (RMI), which has been shown to outperform traditional B-Trees. We evaluate our attacks on real-world and synthetic datasets under a wide variety of parameterizations of the model and show that the error of the RMI increases up to 300× and the error of its second-stage models increases up to 3000×.

原文作者:Evgenios M. Kornaropoulos, Silei Ren, Roberto Tamassia

原文地址:https://arxiv.org/abs/2008.00297

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 通过在线社交网络确定广告活动的最佳目标k (CS SI)

    我们提出了一种新颖的方法,用于向广告商(如品牌)推荐可能的客户(用户),主要基于两个方面。(1)在线社交网络的资料比较,和(2)在线社交网络的邻域分析。用户和品...

    Antonia
  • 在Reddit中发现并分类语言偏见 (CS CL)

    我们提出了一种数据驱动的方法,使用词嵌入来发现讨论平台Reddit上的语言偏见并进行分类。作为独立的用户社区空间,Reddit等平台与种族主义、性别歧视和其他形...

    Antonia
  • 基于活动和情绪为基础为自动驾驶汽车设计路线 (CS HC)

    我们的日常生活中有很大一部分时间都用来驾驶,这导致了我们不可避免地承受与驾驶相关的压力。自动驾驶汽车的兴起可能会减轻这种压力的程度,并提升日常出行的体验。然而,...

    Antonia
  • 一个有效的许可区块链与可证明的信誉机制(Computers and Society)

    许可区块链,只允许已知节点参与,已广泛应用在政府、公司、研究所等等。我们研究了将许可的区块链应用于横向战略联盟领域的案例,以确保联盟中任何不遵守规则的参与者在事...

    用户6869393
  • 近似模型计数,Sparse XOR约束和最小距离

    摘要:计算给定布尔公式的模型数量的问题具有许多应用,包括计算定量信息流中的确定性程序的泄漏。模型计数是一个很难的#P完全问题。出于这个原因,在过去十年中已经开发...

    罗大琦
  • 利用迭代细化进行依存关系语法分析的递归非自回归图到图转换器(CS and Language

    我们提出了一种通过非自回归图到图转换器的递归应用程序对任意图进行迭代细化的递归非自回归图到图转换器(RNG-Tr)。虽然之前自回归图预测中已经使用了\newci...

    用户6868260
  • 足球点球大战设计的综合分析(CS GT)

    足球点球大战的标准设计由于偏向第一个点球的球队而受到了严厉的批评。 这项运动的规则制定机构在2017年决定尝试另一种机制。 尽管新政策的实施已经停滞不前,但学术...

    用户7095611
  • 原创译文 | 美国禁令后中兴不能再购买高通芯片,美国方面解释原因

    转载声明 本文为灯塔大数据原创内容,欢迎个人转载至朋友圈,其他机构转载请在文章开头标注:“转自:灯塔大数据;微信:DTbigdata” 导读:中美贸易战愈演愈烈...

    灯塔大数据
  • 【Codeforces】1213A - Chips Moving

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 ...

    喜欢ctrl的cxk
  • 近实时计算曲面区域标签(Human-Computer Interaction)

    在标记区域中的一个问题就出现在放置一个地理区域的标签之后。给定区域的外边界和一组可选的孔。我们的目标是找到一个标签位置,使标签跨越该区域,并符合其形状。

    用户6869393

扫码关注云+社区

领取腾讯云代金券