专栏首页arxiv.org翻译专栏集体数据欺诈的统计检测(Databases)
原创

集体数据欺诈的统计检测(Databases)

统计发散在多媒体处理中被广泛应用,其主要原因是其数据显示较有规律性和有可解释的特征。然而,在更广泛的数据领域中,这些优势可能并不突出,因此需要一种更通用的方法。在数据检测中,统计发散可以被用于相似度度量(基于集合特征)。在本文中,我们提出了一种基于统计发散的集体检测技术。该技术提取数据集合之间的分布相似性,然后利用统计发散来检测集合异常。我们的技术不断评估指标作为演进的特征并计算自适应阈值,以满足最佳的数学期望。为了表明该技术的细节并探讨其效率,我们案例研究了一个现实世界的问题——点击耕作检测恶意网上卖家。该评估结果表明,这些技术提供了有效的分级器。与现实世界的恶意行为相比,它们对较小规模的数据更改也足够敏感。因此,它适用于现实世界。

原文题目:Databases: Statistical Detection of Collective Data Fraud

Statistical divergence is widely applied in multimedia processing, basically due to regularity and explainable features displayed in data. However, in a broader range of data realm, these advantages may not out-stand, and therefore a more general approach is required. In data detection, statistical divergence can be used as an similarity measurement based on collective features. In this paper, we present a collective detection technique based on statistical divergence. The technique extracts distribution similarities among data collections, and then uses the statistical divergence to detect collective anomalies. Our technique continuously evaluates metrics as evolving features and calculates adaptive threshold to meet the best mathematical expectation. To illustrate details of the technique and explore its efficiency, we case-studied a real world problem of click farming detection against malicious online sellers. The evaluation shows that these techniques provided efficient classifiers. They were also sufficiently sensitive to a much smaller magnitude of data alteration, compared with real world malicious behaviours. Thus, it is applicable in the real world.

原文作者:Ruoyu Wang(1 and 2),Daniel Sun(2 and 3),Guoqiang Li(1) ((1) Shanghai Jiao Tong University, (2) University of New South Wales, (3) CSIRO)

原文链接:https://arxiv.org/abs/2001.00688

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 手术中的人工智能(AI)

    随着成像、导航和机器人干预等先进技术的发展,人工智能(AI)正在逐渐改变我们的手术实践。本文综述了近年来人工智能在外科手术中的成功应用,从术前规划、术中指导到手...

    李欣颖6837176
  • 社会和信息网络:基于图表的SIS流行病敏感性分析*

    原文题目: Graphon-based sensitivity analysis of SIS epidemics*

    李欣颖6837176
  • 通过音乐驱动的机器人情感韵律和手势,建立人机信任(Human-Computer Interaction)

    随着人机协作机会的不断扩大,信任对于机器人的充分参与和利用变得越来越重要。建立在情感关系和人际关系纽带上的情感信任尤其重要,因为它对错误更有弹性,并增加了合作的...

    李欣颖6837176
  • 协同卫生保健环境下智能契约的性能和成本评估(performance)

    区块链作为数据完整性、不可否认性和不同应用的可用性的解决方案而出现。区块链属性也对数据敏感的情景(如医疗保健)有一定的帮助。因此,许多有关在医疗应用情境中采用区...

    用户6869393
  • Improving Business Efficiency with Web Application Development

    Most businesses use the internet as a central point of their daily operations. T...

    用户4822892
  • Prometheus监控学习笔记之Prometheus存储

    Prometheus之于kubernetes(监控领域),如kubernetes之于容器编排。 随着heapster不再开发和维护以及influxdb 集群方案...

    Jetpropelledsnake21
  • 以太坊绝地求生之战!

    以太坊是一个基于区块链的开源平台,支持智能合约。以太坊平台生成的加密货币以太币是目前市值第二高的加密货币。

    区块链大本营
  • 通过现状损失在多主体博弈中诱导合作(cs AI)

    社会困境的出现,引发了个体理性与群体理性的冲突。当个体在这种情况下理性行事时,群体就会遭遇次优结果。迭代囚徒困境(IPD)是一个双人游戏,它提供了一个理论框架来...

    RockNPeng
  • 深入剖析Mean Shift聚类算法原理

    Mean Shift在计算机视觉领域的应用非常广,如图像分割,聚类和视频跟踪,小编曾经用Mean Shift实现目标跟踪,效果还不错。本文详细的总结了Mean ...

    小草AI
  • 人群行为分类数据库--Crowd-11: A Dataset for Fine Grained Crowd Behaviour Analysis

    Crowd-11: A Dataset for Fine Grained Crowd Behaviour Analysis CVPRW2017 这个数据库目...

    用户1148525

扫码关注云+社区

领取腾讯云代金券