专栏首页arxiv.org翻译专栏Exathlon:时间序列中可解释异常检测的基准(CS DB)

Exathlon:时间序列中可解释异常检测的基准(CS DB)

在许多实验研究领域,对高质量数据存储库和基准的访问已对推进最新技术起到了重要作用。尽管按时间序列数据进行的高级分析任务已引起广泛关注,但缺乏此类社区资源严重限制了科学进展。在本文中,我们介绍了Exathlon,这是用于在高维时间序列数据上进行可解释的异常检测的第一个综合性公共基准。 Exathlon是根据真实数据跟踪系统构建的,该数据跟踪是在Apache Spark集群上重复执行大规模流处理作业的结果。通过引入六种不同类型的异常事件的实例(例如行为不当,资源争用,过程失败),有意地扰乱了其中的某些执行。对于每个异常实例,都提供了根本原因间隔以及扩展影响间隔的地面真相标签,从而支持开发和评估各种异常检测(AD)和解释发现(ED)任务。我们通过三种最先进的AD和ED技术进行的实验研究,证明了Exathlon数据集,评估方法和端到端数据科学管道设计的实用性。

原文题目:Exathlon: A Benchmark for Explainable Anomaly Detection over Time Series

原文:Access to high-quality data repositories and benchmarks have been instrumental in advancing the state of the art in many experimental research domains. While advanced analytics tasks over time series data have been gaining lots of attention, lack of such community resources severely limits scientific progress. In this paper, we present Exathlon, the first comprehensive public benchmark for explainable anomaly detection over high-dimensional time series data. Exathlon has been systematically constructed based on real data traces from repeated executions of large-scale stream processing jobs on an Apache Spark cluster. Some of these executions were intentionally disturbed by introducing instances of six different types of anomalous events (e.g., misbehaving inputs, resource contention, process failures). For each of the anomaly instances, ground truth labels for the root cause interval as well as those for the extended effect interval are provided, supporting the development and evaluation of a wide range of anomaly detection (AD) and explanation discovery (ED) tasks. We demonstrate the practical utility of Exathlon's dataset, evaluation methodology, and end-to-end data science pipeline design through an experimental study with three state-of-the-art AD and ED techniques.

原文链接:https://arxiv.org/abs/2010.05073

原文作者:Vincent Jacob, Fei Song, Arnaud Stiegler, Bijan Rad, Yanlei Diao, Nesime Tatbul

我来说两句

0 条评论
登录 后参与评论

相关文章

  • TadGAN:基于生成对抗网络的时间序列异常检测 (CS)

    时间序列异常可以提供与各个领域面临的关键情况相关的信息,从金融和航空航天到IT、安全和医疗领域。然而,在时间序列数据中检测异常尤其具有挑战性,因为异常的定义模糊...

  • TODS:从时间序列数据中检测不同类型的异常值

    时间序列异常值检测旨在识别数据中意外或罕见的实例。作为数据分析最重要的任务之一,异常值检测在时间序列数据上有多种应用,例如欺诈检测、故障检测和网络安全攻击检测。...

    deephub
  • 基于机器学习算法的时间序列价格异常检测(附代码)

    异常检测也称为异常值检测,是一种数据挖掘过程,用于确定数据集中发现的异常类型并确定其出现的详细信息。 在当今世界,由于大量数据无法手动标记异常值,自动异常检测显...

    量化投资与机器学习微信公众号
  • 【DB笔试面试530】在Oracle中,有哪些重要后台进程?

    对于后台进程,首先需要掌握3个概念:后台进程、服务器进程和用户进程,它们之间的关系如下图:

    小麦苗DBA宝典
  • 你知道 DBA 工作中都要做的巡检有哪些吗?

    -------------------------------------------------------------------

    JiekeXu之路
  • MongoDB 操作简捷版

    http://blog.csdn.net/yueguanghaidao/article/details/7483064

    bear_fish
  • 深入剖析 iOS 性能优化

    在集合里数据量小的情况下时间复杂度对于性能的影响看起来微乎其微。但如果某个开发的功能是一个公共功能,无法预料调用者传入数据的量时,这个复杂度的优化显得非常重要了...

    用户7451029
  • 从新手到专家:如何用Python编写配置文件

    设计软件时,我们通常要花费很多精力编写高质量代码。但这还不够,一个好的软件还应关注它的生态系统,例如测试,部署,网络等,这其中最重要的一方面就是配置管理。

    程序员小强
  • 《汇编语言》课程设计2

    jz指令:https://zhidao.baidu.com/question/564008138.html

    Hk_Mayfly
  • 汇编语言全梳理(精简版)

    内存地址由 段地址:偏移地址 决定,8086 选择 ds 段寄存器作为默认的段地址

    全栈程序员站长
  • 腾讯开源智能运维项目,用机器学习减少人为失误

    继开源800万中文词的NLP数据集之后,腾讯又开源了一个智能运维学件平台Metis,主要面向运维工程师。

    量子位
  • 生物学家与计算机科学家合作的十条原则

    生物学日益数字化,科学家每天都在产生海量数据,将分子转化为序列和文本文件。作为生物学家,您可能需要帮助分析所有这些数据,并且一而再再而三的考虑与计算机科学家合作...

    生信菜鸟团
  • CVE-2018-8897:POP SS 指令异常

    相关函数:longjmp, siglongjmp, setjmp 表头文件:#include 函数定义:int sigsetjmp(sigjmp_buf ...

    De4dCr0w
  • 【数据集】开源 | 变点检测数据集,来自不同领域的37个时间序列,可以做作为变点检测的基准

    论文地址: http://arxiv.org/pdf/2003.06222v2.pdf

    CNNer
  • 8086汇编语言之代码分段

    以上代码存在一个问题, 由于数据是在代码段中定义, cpu默认将数据识别为代码, 将导致数据不可用,那么解决办法为,增加入口标记:

    乱码三千
  • 利用sys schema解决一次诡异的语句hang问题

    一、故事背景 在开始之前,先列出数据库的运行环境信息 操作系统:redhat 7.2 x8_64 文件系统:xfs 数据库版本:MySQL 5.7.17 主机配...

    沃趣科技
  • 重磅综述—从fMRI动态角度窥探认知与神经病理学机制

    人类行为包括许多因其动态特性而突出的方面。为了量化它的神经基础,时间分辨的功能磁共振成像方法在过去十年得到了发展。在这篇综述中,我们概念性地组织了一个广泛的动态...

    悦影科技
  • 腾讯数据库专家雷海林分享智能运维架构

    ? 2019年5月8日-10日的DTCC2019年中国数据库大会上,腾讯云数据库专家工程师雷海林首受邀做了主题为《TDSQL智能运维平台-扁鹊架构与实践》的技...

    腾讯技术工程官方号
  • 针对hyperf框架改造----编码规范

    美团骑手

扫码关注云+社区

领取腾讯云代金券