专栏首页arxiv.org翻译专栏测量误差对聚类算法的影响(CS LG)
原创

测量误差对聚类算法的影响(CS LG)

聚类由一组流行的技术组成,这些技术用于将数据分成兴趣小组以进行进一步分析。许多进行聚类的数据源都存在随机的或系统的测量误差,这些错误可能会对集群产生不利影响。虽然已经开发了一些技术来解决这个问题,但我们对于这些解决方案的有效性知之甚少,此外,迄今为止还没有研究系统误差对聚类解的影响的论文发表。

本文采用Monte Carlo方法研究了两种常用的聚类算法对随机误差和系统误差的敏感性,这两种算法分别是基于合并的GMM算法和DBSCAN算法。我们发现,当测量误差是系统性的并且会影响到数据集中的所有变量时,这种误差是有严重问题的。在本文所考虑的条件下,我们还发现,与基于密度的DBSCAN算法相比,基于分区合并分量的GMM算法对测量误差的敏感度更低。

原文题目:The effect of measurement error on clustering algorithms

原文:Clustering consists of a popular set of techniques used to separate data into interesting groups for further analysis. Many data sources on which clustering is performed are well-known to contain random and systematic measurement errors. Such errors may adversely affect clustering. While several techniques have been developed to deal with this problem, little is known about the effectiveness of these solutions. Moreover, no work to-date has examined the effect of systematic errors on clustering solutions. In this paper, we perform a Monte Carlo study to investigate the sensitivity of two common clustering algorithms, GMMs with merging and DBSCAN, to random and systematic error. We find that measurement error is particularly problematic when it is systematic and when it affects all variables in the dataset. For the conditions considered here, we also find that the partition-based GMM with merged components is less sensitive to measurement error than the density-based DBSCAN procedure.

原文作者:Paulina Pankowska, Daniel L. Oberski

原文链接:https://arxiv.org/abs/2005.11743

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 机器学习的性能适应度和误差度量(CS LG)

    机器学习(ML)是通过对机器进行训练使其获得高水平的认知并能够进行类似于人的分析的领域。由于ML是一种数据驱动的方法,它似乎适合我们的日常生活操作以及复杂的跨学...

    Elva
  • 用于激光粉末床熔融增材制造中的孔隙度分析的物理信息机器学习模型(CS LG)

    为了控制零件质量,分析孔隙产生机理至关重要,这为将来的孔隙率控制奠定理论基础。当前的孔隙度分析模型使用机器设置参数,例如激光角度和零件姿态。但是,这些基于设置的...

    毛艺漩8078803
  • 通过知识蒸馏迁移归纳偏差(CS LG)

    在数据或计算资源受限的许多任务或场景中,或者在测试时训练数据不能完全代表实际条件的情况下,拥有正确的归纳偏差是至关重要的,然而,定义、设计并有效地适应归纳偏差并...

    Elva
  • ICLR2020 | CS-GNN:用平滑度刻画图信息的使用

    今天给大家介绍香港中文大学和新加坡国立大学一起在ICLR2020上发布的一篇论文,该论文针对实际使用中GNN在图结构数据中能够获得多少性能的问题,提出了两种可以...

    DrugAI
  • 一种通过移动数据发现日常人类出行方式的概率方法(CS LG)

    近年来,从智能手机用户那里收集的地理位置数据来发现人们的出行方式一直是研究的热点。在本文中,我们尝试根据GPS数据发现每日的移动模式。我们从概率的角度来看这个问...

    小童
  • 一阶优化的条件数研究(CS LG)

    一阶优化算法(FOA)的研究通常从对目标函数的假设开始,最常见的是平滑度和强凸性。这些指标用于调整FOA的超参数。我们引入了一类扰动,通过一个新的范数(称为 *...

    毛艺漩8078803
  • 深度学习在医学影像上的应用(二)——图像重建及后处理,标注,回归,配准,图像超分辨率

    上一篇给大家介绍了深度学习在医学影像上分类的应用案例,这一篇我将分享深度学习在医学影像上关于图像重建及后处理,图像标注,图像配准,图像超分辨率和回归的应用。

    医学处理分析专家
  • 形状变换在地震、风浪数据时间序列分类中的应用(CS LG)

    由于对大量工程结构(包括建筑物、桥梁、塔楼和海上平台等)的长期健康监测,使用时间序列分类法从大型数据库中自主检测所需事件,在土木工程中越来越重要。在这种情况下,...

    刘持诚
  • 用于多变量数据分类的局部级联集成(CS LG)

    我们提出了 LCE,一种用于传统(表格式)多变量数据分类的局部级联集成(LCE)及其扩展的用于多变量时间序列(MTS)分类的 LCEM。LCE 是一种新的混合集...

    刘持诚
  • 机器视觉检测系统中这些参数你都知道么?

    摄像机是机器视觉系统中的一个关键组件,其最本质的功能就是将光信号转变成为有序的电信号。选择合适的摄像机也是机器视觉系统设计中的重要环节,摄像机的不仅是直接决定所...

    小白学视觉
  • 糖尿病视网膜病变患者的长非编码RNA的鉴定

    标题:转录组分析鉴定 到新的3-lncRNA关于 糖尿病视网膜病中 转甲状腺素 减弱葡萄糖诱导人视网膜内皮细胞功能障碍 的调控网络

    生信技能树
  • 调研 | StackOverflow薪水调查:有计算机学位=高薪?不存在的

    大数据文摘
  • 数据处理的统计学习(scikit-learn教程)

    Scikit-learn 是一个紧密结合Python科学计算库(Numpy、Scipy、matplotlib),集成经典机器学习算法的Python模块。 一、统...

    机器学习AI算法工程
  • 重磅综述—从fMRI动态角度窥探认知与神经病理学机制

    人类行为包括许多因其动态特性而突出的方面。为了量化它的神经基础,时间分辨的功能磁共振成像方法在过去十年得到了发展。在这篇综述中,我们概念性地组织了一个广泛的动态...

    悦影科技
  • 「唯物」“刷脸”没能进入消费领域,但“刷眼”也许可以

    前一段时间,有司机冒充赵薇老公到公证处通过人脸识别技术办理了委托公证证明,以委托人的身份卖掉了赵薇家一处价值千万的豪宅。这条新闻不禁让人们对于人脸识别的准确性和...

    AI研习社
  • 工业镜头参数

    机器视觉系统中,镜头作为机器的眼睛,其主要作用是将目标物体的图像聚焦在图像传感器(相机)的光敏器件上。数据系统所处理的所有图像信息均需要通过镜头得到,镜头的质量...

    vv彭
  • 具有上下文相似性的灵活小样本学习(CS LG)

    现有的小样本学习方法可以处理具有持久、僵化的类概念的任务。通常,学习者在训练时只观察固定数量的类别的数据,并要求在测试时归纳为一组新类别。在同一类中的两个示例在...

    毛艺漩8078803
  • mSphere: PCR循环数及聚合酶对群落的影响

    3月刊出在生物学预印本bioRxiv,5月就发表在了mSphere,速度相当之快。

    Listenlii-生物信息知识分享
  • 一文详解工业相机和镜头选取

    一问价格,至少都是大几千,贵的在十几万,心里就不禁有疑问,就这么一个破相机,为啥就卖这么贵?它跟我们常见的单反相机有什么区别?我用单反相机来拍,色彩又好,成像又...

    3D视觉工坊

扫码关注云+社区

领取腾讯云代金券