专栏首页technewsworld翻译专栏使用主要协变量回归改进样本和特征选择(CS)

使用主要协变量回归改进样本和特征选择(CS)

罗斯·克森斯基,本杰明·赫尔弗雷希特,埃德加·恩格尔,米歇尔·塞里奥蒂

从大量候选项中选择最相关的功能和示例是一项在自动数据分析文本中经常发生的任务,它可用于提高模型的计算性能,而且通常也具有可传输性。在这里,我们重点介绍两个流行的子选择方案,它们已应用于此目的:CUR 分解,它基于要素矩阵的低级近似值和最远点采样,它依赖于最多样化的样本和区分特征的迭代标识。我们修改这些不受监督的方法,按照与主体共变量回归(PCovR)方法相同的精神,纳入受监督的组件。我们表明,合并目标信息可提供在监督任务中性能更好的选择,我们用山脊回归、内核脊回归和稀疏内核回归来演示这些选择。我们还表明,结合简单的监督学习模型可以提高更复杂的模型(如前馈神经网络)的准确性。我们提出进行调整,以尽量减少执行无人监督的任务时任何子选择可能产生的影响。我们演示了使用 PCov-CUR和 PCov-FPS在化学和材料科学应用上的显著改进,通常将实现给定回归精度水平所需的特征和样本数减少 2 个因子和样本数。

Improving Sample and Feature Selection with Principal Covariates Regression

Rose K. Cersonsky, Benjamin A. Helfrecht, Edgar A. Engel, Michele Ceriotti

Selecting the most relevant features and samples out of a large set of candidates is a task that occurs very often in the context of automated data analysis, where it can be used to improve the computational performance, and also often the transferability, of a model. Here we focus on two popular sub-selection schemes which have been applied to this end: CUR decomposition, that is based on a low-rank approximation of the feature matrix and Farthest Point Sampling, that relies on the iterative identification of the most diverse samples and discriminating features. We modify these unsupervised approaches, incorporating a supervised component following the same spirit as the Principal Covariates Regression (PCovR) method. We show that incorporating target information provides selections that perform better in supervised tasks, which we demonstrate with ridge regression, kernel ridge regression, and sparse kernel regression. We also show that incorporating aspects of simple supervised learning models can improve the accuracy of more complex models, such as feed-forward neural networks. We present adjustments to minimize the impact that any subselection may incur when performing unsupervised tasks. We demonstrate the significant improvements associated with the use of PCov-CUR and PCov-FPS selections for applications to chemistry and materials science, typically reducing by a factor of two the number of features and samples which are required to achieve a given level of regression accuracy.

原文链接:https://arxiv.org/abs/2012.12253

原文作者:Rose K. Cersonsky, Benjamin A. Helfrecht, Edgar A. Engel, Michele Ceriotti

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 数据分段算法:单变量均值变化

    数据分割,即多变化点分析在时间序列分析和信号处理中的重要性,在自然科学和社会科学、医学、工程和金融等各个领域的应用,得到了相当大的关注。 在本次调查的第一部分...

    zstt8054929
  • 紊乱在三亚氮化物合成中的作用(CS)

    雷切尔·伍兹-罗宾森、弗拉丹 ·斯特瓦诺维奇、斯蒂芬·拉尼、卡伦·海因塞尔曼、克里斯汀·佩尔松、安德烈·扎库塔耶夫

    zstt8054929
  • 将计算纳入统计和数据科学课程(CS)

    将计算纳入统计和数据科学课程:创意结构、新颖的技能和习惯及教授计算思维的方法(CS)

    zstt8054929
  • Social networks and health: Communicable but not infectious

    Harvard Men’s Health Watch Poet and pastor John Donne famously proclaimed “No ma...

    互联网金融打杂
  • 霍克斯模型的电信模式揭示了人际关系的动态和个性特征(社会和信息网络)

    我们的手机包含了大量关于我们的私人信息,这不是新闻,这也是为什么我们要尽量保证手机的安全。但即使是我们通信方式的痕迹,也能看出不少关于我们的信息。在这项工作中,...

    Jillchen996
  • 根据Q的福音:从正典信息的角度理解QAnon的阴谋(cs.CY)

    QAnon阴谋论声称,一个由嗜血的政客和媒体人士组成的阴谋集团正在参与一场毁灭社会的战争(字面上)。通过解读一个自称Q的匿名内部人士提供的神秘 "滴滴 "信息,...

    用户8078797
  • 使用多次换道评估车辆达到近期目标状态的可能性(CS RO)

    本文提出了一个模型,该模型基于与交通流量和驾驶行为相对应的参数来估计达到近期目标状态的可能性。近年来,开发准确的驾驶员行为模型和车道变化控制算法已成为自动驾驶和...

    时代在召唤
  • 片状静止任意稀疏网络序列中所有可检测变化点的一致性检测和优化定位(社会和信息网络)

    我们考虑了在片状静止网络的背景下的离线变化点检测和定位问题,其中可观测的是一个有限的网络序列。我们开发了基于观测网络自适应修剪邻接矩阵的一些适当修改的CUSUM...

    Jillchen996
  • 情绪的类型和强度如何影响谣言的传播(CS SI)

    在谣言传播中,情绪的影响和传染效应不容忽视。本文阐明了决策者的情绪类型和强度如何影响谣言的传播。基于RDEU理论和进化博弈理论,我们通过考虑情绪来构建谣言传播的...

    毛艺漩8078803
  • 在签名网络中组建兼容的团队(Social and Information Networks)

    在社交网络中,团队形成的问题需要一组人,他们不仅具备完成任务所需的技能,而且还能有效地相互沟通。现有的工作假定社会网络中的所有联系都是正的,即它们表示个体之间的...

    用户6869393

扫码关注云+社区

领取腾讯云代金券