首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

使用主要协变量回归改进样本和特征选择(CS)

从大量候选项中选择最相关的功能和示例是一项在自动数据分析文本中经常发生的任务,它可用于提高模型的计算性能,而且通常也具有可传输性。在这里,我们重点介绍两个流行的子选择方案,它们已应用于此目的:CUR 分解,它基于要素矩阵的低级近似值和最远点采样,它依赖于最多样化的样本和区分特征的迭代标识。我们修改这些不受监督的方法,按照与主体共变量回归(PCovR)方法相同的精神,纳入受监督的组件。我们表明,合并目标信息可提供在监督任务中性能更好的选择,我们用山脊回归、内核脊回归和稀疏内核回归来演示这些选择。我们还表明,结合简单的监督学习模型可以提高更复杂的模型(如前馈神经网络)的准确性。我们提出进行调整,以尽量减少执行无人监督的任务时任何子选择可能产生的影响。我们演示了使用 PCov-CUR和 PCov-FPS在化学和材料科学应用上的显著改进,通常将实现给定回归精度水平所需的特征和样本数减少 2 个因子和样本数。

00
领券