开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

如何使用LOOCV在R中找到比全集分类更好的子集

LOOCV（Leave-One-Out Cross-Validation）是一种交叉验证方法，用于评估机器学习模型的性能并选择最佳的特征子集。在R中，可以使用以下步骤来使用LOOCV找到比全集分类更好的子集：

导入所需的库和数据集：首先，导入必要的R库，如caret和mlbench，并加载适当的数据集。

library(caret)
library(mlbench)

data(Sonar)  # 以Sonar数据集为例

创建特征子集：根据问题的特定要求，选择一组可能的特征子集。可以使用caret库中的createFolds()函数将数据集分成k个折叠（k为特征子集的大小）。

feature_set <- c("feature1", "feature2", "feature3")  # 替换为实际的特征名称

folds <- createFolds(1:nrow(Sonar), k = length(feature_set))

运行LOOCV：使用trainControl()函数设置交叉验证参数，并使用train()函数在每个特征子集上运行LOOCV。

ctrl <- trainControl(method = "LOOCV")

results <- lapply(folds, function(fold) {
  train_data <- Sonar[-fold, feature_set]
  train_labels <- Sonar[-fold, "Class"]
  
  test_data <- Sonar[fold, feature_set]
  test_labels <- Sonar[fold, "Class"]
  
  model <- train(train_data, train_labels, method = "classification", trControl = ctrl)
  
  # 在测试集上进行预测
  predictions <- predict(model, test_data)
  
  # 计算预测准确率
  accuracy <- sum(predictions == test_labels) / length(test_labels)
  
  return(accuracy)
})

选择最佳特征子集：根据LOOCV的结果，选择具有最高准确率的特征子集。

best_subset <- feature_set[which.max(results)]

在这个过程中，我们使用了caret库中的函数来实现LOOCV和模型训练。请注意，这只是一个示例，你需要根据你的具体问题和数据集进行适当的调整。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

在Python和R中使用交叉验证方法提高模型性能

模型表现差异很大的可能原因是什么？换句话说，为什么在别人评估我们的模型时会失去稳定性？

01

特征选择常用算法

1 综述 (1) 什么是特征选择特征选择 ( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS ) ，或属性选择( Attribute Selection ) ，是指从全部特征中选取一个特征子集，使构造出来的模型更好。 (2) 为什么要做特征选择在机器学习的实际应用中，特征数量往往较多，其中可能存在不相关的特征，特征之间也可能存在相互依赖，容易导致如下的后果：特征个数越多，分析特征、训练模型所需的时间就越长。特征个数越多，容易引

09

【转载】特征选择常用算法综述

特征选择 ( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS ) ，或属性选择( Attribute Selection ) ，是指从全部特征中选取一个特征子集，使构造出来的模型更好。

02

交叉验证的Java weka实现，并保存和重载模型

我觉得首先有必要简单说说交叉验证，即用只有一个训练集的时候，用一部分数据训练，一部分做测试，当然怎么分配及时不同的方法了。

01

浅谈关于特征选择算法与Relief的实现

一、背景 1) 问题在机器学习的实际应用中，特征数量可能较多，其中可能存在不相关的特征，特征之间也可能存在相关性，容易导致如下的后果： 1. 特征个数越多，分析特征、训练模型所需的时间就越长，模型也会越复杂。 2. 特征个数越多，容易引起“维度灾难”，其推广能力会下降。 3. 特征个数越多，容易导致机器学习中经常出现的特征稀疏的问题，导致模型效果下降。 4. 对于模型来说，可能会导致不适定的情况，即是解出的参数会因为样本的微小变化而出现大的波动。特征选择，能剔除不相关、

06

魔术里的集合、映射和关系（二）——集合怎么用？

要知道，集合本身代表的是真真切切的对象的总体，而我们日常交流中又不可能真的把这些实物拿过来才能表示相应的集合，因此，我们需要用一组数学符号来代表这些真实的集合，让信息的传输记录通过这些符号就能做到，哪怕丢失一些不重要的部分，但也抓住了核心和关键，反而有好处。

01

个性化大脑连接组指纹：它们在认知中的重要性

人脑的神经网络结构模式可能与个体在表型、行为、遗传决定因素和神经精神障碍的临床结果方面的差异有关。最近的研究表明，个性化的神经(大脑)指纹可以从大脑的结构连接体中识别出来。然而，个性化指纹在认知方面的准确性、可重复性和翻译潜力尚未完全确定。在本研究中，我们引入了一种动态连接体建模方法来识别一组关键的白质子网络，可以用作个性化指纹。我们进行了几个个体变量评估，以证明个性化指纹的准确性和实用性，特别是预测中年成年人的身份和智商，以及幼儿的发育商。我们的发现表明，我们的动态建模方法发现的指纹足以区分个体，也能够预测整个人类发展的一般智力能力。

02

FFPred-GAN：“以假乱真“—基于GAN创建合成特征样本改进蛋白质功能预测

今天给大家介绍伦敦大学学院David T. Jones 教授课题组发表在Nature Machine Intelligence 的一篇文章。文章中指出，现存的蛋白质功能预测方法受限于训练样本量的瓶颈，为了解决这个问题，作者提出了一种新的基于生成对抗网络的方法FFPred-GAN。FFPred-GAN能够准确学习蛋白质序列的生物物理特征的高维分布，并生成高质量的合成蛋白质特征样本。实验结果表明，通过对原始训练蛋白质特征样本的扩充，合成蛋白质特征样本成功提高了基因本体论所有三个域的预测准确性。

05

中国台湾大学林轩田机器学习基石课程学习笔记15 -- Validation

本文介绍了Validation验证，包括Validation的常见方法、使用场景、注意事项以及如何进行模型选择。同时，本文还通过一个手写数字识别的例子，详细讲解了Validation的具体实施过程。

00

《美团机器学习实践》第二章特征工程

从数学角度讲，特征工程就是将原始数据空间变换到新的特征空间，或者说是换一种数据的表达方式，在新的特征空间中，模型能够更好地学习数据的规律。

03

【集合论】集合概念与关系 ( 真子集 | 空集 | 全集 | 幂集 | 集合元素个数 | 求幂集步骤 )

全集 : 限定所讨论的集合 , 都是某个集合的子集 , 则称该集合为全集 , 记作

00

5种常用的交叉验证技术，保证评估模型的稳定性

你有没有想过是什么原因导致了这些排名的高差异?换句话说，为什么一个模型在私有排行榜上评估时会失去稳定性? 在本文中，我们将讨论可能的原因。我们还将学习交叉验证和执行它的各种方法。模型的稳定性? 总

02

Cerebral Cortex:从任务态和静息态脑功能连接预测儿童数学技能

认知神经科学的一个关键目标是从神经结构和功能来预测行为，从而为谁可能从临床和/或教育干预中受益提供关键的见解。在整个发育过程中，分布的大脑区域之间功能连接的强度与儿童的数学技能有关。因此，在本研究中，我们使用基于连接体的预测模型来研究数字处理和休息期间的功能连接是否“预测”儿童的数学技能(N = 31, Mage = 9.21岁，14名女性)。总的来说，我们发现功能连通性在符号数比较和休息期间，而非非符号数比较期间，能预测儿童的数学技能。每一项任务都揭示了分布在典型大脑网络和主要脑叶上的一组明显不同的预测性连接。大多数这些预测性联系与儿童的数学技能呈负相关，因此，较弱的连接预示着较好的数学技能。值得注意的是，这些预测性连接在不同的任务状态下很大程度上是不重叠的，这表明儿童的数学能力可能取决于网络隔离和/或区域专门化的状态依赖模式。此外，目前的预测建模方法超越了大脑行为相关性，并朝着建立大脑连接模型的方向发展，最终可能有助于预测未来的数学技能。

02

参加数据挖掘类竞赛是一种什么样的体验？

随着天池穿衣搭配推荐比赛的结束，我也该暂且退出竞赛江湖，一心一意搞科研了。今年共参加了3场公开比赛，成绩虽不是特别好，但也还说的过去，在搞比赛上面花费了不少时间和精力，耽误了不少事。如果有一天问自己这么辛苦玩这些和毕业要求无关的事值得吗？还是不自找麻烦纠结这些问题吧，呵呵，正道是——满纸荒唐言，一把辛酸泪；都云作者痴，谁解其中味。做竞赛有哪些好处？让你100%清楚哪些数据挖掘的算法在实际应用中最有效。有效包括效率和性能。很多人往往看了几章data mining的教程，就以为知道了数据挖掘是怎么一回事了。

08

R语言泰坦尼克号随机森林模型案例数据分析|附代码数据

如果我们对所有这些模型的结果进行平均，我们有时可以从它们的组合中找到比任何单个部分更好的模型。这就是集成模型的工作方式

00

解读吴恩达新书的全球第一帖 (中)

吴恩达 (之后称大神) 在 2018 年 5 月 23 日北京时间早上 6 点 15 分将《Machine Learning Yearning》一书更新到第 32 章 (总共有 55 章)。

04

用综合信息准则比较随机波动率（SV）模型对股票价格时间序列建模

随机波动率（SV）模型是常用于股票价格建模的一系列模型。在所有的SV模型中，波动率都被看作是一个随机的时间序列。然而，从基本原理和参数布局的角度来看，SV模型之间仍有很大的不同。因此，为一组给定的股票价格数据选择最合适的SV模型对于对股票市场的未来预测非常重要。为了实现这一目标，可以使用留一交叉验证（LOOCV）方法。然而，LOOCV方法的计算成本很高，因此它在实践中的应用非常有限。在对SV模型的研究中，我们提出了两种新的模型选择方法，即综合广泛适用信息准则（iWAIC）和综合重要性抽样信息准则（iIS-IC），作为近似LOOCV结果的替代品。在iWAIC和iIS-IC方法中，我们首先计算每个观测值的期望似然，作为相对于相应的潜变量（当前的对数波动参数）的积分。由于观测值与相应的潜变量高度相关，每个第 t 个观测值（y obs t）的综合似然值期望接近于以 y obs t 为保持数据的模型所计算的 y obs t 的期望似然值。其次，在计算信息标准时，综合期望似然被用作期望似然的替代。由于相对于潜变量的整合在很大程度上减少了模型对相应观测值的偏差，因此整合后的信息标准有望接近LOOCV结果。为了评估iWAIC和iIS-IC的性能，我们首先使用模拟数据集进行了实证研究。该研究结果表明，iIS-IC方法比传统的IS-IC有更好的性能，但iWAIC的性能并不优于非综合WAIC方法。随后，利用股票市场收益数据进行了进一步的实证研究。根据模型的选择结果，对于给定的数据，最好的模型是具有两个独立自回归过程的SV模型，或者是具有非零预期收益的SV模型。

02

8种交叉验证类型的深入解释和可视化介绍

交叉验证（也称为“过采样”技术）是数据科学项目的基本要素。它是一种重采样过程，用于评估机器学习模型并访问该模型对独立测试数据集的性能。

01

R语言用综合信息准则比较随机波动率（SV）模型对股票价格时间序列建模

随机波动率（SV）模型是常用于股票价格建模的一系列模型。在所有的SV模型中，波动率都被看作是一个随机的时间序列。然而，从基本原理和参数布局的角度来看，SV模型之间仍有很大的不同。因此，为一组给定的股票价格数据选择最合适的SV模型对于对股票市场的未来预测非常重要。为了实现这一目标，可以使用留一交叉验证（LOOCV）方法。然而，LOOCV方法的计算成本很高，因此它在实践中的应用非常有限。在对SV模型的研究中，我们提出了两种新的模型选择方法，即综合广泛适用信息准则（iWAIC）和综合重要性抽样信息准则（iIS-IC），作为近似LOOCV结果的替代品。在iWAIC和iIS-IC方法中，我们首先计算每个观测值的期望似然，作为相对于相应的潜变量（当前的对数波动参数）的积分。由于观测值与相应的潜变量高度相关，每个第 t 个观测值（y obs t）的综合似然值期望接近于以 y obs t 为保持数据的模型所计算的 y obs t 的期望似然值。其次，在计算信息标准时，综合期望似然被用作期望似然的替代。由于相对于潜变量的整合在很大程度上减少了模型对相应观测值的偏差，因此整合后的信息标准有望接近LOOCV结果。为了评估iWAIC和iIS-IC的性能，我们首先使用模拟数据集进行了实证研究。该研究结果表明，iIS-IC方法比传统的IS-IC有更好的性能，但iWAIC的性能并不优于非综合WAIC方法。随后，利用股票市场收益数据进行了进一步的实证研究。根据模型的选择结果，对于给定的数据，最好的模型是具有两个独立自回归过程的SV模型，或者是具有非零预期收益的SV模型。

06

「Workshop」第二十六期随机森林

决策树是基于树结构来进行决策的，这是一种人在决策时自然的处理机制，即进行决策时，会进行一系列的“子决策”，每个决策过程中进行的判断，都是在上次决策结果的限定范围内，每个决策都只考虑在当前的判断，经过这些子决策，得到最终决策。

03

交叉验证的3种方法

将数据集进行划分是非常必要的，如果所有的数据都作为训练集的话，不可避免的会遇到过拟合的问题，所以我们还需要另外的数据对训练集得到的模型的结果进行评估和验证。

01

交叉验证

概述Holdout 交叉验证K-Fold 交叉验证Leave-P-Out 交叉验证总结

02

ThiNet：模型通道结构化剪枝

【GiantPandaCV】ThiNet是一种结构化剪枝，核心思路是找到一个channel的子集可以近似全集，那么就可以丢弃剩下的channel，对应的就是剪掉剩下的channel对应的filters。剪枝算法还是三步剪枝：train-prune-finetune，而且是layer by layer的剪枝。本文由作者授权首发于GiantPandaCV公众号。

04

Python数据分析与实战挖掘

基础篇书推荐：《用python做科学计算》 📷 扩展库简介 Numpy数组支持，以及相应的高效处理函数 Scipy矩阵支持，以及相应的矩阵数值计算模块 Matplotlib强大的数据可视化工具、作图库 Pandas强大、灵活的数据分析和探索工具 StatsModels 统计建模和计量经济学，包括描述统计、统计模型估计和推断 Scikit-Learn支持回归、分类、聚类等的强大机器学习库 Keras深度学习库，用于建立神经网络以及深度学习模型 Gensim 文本主题模型的库，文本挖掘用 ----- 贵阳大

06

算法模型自动超参数优化方法！

学习器模型中一般有两类参数，一类是可以从数据中学习估计得到，我们称为参数（Parameter）。还有一类参数时无法从数据中估计，只能靠人的经验进行设计指定，我们称为超参数（Hyper parameter）。超参数是在开始学习过程之前设置值的参数。相反，其他参数的值通过训练得出。

02

机器学习（十二）交叉验证实例

假设有个未知模型具有一个或多个待定的参数，且有一个数据集能够反映该模型的特征属性（训练集）。

02

基于 mlr 包的 K 最近邻算法介绍与实践（下）

在上期 KNN 算法介绍的最后，我们指出：使用最初用来训练模型的数据进行预测的方式来评估模型性能是不合理的。本期将以上期的内容和数据为基础，介绍交叉验证的方法来评估模型性能、如何选择参数 k 来优化模型等内容。

04

Cerebral Cortex:额顶控制网络的网络间作用可以很好地预测记忆抑制能力

记忆抑制（Memorysuppression，MS）与精神健康相关。然而，没有研究探索内在静息态功能连接（resting-state functional connectivity，rs-FC）如何预测这种能力。本文基于rsfMRI脑功能连接组预测模型（connectome-based predictivemodeling，CPM）来探究预先定义脑网络（额顶控制网络或FPCN）中的rs-FC图谱是否能以及如何预测健康个体的MS（497名参与者）。在think/no-think范式中，使用由MS导致的遗忘来评估MS能力。结果表明，FPCN网络有利于建立MS预测模型。FPCN中的一些区域，如额中回、额上回和顶下叶在预测MS能力中起着重要作用。此外，FPCN与多个网络（如背侧注意网络（DAN）、腹侧注意网络（VAN）、默认模式网络（DMN）、边缘系统和皮下层区域）间的功能相互作用能够预测MS。关键的是，用于预测的FPCN网络是稳定的并对MS是特定的。这些结果表明FPCN与其他网络相互作用能够表明MS能力。这些结果有助于解释这些功能网络的相互作用是如何导致某些精神障碍中的特定入侵性思维和记忆的。

00

基于马尔科夫边界发现的因果特征选择算法综述

摘要因果特征选择算法(也称为马尔科夫边界发现)学习目标变量的马尔科夫边界,选择与目标存在因果关系的特征,具有比传统方法更好的可解释性和鲁棒性.文中对现有因果特征选择算法进行全面综述,分为单重马尔科夫边界发现算法和多重马尔科夫边界发现算法.基于每类算法的发展历程,详细介绍每类的经典算法和研究进展,对比它们在准确性、效率、数据依赖性等方面的优劣.此外,进一步总结因果特征选择在特殊数据(半监督数据、多标签数据、多源数据、流数据等)中的改进和应用.最后,分析该领域的当前研究热点和未来发展趋势,并建立因果特征选择资料库(http://home.ustc.edu.cn/~xingyuwu/MB.html),汇总该领域常用的算法包和数据集. 高维数据为真实世界的机器学习任务带来诸多挑战, 如计算资源和存储资源的消耗、数据的过拟合, 学习算法的性能退化[1], 而最具判别性的信息仅被一部分相关特征携带[2].为了降低数据维度, 避免维度灾难, 特征选择研究受到广泛关注.大量的实证研究[3, 4, 5]表明, 对于多数涉及数据拟合或统计分类的机器学习算法, 在去除不相关特征和冗余特征的特征子集上, 通常能获得比在原始特征集合上更好的拟合度或分类精度.此外, 选择更小的特征子集有助于更好地理解底层的数据生成流程[6].

04

用交叉验证改善模型的预测表现－着重k重交叉验证

机器学习技术在应用之前使用“训练+检验”的模式（通常被称作”交叉验证“）。预测模型为何无法保持稳定？让我们通过以下几幅图来理解这个问题：此处我们试图找到尺寸（size）和价格（price）的关系

06

R语言泰坦尼克号随机森林模型案例数据分析

采取大量单独不完美的模型，他们的一次性错误可能不会由其他人做出。如果我们对所有这些模型的结果进行平均，我们有时可以从它们的组合中找到比任何单个部分更好的模型。这就是整体模型的工作方式，他们培养了许多不同的模型，并让他们的结果在整个团队中得到平均或投票。

02

预测建模、监督机器学习和模式分类概览

模式分类（pattern classification）和机器学习（machine learning）是非常热的话题，几乎在所有的现代应用程序中都得到了应用：例如邮局中的光学字符识别（OCR），电子邮件过滤，超市条形码扫描，等等。在这篇文章中，我会简要描述一个典型的监督学习任务的主要概念，这些概念将作为将来的文章和实现各种学习算法的基础。机器学习和模式分类预测建模是建立一个能够进行预测的模型的通用概念。通常情况下，这样的模型包括一个机器学习算法，以便从训练数据集中学习某些属性做出这些预测。预测建模可

05

《机器学习》-- 第十一章特征选择与稀疏学习

在机器学习中特征选择是一个重要的“数据预处理”（data preprocessing）过程，即试图从数据集的所有特征中挑选出与当前学习任务相关的特征子集，再利用数据子集来训练学习器；稀疏学习则是围绕着稀疏矩阵的优良性质，来完成相应的学习任务。

01

离散数学与组合数学-01集合论

文氏图是利用平面上的点来做成对集合的图解方法。一般使用平面上的方形或圆形表示一个集合，而使用平面上的一个小圆点来表示集合的元素。

02

【机器学习】交叉验证 Cross-validation

以下简称交叉验证(Cross Validation)为CV.CV是用来验证分类器的性能一种统计分析方法,基本思想是把在某种意义下将原始数据(dataset)进行分组,一部分做为训练集(train set),另一部分做为验证集(validation set),首先用训练集对分类器进行训练,在利用验证集来测试训练得到的模型(model),以此来做为评价分类器的性能指标.常见CV的方法如下:

01

用交叉验证改善模型的预测表现(适用于Python和R)

原文作者： Sunil Ray 翻译：王鹏宇我一直对数据界的编程马拉松（Hackathons）保持关注。通过对比排名榜初期和最终的结果，我发现了一个有趣的现象：在初期排名较高的参赛者，在最终的验证环节往往地位不保，有些甚至跌出前 20 名。猜猜是什么对引起了排名的剧烈变化？换句话说，为什么这些参赛者的模型在最终验证环节无法保证稳定性？让我们来探讨一下可能的原因。预测模型为何无法保持稳定？让我们通过以下几幅图来理解这个问题：此处我们试图找到尺寸（size）和价格（price）的关系。三个模型各自做

06

美团网内部分享：机器学习中的数据清洗与特征处理实践

摘要：本文主要介绍在美团的推荐与个性化团队实践中的数据清洗与特征挖掘方法。文章以点击下单率预测为例，结合实例来介绍如何进行数据清洗和特征处理。目前在美团的团购系统中大量地应用到了机器学习和数据挖掘技

03

统计学习导论 Chapter5 -- Resampling Methods

本文介绍了统计学习中的重采样方法，包括交叉验证、自助法等，以及它们在机器学习模型中的应用。

06

想去机器学习初创公司做数据科学家？这里有最常问的40道面试题

选文/校对 | 姚佳灵翻译 | 郭姝妤导读想去机器学习初创公司做数据科学家？这些问题值得你三思！机器学习和数据科学被看作是下一次工业革命的驱动器。这也意味着有许许多多令人激动的初创公司正在起步成长、寻找专业人士和数据科学家。它们可能是未来的特斯拉、谷歌。对于有职业抱负的你来说，看好一家好的创业公司团队后，如何能够脱颖而出，进入一家靠谱的创业团队呢？想得到这样的工作并不容易。首先你要强烈认同那个公司的理念、团队和愿景。同时你可能会遇到一些很难的技术问题。而这些问题则取决于公司的业务。他们是咨询

05

【学习】机器学习中的数据清洗与特征处理综述

背景随着美团交易规模的逐步增大，积累下来的业务数据和交易数据越来越多，这些数据是美团做为一个团购平台最宝贵的财富。通过对这些数据的分析和挖掘，不仅能给美团业务发展方向提供决策支持，也为业务的迭代指明了方向。目前在美团的团购系统中大量地应用到了机器学习和数据挖掘技术，例如个性化推荐、筛选排序、搜索排序、用户建模等等，为公司创造了巨大的价值。本文主要介绍在美团的推荐与个性化团队实践中的数据清洗与特征挖掘方法。主要内容已经在内部公开课"机器学习InAction系列"讲过，本博客的内容主要是讲座内容的提炼和

05

NLP真实项目:利用这个模型能够通过商品评论去预测一个商品的销量

前言由于是日语项目，用到的分词软件等，在中文任务中需要替换为相应的中文分词软件。例如结巴分词： https://github.com/fxsjy/jieba 前提知识和术语解释如果需要获得更多知识，请自行百度，谷歌。中文资料不是很多，有能力请阅读相关论文资料。术语缩写 PV-DM: Distributed Memory Model of Paragraph Vectors 句向量的分布记忆模型 PV-DBOW: Distributed Bag of Words version of Parag

[012] 不同数据集划分与验证方法的实现与比较

Model evaluation is a set of procedures allowing you to pick the best possible stable model. It is an essential part of the model development process. It reveals the model’s behavior and its predictive power — indicates the balance between bias and variance on unseen data. As a starting point, split the given dataset into a train and test set. The model will learn to predict using the train set; in comparison, we will utilize the test set to assess the model’s performance.

04

R语言逻辑回归(Logistic Regression)、回归决策树、随机森林信用卡违约分析信贷数据集|附代码数据

本文中我们介绍了决策树和随机森林的概念，并在R语言中用逻辑回归、回归决策树、随机森林进行信用卡违约数据分析（查看文末了解数据获取方式）

00

R语言逻辑回归(Logistic Regression)、回归决策树、随机森林信用卡违约分析信贷数据集

本文中我们介绍了决策树和随机森林的概念，并在R语言中用逻辑回归、回归决策树、随机森林进行信用卡违约数据分析（查看文末了解数据获取方式）（点击文末“阅读原文”获取完整代码数据）。

03

理解人脸识别中的训练集Train Set、画廊集Gallery Set和探针集Probe Set

在构建使用深度学习的人脸识别模型时，需要构建一个训练集Train Set、画廊集Gallery Set和探针集Probe Set来评估模型的性能。

01

人类历史上第一个可编程忆阻器计算机诞生！

你有没有想过，智能手机将来也有可能直接处理复杂的人工智能任务？关键在它：人类历史上，第一个可编程忆阻器计算机。

04

R语言逻辑回归(Logistic Regression)、回归决策树、随机森林信用卡违约分析信贷数据集|附代码数据

本文中我们介绍了决策树和随机森林的概念，并在R语言中用逻辑回归、回归决策树、随机森林进行信用卡违约数据分析

00

R语言逻辑回归(Logistic Regression)、回归决策树、随机森林信用卡违约分析信贷数据集|附代码数据

最近我们被客户要求撰写关于信用卡违约的研究报告，包括一些图形和统计输出。本文中我们介绍了决策树和随机森林的概念，并在R语言中用逻辑回归、回归决策树、随机森林进行信用卡违约数据分析（查看文末了解数据获取方式）

02

译文：安德鲁.M.莫尔的教程（二） PDF下载

安德鲁•W•穆尔简介卡耐基梅隆大学的计算机科学学院院长，机器学习、人工智能、机器人技术，大数据统计计算行业背景，热爱算法和统计，最喜欢机器人技术。曾在机器人控制，生产制造，强化学习，天体物理学算法，防恐，网络广告，网络点击率的预测，电子商务的监控算法，物流等领域工作过。我热爱的技术（算法，云架构，统计，机器人，语言技术，机器学习，计算生物学，人工智能和软件开发过程）对社会的未来的影响。我们很幸运的生活在这样一个激动人心的充满变化的时代。【陆勤看点】本文续安德鲁.M.莫尔的教程（一），介绍最大

08

粒子群优化算法(PSO)之基于离散化的特征选择(FS)（一）

前言：在机器学习中，离散化(Discretization)和特征选择(Feature Selection,FS)是预处理数据的重要技术，提高了算法在高维数据上的性能。由于许多FS方法需要离散数据，所以通常的做法是在FS之前对数据进行离散化。此外，为了提高效率，特征通常单独（或单变量）离散。这种方案的原理是基于假定每个特征都是独立的，但是当特征之间存在交互时，这种方案可能不成立。因此，单变量离散化可能会降低FS的性能，因为在离散化过程中可能会因为特征之间存在交互而丢失部分信息。在生物信息学、基因组学、图像处

05

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭