为什么在我的训练样本和测试样本数量很大的情况下，sklearn的kNN分类器运行得这么快

、、

根据我的理解，对于每个测试样本，kNN分类器算法计算当前测试样本与所有训练样本之间的距离，并选择一定数量的最近邻域，确定测试样本的标签，然后进行下一个测试样本。我的代码类似于以下超链接中的示例kNN分类<

浏览 69提问于2021-01-21得票数 0

回答已采纳

5回答

K近邻算法中k的取值

、

我有7个类需要分类，我有10个特征。在这种情况下，是否存在我需要使用的k值的最佳值，或者我是否必须运行KNN，使k值介于1和10 (大约10)之间，并在算法本身的帮助下确定最佳值？

浏览 2提问于2012-07-20得票数 9

1回答

OpenCV:训练效果好，但梯级分类器差

、、

对OpenCV非常陌生，我试着训练一个haar分类器，它可以从侧面检测狗的图像。我使用了教程作为指南。作者建议，一个相对有效的分类器可以通过使用数量惊人的样本图像来训练。，Neg计数的接受率下降到0.000579 --我认为这意味着0.0579%的阴性样本被错误地归类为阳性，即在没有阳性的情况下</em

浏览 2提问于2015-07-25得票数 4

1回答

如何选择训练KNN分类器的“最佳”样本？

、、

我想建立一个KNN分类器，同时限制训练样本的数量。例如，我有一个包含60K训练样本的MNIST数据集，我正在寻找一种方法来选择这个数据集的一个大小子集n，它将提供最好的分类器(就准确性而言)。下面是一些示例代码来澄清这个问题： from sklearn.neighbors import KNeighborsCl

浏览 3提问于2020-11-30得票数 1

1回答

scikit邻域/半径分类拟合的预计算矩阵

、、、

我与Scikit-学习的最近的邻居/半径分类与一个预先计算的度量。这意味着，我向分类器的拟合方法传递成对距离的n_samples_train x n_samples_train矩阵。现在我想知道为什么要这样做。用knn学习只意味着“存储样本”，但是距离的计算应该只在泛化过程中进行(在这一步骤中，<em

浏览 1提问于2016-12-06得票数 6

1回答

机器学习中内核技巧的内存绑定

、

基于吴家富关于内核的讲座，📷我的直觉告诉我还有更多的东西，因为储存每一个训练样本对<e

浏览 0提问于2022-09-19得票数 2

4回答

学习随机森林分类器能按树调整样本大小，处理类不平衡吗？

、、、、

关于滑雪板随机森林的简单问题：在随机森林的R实现(称为randomForest )中，有一个选项sampsize()。这允许您根据结果来平衡用于训练每棵树的样本。例如，如果您试图预测结果是正

浏览 2提问于2013-11-27得票数 6

回答已采纳

7回答

机器学习，最佳技术

、、

我是机器学习的新手。我熟悉支持向量机，神经网络和遗传算法。我想知道对图片和音频进行分类的最好方法。支持向量机做得很好，但需要很长时间。有谁知道更快更好的方法吗？另外，我想知道支持向量机最快的库。

浏览 0提问于2011-03-26得票数 5

回答已采纳

1回答

使用scikit学习的批量梯度下降(sklearn)

、、

我正在使用一个一对一的Logistic回归分类器，使用Scikit-Learn (sklearn)。我有一个很大的数据集，它太慢了，不能一下子跑完所有的数据；我还想在训练过程中研究学习曲线。我想使用批量梯度下降来训练我的分类器，比如说，以500个样本为一批。有没有什么方法可以使用sklearn来做这件事，或者<

浏览 0提问于2013-02-23得票数 10

回答已采纳

1回答

需要删除for循环以将代码向量化并运行得更快。

、、

我有一个学校作业，在那里我必须创建一个分类器(kNN)。我试着这么做，而且速度太慢了。我需要在不使用循环的情况下加快速度，但我不知道该如何做。我有训练数据和标签。我也有测试数据。我已经创建了一个函数来执行分类。其中

浏览 0提问于2019-02-17得票数 1

回答已采纳

1回答

使用weka对传感器数据进行分类

、、、

我正在处理一个分类问题，它有不同的传感器。每个传感器收集一组数值。例如，我有三个传感器A、B、C。我可以定义5个从所有传感器收集的</e

浏览 0提问于2013-06-25得票数 1

回答已采纳

1回答

如何获得分类概率

、、

采用二值分类，尝试了KNN、SVM、决策树和随机林的几种模型。我有50000个样本，X_train有50000行和2300列。一切正常，但我想建立一些半监督的模型，因为我有一些未标记的样本。在这种情况下，我需要得到我尝试过的分类的概率，但是它不起作用。一开始，我试着找KNN

浏览 0提问于2019-03-20得票数 1

回答已采纳

1回答

在多标签分类中使用样本权重

、、

当我使用线性支持向量机在scikit-learn中处理分类问题时，我可以将自定义权重应用于每个训练样本，如下所示：from sklearn.preprocessing import MultiLabelBinarizerOne

浏览 0提问于2018-03-28得票数 2

2回答

测量分类算法的性能

、、、、

我手头有一个分类问题，我想用机器学习算法来解决这个问题(贝叶斯或马尔可夫，这个问题与要使用的分类器无关)。在给定大量训练实例的情况下，我正在寻找一种方法来衡量实现的分类器的性能，同时考虑到数据过拟合问题。也就是说:给定N1..100个训练样本，如果我在每个样本上运行训练算法，并使用这些完全相同

浏览 3提问于2009-01-02得票数 8

回答已采纳

4回答

决策树与KNN

、、

在哪些情况下使用决策树更好，而在其他情况下使用KNN更好？有人对此有什么解释或参考吗？

浏览 0提问于2015-12-05得票数 17

回答已采纳

1回答

软(模糊)标签学习中的多标签分类

、、

我有一个模型，它是在一个5维分类问题上进行学习训练的，它表现得比较好(有kNN和支持向量机版本，并且都以高精度复制了测试集)。我所读到的关于sklearn中多标签分类的</

浏览 0提问于2019-03-27得票数 3

3回答

如何知道训练数据是否足以用于机器学习？

、、

例如:如果我想训练一个分类器(也许是SVM)，我需要收集多少样本？对此有测量方法吗？

浏览 0提问于2014-07-15得票数 7

回答已采纳

4回答

为什么KNN在余弦距离上比欧几里德距离快得多？

、、、、

我正在使用scikit learn拟合k近邻分类器，并注意到当使用两个向量之间的余弦相似度时，与使用欧几里得相似度时相比，拟合速度更快，通常是一个数量级或更多。请注意，这两个都是sklearn内置的；我没有使用这两个指标的自定义实现。这么大的差异背后的原因是什么？我知道scikit learn使用球树或KD树来计算邻居图，但我不确定为什么度量的

浏览 6提问于2021-05-23得票数 6

1回答

加权相关系数

、

我的问题是分类输入时间序列信号(128点，时间等距，范围0.0.1.0)在有限的数量(例如16)不同的类别。我们有手工分类的20000个样本，我们使用2000年作为训练集和其他18000来评估我们的分类算法(测试集)。在我的分析中，我发现使用相关系数进行分类是很好的

浏览 0提问于2019-09-07得票数 0

2回答

学习曲线-为什么训练的准确性开始这么高，然后突然下降？

、、、、

我实现了一个模型，其中我使用Logistic回归作为分类器，我想绘制学习曲线为训练和测试集，以决定下一步做什么，以改进我的模型。为了给你一些信息，为了绘制学习曲线，我定义了一个函数，它采用一个模型，一个预分裂的数据集(训练/测试X和Y数组，NB:使用train_test_split函数)，一个评分函数作为输入，在n个指数间隔的<

浏览 5提问于2016-05-02得票数 3

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

K近邻算法中k的取值

OpenCV:训练效果好，但梯级分类器差

如何选择训练KNN分类器的“最佳”样本？

scikit邻域/半径分类拟合的预计算矩阵

机器学习中内核技巧的内存绑定

学习随机森林分类器能按树调整样本大小，处理类不平衡吗？

机器学习，最佳技术

使用scikit学习的批量梯度下降(sklearn)

需要删除for循环以将代码向量化并运行得更快。

使用weka对传感器数据进行分类

如何获得分类概率

在多标签分类中使用样本权重

测量分类算法的性能

决策树与KNN

软(模糊)标签学习中的多标签分类

如何知道训练数据是否足以用于机器学习？

为什么KNN在余弦距离上比欧几里德距离快得多？

加权相关系数

学习曲线-为什么训练的准确性开始这么高，然后突然下降？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐