从sklearn数据集中随机采样数据

、、

我有一个来自sklearn的bunches对象，看起来像这样。from sklearn.datasets import load_bostonimport numpy as np n_samplesboston.data.shape[0] dict_keys(['data', 'target', 'feature_names', 'DESCR', 'f

浏览 41提问于2019-05-16得票数 0

1回答

从核密度估计中获取核特性(sklearn)

、、、

在中，合成的数据来自两个高斯分布的加权抽样，[0,1]和[5, 1]的均值和std分别占30%和70%。假设使用gaussian内核和bandwidth=1，我们得到了以下结果( KDE估计器的输出与列车数据相匹配)：是否有可能(从数学上和实际上)恢复估计核的特性？例如，在这种情况下，我们从拟合模型中读取[0,1]和[5, 1]值？(假设适当地完成了拟合过程)

浏览 3提问于2020-05-27得票数 1

1回答

我的数据集包含600首歌曲，每个流派恰好有120首。特征是每首歌曲的13个mfcc的一维阵列，标签是流派。基本上，对于30秒样本的每帧，我取每组13个mfcc的平均值。这导致每首歌曲有13个mfcc。然后，我获得整个数据集，并使用sklearn的缩放函数。我的目标是比较svm、knearest和naive bayes分类器(使用sklearn工具集)。我已经做了一些测试，但我注意到结果会根据我是否进行随机采样/分层采样而有所不同。当省略“随机</em

浏览 3提问于2017-05-15得票数 1

2回答

如何在Tensorflow中对数据集的10%进行采样？

、

我有一个mnist数据集，我想使用其中的10%作为验证集。我如何在Tensorflow中做到这一点？

浏览 0提问于2019-01-26得票数 0

2回答

使用替换对R中的数据帧的随机行进行采样

、、

我希望能够使用bootstrapping为一些测试统计数据生成一些置信区间。我希望能够做的是使用原始数据集的采样和替换来绘制引导数据集。我假设这将是一个大小为n的数据集(其中n小于原始数据集的大小)，它从具有替换的完整数据集中采样观察值/数据行(以便某些行可能被绘制两次)。我现在拥有的单次迭代的代码如下：此代码

浏览 0提问于2018-09-11得票数 0

3回答

不平衡数据集拆分

、、

什么是不平衡dataset的最佳技术？如何拆分dataset以进行测试(在技术之前或之后)？

浏览 0提问于2018-07-15得票数 0

2回答

我应该重新整理数据集吗？

、

我拥有的数据集是由路径名组成的一些文本数据。我正在使用TF-国防军向量器和决策树。数据集中的类严重不平衡。有几个大类的样本数超过500个，而其他一些小类的样本数少于100个。有些甚至更小(不到20)。这是实际收集的数据，因此模型在实际实现中看到次要类的可能性也很小。我现在遇到的问题是，模型大部分时间预测小班为主修班，使我的准确率一直在45%左右。如果我重新整理数据，我认为由于模型学习主修班的能力降低，准确性会更差。因此，我想问一问，我是否应该考虑重新整理我的数据，或有

浏览 0提问于2021-07-14得票数 0

1回答

`max_features`如何限制滑雪集成模型中的功能数量？

、

我仍然不完全理解max_features中的sklearn分类器。为解释留出了一点空间。为了解决这个问题，假设我使用的是基于树的分类器，例如决策树、随机森林、梯度提升等等。例如，如果我要设置max_features=10，这是否意味着每个估计器将从我的数据集中随机获取10个特征来构建整个树，还是意味着每次一个节点被分割时，每个估计器随机地采样10个特征并选择一个最大程度降低熵的特征也就是说，对于任何给定节点，估计器随机选择10个特征，选择最佳特征，拆分

浏览 5提问于2020-12-08得票数 0

回答已采纳

1回答

过度采样只会平衡培训集，那么测试集呢？

、、

在数据分类不平衡的情况下，我知道我们只是过采样了培训集(以防止数据从培训到测试子集的泄漏)，但是如果我的测试集中没有正数据点怎么办？测试集仍然非常偏斜，只有我的阳性类的1%。我使用XGBoost、随机森林、Logistic回归和KNN进行分类任务。同时，我也尝试过使用SMOTE、SMOTE和Class_weight来对我的训练集进行过采样.为了增加获得更多数据的机会，我将10倍改为5倍交叉验证(在开发模型时)，没有改进！PS:我的<e

浏览 0提问于2019-08-20得票数 2

回答已采纳

1回答

“时代”在生成性对抗性网络训练中的意义

、、、、

我正在用文本数据训练一个GAN。在训练判别器时，从数据集中随机抽取m阳性数据，用生成器生成m个负值数据。我发现很多论文都提到了实施的细节，比如培训时代。关于训练时代，我有一个关于抽样积极数据的问题：数据集中的样本(可能是洗牌的)按顺序排列，当整个数据集被覆盖时，我们像我一样调用1纪元，随机抽样正数据，当采样的数据总量与

浏览 1提问于2020-03-17得票数 1

1回答

如何在预测期间应用这些转换？

、、、

假设我有一条滑雪管道：随机过采样少数民族阶级from sklearn.impute import SimpleImputer('estimator', <Some Logistic Regression>)) 然后，我可以将它安装到我的训练集pipeline.fit(X_train, y_train)中，并且随机过采样器应该正确地识别要采样</

浏览 0提问于2020-05-25得票数 1

3回答

对不平衡数据使用sklearn.train_test_split

、、、、

我有一个非常不平衡的数据集。我使用sklearn.train_test_split函数来提取训练数据集。现在我想对训练数据集进行过采样，所以我过去常常计算type1的数量(我的数据集有两个类别和类型(type1和tupe2)，但我的所有训练数据都是type1。所以我不能过度抽样。以前，我用我编写的代码拆分训练测试数据集。在所有type1数据编码0.8和所有type2数据的0.8在训练数据集中

浏览 110提问于2020-05-19得票数 2

回答已采纳

1回答

绘制一个非常大的火花柱的直方图

相关问题：如何绘制此列的直方图？

浏览 1提问于2018-12-17得票数 0

1回答

从数据集中随机采样，然后删除采样条目(R)

、

我有来自正态分布的600个元素的随机样本存储在一个向量中：我正在尝试将这个向量分成100个随机组，每个组6个条目函数只需执行一次操作：但是，如果我再次使用sample函数，一些条目可能会被重用，因为它们没有从初始数据中删除一种可能的解决方案可能是最初将数据存储在100x6矩阵中，并将每行视为一个“<e

浏览 2提问于2015-10-02得票数 0

3回答

如何正确分割不平衡的数据集以训练和测试集？

、、、

我有一个航班延迟数据集，并试图分割该集，以训练和测试集，然后取样。及时病例约占总数据的80%，延迟病例约占总数的20% .因此，我的问题是如何正确地分割不平衡的数据集来训练和测试集？

浏览 1提问于2019-07-27得票数 1

回答已采纳

3回答

Scikit学习构建随机森林的ExtraTreeRegressor考虑的特征

、、、

我遇到了，它涉及到测试数据集的face补全。在这里，max_features的32值被传递给ExtraTreesRegressor()函数。我了解到决策树是构建的，它从输入数据集中选择随机特征。对于上面链接中的示例，图像被用作训练和测试数据集。描述了各种类型的图像功能。现在我不能理解sklearn.ensemble.ExtraTreeRegressor从作为输入提供的图像数据集中寻找或提取哪些特征来构建随机森林。

浏览 0提问于2013-06-11得票数 1

回答已采纳

1回答

在SAS中，是否可以对另一个数据集中的地层进行分层随机抽样？

、

我正在尝试比较属性分层不同的两个数据集。是否可以在一个数据集中进行分层随机采样，但使用另一个数据集的分层？为了说明这一点，我举了一个例子：现在我有了另一个数据集，数据集B，它包含100k条记录，具有相同的属性和颜色，但具有20%的蓝色和80%的红色分布。我是否可以对数据集A进行分层随机采样<

浏览 24提问于2020-05-28得票数 0

回答已采纳

2回答

MxNet数据迭代器序列访问与随机访问的I/O性能差异？

我想向一个网络提供许多培训图像，这些图像是通过遵循一定的采样规则从数据集中取样的。现在我有两个选择：我的直觉告诉我，顺序访问将比对.rec文件的随机<

浏览 8提问于2017-07-15得票数 0

回答已采纳

1回答

如何在JMeter中读取CSV数据集配置中的下一行？

、

我正在用JMeter创建一个测试位置，它访问随机数量的页面(从2到10个)，其URL是从CSV数据集中获取的。我已经创建了CSV数据集和采样器，它们工作得很好，除了每个线程只从数据集中读取一行，这不是我所需要的-我希望在采样器完成之后(或之前，我没有大惊小怪)读取新的行。有没有一种方法可以设置CSV数据集在读取时前进到下一行，或者使用一些后处理或预处理器，如beanshell，以实

浏览 3提问于2012-04-17得票数 1

1回答

scikit过配二进制分类玩具问题-学习RandomForestClassifier

、、、、

我试着训练一个随机森林，从虹膜数据集中对一组花卉的种类进行分类。然而，验证在我看来有点奇怪，因为它看起来是完美的，这是我所不期望的。由于我希望执行二进制分类，所以我从训练数据集中排除了其物种属于"2“类的花卉，因此我只有0/1的花。from sklearn.ensemble import RandomForestC

浏览 1提问于2021-11-05得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

从核密度估计中获取核特性(sklearn)

使用sklearn进行音乐流派分类:如何准确评估不同的模型

如何在Tensorflow中对数据集的10%进行采样？

使用替换对R中的数据帧的随机行进行采样

不平衡数据集拆分

我应该重新整理数据集吗？

`max_features`如何限制滑雪集成模型中的功能数量？

过度采样只会平衡培训集，那么测试集呢？

“时代”在生成性对抗性网络训练中的意义

如何在预测期间应用这些转换？

对不平衡数据使用sklearn.train_test_split

绘制一个非常大的火花柱的直方图

从数据集中随机采样，然后删除采样条目(R)

如何正确分割不平衡的数据集以训练和测试集？

Scikit学习构建随机森林的ExtraTreeRegressor考虑的特征

在SAS中，是否可以对另一个数据集中的地层进行分层随机抽样？

MxNet数据迭代器序列访问与随机访问的I/O性能差异？

如何在JMeter中读取CSV数据集配置中的下一行？

scikit过配二进制分类玩具问题-学习RandomForestClassifier

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐