腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
从
sklearn
数据
集中
随机
采样
数据
、
、
我有一个来自
sklearn
的bunches对象,看起来像这样。from
sklearn
.datasets import load_bostonimport numpy as np n_samplesboston.data.shape[0] dict_keys(['data', 'target', 'feature_names', 'DESCR', 'f
浏览 41
提问于2019-05-16
得票数 0
1
回答
从
核密度估计中获取核特性(
sklearn
)
、
、
、
在中,合成的
数据
来自两个高斯分布的加权抽样,[0,1]和[5, 1]的均值和std分别占30%和70%。假设使用gaussian内核和bandwidth=1,我们得到了以下结果( KDE估计器的输出与列车
数据
相匹配): 是否有可能(
从
数学上和实际上)恢复估计核的特性?例如,在这种情况下,我们
从
拟合模型中读取[0,1]和[5, 1]值?(假设适当地完成了拟合过程)
浏览 3
提问于2020-05-27
得票数 1
1
回答
使用
sklearn
进行音乐流派分类:如何准确评估不同的模型
、
、
、
我的
数据
集包含600首歌曲,每个流派恰好有120首。特征是每首歌曲的13个mfcc的一维阵列,标签是流派。基本上,对于30秒样本的每帧,我取每组13个mfcc的平均值。这导致每首歌曲有13个mfcc。然后,我获得整个
数据
集,并使用
sklearn
的缩放函数。 我的目标是比较svm、knearest和naive bayes分类器(使用
sklearn
工具集)。我已经做了一些测试,但我注意到结果会根据我是否进行
随机
采样
/分层
采样
而有所不同。当省略“
随机</em
浏览 3
提问于2017-05-15
得票数 1
2
回答
如何在Tensorflow中对
数据
集的10%进行
采样
?
、
我有一个mnist
数据
集,我想使用其中的10%作为验证集。我如何在Tensorflow中做到这一点?
浏览 0
提问于2019-01-26
得票数 0
2
回答
使用替换对R中的
数据
帧的
随机
行进行
采样
、
、
我希望能够使用bootstrapping为一些测试统计
数据
生成一些置信区间。我希望能够做的是使用原始
数据
集的
采样
和替换来绘制引导
数据
集。我假设这将是一个大小为n的
数据
集(其中n小于原始
数据
集的大小),它从具有替换的完整
数据
集中
采样
观察值/
数据
行(以便某些行可能被绘制两次)。我现在拥有的单次迭代的代码如下:此代码
浏览 0
提问于2018-09-11
得票数 0
3
回答
不平衡
数据
集拆分
、
、
什么是不平衡dataset的最佳技术?如何拆分dataset以进行测试(在技术之前或之后)?
浏览 0
提问于2018-07-15
得票数 0
2
回答
我应该重新整理
数据
集吗?
、
我拥有的
数据
集是由路径名组成的一些文本
数据
。我正在使用TF-国防军向量器和决策树。
数据
集中
的类严重不平衡。有几个大类的样本数超过500个,而其他一些小类的样本数少于100个。有些甚至更小(不到20)。这是实际收集的
数据
,因此模型在实际实现中看到次要类的可能性也很小。我现在遇到的问题是,模型大部分时间预测小班为主修班,使我的准确率一直在45%左右。如果我重新整理
数据
,我认为由于模型学习主修班的能力降低,准确性会更差。 因此,我想问一问,我是否应该考虑重新整理我的
数据
,或有
浏览 0
提问于2021-07-14
得票数 0
1
回答
`max_features`如何限制滑雪集成模型中的功能数量?
、
我仍然不完全理解max_features中的
sklearn
分类器。为解释留出了一点空间。为了解决这个问题,假设我使用的是基于树的分类器,例如决策树、
随机
森林、梯度提升等等。例如,如果我要设置max_features=10,这是否意味着每个估计器将从我的
数据
集中
随机
获取10个特征来构建整个树,还是意味着每次一个节点被分割时,每个估计器
随机
地
采样
10个特征并选择一个最大程度降低熵的特征也就是说,对于任何给定节点,估计器
随机
选择10个特征,选择最佳特征,拆分
浏览 5
提问于2020-12-08
得票数 0
回答已采纳
1
回答
过度
采样
只会平衡培训集,那么测试集呢?
、
、
在
数据
分类不平衡的情况下,我知道我们只是过
采样
了培训集(以防止
数据
从
培训到测试子集的泄漏),但是如果我的测试
集中
没有正
数据
点怎么办?测试集仍然非常偏斜,只有我的阳性类的1%。我使用XGBoost、
随机
森林、Logistic回归和KNN进行分类任务。同时,我也尝试过使用SMOTE、SMOTE和Class_weight来对我的训练集进行过
采样
.为了增加获得更多
数据
的机会,我将10倍改为5倍交叉验证(在开发模型时),没有改进!PS:我的<e
浏览 0
提问于2019-08-20
得票数 2
回答已采纳
1
回答
“时代”在生成性对抗性网络训练中的意义
、
、
、
、
我正在用文本
数据
训练一个GAN。在训练判别器时,
从
数据
集中
随机
抽取m阳性
数据
,用生成器生成m个负值
数据
。我发现很多论文都提到了实施的细节,比如培训时代。关于训练时代,我有一个关于抽样积极
数据
的问题:
数据
集中
的样本(可能是洗牌的)按顺序排列,当整个
数据
集被覆盖时,我们像我一样调用1纪元,
随机
抽样正
数据
,当
采样
的
数据
总量与
浏览 1
提问于2020-03-17
得票数 1
1
回答
如何在预测期间应用这些转换?
、
、
、
假设我有一条滑雪管道:
随机
过
采样
少数民族阶级from
sklearn
.impute import SimpleImputer('estimator', <Some Logistic Regression>)) 然后,我可以将它安装到我的训练集pipeline.fit(X_train, y_train)中,并且
随机
过
采样
器应该正确地识别要
采样</
浏览 0
提问于2020-05-25
得票数 1
3
回答
对不平衡
数据
使用
sklearn
.train_test_split
、
、
、
、
我有一个非常不平衡的
数据
集。我使用
sklearn
.train_test_split函数来提取训练
数据
集。现在我想对训练
数据
集进行过
采样
,所以我过去常常计算type1的数量(我的
数据
集有两个类别和类型(type1和tupe2),但我的所有训练
数据
都是type1。所以我不能过度抽样。以前,我用我编写的代码拆分训练测试
数据
集。在所有type1
数据
编码0.8和所有type2
数据
的0.8在训练
数据
集中
浏览 110
提问于2020-05-19
得票数 2
回答已采纳
1
回答
绘制一个非常大的火花柱的直方图
相关问题:如何绘制此列的直方图?
浏览 1
提问于2018-12-17
得票数 0
1
回答
从
数据
集中
随机
采样
,然后删除
采样
条目(R)
、
我有来自正态分布的600个元素的
随机
样本存储在一个向量中:我正在尝试将这个向量分成100个
随机
组,每个组6个条目函数只需执行一次操作:但是,如果我再次使用sample函数,一些条目可能会被重用,因为它们没有
从
初始
数据
中删除一种可能的解决方案可能是最初将
数据
存储在100x6矩阵中,并将每行视为一个“<e
浏览 2
提问于2015-10-02
得票数 0
3
回答
如何正确分割不平衡的
数据
集以训练和测试集?
、
、
、
我有一个航班延迟
数据
集,并试图分割该集,以训练和测试集,然后取样。及时病例约占总
数据
的80%,延迟病例约占总数的20% .因此,我的问题是如何正确地分割不平衡的
数据
集来训练和测试集?
浏览 1
提问于2019-07-27
得票数 1
回答已采纳
3
回答
Scikit学习构建
随机
森林的ExtraTreeRegressor考虑的特征
、
、
、
我遇到了,它涉及到测试
数据
集的face补全。在这里,max_features的32值被传递给ExtraTreesRegressor()函数。我了解到决策树是构建的,它从输入
数据
集中
选择
随机
特征。对于上面链接中的示例,图像被用作训练和测试
数据
集。描述了各种类型的图像功能。现在我不能理解
sklearn
.ensemble.ExtraTreeRegressor
从
作为输入提供的图像
数据
集中
寻找或提取哪些特征来构建
随机
森林。
浏览 0
提问于2013-06-11
得票数 1
回答已采纳
1
回答
在SAS中,是否可以对另一个
数据
集中
的地层进行分层
随机
抽样?
、
我正在尝试比较属性分层不同的两个
数据
集。是否可以在一个
数据
集中
进行分层
随机
采样
,但使用另一个
数据
集的分层?为了说明这一点,我举了一个例子:现在我有了另一个
数据
集,
数据
集B,它包含100k条记录,具有相同的属性和颜色,但具有20%的蓝色和80%的红色分布。我是否可以对
数据
集A进行分层
随机
采样<
浏览 24
提问于2020-05-28
得票数 0
回答已采纳
2
回答
MxNet
数据
迭代器序列访问与
随机
访问的I/O性能差异?
我想向一个网络提供许多培训图像,这些图像是通过遵循一定的
采样
规则从
数据
集中
取样的。现在我有两个选择: 我的直觉告诉我,顺序访问将比对.rec文件的
随机<
浏览 8
提问于2017-07-15
得票数 0
回答已采纳
1
回答
如何在JMeter中读取CSV
数据
集配置中的下一行?
、
我正在用JMeter创建一个测试位置,它访问
随机
数量的页面(
从
2到10个),其URL是
从
CSV
数据
集中
获取的。我已经创建了CSV
数据
集和
采样
器,它们工作得很好,除了每个线程只
从
数据
集中
读取一行,这不是我所需要的-我希望在
采样
器完成之后(或之前,我没有大惊小怪)读取新的行。有没有一种方法可以设置CSV
数据
集在读取时前进到下一行,或者使用一些后处理或预处理器,如beanshell,以实
浏览 3
提问于2012-04-17
得票数 1
1
回答
scikit过配二进制分类玩具问题-学习RandomForestClassifier
、
、
、
、
我试着训练一个
随机
森林,
从
虹膜
数据
集中
对一组花卉的种类进行分类。然而,验证在我看来有点奇怪,因为它看起来是完美的,这是我所不期望的。由于我希望执行二进制分类,所以我
从
训练
数据
集中
排除了其物种属于"2“类的花卉,因此我只有0/1的花。from
sklearn
.ensemble import RandomForestC
浏览 1
提问于2021-11-05
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
sklearn数据集介绍
如何对数据进行简单采样
人工稚能之sklearn数据降维
从用户交易数据集中寻找商品之间的关联规则
python机器学习库sklearn——生成样本数据
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券