腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
26
回答
如何使用pandas从
一个
数据
帧创建测试和训练样本?
python
、
python-2.7
、
pandas
、
dataframe
我有
一个
相当大
的
dataframe形式
的
数据
集
,我想知道
如何将
dataframe
分成
两个
随机样本
(80%和20%)用于训练和测试。 谢谢!
浏览 209
提问于2014-06-11
得票数 431
回答已采纳
1
回答
如何将
一个
数据
集
分成
2个
以上
的
随机样本
python
、
random
、
scikit-learn
、
sampling
、
resampling
如果我有
一个
有1000行
的
数据
集
,那么将
数据
集
分成
5个
随机样本
的
最佳方法是什么(即,每个样本将有200行)。我知道有像model_selection.train_test_split()和utils.resample()这样
的
函数,但这些函数只将
数据
集
分成
两个样本。我是否首先需要生成
一个
随机数列表,在这种情况下是1000个随机数
的</em
浏览 51
提问于2020-04-14
得票数 0
回答已采纳
1
回答
在学习中,火车测试拆分得分较高,CV得分较低
python
、
scikit-learn
、
virtual-machine
、
random-forest
、
cross-validation
我是
数据
科学
的
新手,一直在为Kaggle
的
问题而奋斗。用随机森林回归预测评分时,发现列车测试分割得分较高,而CV得分较低。
浏览 2
提问于2020-07-05
得票数 0
1
回答
在SAS中,是否可以对另
一个
数据
集中
的
地层进行分层随机抽样?
sas
、
sampling
我正在尝试比较属性分层不同
的
两个
数据
集
。是否可以在
一个
数据
集中进行分层随机采样,但使用另
一个
数据
集
的
分层?为了说明这一点,我举了
一个
例子:现在我有了另
一个
数据
集
,
数据
浏览 24
提问于2020-05-28
得票数 0
回答已采纳
1
回答
根据R中
的
邮政编码等分行创建两个
数据
集
r
、
random
、
dplyr
、
tidyverse
、
purrr
我有
一个
包含客户代码、客户名称和邮政编码
的
数据
集
。
数据
集
有149130行。我希望将其平分为两个
数据
集
(每个
数据
集
为74565行),并在excel中导出。但是,我想确保如果
一个
邮政编码有两个客户,
一个
是dataset1,另
一个
是dataset2。剩下
的
可以是随机选择
的
客户。我是新手,尝试过各种训练/测试和样本代码--但是
浏览 7
提问于2020-05-06
得票数 0
回答已采纳
1
回答
最终模型拟合-子集与整个训练
数据
classification
、
hyperparameter-tuning
、
hyperparameter
如果我将整个可用培训
数据
的
子集用于模型优化和超级参数选择,那么是否应该将最终模型与子集培训
数据
集
或整个可用
的
培训
数据
相匹配?例如,如果我有1万个可用
的
样本,并且我将
一个
100 K
的
随机样本
作为测试保留,而200 K
的
随机样本
作为模型调优
的
训练
数据
集
,那么用于在1) 200 K训练
数据
集
上拟合最
浏览 0
提问于2020-06-24
得票数 0
回答已采纳
1
回答
如何利用Rstudio中
的
面板
数据
制作分层
随机样本
?
r
、
sampling
、
panel-data
我想做
一个
分层
随机样本
的
面板
数据
。该怎么做呢?如何制作40个州
的
分层
随机样本
?如何使size=40状态
的
随机样本
成为
一个
随机样本
?我试过用这个: samp1=strata(Guns, ("levels(Guns$state)
浏览 3
提问于2021-02-12
得票数 0
1
回答
Pyspark:采用平衡类
的
n个样本
pyspark
我有
一个
相当大
的
数据
集
,大约有5bil。记录。我想从其中随机抽取1mio
的
样本。问题是标签不平衡。| 768866802||C | 584150833|标签B比其他标签有更多
的
数据
我知道有
一个
向上和向下采样
的
概念,但是考虑到大量
的
数据
,我可能不需要这样做,因为我可以很容易地从每个标签中找到1
浏览 2
提问于2020-10-04
得票数 0
1
回答
如果
数据
是非平稳
的
,
如何将
数据
分成
培训、验证、测试
数据
集
?
machine-learning
、
time-series
、
dataset
、
data
当将
数据
分成
训练、验证、测试
数据
集
到机器学习模型时,理想
的
情况是
数据
是平稳
的
。然而,在现实世界中,一些
数据
是非平稳
的
.例如,金融时间序列
数据
是非平稳
的
.那么,对于这种非平稳
数据
,您
如何将
数据
分成
培训、验证、测试
数据
集
?
浏览 0
提问于2020-12-18
得票数 1
1
回答
如何每次从
数据
集中抽取相同
的
随机样本
r
、
random
、
random-seed
我有
一个
由近700万个观测
数据
组成
的
数据
集
,我想要随机抽取
数据
样本来分析
一个
子集。我知道如何对
数据
进行随机抽样:flights <- flight[index, ] 是否有一种方法来获取
一个
随机样本
,但一旦在我
的
数据
集中创建,总是给我相同
的
随机样本
?我希望这样做,而不必
浏览 0
提问于2015-06-07
得票数 3
回答已采纳
3
回答
JSON
数据
转换为
数据
集
javascript
、
arrays
、
json
、
loops
、
object
, }, { "color": "orange"} "value": "32",}, {
浏览 9
提问于2014-11-28
得票数 2
回答已采纳
1
回答
Maxent中具有更多折叠
的
K-折叠交叉验证
cross-validation
、
maxent
您好,我正在使用MacMac3.4.0版本
的
Maxent软件,我想了解
一个
关于k-折交叉验证
的
问题。 基本上,我知道我
的
数据
集
被
分成
k个折叠,每个折叠或多或少都有相同
的
大小。因此,如果我
的
数据
集
有100个观察值,10次交叉验证将把
数据
集
分成
10个观察值,Maxent将训练10个模型,每个模型有9个观察值,第10个模型将对其进行测试。我
的<
浏览 60
提问于2020-12-07
得票数 1
1
回答
将虹膜
数据
集
分成
批次并通过历元进行训练
tensorflow
、
epoch
、
training-data
我看到了
一个
如何将
MNIST
数据
集
拆
分成
批处理并在几个时期内训练它们
的
示例。我想对IRIS
数据
集
做同样
的
事情,但我不知道如何在python中(或通过tensorflow库)将IRIS拆
分成
批处理。
浏览 0
提问于2018-07-19
得票数 0
5
回答
在二进制分类中,是否应该平衡测试
数据
集
?
machine-learning
、
classification
、
class-imbalance
我有
一个
数据
集
,有4519个样本标记为"1",18921个样本标记为"0“,在二进制分类练习中。我很清楚,在分类算法
的
训练阶段(在这种情况下,是随机森林),应该平衡0/1样本
的
数量,以防止算法偏向大多数类。 但是,测试
数据
集
是否也应该是平衡
的
?换句话说,如果用"0“类
的
1000个
随机样本
和"1”类
的
1000个
随机样本
来训练
浏览 0
提问于2018-11-29
得票数 8
回答已采纳
2
回答
根据R中
的
每一步,从不同长度
的
行/值列表中随机抽取一行
r
、
random
、
replace
、
sample
我有
一个
列表,其中每一行都是几个物种
的
不同寄存器(可能会在列表中重复)。这些物种中
的
每
一个
都属于给定
的
数据
库(在同一
数据
集中没有重复
的
物种)。我需要随机抽样不同
的
寄存器(行),但是我希望样本
的
数量随“步骤”
的
数目而改变。步骤1:1个
随机样本
(行), 步骤2:来自不同
数据
集
的
2
浏览 4
提问于2022-08-30
得票数 0
回答已采纳
1
回答
在SciPy中从fit PDF生成
随机样本
(Python)
python
、
scipy
、
statistics
给出
一个
使用scipy.stats
的
数据
集
的
合适分布,如下所示: data = fetch_data(file)fit_pdf = scipy.stats.norm.pdf(x, param[0], param[1]) 从该拟合
数据
生成N=1000
随机样本
的
最佳方法是什么?在给定PDF中任意数组
的
值<e
浏览 15
提问于2019-12-12
得票数 3
回答已采纳
1
回答
将图像数组和标签
数据
帧拆分为训练
集
、测试
集
和验证
集
keras
、
computer-vision
、
conv-neural-network
、
tensor
我有
一个
形状为(30000,128,128,3)
的
图像数组(从npy文件加载)和
一个
形状为(30000,1)
的
标签
数据
框。
如何将
这些
数据
分成
训练
集
、测试
集
和验证
集
,以便继续构建CNN模型?
浏览 21
提问于2021-09-17
得票数 0
回答已采纳
1
回答
__getitem__()在PyTorch
数据
集中能返回
随机样本
吗?
pytorch
__getitem()__在PyTorch Dataset中是否被限制为始终返回相同索引
的
相同示例?例如,我认为样本可能会被一些下游任务缓存,所以我不愿意这样做,但这实际上不是
一个
问题吗?(上下文:这是
一个
蒙面语言建模任务,在那里,我想要对每个句子进行一次划时代
的
覆盖,每个句子都有随机
的
掩码。下
一个
时代将有不同
的
掩码--所以在
数据
集中
的
同
一个
索引上。
浏览 0
提问于2023-02-14
得票数 0
1
回答
R Studio查询定义
rstudio
train.indices <- sample(1:nrow(iris), 100)是做什么
的
? 谢谢。
浏览 0
提问于2020-01-04
得票数 0
2
回答
火花DataFrame/DataSet分页或一次迭代N行
的
块
scala
、
apache-spark
、
apache-spark-sql
我需要为我
的
数据
集
实现分页(在星火scala中)。请
如何将
火花
数据
集
/
数据
集
拆分为N个行号? -NS
浏览 0
提问于2018-10-02
得票数 2
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
腾讯会议
活动推荐
运营活动
广告
关闭
领券