腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(7421)
视频
沙龙
1
回答
有条件
地
将
数据
拆
分成
训练
和
测试
(
Pandas
)
、
、
我想把
数据
分成
训练
集
和
测试
集。 但问题是,我想使用2015到2018年的
数据
来
训练
模型,并在2019年的
数据
上
测试
模型。
浏览 25
提问于2019-12-20
得票数 0
回答已采纳
1
回答
随机森林预测
、
我有一个包含40,000行的
训练
数据
集,并且能够成功
地
为我的
数据
集生成一个randomForest。new_train_rf
测试
浏览 1
提问于2018-12-06
得票数 0
回答已采纳
1
回答
如何检查“
测试
数据
”的准确性并绘制它们
、
、
、
、
我想
测试
11000+图像的准确性。我
将
数据
分成
两类,“是”
和
“否”。然后,在
训练
集
和
测试
集中将其
分成
80/20。现
浏览 2
提问于2020-12-02
得票数 0
2
回答
train_test_split的一个标记
、
、
、
、
我有一个按日期索引的
pandas
数据
。假设从1月1日到1月30日。我想将这个
数据
集
分成
X_train、X_test、y_train、y_test,但是我不想混淆日期,所以我希望
将
训练
和
测试
样本除以特定的日期(或索引)。我想将我的
数据
拆分为: Jan-1 to Jan-24
训练
,Jan-25 to Jan-30
测试
( test_size为0.2,即24次
训练
,6次
测试</em
浏览 0
提问于2018-12-06
得票数 4
回答已采纳
2
回答
取多个神经网络的平均值?
、
、
、
、
我用一个非常小的
数据
集来拟合一个神经网络,所以试着把
数据
分成
训练
和
验证集。(有一个单独的
测试
集)如果我
将
训练
/验证随机
分成
几次,为每个
训练
/验证分裂构造一个神经网络,并取
测试
集上神经网络预测值的平均值,它是否可以称为集成模型?或者,这种技术是否有一个特定的名称?编辑:我刚刚发现一种类似的技术叫做“重复随机次抽样验证”,但是RRSSV
将
数据
<em
浏览 0
提问于2018-01-29
得票数 2
1
回答
问答组采样聊天
数据
的潘达斯字符串操作问题
、
、
、
、
关于按答案组采样聊天
数据
的
Pandas
字符串操作的问题。1 2 3 ..。我想抽取样本问题
和
答案10~20%
浏览 0
提问于2019-01-21
得票数 0
回答已采纳
2
回答
标记
数据
异常检测中的交叉验证
、
、
、
、
我正在从事一个项目,在那里我
训练
异常检测算法,隔离森林
和
自动编码器。我的
数据
是标记的,所以我有基本的真实性,但问题的性质需要无监督/半监督异常检测方法,而不是简单的分类。因此,我
将
只使用标签进行验证。 既然我不会用标签来
训练
模型,而不像在有监督的学习中使用X_train、X_test、y_train
和
y_test,那么在这里进行模型验证的正确方法是什么?如果这是监督学习,我会把
数据
分成
3部分:
训练
,简历
和
<
浏览 0
提问于2020-07-16
得票数 1
1
回答
用numpy数组对train_test_split
数据
进行排序
、
、
、
、
我想拆分以下用于
训练
和
测试
的numpy数组:X、y
和
qid X是一组特征化文档-- shape:(140,105)qid是针对每个文档的一组查询标识符-- shape:(140,)y是针对每个(X,qid也就是说,所有具有相同 qid的文档都需要(一个接一个
地
)作为一个块(在培训
和
测试
中)在一起。
浏览 3
提问于2022-04-06
得票数 -2
回答已采纳
1
回答
如何拆分已导出为.json文件的mongoDB收藏?
、
、
我有一个通过导出mongoDB
数据
库集合获得的包含一些
数据
的.json文件。为了对
数据
进行
测试
、执行机器学习
训练
和
测试
,我想按照特定的
测试
-
训练
比率
将
json文件拆
分成
两个单独的文件,这在我的Python笔记本或mongoDB控制台上是无法做到的。我还尝试
将
json文件转换为
Pandas
dataframe,但随后丢失了存储
数据
的格式,因为to_
浏览 1
提问于2019-09-08
得票数 0
1
回答
如何在
训练
/
测试
集中使用拆分大型
数据
集,但也使用
pandas
批大小迭代进行更新
、
、
、
但在此之前,我想将整个大型
数据
集
分成
一个
测试
集
和
一个
训练
集。对于交叉验证,我也想做同样的事情。for chunk in df_chunk: 我希望有一个
pandas
函数可以从一个url创建
浏览 2
提问于2019-04-24
得票数 0
3
回答
交叉验证的目的是什么?
、
、
、
他建议
将
数据
分成
10个桶(文件),并在其中9个桶上进行
训练
,每次保留一个不同的桶。 到目前为止,我所熟悉的唯一方法是
将
数据
按50%/50%的比例
分成
训练
集
和
测试
集,然后简单
地
一次性
训练
分类器。
浏览 3
提问于2015-04-20
得票数 1
1
回答
分度百分比
、
我现在正在读的一本书"Apache Mahout Cookbook“是由Pierro Giacomelli写的,他说 为了避免这,您需要将向量文件
分成
两组,称为80-20拆分<...> --良好的分割百分比分别为80%
和
20%。
浏览 0
提问于2015-02-11
得票数 1
回答已采纳
1
回答
在sklearn方法中更改random_state (在调整hyperparams之后)可以提供不同的精度
、
、
我尝试过的方法:我尝试
将
random_state参数设置为全局状态(使用np.random.seed( randomState )并在脚本顶部将randomState设置为整数)。我通过更改randomState
将
10次运行的平均值取了出来。 例如:我用randomState=1做了这个过程,从GridSearchCV: model_1找到了最好的模型。我得到了84%的准确率。如果
将
I改为randomState = 2,...,10,并且仍然使用model_1,则平均准确率为80.5%。如果
将
I改为randomState
浏览 155
提问于2020-10-05
得票数 0
1
回答
将
数据
随机混洗,然后将其
分成
训练
集
和
测试
集的有效方法?
、
我正在编写一段关于机器学习的python代码,其中我必须随机
地
将
100000个样本
和
拆分的
数据
放入
训练
和
测试
集。我已经
将
数据
存储到两个numpy数组中。如果我使用下面的命令,它太耗时了。c=zip(a,b)a,b = (*c) 其中a
和
b是两个numpy数组。有没有什么有效的方法可以随机
地
对
数据
进行混洗,然后将其
分成
<e
浏览 0
提问于2017-04-26
得票数 0
2
回答
用Python对机器学习中的原始
数据
进行预处理
、
、
我有一个原始的
数据
集与9个特征数字
和
第10列是一个分类国家=法国,德国,印度,中国,墨西哥。
数据
集有20000行。许多数值特征列缺少
数据
,而且没有规模。我应该预测一个特征值,它位于
数据
集中的第5列位置。我是否应该:
浏览 5
提问于2017-09-29
得票数 0
1
回答
科学知识中的分组抽样
、
、
是否有一种方法可以方便
地
将
数据
集
分成
训练
集
和
测试
集,同时保存属于同一组的记录?例如,一个表记录每个person_id的独立变量
和
因变量,这样每个人都可能有一个或多个条目: dependent_variable=np.arange(20)现
浏览 3
提问于2015-07-07
得票数 5
回答已采纳
1
回答
在用于处理
数据
之前,神经网络似乎工作得很好(所有的结果实际上都是一样的)。
、
它创建一个具有指定数目的输入、隐藏
和
输出神经元的网络,
将
权重初始化为随机值或零。 处理,这似乎工作正常。但是,用于培训的
数据
集或用于此事项的任何其他
数据
集的
数据
输出非常糟糕。
浏览 1
提问于2013-05-20
得票数 1
2
回答
tf.estimator.inputs.
pandas
_input_fn标号张量
、
、
我尝试用我命名为training_examples的熊猫
数据
帧来
测试
Tensorflow内置的
pandas
_input_fn() 它是一个非常简单的
数据
帧,描述了一组功能
和
标签;然后作为参数x在
pandas
_input_fn()函数中传递,如下所示,如果我正确理解了文档,它应该返回一个输入函数,其中的
数据
已经解析成功能
和
标签了吗?input_function = tf.estimator.inputs.
pandas
_input_fn(
浏览 0
提问于2018-06-28
得票数 3
1
回答
LDA的SageMaker超参数整定,澄清feature_dim
、
、
、
、
我相信这与火车
和
测试
数据
集的不同尺寸有关,但我不能百分之百
地
确定是否是这样或者如何修复它。估计码vocabulary_size = doc_term_matrix_train.shape[1] lda = sagemaker.estimator.Estimator当我尝试"11873“作为feature_dim的值时,错误会抱怨
数据
有32465个特性(对应于
训练
浏览 5
提问于2022-01-20
得票数 1
回答已采纳
3
回答
(
训练
测试
分裂科学学习)
、
、
、
、
无论我走到哪里,我都能看到这个密码。需要帮助理解这一点。X_train, X_test, y_train, y_test = train_test_split(X,y,testsize = 0.20)
浏览 0
提问于2019-08-30
得票数 2
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
云直播
活动推荐
运营活动
广告
关闭
领券