腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
如何
使用
pandas
或
sklearn
对
大
数据
集
进行
子集
,
以
缩短
模型
训练
的
运行
时间
?
、
、
、
这是一个一般性
的
问题,但我附加了一个真实
的
数据
集
来说明想法。当我在一个非常
大
的
数据
集
上
训练
一个
模型
时,我花了几个小时才完成(逻辑回归,macbook air,CPU:1.4 GHz Intel Core i5 8G内存)。有没有一种方法可以分割/分片
训练
数据
本身,这样我们就可以在
sklearn
或
python中更有效地计算
模型</
浏览 12
提问于2018-02-17
得票数 0
1
回答
大
数据
集
的
特征缩放
、
、
、
我试图
使用
深度学习
模型
来预测
时间
序列,在将
数据
传递给
模型
之前,我想
对
不同
的
变量
进行
缩放,因为它们有很大
的
不同范围。我通常是“动态地”这样做
的
:加载
数据
集
的
训练
子集
,从整个
子集
获取定标器,存储它,然后在我想要
使用
它
进行
测试时加载它。 现在
的
数据</em
浏览 0
提问于2018-10-04
得票数 2
回答已采纳
1
回答
有没有办法直接访问和
使用
存储在GCP存储桶中
的
数据
?
、
我必须在我
的
大学做一个深度学习项目,在那里我需要
使用
一个医学图像
数据
库。该
数据
库存储在Google Cloud Platform存储桶中。但是,
数据
库
的
大小超过4TB,因此我无法
使用
gsutil下载
数据
。我也不能
使用
Google Colab notebook,因为它
的
磁盘存储容量是350 is。有没有什么方法可以访问
数据
并
使用
它来教授我
的
网络?
浏览 14
提问于2019-11-03
得票数 0
2
回答
如何
分割和
训练
生物学
数据
模型
、
我正在
使用
sklearn
工具,它需要在培训和测试
数据
集中分离
数据
集
。据我所知,为了构建
模型
,需要将
数据
集中
的
数据
集
和验证
数据
集
(找到
模型
的
参数)分开,而对于超参数
的
微调,则需要一个测试
数据
集
。有趣
的
是,考虑到我在查看
sklearn
文档时发现
的</em
浏览 0
提问于2021-06-10
得票数 1
1
回答
如何
缩放与整个
数据
集
相关
的
数据
子集
、
、
、
、
我正在开发一个金融
时间
序列预测
模型
,
使用
sklearn
使用
StandardScaler
进行
缩放。我
训练
一个
模型
,然后在
数据
输入时定期
使用
该
模型
。由于
数据
量大,培训必须分批
进行
。现在,我正在
使用
不同
的
定标器
对
每个批
进行
缩放,
以
训练
每个批次,并
对</em
浏览 0
提问于2022-10-19
得票数 0
1
回答
在
训练
或
验证分区上执行交叉验证
以
优化参数。
、
、
、
我有一个
大
的
数据
集
,它被划分为三个块(
训练
-验证-测试)。我想要执行交叉验证( CV ),因为我有一个
大
的
数据
集
,它将花费太长
的
时间
来执行整个
数据
集
的
简历。什么是正确
的
分区来执行简历?我看过一些教程,它们只
使用
训练
分割,而其他只
使用
验证分割,而其他则
使用
整个
浏览 0
提问于2018-09-25
得票数 1
回答已采纳
2
回答
在Keras中,x_train和x_test有什么区别?
、
、
我看了几个教程来深入研究Keras,以便
使用
卷积神经网络
进行
深入学习。在本教程(以及Keras
的
官方文档中)中,MNIST
数据
集
的
加载方式如下:然而,没有解释为什么我们有两个元组
的
数据
。我
的
问题是:什么是x_train 和 y_train ,以及它们与 x
浏览 0
提问于2017-09-29
得票数 13
回答已采纳
1
回答
我是否应该
使用
所有可用
的
数据
来
训练
我
的
深度学习
模型
?只
使用
一个
子集
的
优缺点是什么?
、
、
我有一个非常复杂
的
基于LSTM
的
神经网络
模型
,我正在对Quora重复问题
对
进行
训练
。在原始
数据
集中大约有40万个句子
对
。在整个(
或
80%)
数据
集
上
进行
训练
将需要大量
的
处理能力和计算
时间
。如果我选择
数据
集
的
一个随机
子集
(比如8000
对
)<em
浏览 14
提问于2019-10-30
得票数 0
1
回答
在多层感知器中
进行
交叉验证时,我要初始化哪些
模型
?
、
、
、
因此,据我所知,交叉验证是用来确定最佳
模型
的
。假设我
使用
的
是5倍交叉验证,这意味着我必须制作5种不同
浏览 0
提问于2018-09-29
得票数 1
回答已采纳
1
回答
如何
在
Pandas
Dataframe上适当地迭代
时间
序列
、
所以我知道您不应该在
Pandas
DataFrame上迭代,但是我找不到其他方法来解决这个问题。 我有很多不同
的
时间
序列,比如说,它们是一天之内
的
股票价格。对于每一个Ticker,我想采取各种
模型
,并
对
它们
进行
连续
的
更大范围
的
数据
培训。具体来说,我想用一个
模型
,
对
day1
数据
进行
训练
,预测day2。在day1和day2上
浏览 3
提问于2020-02-06
得票数 1
3
回答
什么是培训和测试
数据
集
?
、
、
、
我刚刚参加了各种
数据
科学和机器学习比赛。有人能解释一下这些
数据
集
是什么以及我们
如何
在解决问题
的
同时
使用
这些
数据
集
吗?
浏览 3
提问于2017-09-15
得票数 1
3
回答
模型
是否在
sklearn
和tensorflow中完全
使用
.fit()
进行
再培训?
、
、
我试图在Python中
使用
机器学习。现在我正在
使用
sklearn
和TensorFlow。我想知道,如果我有一个需要更新
的
模型
时,新
的
数据
来做什么。例如,我有财务
数据
。我用TensorFlow建立了一个LSTM
模型
并
对
其
进行
了
训练
。但是新
的
数据
每天都会出现,我不想每天
对
模型
进行
再培训。有没有一种
浏览 4
提问于2020-12-17
得票数 2
2
回答
基于
数据
子集
的
精度评分泛化
、
我有一个多类
的
问题,我正在为它构建一个分类器。我有N个总
数据
点我想预测。如果我用n个 有人能给我指一篇讨论这个问题
的
文章,或者提出一个研究
的
公式吗?
浏览 0
提问于2018-09-27
得票数 2
1
回答
从验证精度到测试精度
的
显著下降
、
、
、
、
给我一个
大
的
训练
数据
集
(>70k样本)和一个独立收集
的
测试
集
(~2k)。在测试
集
上,我始终取得了不错
的
验证精度,但精度却明显较低。我一直在执行这样
的
验证: 3)
对
其
浏览 0
提问于2019-08-11
得票数 3
2
回答
当
使用
带有散列向量
的
TruncatedSVD时,精度大大降低。
、
、
、
我有大约80万
的
产品描述与分类。大约有280个类别。我想用给定
的
数据
集
来
训练
一个
模型
,以便将来我可以预测给定产品描述
的
类别。由于
数据
集
很大,所以我无法
对
其抛出MemoryError
的
数据
进行
TF。我发现当处理大
数据
时,Hashingvector是可取
的
。但是当应用Hashingvector时,我发现它产生了1048576个特征<
浏览 0
提问于2018-05-30
得票数 2
回答已采纳
1
回答
使用
分类
数据
从SciKitLearn RandomForestClassification
进行
预测
、
、
、
、
我
使用
SkLearn
创建了一个RandomForestClassification
模型
,
使用
了10个不同
的
文本特征和10000个
训练
集
。然后,我
对
模型
(76mb)
进行
了酸洗,希望将其用于预测。但是,为了生成随机森林,我在分类/字符串
数据
上
使用
了LabelEncoder和OneHotEncoder
以
获得最佳结果。 现在,我想拉出酸洗
模型
,
浏览 0
提问于2017-01-06
得票数 0
回答已采纳
5
回答
数据
科学中
的
训练
数据
和测试
数据
我是python中相对较新
的
数据
科学,在探索一些关于
数据
科学
的
竞争时,我
对
“
训练
数据
集
”和“测试
数据
集
”感到困惑。一些项目合并了这两个项目,另一些项目则保持分离。拥有两个
数据
集
的
基本原理是什么?任何建议都将是有益
的
,谢谢
浏览 1
提问于2017-04-25
得票数 0
2
回答
线性回归拟合()加速
、
、
、
我想用numpy数组(几百万)
的
组合来做线性回归,并且想要加速这个for循环: R2 = LR.fit(comb, y).score(comb, y)data = array([[ 0.1, 0.2, 0.3
浏览 14
提问于2021-03-06
得票数 0
1
回答
数据
集
子集
的
CNN -
如何
调优超参数
、
、
、
、
我有一个
数据
集
,并希望在不同大小
的
数据
集
子集
上
对
CNN
进行
培训。我已经有一个CNN,如果我
使用
整个
数据
集
,分类非常好。现在
的
问题是,如果我真的应该尝试额外优化CNN
的
参数为
子集
,无论我是否做
数据
增强?如果我试图通过
使用
RandomizedSearchCV
或
GridSearchCV来优化卷积层
的
浏览 0
提问于2019-09-02
得票数 0
3
回答
在同一个大规模
数据
集
上对数百个
模型
进行
评分
的
最佳实践?
我有预测各种事物
的
500+
模型
,以及一个由400m+个人和大约5,000个可能
的
自变量组成
的
大型
数据
库。目前,我
的
评分过程大约需要5天,操作方法是将400m+记录分块成10万人
的
片段,并旋转n个线程,每个线程都有一个特定
的
500+
模型
子集
,并以这种方式
运行
,直到所有
模型
的
所有记录都得分为止。每个线程都是一个Python进程,它提交R代码(即加载一个R .rds<e
浏览 0
提问于2020-01-21
得票数 2
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券