腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何
使用
scikit
learn
确保
测试
和
训练
集
具有
相同
的
功能
?
、
、
我正在尝试预测重新出现
的
票证
的
未见数据?我有很多分类变量。这些变量可以是
相同
的
或重复
的
。
如何
确保
这些
功能
是
相同
的
?
功能
可能会根据传入
的
容量而有所不同?logReg.predict(test) 这两列是
具有
类别值<em
浏览 11
提问于2020-02-13
得票数 0
回答已采纳
1
回答
是否可以将特征学习用于二进制文本分类?
、
、
我目前正在与CHILDES语料库合作,试图创建一个分类器,以区分患有特定语言障碍(SLI)
和
典型发育障碍(TD)
的
儿童。在我
的
阅读中,我注意到确实没有一组令人信服
的
特征来区分这两个已经被发现
的
特征,所以我突然产生了一个疯狂
的
想法,试图创建一个可能会更好
的
特征学习算法。 这个是可能
的
吗?如果是这样的话,你建议我怎么做呢?从我所做
的
阅读来看,大多数特征学习都是在图像处理上完成
的
。另一个问题是,我拥有的数据
集</e
浏览 0
提问于2016-08-31
得票数 1
1
回答
用于keras model.fit_generator
的
分割图像数据
集
、
、
我有一个目录,dataset,它包含图像
的
子文件夹(标签/类). 我想将数据
集
分成model.fit_generotar()
的
训练
集
和
测试
集
。
浏览 2
提问于2018-02-11
得票数 0
1
回答
基于LIBSVM在
scikit
.smv.SVC中启用概率估计
、
、
在LIBSVM中,svmtrain中
的
-b标志用于
训练
svmtrain或SVR模型以进行概率估计。为了获得
测试
集
的
相应结果,我们还在svmpredict中设置了-b结果model = svmtrain(train_labels
learn
库中
的
SVC时,我们只能在
训练
时设置-b标志,这与在svmtr
浏览 10
提问于2018-01-10
得票数 1
1
回答
在
训练
数据上
使用
MinMaxScaler生成用于
测试
数据
的
std、min
和
max
、
、
我将
如何
使用
scikit
学习MinMaxScaler来标准化熊猫数据框架
训练
数据集中
的
每一列,但在我
的
测试
数据
集
上
使用
完全
相同
的
标准差,最小/最大公式?由于我
的
测试
数据是未知
的
模型,我不想标准化整个数据
集
,它将不会是一个准确
的
模型,对未来
的
未知数据。相反,我希望
使用
浏览 2
提问于2018-01-29
得票数 1
回答已采纳
2
回答
scikit
了解SelectPercentile TFIDF数据特征缩减
、
、
、
我
使用
scikit
-
learn
中
的
各种机制来创建由文本特征组成
的
训练
数据
集
和
测试
集
的
tf-idf表示。这两个数据
集
都经过预处理,以
使用
相同
的
词汇表,因此特征
和
特征
的
数量是
相同
的
。我可以在
训练
数据上创建一个模型,并在
测试
数据
浏览 0
提问于2015-04-01
得票数 2
1
回答
如何
在
scikit
-
learn
中加载包含txt文件
的
数据
集
、
、
我将
使用
scikit
-
learn
库来实现我
的
SVM分类。 我
的
特征
的
值是0/1,我已经将这些值保存在特征
的
txt文件和我
的
标签
的
单独
的
txt文件中。现在我
的
问题是,
如何
使用
scikit
-
learn
加载用于
训练
和
测试
阶段
的
外部数据
集
浏览 21
提问于2017-01-30
得票数 0
回答已采纳
1
回答
如何
使用
scikit
交叉验证模块将数据(原始文本)拆分为
测试
/
训练
集
?
、
、
、
、
我有大量原始文本
的
观点语料库(2500)。我想
使用
scikit
-
learn
库将它们分成
测试
/
训练
集
。用
scikit
-
learn
解决这个问题最好
的
方法是什么?谁能给我提供一个在
测试
/
训练
集中拆分原始文本
的
例子(我可能会
使用
tf-idf表示)。
浏览 0
提问于2014-09-12
得票数 9
回答已采纳
3
回答
ImportError:无法导入名称“”cross_validate“”
、
我想要做
的
是:正如前面提到
的
。但得到
的
错误是:Sklearn中
的
其他一切似乎都运行得很好,就是这一点。
浏览 8
提问于2017-08-13
得票数 20
回答已采纳
2
回答
我在每个类中都有超过三个元素,但是我得到了这个错误:“class不能小于
scikit
- k=3”
、
、
、
这是我
的
目标(y): 1,3,1,4,4,6,6, 3,3,6,2,7,7,1,10,3,7,10,4,10,我不知道为什么在我执行
的
时候:# Split the data set in two equal parts X_train, X_test
浏览 0
提问于2013-02-18
得票数 16
回答已采纳
1
回答
交叉验证
训练
集
,其中类变量
具有
与实际总体不同
的
分布
、
、
( ML中
的
新手,耐心点)我想
测试
一下我
的
scikit
learn
SVMLinear分类器
的
性能。我
的
训练
集
具有
与实际人口不同
的
类分布,但我
的
测试
集
是代表性
的
,并且像实际人口一样分布。我注意到有一个类权重参数,我想尝试给我
的
分类器提供实际的人口分布,看看它是否有助于它更好地执行。 然而,由于我
的</e
浏览 0
提问于2015-01-09
得票数 2
1
回答
使用
具有
缩放特征
的
预先
训练
的
模型进行单次预测
、
、
、
我
训练
了一个
具有
缩放特征
的
SVM
scikit
-
learn
模型,并将其持久化以供以后
使用
。在另一个文件中,我加载了保存
的
模型,并希望提交一组新
的
特征来执行预测。我必须缩放这组新
功能
吗?只有一组
功能
,我该
如何
做到这一点呢? 我没有调整新
的
值,我得到了奇怪
的
结果,我不能做预测。尽管如此,StratifiedShuffleSplit生成
的
大型
测
浏览 20
提问于2019-07-01
得票数 1
1
回答
Scikit
learn
Stratified Shuffle Split在其中一个类只有一个实例时不起作用
、
、
、
我试图
使用
scikit
learn
的
分层随机拆分将我
的
数据
集
拆分成
训练
集
和
测试
集
,但它不起作用,因为其中一个类只有一个实例。 如果将一个实例放入
训练
集
或
测试
集
,就可以了。
浏览 2
提问于2021-08-03
得票数 0
2
回答
使用
sci-kit中
的
训练
/
测试
数据学习曲线,而不是交叉验证
、
、
、
我有一个独立
的
训练
和
测试
数据(从不同
的
CSV加载到不同
的
pandas数据框中),我想用这些
训练
和
测试
数据绘制学习曲线,而不是
使用
交叉验证从
训练
集
本身生成
训练
和
测试
数据(这似乎是learning_curve
的
常见工作方式)。似乎
scikit
希望你
的
测试
浏览 3
提问于2015-09-20
得票数 2
3
回答
在Google Cloud Platform中管理
scikit
-
learn
模型
、
、
我们正在试图弄清楚
如何
在GCP中托管
和
运行许多现有的
scikit
-
learn
和
R模型(按原样)。似乎ML引擎是Tensorflow
的
专用引擎。如果数据
集
太大而无法放入datalab,我
如何
在Google云平台上
训练
scikit
-
learn
模型并管理我
的
模型?我仍然可以
使用
ML Engine吗?或者大多数人是否采取了不同
的
方法?作为更新,我能够通过
浏览 1
提问于2017-04-21
得票数 2
2
回答
选择
scikit
中
的
功能
子集-学习以进行培训
、
假设我有一个
具有
5个特征
的
数据
集
,并且我想
使用
特征1、2
和
5进行
训练
(跳过特征3
和
4)。我不想更改数据
集
,因为我希望在预测期间将
相同
的
5个特征提供给模型。我只想让预处理管道
的
第一步去掉
功能
3
和
4。此外,我希望能够在
训练
结束时对管道对象执行pickle/joblib操作,而无需依赖于要加载
和
运行
的
任何其
浏览 1
提问于2019-06-07
得票数 1
1
回答
如何
在
scikit
-
learn
的
高斯过程回归中重新调整归一化标准差?
、
、
、
、
我正在
使用
scikit
-
learn
进行高斯过程回归建模。我
的
数据没有标准化。模型总是返回0到1之间
的
标准差值,这与我
的
数据不一致。有没有人知道
如何
重新调整标准差值以获得实际标准差?
浏览 9
提问于2021-01-30
得票数 0
1
回答
文本分类监督学习中
的
同义词寻址
、
、
、
我正在
使用
scikit
-
learn
监督学习方法进行文本分类。我有一个
训练
数据
集
,其中包含输入文本字段及其所属
的
类别。我
使用
tf-idf,SVM分类器管道来创建模型。该解决方案适用于正常
的
测试
用例。但是,如果输入
的
新文本
具有
与
训练
集中
相同
的
同步词,则解决方案无法正确分类。例如:单词'run‘可能存在于
训练
数据中,但如果我
浏览 0
提问于2016-10-07
得票数 3
2
回答
如何
用不同
的
数据
集
来
训练
和
测试
GridSearchCV?
、
、
、
、
我希望找到一个RandomForest分类器
的
最佳参数(
使用
scikit
-
learn
),方法是它可以很好地推广到其他数据
集
(可能不是iid)。我在考虑
使用
整个
训练
数据
集
进行网格搜索,同时评估其他数据
集
上
的
评分
功能
。在python/
scikit
--学习中,是否容易做到这一点?
浏览 3
提问于2016-11-22
得票数 0
回答已采纳
1
回答
在不可见
的
数据点上
使用
category_encoders.TargetEncoder()
encoder = TargetEncoder()X.head() 然后我将执行
训练
-
测试
-拆分,所有的X变量(X_train / X_test)都将被正确编码,我可以
测试
我
的
模型
的
性能,这很棒!然而,我不明白我
如何
进一步在一个“看不见”
的
样本上
使用
它。假设我
测试
了我
的
模型,我认为它是有效
浏览 32
提问于2020-09-18
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何自动化机器学习工作流程
Python中Keras深度学习库的回归教程
用Scikit-Learn构建K-近邻算法,分类MNIST数据集
机器学习——KNN算法(下)
Scikit-learn应用指南:数据的表示与可视化
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券