腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(457)
视频
沙龙
1
回答
在
scikit
learn
中
设置
对数
回
归类
权重
的
数学原理
是什么
?
、
在
python
的
科学工具包学习库
中
的
对数
回归算法
中
,有一个"class_weight“参数。我想知道
在
模型拟合过程
中
实现
设置
class_weight
的
数学原理
是什么
。id=16TKZFCwkMXRKx_fMnn3d1rvBWwsLbgAU 具体
的
修改
是什么
? 提前谢谢你!我将感谢你
的
任何帮助!
浏览 20
提问于2019-04-22
得票数 0
2
回答
学习:使用自定义标签对文本进行分类
、
、
、
我有一个很大
的
训练词集,标记为pos和neg来分类文本。我使用TextBlob (根据)对文本进行分类。虽然它工作得很好,但对于一个大
的
训练集(例如8k单词)来说,它可能会非常慢。我想尝试用
scikit
-
learn
来做这件事,但是我不知道从哪里开始。
在
scikit
-
learn
中
,上面的教程
是什么
样子
的
?我也希望训练集包括某些单词
的
权重
。有些应该很好地保证某一特定文本被
归类<
浏览 6
提问于2016-11-23
得票数 0
回答已采纳
1
回答
机器学习分类:目标变量几乎完全是一类
、
我有一个目标变量,它可以是0或1,99.34%
的
变量是0(总共大约50,000个条目)。逻辑回归和朴素贝叶斯都只是预测了全零。有没有人对这类问题有什么建议?我想确定功能
的
重要性。干杯 编辑:我有大约10个可以预测
的
特征
浏览 6
提问于2016-07-22
得票数 1
1
回答
基于LIBSVM
在
scikit
.smv.SVC
中
启用概率估计
、
、
在
LIBSVM
中
,svmtrain
中
的
-b标志用于训练svmtrain或SVR模型以进行概率估计。为了获得测试集
的
相应结果,我们还在svmpredict
中
设置
了-b结果model = svmtrain(train_labels, train_set, '-b 1') [result, accur
浏览 10
提问于2018-01-10
得票数 1
1
回答
不平衡数据
的
Logistic回归,仅基于稀有类
的
评分
、
、
、
我想用logistic回归来帮助我预测这个罕见
的
事件,但是即使我应用加权,分类
的
准确性也很差。因此,重新平衡本身将是一个庞大而复杂
的
任务,试图将有代表性
的
怪癖纳入裁剪
的
数据集中。这允许我包含完整
的
数据集(忽略
权重
和再平衡考虑因素),当分类器开始错误地包含其他类型
的
不应该被该分类器捕获
的
事件(即增加错误阳性数)时,它在评分
中
清楚地表明了这一点。问题是,我
的
本土分类器/培训师
的</em
浏览 0
提问于2021-04-21
得票数 0
回答已采纳
1
回答
LIBLINEAR对C参数非常敏感
我从LIBLINEAR得到了不同
的
结果,它
的
包装器
在
scikit
-
learn
for python
中
。前者对C参数非常敏感(
在
我
的
例子
中
,质量
在
默认
设置
C=1下非常低,并且随着C
的
增加而急剧增加),这与文档
中
的
声明和
scikit
learn
包装器
的
行为相反。这可能
是什么
原因呢
浏览 0
提问于2013-06-13
得票数 0
1
回答
如何理解sklearn.metrics
中
的
sample_weight?
、
在
评估我们
的
模型时,我们需要
设置
sample_weight吗?现在我已经训练了一个关于分类
的
模型,但是数据集是不平衡
的
。当我用compute_sample_weight('balanced')
设置
sample_weight时,分数非常好。精度:0.88,召回率:0.86,用于“1”类。但是如果我不
设置
sample_weight,结果会很糟糕。准确率:0.85,召回率:0.21。sample_weight会破坏原有的数据分布吗?
浏览 177
提问于2019-01-08
得票数 4
1
回答
类别
权重
与欠采样/过采样
、
、
、
例如,
在
不平衡分类(使用
scikit
learn
)
中
,平衡类(即将class_weight
设置
为平衡)与使用SMOTE进行过采样
的
区别
是什么
?其中一种与另一种
的
预期效果会
是什么
?
浏览 15
提问于2019-04-13
得票数 5
回答已采纳
2
回答
学习狮身人面像
的
链接/清单对象?
、
、
这是一个狮身人面像项目,看起来它是通过github页面托管
的
但到目前为止,我还没有能够
在
我
的
狮身人面像项目中生成完整
的
链接,以便在
scikit
学习页面上登陆。目前使用 'sklearn': ('http://
scikit</em
浏览 7
提问于2017-09-06
得票数 2
回答已采纳
1
回答
包含ID列
的
训练模型
、
、
、
我正在使用
scikit
-
learn
训练一个模型,其中我
的
数据集中有一个ID列。当我使用测试数据集训练model.But时,我删除了ID列,
在
进行预测后,我需要将其映射回ID列。做这件事最好
的
方法
是什么
?
在
scikit
-
learn
中
构建模型时,我们可以
设置
一个非预测器列。另外,像TensorFlow,Spark ML这样
的
其他ML工具又如何呢?它们是否支持此功能?我
在</em
浏览 1
提问于2018-04-18
得票数 2
1
回答
Python
Scikit
-
learn
-低级OCR
的
尝试
、
、
、
我想训练一个支持向量机
对数
字(0-9)
的
图像进行分类,然后用它来读取带有数值
的
图像(低级OCR)。我
的
想法是一个接一个地读取图像,并将它们存储
在
numpy数组
中
,然后将所有这些数组放入一个数组
中
,以便生成我
的
sample_array。从
Scikit
-
Learn
文档“作为其他分类器,SVC、NuSVC和LinearSVC接受两个数组作为输入:一个大小为n_samples
的
数组X,n_features保
浏览 6
提问于2015-05-22
得票数 0
2
回答
sklearn SGDClassifier不能停止
火车dataset是关于3000k
的
,所以我使用SGDClassifier。功能不是很好,所以我知道它可能不会收敛。但我想让SGDClassifier像max_iter = 1000一样,根据我
的
设置
提前停止。就我而言,函数SGDClassifier没有像max_iter这样
的
参数。我该怎么做呢?
浏览 3
提问于2017-07-03
得票数 0
2
回答
LightGbm:如何使用eval_sample_weight
我正在LightGbm (
Scikit
-
learn
)
中
处理一个二进制分类问题,并且有一个了解如何包含样本
权重
的
问题。我
的
代码当前如下所示classifier.fit但是我需要LightGbm
在
验证集上使用sample_weights,所以我
在
fit函数
中
<e
浏览 2
提问于2018-08-24
得票数 5
回答已采纳
1
回答
回归问题
的
交叉验证“平衡”
、
、
分类问题可能在给定
的
数据集中表现出强烈
的
标签不平衡。这可以通过对某些类
权重
属性
权重
进行次采样来克服,这允许至少
在
模型培训期间平衡标签分布。另一方面,分层将允许保持一定
的
标签分布,这将保留在每一个各自
的
折叠。我想知道为什么回
浏览 3
提问于2020-11-20
得票数 1
回答已采纳
2
回答
在
机器学习分类
中
寻找降低误报率
的
方法
、
、
、
、
在
经典
的
欺诈预测问题中,有没有办法降低误报率?目前,我正在研究经典
的
欺诈检测。有50000个样本有真实
的
标签(结果是由于调查)。这些训练标签是相当平衡
的
。我选择
的
Logisitic回归模型表现良好,f1得分超过90 %。现在,当使用该模型预测新病例时,结果是50/50(欺诈和非欺诈)。有没有办法调整模型,让我们通过非欺诈案件并惩罚假阳性率,以便我们检测到较少
的
欺诈案件(可能少于一百万起
中
的
200起),但它们极有可能是欺诈。希
浏览 82
提问于2020-12-20
得票数 1
9
回答
ImportError:无法从“sklearn.externals”导入名称“joblib”
、
、
、
我正在尝试使用s3从joblib加载已保存
的
模型import numpy as npimport subprocess import
浏览 24
提问于2020-05-19
得票数 106
回答已采纳
2
回答
我
在
使用逻辑回归算法训练数据时收到警告
、
、
我正在训练一个数字数据集,以便使用逻辑回归多类分类
对数
字进行分类。notebook
中
这样做 model.fit(X_train, y_train) 我得到
的
警告就像 C:\Users\Shubham Teke\anaconda3\envs\allenv\libIncrease the number of iterations (max_iter) or scale the data as shown in: https://
scikit
-
learn
.orgpreproce
浏览 239
提问于2020-09-25
得票数 0
1
回答
如何用滑雪板训练算法来衡量数据点
、
、
我所拥有的数据
的
结构方式是,它对每个数据点都有一个可变
的
权重
,它对应于数据集中发生
的
数据点
的
次数。是否有一种方法
在
培训过程
中
赋予sklearn这个
权重
,或者我是否需要将我
的
数据集扩展到一个具有重复数据点
的
非加权版本?
浏览 1
提问于2019-05-07
得票数 4
回答已采纳
3
回答
使用无监督
的
隔离森林,如何从异常分数
中
识别出最佳
的
离群点数量?
、
我正在使用一个无监督
的
隔离林算法和计算异常分数从一个二维玩具数据集中检测出异常值。从散点图中,我能够检测/可视化异常分数最高
的
数据点(例如:数据
中
的
前10位或前15位异常值)作为我
的
异常值。异常值
的
数量是否主观地决定了用户
的
决策(例如: 0.5>S>1
的
异常分数是一个异常值,所有小于0.5
的
事物都不是),还是有一种方法可以根据异常分数来检测出最优
的
离群点数量? 📷
浏览 0
提问于2019-04-09
得票数 4
1
回答
如何分割不平衡数据进行监督学习?
、
假设我有我想要用于监督学习
的
数据,但是目标/类/标签不平衡
的
情况非常严重。我是否应该: 限制训练集
的
大小,以确保有一个平坦
的
目标/类平衡分布(训练集
的
设计使得每个类
的
训练样本数目相等,其基础是尽可能高地分割最低出现
的
类)。例如,如果我
的
最低级别的课程
在
我
的
数据
中
只出现了50次,而我想要一个80到20次
的
列车测试分割,那么我决定接受40个样本进行训练,为
浏览 0
提问于2021-12-05
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
机器学习——KNN算法(下)
python怎么对数据集进行归一化处理
使用 sklearn 构建决策树并使用 Graphviz 绘制树结构
从头开始编写任何机器学习算法的6个步骤:感知器案例研究
Part6—scikit-learn玩转决策树
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券