我可以根据总体的子集指定GBM (或任何ML algo)的损失函数吗？

文章/答案/技术大牛

发布

1回答

、、

我正在尝试为GBM创建一个损失函数，其中我有两个子总体，比方说按性别划分。除了试图正确预测实际情况之外，我还想惩罚模型在一个性别上表现得比另一个性别更好。例如，我可能愿意牺牲模型的整体性能，只是为了减少男性和女性的假阴性率之间的差异。我找到了向损失函数添加额外参数的解决方案，但我找不到任何基于潜在总体<

浏览 17提问于2021-07-08得票数 1

1回答

gbm多项分布

、

我第一次尝试在我的数据上使用gbm (实际上是第一次使用任何类型的回归树)，它由14个连续的因变量和一个因子作为响应变量，有13个水平。我是通过Elith等人非常好的描述来到gbm的，但是他们使用了基本gbm包的修改，不能处理多项式分布。在gbm的帮助下，它声称可以处理这个问题： “分布:指定

浏览 4提问于2013-02-12得票数 1

回答已采纳

1回答

在LightGBM (分类)中，叶分数是多少？

、、、

我在一个二进制分类问题上训练了LightGBM，在绘制树时，我得到了一些这样的叶子我很难找到分类树的损失函数- LightGBM是否最小化了二元情况下的交叉熵，这是叶分数吗？

浏览 3提问于2020-11-13得票数 0

1回答

R- gbm函数中的权参数

、、、、

R- weights函数中的参数是什么？它实现了cost-sensitive随机梯度增强吗？

浏览 4提问于2015-04-16得票数 5

1回答

如何知道成本函数是否已变为最小值？

、、

我试图在不使用ML相关库的情况下实现逻辑回归，并且在优化成本函数时遇到了麻烦。这是否意味着我的代码中有一些错误？或者，0.66可以是成本函数的最小值吗？我

浏览 0提问于2020-01-02得票数 1

2回答

如何对多个ML模型执行网格搜索

、、、

通常，我们使用GridSearchCV对特定模型的超参数执行网格搜索，例如：params_ada = {'n_estimators':params_ada, scoring = 'accuracy', cv = 5, verbose = 1, n_jobs = -1)有什么技术或功能可以让我们在ML模型上执行网格搜索吗？例如，我

浏览 2提问于2020-12-21得票数 1

回答已采纳

1回答

如何在Azure AutoML中调整功能重要性

、、、

我希望有一些使用Azure AutoML的低代码模型，它实际上只是到AutoML选项卡，对我的数据集进行分类实验，在完成之后，我部署了最好的选择模型。这个模型有点工作(意思是，我发布了端点，然后做了一些手动验证，看起来很准确)，但是，我不够自信，因为当我看到解释时，我可以看到这样的东西：4顶级功能并不是非常重要的。最“重要”的不是我喜欢用的</

浏览 15提问于2021-12-07得票数 2

回答已采纳

2回答

R中相似情形(观测)最小距离的计算

我有一个数据集，它描述了将3种算法应用到多个cases.For中的结果--每种算法和案例的结合，都有一个结果。因此，对于每个算法和案例，我想要计算到最低达到的结果的差距，，对于相同的情况，任何算法都可以实现。，我得到了预期的结果。23 13现在看来，gap函数与整个dataframe的

浏览 1提问于2017-07-26得票数 0

回答已采纳

2回答

如何处理H2O算法中的倾斜响应

、、

在我的问题中，dataset响应变量非常偏左。我试着将模型与h2o.randomForest()和h2o.gbm()相匹配，如下所示。我可以给曲调min_split_improvement和min_rows，以避免过度适应这两种情况。但是有了这些模型，我发现尾部观测有很高的误差。，我尝试了h2o包的h2o函数。然而，我认为这是非常过份的。我不知道

浏览 1提问于2018-01-18得票数 5

回答已采纳

2回答

如何再现H2o GBM类概率计算

、、、、

我一直在使用h2o.gbm来解决分类问题，并希望进一步了解它是如何计算类概率的。作为起点，我试图重新计算只有一棵树的gbm的类概率(通过查看leafs中的观察结果)，但是结果非常混乱。我认为最好的方法来说明这种混淆是告诉我做了什么，以一种循序渐进的方式。我不关心超值或模特的表现。H2o为此提供了一个函

浏览 1提问于2017-06-24得票数 3

3回答

多输出模型的Keras精度不起作用。

、

在多输出模型的情况下，一个重要的关注点是，这种模型的培训需要为网络的不同头(输出)指定不同的度量标准。如正式文件所述： metricsmse', 'output_d'

浏览 1提问于2018-05-26得票数 3

1回答

gbm.step，总平均偏差不会降低

、

我使用以下参数从dismo包中运行gbm.step函数 gbm.x= predictor_names , #site.weights此外，如果我增加了n.tre

浏览 2提问于2017-11-23得票数 0

1回答

股市神经网络中Keras损失的特征及精度

、、、、

最近，我尝试完成一个神经网络来预测股票市场上单个股票价格的波动，使用Keras作为网络的框架，Quandl检索历史性的调整后的股票价格；在运行这个程序时，我主要使用了一个单独教程中显示的程序范例和信息，链接如下： Trai

浏览 0提问于2020-01-04得票数 0

回答已采纳

1回答

ML.net中多类多标签分类的每类加权损失

、

我想对几个类别进行分类，比如说A、B、C和D，但数据集是不平衡的(A类可以有60%的情况)。因此，ML.NET中的多类分类算法倾向于预测A.这种不平衡的情况在我的问题人群中很常见:A比其他人更频繁，B比C更频繁，C比D更频繁。目前，我对通过向上/向下采样数据集或增加数据集大小来解决这个问题不感兴趣(除非没有其他选择)。但是我找不到在ML.Net中做这件事

浏览 30提问于2021-05-10得票数 0

1回答

我们能否指定使用哪种算法(例如，决策树、支持向量机、集成、NNs)？或者，Automl是否选择算法本身？

、、

我试着阅读Vowpal的，它并没有指定如何选择特定的学习算法(而不是损失)，比如支持向量机、神经网络、决策树等等。还是根据问题类型(回归/分类类似于自动类型或低代码ML库)选择算法本身？有一些博客显示，使用-nn命令使用神经网络，但这不是文档的一部分--这是因为它没有像上面提到的那样关注特定的算法吗？如果是这样的话，沃帕尔·瓦比特在本质上是什么？

浏览 0提问于2020-07-30得票数 1

回答已采纳

1回答

在不丢失趋势的情况下对较小的线形图点集进行采样

、、、、

给定一组X/Y坐标((x，y)，递增X(表示时间戳)和Y表示该时间戳的值/测量值)。这个集合可能很大，我希望避免返回集合中的每个点进行显示，而是找到一个较小的子集来表示测量的总体趋势(折线图中的某种程度的精度损失是可以接受的)。到目前为止，我尝试了以均匀间隔对测量跳跃点进行简单的均匀采样，然后将最大/最小测量值添加到

浏览 17提问于2020-03-31得票数 0

1回答

带有插入符号和summaryFunction mnLogLoss的错误:与'lev‘一致的列

、

我试图使用日志丢失作为使用Caret进行培训的损失函数，使用来自 of Kaggle的数据。library(caret)3: train(x, y, weights = w, ...) 2: train.formula(shot_made_flag ~ ., data = train, method = "gbm= ctrl, metric = "l

浏览 2提问于2020-01-09得票数 1

回答已采纳

2回答

监督学习方法-创建我自己的标签

、、、

场景--我有没有标签的数据，但是我可以创建一个函数，根据行为给数据贴上标签，然后部署模型，这样我就不用一直给数据贴标签了。这算是机器学习吗？目的:基于high、medium或low标签对具有容量峰值的账户进行分类，使其部署在大数据(数万亿条数据线)上。创建一个名为spike的新功能列，并创建一个熊猫函数</

浏览 0提问于2019-06-26得票数 2

2回答

将条件指定为变量以将R中的数据框子集

假设我有一个数据框，df有30列：A1到A30。我知道我可以通过编写如下命令来设置此数据帧的子集：上面的示例根据三列中的值过滤数据，但我必须对大约12列中的值执行此操作。在subset()函数中写入这12个值会使它太长。为了使代码更清晰，有没有一种方法<em

浏览 2提问于2011-06-24得票数 3

回答已采纳

1回答

交叉熵(损失)的实体是什么？

交叉熵( -\sum y_i\;\log(\hat{p_i}) )基于估计的概率( \hat{p} )估计了使用Huffman编码编码y所需的信息量。因此，人们可以声称，应该考虑衡量信息的数量，例如一些双边投资条约。根据\log的基础，它们可以是二进制位或数字，但通常是欧拉位，因为大多数使用\ln。是否有一个流行的或官方的名称或单位，这些所谓的欧拉位？可

浏览 0提问于2021-06-22得票数 2

回答已采纳

点击加载更多