在ML中如何找出我的目标是否依赖于我正在考虑的连续特性

我正在试着分析一个数据。该数据具有一些连续属性，并且目标也是连续的。我使用线性回归和随机森林进行分析。我想知道的是，我如何确定我的目标连续变量是否依赖于我正在考虑的连续特征。MSE值有助于比较不同模型<

浏览 20提问于2021-10-28得票数 0

回答已采纳

1回答

基于树的分类模型特征重要性及规则推导

、、、

我有一个具有目标0/1 (二进制分类任务)的分类和连续值的数据集。由于我需要在事件或目标的发生中找到模式和关系，所以我认为我应该使用决策树。然而，问题是，我有两个范畴变量，分别有700和150类，其余变量是数值/连续的。对于这组变量，我是否可以使用滑雪板中的</em

浏览 0提问于2020-01-14得票数 0

1回答

纸质船格式在ML性能优化中的优势是什么？

、、

格式声称为机器学习例程提供了更好的数据集表示。我想了解它优化的本质。我理解对模型属性使用整数表示意味着更快地处理数据集，还有哪些其他改进。此外，如何调优ML算法以处理此文件格式。

浏览 5提问于2015-05-29得票数 0

回答已采纳

1回答

如何处理最新的星火随机森林的分类特征？

、、、、

在随机森林的Mllib版本中，有可能用参数categoricalFeaturesInfo指定具有名义特征(数值但仍然是绝对变量)的列，那么ML随机森林是什么呢？在用户指南中，它使用VectorIndexer来转换向量中的分类特征，但是它被写成“自动识别分类特征，并对它们进行索引” I发现，在随机森林中，数字索引无论如何都被视为连续的特性，因此建议进行一次热编码以避免这种情况，对于

浏览 1提问于2017-10-15得票数 6

回答已采纳

1回答

特征交互和混杂变量之间的差异

、、、、

让我来定义问题空间。我的目标是找出一系列重要的特征(基于因果模型)，并使用它来构建一个预测模型。我确实参考了这个帖子中提供的建议，它非常有用，但由于我对ML字段的限制，我几乎没有其他问题。我从文献中了解到，有两种方法可以调节/控制混

浏览 0提问于2019-12-29得票数 2

1回答

如何从具有多种功能的数据集中选择相关列

、、、、

我有一个具有大量潜在特征(>100)的数据集，我感兴趣的是找到其中一个相对较小的子集(可能是5或20)，这些特征最适合于解决特定类型的问题。有什么好的方法来评估数据集中的哪些列最适合用作解决问题的输入，以及我应该丢弃哪些列？(问题的本质是逼近一些复杂的数学函数的逆)。

浏览 0提问于2022-06-22得票数 1

1回答

我正在尝试对时间序列数据进行XGBRegressor训练，使其具有时间步长，因此，如果有12345个样本、10个特征和一个时间步长为5，则X_train的形状可以类似于(12345, 5, 10)。然而，当我们尝试使用这样的训练数据来训练XGBRegressor时，xgb = xgb.XGBRegressor()我们得到了错误 ValueError：(“期待二维numpy.ndarray，got：”，(12345，5，1

浏览 2提问于2020-05-01得票数 1

回答已采纳

2回答

计算实体属性的相对重要性

、

Approach 1：考虑A_1：我可以形成具有相同A_1值的电影组，例如，所有带有A_1=a_{12}的电影都组成一个组。组中的其他属性可以自由变化。然后，我可以计算出一个组内所有电影收入的平均值，然后取所有组的均值的方差。这将给我“在我们改变A_1值时平均收入的变化”。Approach 2：再次考虑A_1：修复所有其他属性A_2,\ldots,A_n

浏览 0提问于2021-02-08得票数 0

回答已采纳

2回答

如果数据不是正态分布的，如何使用分类变量和连续目标进行特征选择？

、、

我正在尝试用多元线性回归模型来预测员工的薪水。我总共有88个相关的特征，其中19个是分类的，其余的是连续的。我设法将连续特性的数量从69个减少到41个。现在我试图减少分类特征的数量，但是由于我的数据不是正态分布的，所以我不能使用t检验或方差分析。我还可以使用

浏览 0提问于2020-04-12得票数 2

1回答

通过创建自己的标签进行监督学习

场景--我有没有标签的数据，但是我可以创建一个函数来根据行为给数据贴上标签并部署模型，这样我就不必一直给数据贴标签了。这算是机器学习吗？目标：基于高、中、低标签对大数据(数万亿行数据)进行容量峰值分类接下来，我创建我

浏览 1提问于2019-06-26得票数 0

1回答

处理不准确(不正确)数据集

、

这是我的问题描述： “根据”家庭收入和财富调查“，我们需要找出收入和支出最高的10%家庭，但我们知道，这些收集到的数据由于许多错报而不可靠，尽管有这些错报，但我们在数据集中有一些确实可靠的特征，但这些特征只是每个家庭财富信息的一小部分不可靠的数据意味着家庭向政府撒谎。这些家庭为了不公平地获得更多的政府服务而歪曲他们的收入和财富。因此，原始数据中的这些欺骗性陈述将导致不正确的

浏览 3提问于2015-06-23得票数 1

3回答

向Haskell添加ML样式模块的主要理论困难是什么？

、、、、

众所周知，Haskell风格的类型化模块和ML风格模块为指定接口提供了不同的机制。他们(可能)在权力上是对等的，但在实践中，每个人都有各自的优缺点。由于我在语言特性方面有点包容主义，我的问题是:向Haskell添加ML样式模块的主要理论困难是什么？我感兴趣的答案有以下几点：哪些现有的类型系统功能与

浏览 3提问于2011-04-17得票数 60

回答已采纳

1回答

因变量模型对数的XG Boost回归

、

我正在研究一个具有连续因变量的数据集。我使用XG对因变量进行建模。然而，当我通过应用Log变换对因变量进行转换，然后使用XG对其进行建模时，结果得到了极大的改进。我得到的结果接近100%的实际测试数据。对此有什么解释吗？

浏览 0提问于2021-04-01得票数 1

2回答

什么是数据泄漏？

、、、、

目前，我正在使用不平衡的数据处理二进制分类问题。我使用的算法是随机森林。问题在于预测每个销售项目是否能达到目标。根据该项目目前的年份，我们想知道该项目是否能在该具体年份之前达到

浏览 0提问于2023-05-15得票数 1

回答已采纳

1回答

如何将静态变量合并到ML中

、

我必须建立一个基于ML的模型，用50个台站的多年每日观测来预测复杂地形中的降水。除了12个连续变量外，预报因子还包括三个反映地形的变量:海拔、坡度和坡向。由于这三个变量对于单个站点没有变化，我怀疑模型在培训期间是否会依赖这些变量(我还没有开始分析，仍然在编译数据框架)。我的担心有效吗？我正在

浏览 0提问于2021-10-25得票数 1

回答已采纳

1回答

寻找影响净收入的特征

、、、

使用机器学习，我想识别影响net revenue的特性，并在此基础上从数据中得出结论。数据集是一个汽车共享公司的数据(如Turo)。数据集包含~80000行14列。我很难建立一个EDA，特别是使用ML算法来找出影响net_revenue的特性。我怎样才能建立一个ML模型来寻找影响净收入的特性</e

浏览 0提问于2019-09-08得票数 0

回答已采纳

2回答

离散值回归？

、、、

我是机器学习/统计算法方面的新手，但我使用过一些简单的分类器和回归。起初，这听起来像是回归问题，但我的特性是离散的和连续的</em

浏览 0提问于2018-12-20得票数 4

2回答

OSGi SOAP web服务客户端

、、、、

我正在尝试从OSGi获得一个web服务客户端，我正在使用Felix作为我的容器。到目前为止，我已经尝试使用Apache CXF。这不适用于我的web服务，因为它是RPC/编码的，并且在我尝试生成存根时不受支持。我使用apache Axis生成我的存根，现在我遇到了捆绑包中依

浏览 2提问于2011-07-23得票数 3

回答已采纳

1回答

基于树模型的零充气独立特征

、、、

在基于树的模型(DT，随机森林，梯度增强)中，包含零充气连续独立特征(例如，90%的值为零，10%为>0)的最佳方法是什么？等)。我现正考虑以下三个方案：选项3:包括连续特性和分类特性。我

浏览 0提问于2020-06-11得票数 0

回答已采纳

1回答

如果功能的值几乎是恒定的，会发生什么？

、、

在流行病学数据集的问题中，是否需要保留具有几乎恒定值的特性？例如，在这个特性中，type_of_residence大的占97 %，小的占2.7 %。保留这个功能可以吗？我的目标变量是病人的结果，而这个数据集是不平衡的。就像类不平衡问题中的过采样和欠采样技术一样，ML中是否存在

浏览 0提问于2021-01-05得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

基于树的分类模型特征重要性及规则推导

纸质船格式在ML性能优化中的优势是什么？

如何处理最新的星火随机森林的分类特征？

特征交互和混杂变量之间的差异

如何从具有多种功能的数据集中选择相关列

XGBoost使用包含时间步骤的三维输入？

计算实体属性的相对重要性

如果数据不是正态分布的，如何使用分类变量和连续目标进行特征选择？

通过创建自己的标签进行监督学习

处理不准确(不正确)数据集

向Haskell添加ML样式模块的主要理论困难是什么？

因变量模型对数的XG Boost回归

什么是数据泄漏？

如何将静态变量合并到ML中

寻找影响净收入的特征

离散值回归？

OSGi SOAP web服务客户端

基于树模型的零充气独立特征

如果功能的值几乎是恒定的，会发生什么？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐