腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
ML
中
如何
找出
我
的
目标
是否
依赖
于我
正在
考虑
的
连续
特性
machine-learning
我
正在
试着分析一个数据。该数据具有一些
连续
属性,并且
目标
也是
连续
的
。
我
使用线性回归和随机森林进行分析。
我
想知道
的
是,
我
如何
确定
我
的
目标
连续
变量
是否
依赖
于我
正在
考虑
的
连续
特征。MSE值有助于比较不同模型<
浏览 20
提问于2021-10-28
得票数 0
回答已采纳
1
回答
基于树
的
分类模型特征重要性及规则推导
scikit-learn
、
random-forest
、
decision-trees
、
feature-construction
我
有一个具有
目标
0/1 (二进制分类任务)
的
分类和
连续
值
的
数据集。由
于我
需要在事件或
目标
的发生中找到模式和关系,所以我认为
我
应该使用决策树。然而,问题是,
我
有两个范畴变量,分别有700和150类,其余变量是数值/
连续
的
。对于这组变量,
我
是否
可以使用滑雪板
中
的</em
浏览 0
提问于2020-01-14
得票数 0
1
回答
纸质船格式
在
ML
性能优化
中
的
优势是什么?
optimization
、
machine-learning
、
dataset
格式声称为机器学习例程提供了更好
的
数据集表示。
我
想了解它优化
的
本质。
我
理解对模型属性使用整数表示意味着更快地处理数据集,还有哪些其他改进。 此外,
如何
调优
ML
算法以处理此文件格式。
浏览 5
提问于2015-05-29
得票数 0
回答已采纳
1
回答
如何
处理最新
的
星火随机森林
的
分类特征?
apache-spark
、
apache-spark-mllib
、
random-forest
、
apache-spark-ml
、
feature-engineering
在
随机森林
的
Mllib版本
中
,有可能用参数categoricalFeaturesInfo指定具有名义特征(数值但仍然是绝对变量)
的
列,那么
ML
随机森林是什么呢?在用户指南中,它使用VectorIndexer来转换向量
中
的
分类特征,但是它被写成“自动识别分类特征,并对它们进行索引” I发现,
在
随机森林中,数字索引无论
如何
都被视为
连续
的
特性
,因此建议进行一次热编码以避免这种情况,对于
浏览 1
提问于2017-10-15
得票数 6
回答已采纳
1
回答
特征交互和混杂变量之间
的
差异
machine-learning
、
deep-learning
、
statistics
、
logistic-regression
、
causalimpact
让
我
来定义问题空间。
我
的
目标
是
找出
一系列重要
的
特征(基于因果模型),并使用它来构建一个预测模型。
我
确实参考了这个帖子中提供
的
建议,它非常有用,但由
于我
对
ML
字段
的
限制,
我
几乎没有其他问题。
我
从文献中了解到,有两种方法可以调节/控制混
浏览 0
提问于2019-12-29
得票数 2
1
回答
如何
从具有多种功能
的
数据集中选择相关列
machine-learning
、
feature-selection
、
feature-extraction
、
generative-models
、
features
我
有一个具有大量潜在特征(>100)
的
数据集,
我
感兴趣
的
是找到其中一个相对较小
的
子集(可能是5或20),这些特征最适合于解决特定类型
的
问题。有什么好
的
方法来评估数据集中
的
哪些列最适合用作解决问题
的
输入,以及
我
应该丢弃哪些列?(问题
的
本质是逼近一些复杂
的
数学函数
的
逆)。
浏览 0
提问于2022-06-22
得票数 1
1
回答
XGBoost使用包含时间步骤
的
三维输入?
python
、
machine-learning
、
time-series
、
regression
、
xgboost
我
正在
尝试对时间序列数据进行XGBRegressor训练,使其具有时间步长,因此,如果有12345个样本、10个特征和一个时间步长为5,则X_train
的
形状可以类似于(12345, 5, 10)。然而,当我们尝试使用这样
的
训练数据来训练XGBRegressor时,xgb = xgb.XGBRegressor()我们得到了错误 ValueError:(“期待二维numpy.ndarray,got:”,(12345,5,1
浏览 2
提问于2020-05-01
得票数 1
回答已采纳
2
回答
计算实体属性
的
相对重要性
feature-selection
、
variance
Approach 1:
考虑
A_1:
我
可以形成具有相同A_1值
的
电影组,例如,所有带有A_1=a_{12}
的
电影都组成一个组。组
中
的
其他属性可以自由变化。然后,
我
可以计算出一个组内所有电影收入
的
平均值,然后取所有组
的
均值
的
方差。 这将给我“
在
我们改变A_1值时平均收入
的
变化”。Approach 2:再次
考虑
A_1:修复所有其他属性A_2,\ldots,A_n
浏览 0
提问于2021-02-08
得票数 0
回答已采纳
2
回答
如果数据不是正态分布
的
,
如何
使用分类变量和
连续
目标
进行特征选择?
feature-selection
、
data
、
dimensionality-reduction
我
正在
尝试用多元线性回归模型来预测员工
的
薪水。
我
总共有88个相关
的
特征,其中19个是分类
的
,其余
的
是
连续
的
。
我
设法将
连续
特性
的
数量从69个减少到41个。现在
我
试图减少分类特征
的
数量,但是由
于我
的
数据不是正态分布
的
,所以我不能使用t检验或方差分析。
我
还可以使用
浏览 0
提问于2020-04-12
得票数 2
1
回答
通过创建自己
的
标签进行监督学习
machine-learning
场景--
我
有没有标签
的
数据,但是
我
可以创建一个函数来根据行为给数据贴上标签并部署模型,这样
我
就不必一直给数据贴标签了。这算是机器学习吗?
目标
:基于高、
中
、低标签对大数据(数万亿行数据)进行容量峰值分类 接下来,
我
创建
我
浏览 1
提问于2019-06-26
得票数 0
1
回答
处理不准确(不正确)数据集
machine-learning
、
data-quality
这是
我
的
问题描述: “根据”家庭收入和财富调查“,我们需要
找出
收入和支出最高
的
10%家庭,但我们知道,这些收集到
的
数据由于许多错报而不可靠,尽管有这些错报,但我们在数据集中有一些确实可靠
的
特征,但这些特征只是每个家庭财富信息
的
一小部分不可靠
的
数据意味着家庭向政府撒谎。这些家庭为了不公平地获得更多
的
政府服务而歪曲他们
的
收入和财富。因此,原始数据
中
的
这些欺骗性陈述将导致不正确
的
浏览 3
提问于2015-06-23
得票数 1
3
回答
向Haskell添加
ML
样式模块
的
主要理论困难是什么?
haskell
、
ocaml
、
sml
、
ml
、
type-systems
众所周知,Haskell风格
的
类型化模块和
ML
风格模块为指定接口提供了不同
的
机制。他们(可能)
在
权力上是对等
的
,但在实践
中
,每个人都有各自
的
优缺点。由
于我
在
语言
特性
方面有点包容主义,
我
的
问题是:向Haskell添加
ML
样式模块
的
主要理论困难是什么?
我
感兴趣
的
答案有以下几点: 哪些现有的类型系统功能与
浏览 3
提问于2011-04-17
得票数 60
回答已采纳
1
回答
因变量模型对数
的
XG Boost回归
machine-learning
、
xgboost
我
正在
研究一个具有
连续
因变量
的
数据集。
我
使用XG对因变量进行建模。然而,当我通过应用Log变换对因变量进行转换,然后使用XG对其进行建模时,结果得到了极大
的
改进。
我
得到
的
结果接近100%
的
实际测试数据。对此有什么解释吗?
浏览 0
提问于2021-04-01
得票数 1
2
回答
什么是数据泄漏?
machine-learning
、
classification
、
data-mining
、
data-analysis
、
data-leakage
目前,
我
正在
使用不平衡
的
数据处理二进制分类问题。
我
使用
的
算法是随机森林。问题在于预测每个销售项目
是否
能达到
目标
。根据该项目目前
的
年份,我们想知道该项目
是否
能在该具体年份之前达到
浏览 0
提问于2023-05-15
得票数 1
回答已采纳
1
回答
如何
将静态变量合并到
ML
中
machine-learning
、
feature-engineering
我
必须建立一个基于
ML
的
模型,用50个台站
的
多年每日观测来预测复杂地形
中
的
降水。除了12个
连续
变量外,预报因子还包括三个反映地形
的
变量:海拔、坡度和坡向。由于这三个变量对于单个站点没有变化,
我
怀疑模型
在
培训期间
是否
会
依赖
这些变量(
我
还没有开始分析,仍然在编译数据框架)。
我
的
担心有效吗?
我
正在
浏览 0
提问于2021-10-25
得票数 1
回答已采纳
1
回答
寻找影响净收入
的
特征
python
、
algorithm
、
machine-learning
、
data-science
使用机器学习,
我
想识别影响net revenue
的
特性
,并在此基础上从数据
中
得出结论。数据集是一个汽车共享公司
的
数据(如Turo)。数据集包含~80000行14列。
我
很难建立一个EDA,特别是使用
ML
算法来
找出
影响net_revenue
的
特性
。
我
怎样才能建立一个
ML
模型来寻找影响净收入
的
特性</e
浏览 0
提问于2019-09-08
得票数 0
回答已采纳
2
回答
离散值回归?
classification
、
regression
、
linear-regression
、
k-nn
我
是机器学习/统计算法方面的新手,但我使用过一些简单
的
分类器和回归。起初,这听起来像是回归问题,但我
的
特性
是离散
的
和
连续
的</em
浏览 0
提问于2018-12-20
得票数 4
2
回答
OSGi SOAP web服务客户端
java
、
web-services
、
soap
、
osgi
、
apache-karaf
我
正在
尝试从OSGi获得一个web服务客户端,
我
正在
使用Felix作为
我
的
容器。 到目前为止,
我
已经尝试使用Apache CXF。这不适用
于我
的
web服务,因为它是RPC/编码
的
,并且
在
我
尝试生成存根时不受支持。
我
使用apache Axis生成
我
的
存根,现在
我
遇到了捆绑包
中
依
浏览 2
提问于2011-07-23
得票数 3
回答已采纳
1
回答
基于树模型
的
零充气独立特征
random-forest
、
decision-trees
、
xgboost
、
correlation
在
基于树
的
模型(DT,随机森林,梯度增强)
中
,包含零充气
连续
独立特征(例如,90%
的
值为零,10%为>0)
的
最佳方法是什么?等)。
我
现正
考虑
以下三个方案:选项3:包括
连续
特性
和分类
特性
。
我
浏览 0
提问于2020-06-11
得票数 0
回答已采纳
1
回答
如果功能
的
值几乎是恒定
的
,会发生什么?
machine-learning
、
feature-selection
、
preprocessing
在
流行病学数据集
的
问题中,
是否
需要保留具有几乎恒定值
的
特性
?例如,在这个
特性
中
,type_of_residence大
的
占97 %,小
的
占2.7 %。保留这个功能可以吗?
我
的
目标
变量是病人
的
结果,而这个数据集是不平衡
的
。就像类不平衡问题中
的
过采样和欠采样技术一样,
ML
中
是否
存在
浏览 0
提问于2021-01-05
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
机器学习其实只是“皇帝的新衣”
Meta研究:用于实时XR工作负载的多模型ML基准测试
微软向Azure云加入更多智能机器学习功能
特斯拉的自动驾驶仪如何工作?它使用什么传感器?真相在这里
C#8.0 新特性
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券