首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >将1/3的值作为零进行聚类

将1/3的值作为零进行聚类
EN

Stack Overflow用户
提问于 2022-08-25 10:32:38
回答 1查看 37关注 0票数 1

我有一个属性数据集。它有租金价值和存款金额,卧室数量,面积等。至少1/3的租赁栏价值只是零。它没有任何价值。我必须执行聚类。

然而,租金的价值有很大的偏差。在执行群集时,我可以忽略1/3行,还是应该计算值?什么是正确的方法来计算值。

EN

回答 1

Stack Overflow用户

发布于 2022-08-25 12:05:31

这取决于聚类的目的。您可以忽略数据(即删除列)并继续进行群集。您将拥有基于剩余功能的集群,如大小、房间数量等。

如果租金金额是可以区分属性和属性的一个重要功能,那么您应该包括该列,但删除该列中具有零(或南)值的行。用平均值来计算是不好的,因为一个10卧室的公寓将有不同的租金价值与一个卧室的公寓,那么你会增加很多噪音的数据。

我要做的是做几步:

(1)提取具有零租金值的行,并将它们用作“测试数据集”。

(2)利用剩余数据训练一个回归模型,预测租金值,即按通常的train_test_split进行列车-val检验,得到最优的租金模型。

(3)将选定的模型应用于“测试数据集”,以填写租金值。

(4)合并这两个数据集,但要这样做(稍后我会解释):在带有预测租金值的“测试数据集”中,添加一个名为"recognise“的列,并给出一个常量值,例如1001。在具有实际租金值的dataset中,添加一个名为"recognise“的列,并给出一个常量值,例如1000。现在,您有了一个具有完整租金值的完整数据集来进行聚类!

现在让我解释一下“认可”一栏。本专栏对集群的影响很小,因为1000接近1001。但是,本专栏可以让您识别哪些记录具有实际租金值(1000),哪些记录预测了租金值(1001),以便在需要时进行分析。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/73485985

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档