首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >这个属性是数字属性还是范畴属性(序数)?帮助!

这个属性是数字属性还是范畴属性(序数)?帮助!
EN

Data Science用户
提问于 2020-06-22 19:43:44
回答 1查看 89关注 0票数 0

因此,我需要对这个数据集执行几种技术,作为PYTHON中某种类型的数据挖掘/机器学习项目的一部分。但是,有几个特性让我非常担心,因为我不知道我应该把它们作为绝对(准确地说是序号)还是数字来处理。

  1. 第一个特性的整数值从0到9,它应该表示某一宗教的人口百分比(所以0是0,1是1-10%,9是100%)。
  2. 第二个特性表示contibution (money),并根据贡献的大小(所以0是.0,1是1-49,9是20000+)。

我应该如何处理这些特性?它们是间隔数据吗?我应该把它们一个热的编码成假人,还是把它们留在现在的样子?

我将不得不在数据集上执行一些聚类和分类技术。提前谢谢你!

EN

回答 1

Data Science用户

回答已采纳

发布于 2020-06-22 19:58:41

它们不是绝对的,因为它们有一个您可能想要使用的有意义的排序。第一种是可用的,因为它大约是宗教的10倍。是的,它是有序的,但恰好是一个重新标度的连续特性。

第二个是序数,所以您不太想将它作为一个连续的特性来使用,因为这并不能捕捉到它们所表示的尺度上的差异。它可能工作正常,但您也可以将每个数字转换到相应范围的中点。

票数 3
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/76485

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档