我有一个数据集与3个自变量城市、工业、数量,并希望正常化的金额。但我希望在工业和城市方面这样做。简单地按城市和工业分组,我就得到了很多非常稀疏的群体,在这些群体中(min-max,等等)。不会很有意义的。有什么更好的方法让它正常化吗?
发布于 2021-12-07 14:45:51
通常对每个特性分别进行规范化。
规范化意味着对数字数据和分类数据的不同操作。似乎数量是数字的。正如你所提到的,数量可能是最小-最大重新标度。城市和工业似乎是绝对的。分类规范化通常意味着将相关实体分组在一起。这通常是一个手工过程。
https://datascience.stackexchange.com/questions/38164
复制相似问题