我使用两个要素来训练分类模型,例如要素A和B。要素A比要素B更重要。要素A具有序数数据,因此我对其进行了标注编码,其值范围为1到5。要素B也是分类要素,并且在标注编码后对其进行了热编码
由于上述编码,特征A具有从1到5的值,而特征B具有多列,并且每个列值要么为0,要么为1。
现在,在我的模型训练之后,我的模型过于偏向于特征A,因为它的值范围是1到5,而它对特征B的关注非常少。
现在,如果我使用标准标量进行特征缩放,则特征A的值将介于-1到1之间,因此在模型训练之后,特征B比特征A具有更多的角色来做出决策。
是否有更好的方法来对两个要素进行要素缩放,以便要素A具有更多边,但不会太多,从而使要素B被完全忽略
发布于 2020-01-03 14:27:45
一旦你进行了一次热编码,你将只有一组功能。模型将不知道特征属于A还是B。然后,您可以计算特征重要性,或者运行Feature Selection Algorithms以使其更有效。
但是,如果您觉得特征A更重要,那么尝试缩放到-1比1以外的其他限制,以便为特征A维护比特征B更多的列,或者相应地缩放这两个列。但同样,模型仅将其视为一组功能,因此尝试更改模型/参数,而不是专注于此来提高性能。
https://stackoverflow.com/questions/59573060
复制相似问题