我知道在训练机器学习算法之前,分类数据应该是一个热编码。对于多元线性回归,我还需要排除其中一个编码变量,以避免所谓的虚拟变量陷阱。
例:如果我有“大小”:“小”、“中”、“大”的分类特征,那么在一个热编码中,我会有如下内容:
small medium large other-feature
0 1 0 2999
因此,为了避免虚拟变量陷阱,我需要删除3列中的任何一列,例如,列“小”。
对于神经网络的训练,我也应该这样做吗?还是这纯粹是为了多元回归?
谢谢。
我最近才开始对机器学习产生兴趣,我有一个特别的问题,我想开始探索。
我想训练一个系统来根据字符串中的内容自动分类一个项目的各种属性。
假设我有一长串各种各样的共同基金,比如:
Ticker Fund Name
------ ---------
ABNAX ABC Bond Fund, Inc: Bond Inflation Strategy
ALYSX ABC Bond Fund, Inc: Credit Long/Short Portfolio; Advisor Class
AGRXX DEF Bond Fund, Inc: Government Reserves Portf