我知道在训练机器学习算法之前,分类数据应该是一个热编码。对于多元线性回归,我还需要排除其中一个编码变量,以避免所谓的虚拟变量陷阱。
例:如果我有“大小”:“小”、“中”、“大”的分类特征,那么在一个热编码中,我会有如下内容:
small medium large other-feature
0 1 0 2999
因此,为了避免虚拟变量陷阱,我需要删除3列中的任何一列,例如,列“小”。
对于神经网络的训练,我也应该这样做吗?还是这纯粹是为了多元回归?
谢谢。
我将在“与Scikit一起动手机器学习,Keras和TensorFlow”一书中继续学习。其中有一个关于时间序列预测的章节。我感兴趣的是将该方法应用于日内股票指数价格数据。我的数据如下:
In [229]: frame.tail()
Out[229]:
O H L C Day Time
1472543 4017.50 4018.39 4013.52 4014.38 2022-05-13 15:55:00
1472544 4014.68 4018.05 4014.68 4017
我一直在尝试使用滑雪板进行线性回归。有时我会得到一个值错误,有时它可以正常工作。我不知道该用哪种方法。错误消息如下:
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/site-packages/sklearn/linear_model/base.py", line 512, in fit
y_