labels = array([1,1,1,1,1,0,0,0,0,0]) encoded = [one_hot(d, voc_size) for d in docs]max_length = 4 我的理解是,“one_hot”编码已经根据词汇表大小创建了每个文档的等长。编辑:进一步澄清的另一个例子:
单热编
[word] for word in sent] for sent in texts]然后,我必须做同样的pd.get_dummies或np.eyes来得到一个热向量,但是我得到一个错误,在我的一个热向量中缺少一维,我有8个唯一的单词,但是一个热向量的长度只有7:
>>> [pd.get_dummies(sent).values for使用np.eye,我确实得到了正确的向量