我有一些文本数据,我想转换成一个热点向量:
from keras.preprocessing import text
s = 'wow this is such a thing'
vocab = set(s.split())
text.one_hot(s, round(len(vocab)*1.3))这将返回[2, 6, 6, 7, 6, 7],但我的字符串不包含任何重复的单词。有人知道这是怎么回事吗?
发布于 2021-03-06 16:11:32
函数的源代码:它明确指出:
这是
hashing_trick函数的包装器,使用hash作为散列函数;word到索引映射的唯一性没有保证。
因为在散列中有机会分配给同一个索引,就像您的例子一样。如果您想要更多的唯一性,可以尝试增加vocab的大小。
https://stackoverflow.com/questions/66507613
复制相似问题