问被keras.text.preprocessing.one_hot的输出所迷惑
EN

Stack Overflow用户

提问于 2021-03-06 15:52:34

回答 1查看 139关注 0票数 0

我有一些文本数据，我想转换成一个热点向量：

from keras.preprocessing import text

s = 'wow this is such a thing'
vocab = set(s.split())
text.one_hot(s, round(len(vocab)*1.3))

这将返回[2, 6, 6, 7, 6, 7]，但我的字符串不包含任何重复的单词。有人知道这是怎么回事吗？

回答已采纳

发布于 2021-03-06 16:11:32

函数的源代码：它明确指出：

这是hashing_trick函数的包装器，使用hash作为散列函数；word到索引映射的唯一性没有保证。

因为在散列中有机会分配给同一个索引，就像您的例子一样。如果您想要更多的唯一性，可以尝试增加vocab的大小。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/66507613

复制

相似问题

问被keras.text.preprocessing.one_hot的输出所迷惑EN