将未知单词分组到相同的标记下,即<UNK>
,并且还包括小概率的单词的逻辑是什么?
如果<UNK>
集合的大小增加,一些不常见的单词不会被分配到高概率吗?
如果所有的<UNK>
单词在某种意义上属于同一类,例如,像约翰、蒂姆、山姆这样的专有名词都可以使用彼此的概率作为双文法"Hello John,Hello Tim,Hello Sam“的可能性相等,那么这可能会起作用。但是如果不是这样的话,这个方法不会遇到问题吗?
发布于 2017-05-11 19:36:04
将稀有单词映射到<UNK>
只意味着我们删除这些单词,并将它们替换为训练数据中的标记<UNK>
。因此,我们的模型不知道任何稀有单词。它是一种粗糙的平滑形式,因为该模型假设令牌<UNK>
永远不会实际出现在真实数据中,或者更好的是,它完全忽略了这些n元语法。
平滑要解决的问题是数据稀疏性。这种技术可能是处理它的最简单的方法。但是,我们可以像@alvas在评论中显示的那样执行better。
https://stackoverflow.com/questions/43885252
复制相似问题