首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >N-Gram建模中的未知词

N-Gram建模中的未知词
EN

Stack Overflow用户
提问于 2017-05-10 14:43:22
回答 1查看 2K关注 0票数 1

将未知单词分组到相同的标记下,即<UNK>,并且还包括小概率的单词的逻辑是什么?

如果<UNK>集合的大小增加,一些不常见的单词不会被分配到高概率吗?

如果所有的<UNK>单词在某种意义上属于同一类,例如,像约翰、蒂姆、山姆这样的专有名词都可以使用彼此的概率作为双文法"Hello John,Hello Tim,Hello Sam“的可能性相等,那么这可能会起作用。但是如果不是这样的话,这个方法不会遇到问题吗?

EN

回答 1

Stack Overflow用户

发布于 2017-05-11 19:36:04

将稀有单词映射到<UNK>只意味着我们删除这些单词,并将它们替换为训练数据中的标记<UNK>。因此,我们的模型不知道任何稀有单词。它是一种粗糙的平滑形式,因为该模型假设令牌<UNK>永远不会实际出现在真实数据中,或者更好的是,它完全忽略了这些n元语法。

平滑要解决的问题是数据稀疏性。这种技术可能是处理它的最简单的方法。但是,我们可以像@alvas在评论中显示的那样执行better

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/43885252

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档