首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >在主题词词典中检测噪声

在主题词词典中检测噪声
EN

Stack Overflow用户
提问于 2012-11-30 07:32:43
回答 1查看 94关注 0票数 0

我有一本大约有1500个单词的字典。不是所有的1500个单词都可以用作文本的主题(在我的字典中,它们中的许多都是噪音,可能只有2-10%可以用作主题),但是我想给我的文档提供的主题可以在这1500个单词中找到。

因此,我应该从哪里开始,什么算法可以工作?谢谢!

EN

回答 1

Stack Overflow用户

发布于 2012-12-01 01:22:29

你可以计算人们分配的每个主题在这些文档中出现的次数。为了说明单词的形态变化,您可以使用词干分析器或lemmatiser (例如,Stanford的PoS标记器或Python的NLTK )。然后,您可以简单地根据它们在整个文档集中的数量来选择最有用的主题,或者使用tf-idf (http://en.wikipedia.org/wiki/Tf%E2%80%93idf -在页面底部有一些实现的链接)。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/13636746

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档