我有一本大约有1500个单词的字典。不是所有的1500个单词都可以用作文本的主题(在我的字典中,它们中的许多都是噪音,可能只有2-10%可以用作主题),但是我想给我的文档提供的主题可以在这1500个单词中找到。
因此,我应该从哪里开始,什么算法可以工作?谢谢!
发布于 2012-12-01 01:22:29
你可以计算人们分配的每个主题在这些文档中出现的次数。为了说明单词的形态变化,您可以使用词干分析器或lemmatiser (例如,Stanford的PoS标记器或Python的NLTK )。然后,您可以简单地根据它们在整个文档集中的数量来选择最有用的主题,或者使用tf-idf (http://en.wikipedia.org/wiki/Tf%E2%80%93idf -在页面底部有一些实现的链接)。
https://stackoverflow.com/questions/13636746
复制相似问题