我正在写博客来分析它们的内容。我正在使用基本的英文停用词列表,但这是不够的,因为博客特定的频繁但无用的单词,如“存档”,“评论”等。你知道预先创建的针对博客的停用词列表吗?
发布于 2014-07-30 00:38:24
我找不到这样的资源。最好的方法是计算文档集合中最常用的单词,并将其中的一个子集(比如200个)设置为停用单词。您还可以改变此截止参数(例如100或300而不是200),以查看对检索性能的影响。
https://stackoverflow.com/questions/24971787
复制相似问题