问文本关键词的查找算法
EN

Stack Overflow用户

提问于 2013-03-13 18:13:48

回答 1查看 4.2K关注 0票数 3

给出一套文本(可能是书籍、文章、文件等)你如何为每一篇文章找到相关的关键词？常识建议：

分词
排除普通单词(也称为停止词，如a，to，for，in)
数字频率
给每个单词打分，公式要考虑到文档和其他文档中每个单词的频率、文档的单词数和所有文档的单词总数。

问题是:这是一个很好的公式吗？

algorithm

回答 1

Stack Overflow用户

发布于 2013-03-13 18:13:48

我开发了一个。

对于每个单词，计算这一比率：

(frequency of word in this text) * (total number of words in all texts)
-----------------------------------------------------------------------
  (number of words in this text) * (frequency of word in all texts)

关键词是那些比例最高的20%的单词(对于这个加法)。

安克尔还提出了自己的公式：

tanh(curVal/curWords*200) - 5*tanh((allVal-curVal)/(allWords-curWords)*200)

其中：

curVal:要评分的词在待分析的文本中多久出现一次？
curWords:待分析文本中的总单词数。
allVal:要评分的单词在索引数据集中多久出现一次
allWords:索引数据集的总字数

这两种算法都工作得很好，而且结果往往是一致的。你知道怎样才能做得更好吗？

票数 7

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/15393274

复制

相似问题

问文本关键词的查找算法
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问文本关键词的查找算法EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问文本关键词的查找算法
EN