给出一套文本(可能是书籍、文章、文件等)你如何为每一篇文章找到相关的关键词?常识建议:
问题是:这是一个很好的公式吗?
发布于 2013-03-13 18:13:48
我开发了一个。
对于每个单词,计算这一比率:
(frequency of word in this text) * (total number of words in all texts)
-----------------------------------------------------------------------
(number of words in this text) * (frequency of word in all texts)
关键词是那些比例最高的20%的单词(对于这个加法)。
安克尔还提出了自己的公式:
tanh(curVal/curWords*200) - 5*tanh((allVal-curVal)/(allWords-curWords)*200)
其中:
这两种算法都工作得很好,而且结果往往是一致的。你知道怎样才能做得更好吗?
https://stackoverflow.com/questions/15393274
复制相似问题