首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >文本关键词的查找算法

文本关键词的查找算法
EN

Stack Overflow用户
提问于 2013-03-13 18:13:48
回答 1查看 4.2K关注 0票数 3

给出一套文本(可能是书籍、文章、文件等)你如何为每一篇文章找到相关的关键词?常识建议:

  • 分词
  • 排除普通单词(也称为停止词,如a,to,for,in)
  • 数字频率
  • 给每个单词打分,公式要考虑到文档和其他文档中每个单词的频率、文档的单词数和所有文档的单词总数。

问题是:这是一个很好的公式吗?

EN

回答 1

Stack Overflow用户

发布于 2013-03-13 18:13:48

我开发了一个。

对于每个单词,计算这一比率:

代码语言:javascript
运行
复制
(frequency of word in this text) * (total number of words in all texts)
-----------------------------------------------------------------------
  (number of words in this text) * (frequency of word in all texts)

关键词是那些比例最高的20%的单词(对于这个加法)。

安克尔还提出了自己的公式:

代码语言:javascript
运行
复制
tanh(curVal/curWords*200) - 5*tanh((allVal-curVal)/(allWords-curWords)*200)

其中:

  • curVal:要评分的词在待分析的文本中多久出现一次?
  • curWords:待分析文本中的总单词数。
  • allVal:要评分的单词在索引数据集中多久出现一次
  • allWords:索引数据集的总字数

这两种算法都工作得很好,而且结果往往是一致的。你知道怎样才能做得更好吗?

票数 7
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/15393274

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档