文章/答案/技术大牛

发布

社区首页 >问答首页 >如何从文本语料库中提取语义相关性

问如何从文本语料库中提取语义相关性
EN

Stack Overflow用户

提问于 2011-05-25 11:11:57

回答 2查看 1.5K关注 0票数 1

目的是评估大型文本语料库中的语义关联，例如“警察”和“犯罪”应该比“警察”和“山”具有更强的语义相关性，因为它们往往在相同的语境中共同发生。

我所读过的最简单的方法是从语料库中提取如果-以色列国防军信息。

许多人使用潜在语义分析来寻找语义相关性。

我遇到过Lucene搜索引擎：http://lucene.apache.org/

你认为这是适合提取如果-以色列国防军？

在技术和软件工具方面(对Java的偏好)，您建议做我想做的事情吗？

提前感谢！

木兰

tf-idf

semantic-analysis

latent-semantic-indexing

lucene

回答 2

Stack Overflow用户

发布于 2011-05-26 18:28:47

是的，Lucene得到了TF-国防军的数据。胡萝卜^2算法是基于Lucene的语义提取程序的一个例子。我之所以提到这一点，是因为，作为第一步，它们创建了一个相关矩阵。当然，您可能可以轻松地构建这个矩阵。

如果你处理大量的数据，你可能会想要使用Mahout来处理更难的线性代数部分。

票数 0

Stack Overflow用户

发布于 2011-10-10 14:22:56

如果你有lucene指数，那是很容易的。例如，要获得相关性，可以使用简单公式计数(term1和term2)/计数(Term1)* count(term2)。在哪里计数是从你的搜索结果点击。此外，您还可以轻松地计算其他信号度量，如chi^2、info增益。您所需要的只是得到公式，并将其从Query转换为Query的术语。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/6123520

复制

相似问题

问如何从文本语料库中提取语义相关性
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何从文本语料库中提取语义相关性EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何从文本语料库中提取语义相关性
EN