首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何从文本语料库中提取语义相关性

如何从文本语料库中提取语义相关性
EN

Stack Overflow用户
提问于 2011-05-25 11:11:57
回答 2查看 1.5K关注 0票数 1

目的是评估大型文本语料库中的语义关联,例如“警察”和“犯罪”应该比“警察”和“山”具有更强的语义相关性,因为它们往往在相同的语境中共同发生。

我所读过的最简单的方法是从语料库中提取如果-以色列国防军信息。

许多人使用潜在语义分析来寻找语义相关性。

我遇到过Lucene搜索引擎:http://lucene.apache.org/

你认为这是适合提取如果-以色列国防军?

在技术和软件工具方面(对Java的偏好),您建议做我想做的事情吗?

提前感谢!

木兰

EN

回答 2

Stack Overflow用户

发布于 2011-05-26 18:28:47

是的,Lucene得到了TF-国防军的数据。胡萝卜^2算法是基于Lucene的语义提取程序的一个例子。我之所以提到这一点,是因为,作为第一步,它们创建了一个相关矩阵。当然,您可能可以轻松地构建这个矩阵。

如果你处理大量的数据,你可能会想要使用Mahout来处理更难的线性代数部分。

票数 0
EN

Stack Overflow用户

发布于 2011-10-10 14:22:56

如果你有lucene指数,那是很容易的。例如,要获得相关性,可以使用简单公式计数(term1和term2)/计数(Term1)* count(term2)。在哪里计数是从你的搜索结果点击。此外,您还可以轻松地计算其他信号度量,如chi^2、info增益。您所需要的只是得到公式,并将其从Query转换为Query的术语。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/6123520

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档