目的是评估大型文本语料库中的语义关联,例如“警察”和“犯罪”应该比“警察”和“山”具有更强的语义相关性,因为它们往往在相同的语境中共同发生。
我所读过的最简单的方法是从语料库中提取如果-以色列国防军信息。
许多人使用潜在语义分析来寻找语义相关性。
我遇到过Lucene搜索引擎:http://lucene.apache.org/
你认为这是适合提取如果-以色列国防军?
在技术和软件工具方面(对Java的偏好),您建议做我想做的事情吗?
提前感谢!
木兰
发布于 2011-05-26 18:28:47
是的,Lucene得到了TF-国防军的数据。胡萝卜^2算法是基于Lucene的语义提取程序的一个例子。我之所以提到这一点,是因为,作为第一步,它们创建了一个相关矩阵。当然,您可能可以轻松地构建这个矩阵。
如果你处理大量的数据,你可能会想要使用Mahout来处理更难的线性代数部分。
发布于 2011-10-10 14:22:56
如果你有lucene指数,那是很容易的。例如,要获得相关性,可以使用简单公式计数(term1和term2)/计数(Term1)* count(term2)。在哪里计数是从你的搜索结果点击。此外,您还可以轻松地计算其他信号度量,如chi^2、info增益。您所需要的只是得到公式,并将其从Query
转换为Query
的术语。
https://stackoverflow.com/questions/6123520
复制相似问题