使用http://wiki.apache.org/solr/TermVectorComponent,我可以获得索引中存储的任何文档的索引项及其频率。如何才能在不将文本存储在索引中的情况下为文本获取相同的信息?我只想让SOLR处理文本并返回信息,而不必将文档存储在索引中。
发布于 2013-08-15 09:11:34
AFAIK如果不在SOLR中存储数据,这是不可能的。
如果你想做文本分析(我知道这比你要求的更广泛),我会推荐下面的替代方案:
我还遇到了一些执行词频分析的python脚本。看看Mincemeat,特别是这个例子,它进行词频计算。
发布于 2013-08-21 03:29:56
根据你的要求,我得出结论,你实际上需要一个搜索库,而不是一个完整的搜索引擎(服务)。这个库就是Lucene。也许,这会对初学者有所帮助:How to extract Document Term Vector in Lucene 3.5.0。您可以将索引存储在RAM中,以便计算必要的位,然后删除索引。
发布于 2013-08-24 07:16:02
几年前,我用Java编写了一个基于Lucene进行繁重文本分析的应用程序。我不得不自定义编写搜索函数来查找彼此之间一定距离内的单词。您可以将文本文档导入到软件中,让它计算词频,或者您可以根据需要提取代码并对其进行泰勒处理。
免费下载:http://www.minoesoftware.com/download.php
来源:https://github.com/danspiteri/MINOE/blob/master/src/minoe/SearchFiles.java
https://stackoverflow.com/questions/18243183
复制相似问题