使用http://wiki.apache.org/solr/TermVectorComponent,我可以获得索引中存储的任何文档的索引项及其频率。如何才能在不将文本存储在索引中的情况下为文本获取相同的信息?我只想让SOLR处理文本并返回信息,而不必将文档存储在索引中。
发布于 2013-08-15 09:11:34
AFAIK如果不在SOLR中存储数据,这是不可能的。
如果你想做文本分析(我知道这比你要求的更广泛),我会推荐下面的替代方案:
我还遇到了一些执行词频分析的python脚本。看看Mincemeat,特别是这个例子,它进行词频计算。
https://stackoverflow.com/questions/18243183
复制相似问题