首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >SOLR:从原始文本创建术语向量(如从TermVectorComponent返回的数据)

SOLR:从原始文本创建术语向量(如从TermVectorComponent返回的数据)
EN

Stack Overflow用户
提问于 2013-08-15 06:10:29
回答 4查看 2K关注 0票数 5

使用http://wiki.apache.org/solr/TermVectorComponent,我可以获得索引中存储的任何文档的索引项及其频率。如何才能在不将文本存储在索引中的情况下为文本获取相同的信息?我只想让SOLR处理文本并返回信息,而不必将文档存储在索引中。

EN

回答 4

Stack Overflow用户

发布于 2013-08-15 09:11:34

AFAIK如果不在SOLR中存储数据,这是不可能的。

如果你想做文本分析(我知道这比你要求的更广泛),我会推荐下面的替代方案:

  1. MAUI - does关键词组和术语extraction.
  2. Gensim - does modelling
  3. Kea - keyword extraction

我还遇到了一些执行词频分析的python脚本。看看Mincemeat,特别是这个例子,它进行词频计算。

票数 1
EN

Stack Overflow用户

发布于 2013-08-21 03:29:56

根据你的要求,我得出结论,你实际上需要一个搜索库,而不是一个完整的搜索引擎(服务)。这个库就是Lucene。也许,这会对初学者有所帮助:How to extract Document Term Vector in Lucene 3.5.0。您可以将索引存储在RAM中,以便计算必要的位,然后删除索引。

票数 1
EN

Stack Overflow用户

发布于 2013-08-24 07:16:02

几年前,我用Java编写了一个基于Lucene进行繁重文本分析的应用程序。我不得不自定义编写搜索函数来查找彼此之间一定距离内的单词。您可以将文本文档导入到软件中,让它计算词频,或者您可以根据需要提取代码并对其进行泰勒处理。

免费下载:http://www.minoesoftware.com/download.php

来源:https://github.com/danspiteri/MINOE/blob/master/src/minoe/SearchFiles.java

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/18243183

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档