文章/答案/技术大牛

发布

社区首页 >问答首页 >SOLR:从原始文本创建术语向量(如从TermVectorComponent返回的数据)

问SOLR:从原始文本创建术语向量(如从TermVectorComponent返回的数据)
EN

Stack Overflow用户

提问于 2013-08-15 06:10:29

回答 4查看 2K关注 0票数 5

使用http://wiki.apache.org/solr/TermVectorComponent，我可以获得索引中存储的任何文档的索引项及其频率。如何才能在不将文本存储在索引中的情况下为文本获取相同的信息？我只想让SOLR处理文本并返回信息，而不必将文档存储在索引中。

solr

回答 4

Stack Overflow用户

发布于 2013-08-15 09:11:34

AFAIK如果不在SOLR中存储数据，这是不可能的。

如果你想做文本分析(我知道这比你要求的更广泛)，我会推荐下面的替代方案：

MAUI - does关键词组和术语extraction.
Gensim - does modelling
Kea - keyword extraction

我还遇到了一些执行词频分析的python脚本。看看Mincemeat，特别是这个例子，它进行词频计算。

票数 1

Stack Overflow用户

发布于 2013-08-21 03:29:56

根据你的要求，我得出结论，你实际上需要一个搜索库，而不是一个完整的搜索引擎(服务)。这个库就是Lucene。也许，这会对初学者有所帮助：How to extract Document Term Vector in Lucene 3.5.0。您可以将索引存储在RAM中，以便计算必要的位，然后删除索引。

票数 1

Stack Overflow用户

发布于 2013-08-24 07:16:02

几年前，我用Java编写了一个基于Lucene进行繁重文本分析的应用程序。我不得不自定义编写搜索函数来查找彼此之间一定距离内的单词。您可以将文本文档导入到软件中，让它计算词频，或者您可以根据需要提取代码并对其进行泰勒处理。

免费下载：http://www.minoesoftware.com/download.php

来源：https://github.com/danspiteri/MINOE/blob/master/src/minoe/SearchFiles.java

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/18243183

复制

相似问题

问SOLR:从原始文本创建术语向量(如从TermVectorComponent返回的数据)
EN

回答 4

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问SOLR:从原始文本创建术语向量(如从TermVectorComponent返回的数据)EN

回答 4

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问SOLR:从原始文本创建术语向量(如从TermVectorComponent返回的数据)
EN