首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >关于开放/源代码文本索引和搜索的建议

关于开放/源代码文本索引和搜索的建议
EN

Stack Overflow用户
提问于 2010-12-21 14:21:55
回答 1查看 2.5K关注 0票数 0

我刚刚发现了Lucene (Java库),并开始阅读它。

我对一些文学作品(例如,斐洛、约瑟夫)很感兴趣,并对它们进行索引,然后进行以下类型的分析(类似于一些圣经软件程序所做的):

1)在单词y的2个或3个单词中查找单词x

2)找到"work* of * hand*“-会找到"work of your hand”,“work of of”等。

3)找到文学模式(也称为"motiffs"),如作者使用短语“在那一天”。(我认为这可能是最棘手的,可能必须找到2-7个单词短语的所有组合,然后计算它们并对它们进行排名,例如只显示前25个)。例如,这可能表明Josephus喜欢使用一组短语,而Philo喜欢使用另一组短语。

有没有你推荐的开源库?我的语言偏好可能是: 1) Python,2) C#,3) Java。理想情况下,不依赖于任何专有数据库。

谢谢,

尼尔

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2010-12-21 14:28:04

在我看来,Lucene在受欢迎程度、社区、活动和工具方面是最好的。我建议你看看Solr,它是建立在Lucene之上的。我发现的另一个开源索引框架是Egothor,我不确定它的采用率是多少。

here is a survey,这可能会帮助你选择正确的。

Here你可以找到更多的开源和商业库。我很少看到它们支持超过一种编程语言的绑定。如果您已经决定使用Lucene,那么您可能需要使用Luke来进行调试。

票数 5
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/4496753

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档