我刚刚发现了Lucene (Java库),并开始阅读它。
我对一些文学作品(例如,斐洛、约瑟夫)很感兴趣,并对它们进行索引,然后进行以下类型的分析(类似于一些圣经软件程序所做的):
1)在单词y的2个或3个单词中查找单词x
2)找到"work* of * hand*“-会找到"work of your hand”,“work of of”等。
3)找到文学模式(也称为"motiffs"),如作者使用短语“在那一天”。(我认为这可能是最棘手的,可能必须找到2-7个单词短语的所有组合,然后计算它们并对它们进行排名,例如只显示前25个)。例如,这可能表明Josephus喜欢使用一组短语,而Philo喜欢使用另一组短语。
有没有你推荐的开源库?我的语言偏好可能是: 1) Python,2) C#,3) Java。理想情况下,不依赖于任何专有数据库。
谢谢,
尼尔
发布于 2010-12-21 14:28:04
在我看来,Lucene在受欢迎程度、社区、活动和工具方面是最好的。我建议你看看Solr,它是建立在Lucene之上的。我发现的另一个开源索引框架是Egothor,我不确定它的采用率是多少。
和here is a survey,这可能会帮助你选择正确的。
Here你可以找到更多的开源和商业库。我很少看到它们支持超过一种编程语言的绑定。如果您已经决定使用Lucene,那么您可能需要使用Luke来进行调试。
https://stackoverflow.com/questions/4496753
复制相似问题