我正在比较Lucene/Solr、Whoosh、Sphinx和Xapian在DOC、DOCX、HTML和PDF中搜索文档。只有Solr被记录为有一个直接索引文档的文档解析器(Tika)。因此,这似乎是一个明显的赢家。
但为了公平竞争,我喜欢考虑其他选择。其他的是否有直接文档索引(我可能漏掉了)?如果不是,它们能否很容易地实现?还是Solr是压倒性的选择?
发布于 2013-04-12 14:24:15
在Sphinx上,您可以通过xmlpipe_command选项使用PHP脚本转换文件。因为PHP有一个Tika包装器,所以编写脚本和设置本身并不困难。
https://stackoverflow.com/questions/6724813
复制相似问题