我想问一个关于分析文件的问题。使用Apache,可以获得不同类型的不同文件的内容和元数据。
是否也可以用Tika获得文件关键字(即词干),或者我还需要Lucene吗?
发布于 2017-10-13 13:41:28
我不知道这是否可能,但我建议做所有的关键字分析在lucene。我的个人理由:
发布于 2018-08-11 01:15:33
Tika和Lucene做了不同的事情。
Tika存在是为了从文件中获取数据。例如,您可以使用Tika从PDF中提取文本。
露西尼是个索引师。因此,当您向Lucene提供Doc1.txt、Doc2.txt和Doc3.txt时,它将对它们进行索引,这样以后您就可以搜索'hello‘这样的单词或短语,Lucene将响应包含该单词的文档列表,以及每个文档中的次数。
如果要索引任意内容,可以使用Tika首先提取文本,然后使用Lucene对其进行索引。
https://stackoverflow.com/questions/46663185
复制相似问题