文章/答案/技术大牛

发布

社区首页 >问答首页 >Apache Tika诉Apache Lucene

问Apache Tika诉Apache Lucene
EN

Stack Overflow用户

提问于 2017-10-10 09:26:04

回答 2查看 1.7K关注 0票数 3

我想问一个关于分析文件的问题。使用Apache，可以获得不同类型的不同文件的内容和元数据。

是否也可以用Tika获得文件关键字(即词干)，或者我还需要Lucene吗？

apache-tika

lucene

回答 2

Stack Overflow用户

回答已采纳

发布于 2017-10-13 13:41:28

我不知道这是否可能，但我建议做所有的关键字分析在lucene。我的个人理由：

Tika的主要目标是从文件中提取信息
Lucenes定义了如何对数据进行分析和索引。如何分析数据对lucene索引在搜索中的表现有很大影响(查找您希望找到的内容)。
这是一种分离的担心，蒂卡只是提取和Lucene关心的搜索相关的东西

票数 3

Stack Overflow用户

发布于 2018-08-11 01:15:33

Tika和Lucene做了不同的事情。

Tika存在是为了从文件中获取数据。例如，您可以使用Tika从PDF中提取文本。

露西尼是个索引师。因此，当您向Lucene提供Doc1.txt、Doc2.txt和Doc3.txt时，它将对它们进行索引，这样以后您就可以搜索'hello‘这样的单词或短语，Lucene将响应包含该单词的文档列表，以及每个文档中的次数。

如果要索引任意内容，可以使用Tika首先提取文本，然后使用Lucene对其进行索引。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/46663185

复制

相似问题

问Apache Tika诉Apache Lucene
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Apache Tika诉Apache LuceneEN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Apache Tika诉Apache Lucene
EN