首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >Apache Tika诉Apache Lucene

Apache Tika诉Apache Lucene
EN

Stack Overflow用户
提问于 2017-10-10 09:26:04
回答 2查看 1.7K关注 0票数 3

我想问一个关于分析文件的问题。使用Apache,可以获得不同类型的不同文件的内容和元数据。

是否也可以用Tika获得文件关键字(即词干),或者我还需要Lucene吗?

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2017-10-13 13:41:28

我不知道这是否可能,但我建议做所有的关键字分析在lucene。我的个人理由:

  • Tika的主要目标是从文件中提取信息
  • Lucenes定义了如何对数据进行分析和索引。如何分析数据对lucene索引在搜索中的表现有很大影响(查找您希望找到的内容)。
  • 这是一种分离的担心,蒂卡只是提取和Lucene关心的搜索相关的东西
票数 3
EN

Stack Overflow用户

发布于 2018-08-11 01:15:33

Tika和Lucene做了不同的事情。

Tika存在是为了从文件中获取数据。例如,您可以使用Tika从PDF中提取文本。

露西尼是个索引师。因此,当您向Lucene提供Doc1.txt、Doc2.txt和Doc3.txt时,它将对它们进行索引,这样以后您就可以搜索'hello‘这样的单词或短语,Lucene将响应包含该单词的文档列表,以及每个文档中的次数。

如果要索引任意内容,可以使用Tika首先提取文本,然后使用Lucene对其进行索引。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/46663185

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档