文章/答案/技术大牛

发布

社区首页 >问答首页 >Elasticsearch附件插件与自己的tika实现

问Elasticsearch附件插件与自己的tika实现
EN

Stack Overflow用户

提问于 2016-11-07 01:53:01

回答 2查看 3K关注 0票数 3

我想使用Tika工具包来索引文档文件的内容(pdf，docx...)和图片(通过tesseract插件)。

我试过弹性摄取附件插件(https://www.elastic.co/guide/en/elasticsearch/plugins/master/ingest-attachment.html)，它工作得很好，但没有内置OCR。我必须发送我的文件的数据，所以高内存使用率+弹性索引的“base64”(base64)字段是无用的。

我正在考虑直接使用Tika工具包，然后在ElasticSearch中索引内容。

所以我想知道这是不是更好的方法？

elasticsearch

apache-tika

回答 2

Stack Overflow用户

发布于 2017-04-04 22:05:27

我们已经创建了一个处理文件的系统(爬虫、光学字符识别、->索引、->搜索)。它被称为Ambar。我们构建它的想法是创建一个好的和可靠的摄取附件的替代品。

作为一个搜索引擎，我们使用ElasticSearch作为上下文提取器: Tika + Tesseract + ImageMagick +自定义提取器。

我们做它是为了给我们自己的Tika + ES实现提供一个简单但强大的替代方案。

请查看Github以获取更多详细信息。

票数 4

Stack Overflow用户

发布于 2016-11-07 04:59:12

在撰写本文时，几乎没有关于在elasticsearch-mapper-attachments插件中通过Tesseract启用OCR的文档。

一切都指向您在Elasticsearch之外处理OCR任务，然后分别对内容进行索引。

参考：https://github.com/elastic/elasticsearch-mapper-attachments/issues/10

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/40452555

复制

相似问题

问Elasticsearch附件插件与自己的tika实现
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Elasticsearch附件插件与自己的tika实现EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Elasticsearch附件插件与自己的tika实现
EN