首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >Elasticsearch附件插件与自己的tika实现

Elasticsearch附件插件与自己的tika实现
EN

Stack Overflow用户
提问于 2016-11-07 01:53:01
回答 2查看 3K关注 0票数 3

我想使用Tika工具包来索引文档文件的内容(pdf,docx...)和图片(通过tesseract插件)。

我试过弹性摄取附件插件(https://www.elastic.co/guide/en/elasticsearch/plugins/master/ingest-attachment.html),它工作得很好,但没有内置OCR。我必须发送我的文件的数据,所以高内存使用率+弹性索引的“base64”(base64)字段是无用的。

我正在考虑直接使用Tika工具包,然后在ElasticSearch中索引内容。

所以我想知道这是不是更好的方法?

EN

回答 2

Stack Overflow用户

发布于 2017-04-04 22:05:27

我们已经创建了一个处理文件的系统(爬虫、光学字符识别、->索引、->搜索)。它被称为Ambar。我们构建它的想法是创建一个好的和可靠的摄取附件的替代品。

作为一个搜索引擎,我们使用ElasticSearch作为上下文提取器: Tika + Tesseract + ImageMagick +自定义提取器。

我们做它是为了给我们自己的Tika + ES实现提供一个简单但强大的替代方案。

请查看Github以获取更多详细信息。

票数 4
EN

Stack Overflow用户

发布于 2016-11-07 04:59:12

在撰写本文时,几乎没有关于在elasticsearch-mapper-attachments插件中通过Tesseract启用OCR的文档。

一切都指向您在Elasticsearch之外处理OCR任务,然后分别对内容进行索引。

参考:https://github.com/elastic/elasticsearch-mapper-attachments/issues/10

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/40452555

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档