我想使用Tika工具包来索引文档文件的内容(pdf,docx...)和图片(通过tesseract插件)。
我试过弹性摄取附件插件(https://www.elastic.co/guide/en/elasticsearch/plugins/master/ingest-attachment.html),它工作得很好,但没有内置OCR。我必须发送我的文件的数据,所以高内存使用率+弹性索引的“base64”(base64)字段是无用的。
我正在考虑直接使用Tika工具包,然后在ElasticSearch中索引内容。
所以我想知道这是不是更好的方法?
发布于 2017-04-04 22:05:27
发布于 2016-11-07 04:59:12
在撰写本文时,几乎没有关于在elasticsearch-mapper-attachments
插件中通过Tesseract启用OCR的文档。
一切都指向您在Elasticsearch之外处理OCR任务,然后分别对内容进行索引。
参考:https://github.com/elastic/elasticsearch-mapper-attachments/issues/10
https://stackoverflow.com/questions/40452555
复制相似问题