首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何在.PDF中索引ElasticSearch文件

如何在.PDF中索引ElasticSearch文件
EN

Stack Overflow用户
提问于 2016-01-18 14:31:18
回答 6查看 60.2K关注 0票数 30

我是ElasticSearch的新手。我已经完成了关于创建索引的非常基本的教程。我确实理解索引的概念。我希望ElasticSearch在.PDF文件中搜索。根据我对创建索引的理解,我似乎需要读取.PDF文件并提取所有用于索引的关键字。但是,我不明白我需要采取什么步骤。如何读取.PFD文件来提取关键字。

EN

回答 6

Stack Overflow用户

回答已采纳

发布于 2016-01-19 10:13:50

您需要查看elasticsearch-映射器-附件插件,因为它很可能帮助您实现所需的目标。

更新:

上述插件已被es5.0中的吞食附件处理器插件所取代。

票数 12
EN

Stack Overflow用户

发布于 2016-11-15 16:22:50

看起来elasticsearch-mapper-附件插件在5.0.0 (2016年10月26日发布)中被废弃了。文档建议使用吞食附件处理器插件作为替代。

安装:

代码语言:javascript
运行
复制
sudo bin/elasticsearch-plugin install ingest-attachment

有关如何使用Ingest附件插件的信息,请参见如何用吞食附件插件在Elasticsearch 5.0.0中索引pdf文件?

票数 54
EN

Stack Overflow用户

发布于 2016-01-19 11:18:21

安装Elasticsearch mapper-附件插件并使用类似于以下代码的代码:

代码语言:javascript
运行
复制
public String indexDocument(String filePath, DataDTO dto) {
        IndexResponse response = null;
        try {
            response = this.prepareIndexRequest("collectionName").setId(dto.getId())
                    .setSource(jsonBuilder().startObject()
                    .field("file", Base64.encodeFromFile(filePath))
                    .endObject()).setRefresh(true).execute().actionGet();
        } catch (ElasticsearchException e) {
            //
        } catch (IOException e) {
            //
        }
    return response.getId();
}
票数 6
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/34857179

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档