elasticsearch里面的关于批量读取mget的用法

es的api除了提供了基本的curd操作外,还有两个针对批量的操作分别是:

1,批量的读取操作(mget)

2,批量的写入操作(bulk)

本篇文章先介绍mget的用法

Multi Get api 简称(mget)它允许我们一次get大量的document,与get单条数据的api get方法类似,mget查询是基于index,type(可选),id三个条件进行的,比如我们可以一次mget 50条数据,这50条数据可以是在50个不同index中,并且每一个get都可以单独指定它的路由查询信息,或者返回的字段内容。

mget可以批量的根据index,type,id三个字段来获取一批数据,它不能用来查询,最少得需要知道index 和 id两个字段的值,才能进行get,这一点与query是不一样的。

用法如下:

mget可以有三种请求头

(1)不指定index

GET /_mget 
{
    "docs" : [
        {
            "_index" : "test",
            "_type" : "_doc",
            "_id" : "1"
        },
        {
            "_index" : "test",
            "_type" : "_doc",
            "_id" : "2"
        }
    ]
}

(2)指定index

GET /test/_mget
{
    "docs" : [
        {
            "_type" : "_doc",
            "_id" : "1"
        },
        {
            "_type" : "_doc",
            "_id" : "2"
        }
    ]
}

(3)指定index和type

GET /test/type/_mget
{
    "docs" : [
        {
            "_id" : "1"
        },
        {
            "_id" : "2"
        }
    ]
}

简写方式
GET /test/type/_mget
{
    "ids" : ["1", "2"]
}

此外,还可以单独的设置对返回的数据(source)进行过滤操作,默认情况下如果这条数据被store了,那么它会返回整个document。

几种过滤的方式:

使用source过滤

GET /_mget
{
    "docs" : [
        {
            "_index" : "test",
            "_type" : "_doc",
            "_id" : "1",
            "_source" : false
        },
        {
            "_index" : "test",
            "_type" : "_doc",
            "_id" : "2",
            "_source" : ["field3", "field4"]
        },
        {
            "_index" : "test",
            "_type" : "_doc",
            "_id" : "3",
            "_source" : {
                "include": ["user"],
                "exclude": ["user.location"]
            }
        }
    ]
}

使用fields过滤:

GET /_mget
{
    "docs" : [
        {
            "_index" : "test",
            "_type" : "_doc",
            "_id" : "1",
            "stored_fields" : ["field1", "field2"]
        },
        {
            "_index" : "test",
            "_type" : "_doc",
            "_id" : "2",
            "stored_fields" : ["field3", "field4"]
        }
    ]
}

source和fields的主要区别在于,source默认将整个json存在一起,在读取时候只需要加载一次然后再解析出来需要的字段,而store字段则是每个字段单独的存储,所以大部分时候推荐使用source字段,虽然会多占一些存储空间,但在读取字段数比较多的情况下,source的性能是比store字段要更好的,但是如果你disable了source字段,则意味着:

(1)你不能够高亮文本(不推荐在服务端做高亮,推荐客户端做)

(2)你不能reindex索引

(3)你不能做partial update

所以综合考虑,推荐还是使用source字段

在get的时候,还可以使用路由字段,如下:

GET /_mget?routing=key1
{
    "docs" : [
        {
            "_index" : "test",
            "_type" : "_doc",
            "_id" : "1",
            "routing" : "key2"
        },
        {
            "_index" : "test",
            "_type" : "_doc",
            "_id" : "2"
        }
    ]
}

最后在看下在java api里面如何使用:

//构建一个mget的查询
       MultiGetRequestBuilder  multi_get=  client.prepareMultiGet();
        //添加两条get数据
        multi_get.add("a_active","active","1");
        multi_get.add("b_active","active","2","3");

        //获取响应
        MultiGetResponse mgr= multi_get.get();
         //循环读取
        for (MultiGetItemResponse itemResponse : mgr) {

            GetResponse response = itemResponse.getResponse();
            //如果存在则打印响应消息
            if (response.isExists()) {
                String json = response.getSourceAsString();
                System.out.println(" source data: "+json);
            }

        }

总结:

本文介绍了es里面的批量读取数据的方法mget,这个方法在日常开发中的使用频度并不是很高,但是在特定场景下会拥有较高的效率,比如上篇文章介绍的es的分布式查询的原理的时候,在第一阶段query从每个shard上查询本地的page数据,然后返回到coordinating节点上,并重新进行全局排序再取指定分页的n条数据,接着到了第二阶段fetch,要把这批数据的内容读取出来返回给client,这个时候就是mget发力的时候,通过id组装成一个mget请求,然后发送到每个shard里面获取结果数据,最终组装后在返回给client,这样一来比单条get的效率要高很多,另外对索引的写入也是如此,下篇文章我们会介绍批量写入bulk的用法。

原文发布于微信公众号 - 我是攻城师(woshigcs)

原文发表时间:2018-04-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏wireboy编程加油站

用Vue.js搭建一个小说阅读网站

这是一个使用vue.js + mint-ui + .net core api的小说网站。

4490
来自专栏漫漫全栈路

Nginx配置文件nginx.conf详解

最近折腾Ubuntu比较多,也基本原理了Windows和IIS了,论一个软狗的堕落史。既然换到Ubuntu系统上来,勉强算个web开发人员的我当然用的最多的就...

6997
来自专栏黑白安全

Sqlmap的使用

Sqlmap是开源的自动化SQL注入工具,由Python(2)写成,具有如下特点:

1713
来自专栏Jerry的SAP技术分享

MongoDB最简单的入门教程之一 环境搭建

MongoDB是近年来非常流行的一个介于关系数据库和非关系数据库之间的解决方案,特别广泛地应用于国内很多互联网公司,是非关系数据库当中功能最丰富,最像关系数据库...

1174
来自专栏偏前端工程师的驿站

网页优化系列一:合并文件请求(asp.net版)

  最近因公司需要对网站的优化处理学习了一番,现在借本系列博文与大家分享一下自己的学习成果,有纰漏处请大家多多指正。   首先推荐一篇十分全面的网页优化文章  ...

2218
来自专栏乐沙弥的世界

mydumper备份mysql数据库示例

    mydumper是针对mysql数据库备份的一个轻量级第三方的开源工具,备份方式为逻辑备份。它支持多线程,备份速度远高于原生态的mysqldump以及众...

1662
来自专栏极客猴

Django 学习笔记之使用旧数据库

如果你按照顺序,从第一篇文章读到本文。恭喜你,你已经将 Django 大部分基础知识掌握了。后续的文章是在之前的基础上添砖加瓦或常用的应用。本文将的内容是一个场...

862
来自专栏微服务

SQL Server 存储过程

Transact-SQL中的存储过程,非常类似于Java语言中的方法,它可以重复调用。当存储过程执行一次后,可以将语句缓存中,这样下次执行的时候直接使用缓存中的...

3669
来自专栏hbbliyong

SQL Server 存储过程

Transact-SQL中的存储过程,非常类似于Java语言中的方法,它可以重复调用。当存储过程执行一次后,可以将语句缓存中,这样下次执行的时候直接使用缓存中的...

4098
来自专栏Java架构沉思录

Java面试通关宝典(一)

前言 年后是跳槽的高峰期,相信有不少朋友已经跃跃欲试了。想要找到好工作,离不开充分的面试准备。刚好沉思君最近在网上看到一份Java面试知识点,觉得很不错,所以...

3355

扫码关注云+社区

领取腾讯云代金券