前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Solr如何使用游标进行深度分页查询

Solr如何使用游标进行深度分页查询

作者头像
小柒2012
发布2018-04-13 16:11:10
2.5K0
发布2018-04-13 16:11:10
举报
文章被收录于专栏:IT笔记IT笔记

通常,我们的应用系统,如果要做一次全量数据的读取,大多数时候,采用的方式会是使用分页读取的方式,然而 分页读取的方式,在大数据量的情况下,在solr里面表现并不是特别好,因为它随时可能会发生OOM的异常,在solr里面 通过rows和start参数,非常方便分页读取,但是如果你的start=1000000 rows=10,那么solr里面会将前面100万元数据的索引信息读取在内存里面,这样以来,非常耗内存,所以在solr里面,分页并不适合深度分页。

深度分页在solr里面,更推荐使用游标的方式,游标是无状态的,不会维护索引数据在内存里面,仅仅记录最后一个doc的计算值类似md5,然后每一次读取,都会如此记录最后一个值的mark,下一次通过这个mark便能快速的定位到第二页上,如此往复,便能完成整个数据的读取。而且耗费内存非常少。

假如现在有排好队的10个人等待买饭,而一个房间里面最多一次只能进2个人,那么我们就可以将这个2个人,编号顺序,1和2,他们打完饭后,让2号的人通知,下一组2个人,进来打饭,如此往复 所有人都能吃到饭,这就类似solr中游标的使用。

使用游标的方式读取数据,也有一些约束或者缺点:

(1)查询条件里面必须有cursorMark参数,而且必须不能有start参数 (2)查询的条件里必须按照主键排序(升序或降序),如果没有这个条件,主键重复,那么会造成多个游标的mark值,这样以来下一次请求就不知道如何定位了,而且有可能出现重复读数据的情况 (3)如果一个分页的系统,按照指定页码跳转的功能,这样实现的功能是实现不了的,因为游标一旦读取了,就不能再返回上一次的位置了,这种业务最好使用start+rows搞定。

solrj实现代码例子:

代码语言:javascript
复制
//游标查询
    public static void cursorQuery()throws Exception{
            //http solr服务
            HttpSolrClient sc=new HttpSolrClient("http://localhost:8983/solr/one");
            //solr查询封装
            SolrQuery sq =new SolrQuery();
                sq.setRows(2);//设置游标一次读的数量
                sq.set("q", "*:*");//按条件检索
                sq.setSort("id", ORDER.asc);//根据主键排序
                String cursorMark = CursorMarkParams.CURSOR_MARK_START;//游标初始化
                boolean done = false;
                while (!done) {
                    sq.set(CursorMarkParams.CURSOR_MARK_PARAM, cursorMark);//变化游标条件
                    QueryResponse rsp = sc.query(sq);//执行多次查询读取
                    String nextCursorMark = rsp.getNextCursorMark();//获取下次游标
                    //做一些操作数据的事    
                    for(SolrDocument sd:rsp.getResults()){
                        System.out.println(sd.get("id"));
                    }
                    //如果两次游标一样,说明数据拉取完毕,可以结束循环了
                    if (cursorMark.equals(nextCursorMark)) {
                        done = true;
                    }
                    cursorMark = nextCursorMark;
                }
                //关闭连接
                sc.close();
    }

参考文档:

https://cwiki.apache.org/confluence/display/solr/Pagination+of+Results

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2016-08-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档