MongoDB中各种类型的索引

上篇文章中我们介绍了MongoDB中索引的简单操作,创建、查看、删除等基本操作,不过上文我们只介绍了一种类型的索引,本文我们来看看其他类型的索引。


_id索引

我们在上文介绍过,我们往集合中添加文档时,默认情况下MongoDB都会帮助我们创建一个名为_id的字段,这个字段就是一个索引。默认情况下,一般的集合都会帮我们创建这个字段作为索引,但也有一些集合不会将_id默认作为索引,比如固定集合,这个我们后面的文章会详细说到这个问题。

复合索引

如果我们的查询条件有多个的话,我们可以对这多个查询条件都建立索引,比如我们可以对文档中的x和y字段都建立索引,如下:

db.sang_collect.ensureIndex({x:1,y:-1})

此时执行如下查询语句时就会用到这个复合索引:

db.sang_collect.find({x:1,y:999})

小伙伴们也可以通过查看查询计划来确定确实使用到了上文创建好的索引。

过期索引

顾名思义,过期索引就是一种会过期的索引,在索引过期之后,索引对应的数据会被删除,创建方式如下:

db.sang_collect.ensureIndex({time:1},{expireAfterSeconds:30})

expireAfterSeconds表示索引的过期时间,单位为秒。time表示索引的字段,time的数据类型必须是ISODate或者ISODate数组,否则的话,当索引过期之后,time的数据就不会被删除。

全文索引

全文索引虽然好用,可惜不支持中文,我们这里就先做一个简单的了解。

比如,我的数据集如下:

{
    "_id" : ObjectId("59f5a3da1f9e8e181ffc3189"),
    "x" : "Java C# Python PHP"
}
{
    "_id" : ObjectId("59f5a3da1f9e8e181ffc318a"),
    "x" : "Java C#"
}
{
    "_id" : ObjectId("59f5a3da1f9e8e181ffc318b"),
    "x" : "Java Python"
}
{
    "_id" : ObjectId("59f5a3da1f9e8e181ffc318c"),
    "x" : "PHP Python"
}
{
    "_id" : ObjectId("59f5a4541f9e8e181ffc318d"),
    "x" : "C C++"
}

我们可以给x字段建立一个全文索引,创建方式如下:

db.sang_collect.ensureIndex({x:"text"})

MongoDB会自动对x字段的数据进行分词,然后我们就可以通过如下语句进行查询:

db.sang_collect.find({$text:{$search:"Java"}})

此时x中包含Java的文档都会被查询出来。如果想查询既包含Java又包含C#的文档,操作如下:

db.sang_collect.find({$text:{$search:"\"Java C#\""}})

用一对双引号将查询条件括起来,如果想查询包含PHP或者Python的文档,操作如下:

db.sang_collect.find({$text:{$search:"PHP Python"}})

如果想查询既有PHP,又有Python,但是又不包括Java的文档,如下:

db.sang_collect.find({$text:{$search:"PHP Python -Java"}})

建立了全文索引之后,我们也可以查看查询结果的相似度,使用$meta,如下:

db.sang_collect.find({$text:{$search:"PHP Python"}},{score:{$meta:"textScore"}})

此时查询结果中会多出一个score字段,该字段的值越大,表示相似度越高,我们可以根据score利用sort来对其进行排序,如下:

db.sang_collect.find({$text:{$search:"PHP Python"}},{score:{$meta:"textScore"}}).sort({score:{$meta:"textScore"}})

全文索引目前看起来功能还是很强大,可惜暂时不支持中文,不过网上对此也有很多解决方案,小伙伴们可以自行搜索查看。

地理空间索引

地理空间索引类型

地理空间索引可以分为两类:

1.2d索引,可以用来存储和查找平面上的点。 2.2d sphere索引,可以用来存储和查找球面上的点。

2d索引

2d索引一般我们可以用在游戏地图中。 向集合中插入一条记录点的数据:

db.sang_collect.insert({x:[90,0]})

插入数据的格式为[经度,纬度],取值范围,经度[-180,180],纬度[-90,90]。数据插入成功之后,我们先通过如下命令创建索引:

db.sang_collect.ensureIndex({x:"2d"})

然后通过$near我们可以查询某一个点附近的点,如下:

db.sang_collect.find({x:{$near:[90,0]}})

默认情况下返回该点附近100个点,我们可以通过$maxDistance来设置返回的最远距离:

db.sang_collect.find({x:{$near:[90,0],$maxDistance:99}})

我们也可以通过$geoWithin查询某个形状内的点,比如查询矩形中的点:

db.sang_collect.find({x:{$geoWithin:{$box:[[0,0],[91,1]]}}})

两个坐标点用来确定矩形的位置。

查询圆中的点:

db.sang_collect.find({x:{$geoWithin:{$center:[[0,0],90]}}})

参数分别表示圆的圆心和半径。

查询多边形中的点:

db.sang_collect.find({x:{$geoWithin:{$polygon:[[0,0],[100,0],[100,1],[0,1]]}}})

这里可以填入任意多个点,表示多边形中的各个点。

2d sphere索引

2dsphere适用于球面类型的地图,它的数据类型是GeoJSON格式的,我们可以在http://geojson.org/地址上查看GeoJSON格式的样式,比如我们描述一个点,GeoJSON如下:

{
    "_id" : ObjectId("59f5e0571f9e8e181ffc3196"),
    "name" : "shenzhen",
    "location" : {
        "type" : "Point",
        "coordinates" : [ 
            90.0, 
            0.0
        ]
    }
}

描述线,GeoJSON格式如下:

{
    "_id" : ObjectId("59f5e0d01f9e8e181ffc3199"),
    "name" : "shenzhen",
    "location" : {
        "type" : "LineString",
        "coordinates" : [ 
            [ 
                90.0, 
                0.0
            ], 
            [ 
                90.0, 
                1.0
            ], 
            [ 
                90.0, 
                2.0
            ]
        ]
    }
}

描述多边形,GeoJSON格式如下:

{
    "_id" : ObjectId("59f5e3f91f9e8e181ffc31d0"),
    "name" : "beijing",
    "location" : {
        "type" : "Polygon",
        "coordinates" : [ 
            [ 
                [ 
                    0.0, 
                    1.0
                ], 
                [ 
                    0.0, 
                    2.0
                ], 
                [ 
                    1.0, 
                    2.0
                ], 
                [ 
                    0.0, 
                    1.0
                ]
            ]
        ]
    }
}

还有其他的类型,具体小伙伴们可以参考http://geojson.org/。有了数据之后,我们可以通过如下操作来创建地理空间索引了:

db.sang_collect.ensureIndex({location:"2dsphere"})

比如我想查询和深圳这个区域有交集的文档,如下:

var shenzhen = db.sang_collect.findOne({name:"shenzhen"})
db.sang_collect.find({location:{$geoIntersects:{$geometry:shenzhen.location}}})

这里的查询结果是和深圳这个区域有交集的都会查到(比如经过深圳的高速公路、铁路等),我们也可以只查询深圳市内的区域(比如深圳市内所有的学校),如下:

var shenzhen = db.sang_collect.findOne({name:"shenzhen"})
db.sang_collect.find({location:{$within:{$geometry:shenzhen.location}}})

也可以查询腾讯附近的其他位置,如下:

var QQ = db.sang_collect.findOne({name:"QQ"})
db.sang_collect.find({location:{$near:{$geometry:QQ.location}}})

复合地理空间索引

位置往往只是我们查询的一个条件,比如我要查询深圳市内所有的学校,那我得再增加一个查询条件,如下:

var shenzhen = db.sang_collect.findOne({name:"shenzhen"})
db.sang_collect.find({location:{$within:{$geometry:shenzhen.location}},name:"QQ"})

其他的查询条件跟在后面就行了。

好了,MongoDB中的索引问题我们就说到这里,小伙伴们有问题欢迎留言讨论。

参考资料:

1.《MongoDB权威指南第2版》

原文发布于微信公众号 - 玩转JavaEE(gh_d1ca11234a30)

原文发表时间:2017-12-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏黑白安全

二次注入代码剖析

本文针对二次注入进行讲解,并简单的绕过360脚本waf。。。。。 首先来看程序的注册页面代码:

2122
来自专栏大内老A

谈谈基于SQL Server 的Exception Handling[上篇]

对于所有的开发人员来说,Exception Handling是我们每天都要面对的事情。对于基于Source Code的Exception Handling,我想...

1815
来自专栏岑玉海

Hive Tunning(二)优化存储

接着上一章我们讲的hive的连接策略,现在我们讲一下hive的数据存储。 下面是hive支持的数据存储格式,有我们常见的文本,JSON,XML,这里我们主要...

4094
来自专栏web编程技术分享

【手把手】JavaWeb 入门级项目实战 -- 文章发布系统 (第九节)

2986
来自专栏程序员的SOD蜜

使用OQL+SQLMAP解决ORM多表复杂的查询问题

    一般情况下,使用ORM框架来完成单个实体的查询是很方便的,但如果有复杂的查询条件,普通的ORM组件比较困难,PDF.NET数据开发框架的ORM实体类查询...

2266
来自专栏Rgc

mysql数据库优化(二)

https://www.cnblogs.com/sevck/p/6733702.html

2152
来自专栏分布式系统和大数据处理

数据库对象命名参考

编码规范是一个优秀程序员的必备素质,然而,有很多人非常注重程序中变量、方法、类的命名,却忽视了同样重要的数据库对象命名。这篇文章结合许多技术文章和资料,以及我自...

1102
来自专栏互联网杂技

SQL注入攻防入门详解

毕业开始从事winfrm到今年转到 web ,在码农届已经足足混了快接近3年了,但是对安全方面的知识依旧薄弱,事实上是没机会接触相关开发……必须的各种借口。这几...

56310
来自专栏Kevin-ZhangCG

MySQL数据库实用技巧

培养兴趣   兴趣是最好的老师,不论学习什么知识,兴趣都可以极大地提高学习效率。当然学习MySQL 5.6也不例外。 夯实基础   计算机领域的技术非常强调基础...

1701
来自专栏数据和云

深入剖析-关于分页语句的性能优化

分页语句是数据库开发和应用场景比较常见的需求,即按照特定的where条件进行过滤,然后在按照一个或者多个条件进行排序(如果不进行排序无法确执行时候无法返回相同的...

2839

扫码关注云+社区

领取腾讯云代金券