Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >Mongodb Geo2d索引原理

Mongodb Geo2d索引原理

原创
作者头像
孔德雨
修改于 2017-06-19 11:10:34
修改于 2017-06-19 11:10:34
3.2K00
代码可运行
举报
文章被收录于专栏:孔德雨的专栏孔德雨的专栏
运行总次数:0
代码可运行

ongoDB的geo索引是其一大特色,本文从原理层面讲述geo索引中的2d索引的实现。

2d 索引的创建与使用

通过 db.coll.createIndex({"lag":"2d"}, {"bits":int})) 来创建一个2d索引,索引的精度通过bits来指定,bits越大,索引的精度就越高。更大的bits带来的插入的overhead可以忽略不计。

通过

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
db.runCommand({ 
    geoNear: tableName, 
    maxDistance: 0.0001567855942887398, 
    distanceMultiplier: 6378137.0, 
    num: 30, 
    near: [ 113.8679388183982, 22.58905429302385 ], 
    spherical: true|false})

来查询一个索引,其中spherical:true|false 表示应该如何理解创建的2d索引,false表示将索引理解为平面2d索引,true表示将索引理解为球面经纬度索引。这一点比较有意思,一个2d索引可以表达两种含义,而不同的含义是在查询时被理解的,而不是在索引创建时。

2d索引的理论

Mongodb 使用一种叫做Geohash的技术来构建2d索引,但是Mongodb的Geohash并没有使用国际通用的每一层级32个grid的Geohash描述方式(见wiki geohash)。而是使用平面四叉树的形式。

如下图:

很显然的,一个2bits的精度能把平面分为4个grid,一个4bits的精度能把平面分为16个grid。2d索引的默认精度是长宽各为26,索引把地球分为(2^26)(2^26)块,每一块的边长估算为

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
2*PI*6371000/(1<<26) = 0.57

mongodb的官网上说的60cm的精度就是这么估算出来的:

By default, a 2d index on legacy coordinate pairs uses 26 bits of precision, which is roughly equivalent to 2 feet or 60 centimeters of precision using the default range of -180 to 180.

2d索引在Mongodb中的存储

上面我们讲到Mongodb使用平面四叉树的方式计算Geohash。事实上,平面四叉树仅存在于运算的过程中,在实际存储中并不会被使用到。

插入

对于一个经纬度坐标[x,y],MongoDb计算出该坐标在2d平面内的grid编号,该编号为是一个52bit的int64类型,该类型被用作btree的key,因此实际数据是按照 {GeoHashId->RecordValue}的方式被插入到btree中的。

查询

对于geo2D索引的查询,常用的有geoNeargeoWithin两种。geoNear查找距离某个点最近的N个点的坐标并返回,该需求可以说是构成了LBS服务的基础(陌陌,滴滴,摩拜), geoWithin是查询一个多边形内的所有点并返回。我们着重介绍使用最广泛的geoNear查询。

geoNear的查询过程

geoNear的查询语句如下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
db.runCommand(
   {
     geoNear: "places", //table Name
     near: [ -73.9667, 40.78 ] ,  // central point
     spherical: true,  // treat the index as a spherical index
     query: { category: "public" }  // filters
     maxDistance: 0.0001531 //  distance in about one kilometer
   }
)

geoNear可以理解为一个从起始点开始的不断向外扩散的环形搜索过程。如下图所示:

由于圆自身的性质,外环的任意点到圆心的距离一定大于内环任意点到圆心的距离,所以以圆环进行扩张迭代的好处是:

1)减少需要排序比较的点的个数 2)能够尽早发现满足条件的点从而返回,避免不必要的搜索

点集密度估算

那么,如何确定初始迭代步长呢,mongoDB认为初始迭代步长和点集密度相关。

geoNear 会根据点集的密度来确定迭代的初始步长。估算步骤如下:

1)从最小步长默认为60cm向外以矩形范围搜索,如果范围内有至少一个点,则停止搜索,转3)否则转 2) 2)步长倍增,继续步骤1) 3)以矩形对角线长度的三倍作为初始迭代步长。

圆环覆盖与索引前缀原理

上面我们说过,每一次的搜索都是以圆环为单位进行的,但是真实存入Btree中的是{GeoHashId->RecordValue},计算出与圆环相交的所有边长60cm的格子的GeoHash的值并在Btree中搜素绝对是一个非常愚蠢的做法,因为如果圆环的面积很大,光是枚举所有的GeoHash就有上百万个

但是换个角度来看,其实以地球为一个整体去看待存储的点,绝对是稀疏的。这个稀疏的性质使得我们可以粗略的以平面四叉树的角度自上而下的找出与圆环相交的四叉树中间节点。

整个平面与圆环必然是相交的,于是将平面一分为四,剔除不相交的部分,对于每个留下来的子平面,继续一分为四,剔除不相交的部分,经过多轮迭代,留下来的子平面的GeoHash都是该子平面中所有grid的索引前缀,如下面四幅图所示:

上面四幅图中,分别为整个平面被四叉树划分0,1,2,3次后与圆环的相交情况,如果继续往下细分,所形成的图形就越来越逼近整个圆环。MongoDB中使用参数internalGeoNearQuery2DMaxCoveringCells来限制最多逼近到多少个子平面与圆环相交,默认为16

我们注意到,上述平面划分过程为四叉树的分裂过程,每一次分裂都使得递归搜索的子平面与父平面有相同的GeoHash前缀(这里需要思考为什么,可能不太明显),因此每一个子平面可以对应于BTree中一段连续的Range(这里又是为什么?),也正因此,该参数越大,会使得需要搜索的子平面越少,但是会使得Btree的Range搜索更趋向于随机化搜索,导致更多的IO。我们知道Btree更适合于做Range搜索,所以对该参数的调整需要慎重。

展望

MongoDB原生的geoNear接口是国内各大LBS应用的主流选择。腾讯云的MongoDB专家经过测试发现,在点集稠密的情况下,MongoDB原生的geoNear接口效率会急剧下降,单机甚至不到1000QPS。腾讯云MongoDB对此进行了持续的优化,在不影响效果的前提下,geoNear的效率有10倍以上的提升,建议大家选择腾讯云MongoDB作为LBS应用的存储方案。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
云MongoDB优化让LBS服务性能提升十倍
腾讯云数据库团队
2017/09/25
5.8K1
云MongoDB优化让LBS服务性能提升十倍
云MongoDB优化使LBS服务性能提升十倍
随着国内服务共享化的热潮普及,共享单车,共享雨伞,共享充电宝等各种服务如雨后春笋,随之而来的LBS服务定位问题成为了后端服务的一个挑战。MongoDB对LBS查询的支持较为友好,也是各大LBS服务商的首选数据库。 腾讯云MongoDB团队在运营中发现,原生MongoDB在LBS服务场景下有较大的性能瓶颈,经腾讯云优化后,云MongoDB在LBS服务的综合性能上,有10倍以上的提升。 腾讯云MongoDB提供的优异综合性能,为国内各大LBS服务商,例如摩拜单车等,提供了强有力的保障。 LBS业务特点 以共享
腾讯云数据库 TencentDB
2019/03/26
1.6K0
云MongoDB优化使LBS服务性能提升十倍
mongodb11天之屠龙宝刀(五)lbs地理位置检索:存储经纬度以及查询
mongodb11天之屠龙宝刀(五)lbs地理位置检索:存储经纬度以及查询 基本原理 LBS,存储每个地点的经纬度坐标,搜寻附近的地点,建立地理位置索引可提高查询效率。 mongodb地理位置索引,2d和2dsphere,对应平面和球面。 mongodb位置查询文档 实现原理:参考文章 两种索引方式 地理位置索引,必须创建索引才可以能查询,目前有两种索引。 2d index: 使用2d index 能够将数据作为2维平面上的点存储起来,在MongoDB 2.2以前推荐使用2d index索引
学到老
2018/03/19
1.9K0
mongodb11天之屠龙宝刀(五)lbs地理位置检索:存储经纬度以及查询
geohash之2d 地理空间索引
个人博客:https://suveng.github.io/blog/​​​​​​​ 2d 地理空间索引 概述 2D地理空间索引可以将文档与二维空间中的位置(例如地图上的点)相关联。MongoDB将位置字段中的二维坐标解释为点,并且可以将这些点编入特殊索引类型以支持基于位置的查询。地理空间索引提供特殊的地理空间查询操作。例如,您可以基于与其他位置的邻近度或基于指定区域中的包含查询文档。
suveng
2019/09/17
2.3K0
MongoDB系列6:MongoDB索引的介绍
1、前言 和关系型数据库一样,MongoDB的索引可以提高查询执行效率。索引就好比书中的目录,可以快速定位书中某一页。适当的索引查询,优化器可以快速地返回结果集。 2、MongoDB支持的索引类型 在MongoDB主要支持以下几种索引类型: ·单列索引 ·复合索引 ·多键索引 ·全文索引 ·地理空间索引 ·哈希索引 2.1 单列索引 在MongoDB中,每个集合都会默认创建一个唯一索引列”_id”,”_id”列是最基本的单列索引。 创建单列索引可以使用以下语法: db.collection.cre
大数据和云计算技术
2018/03/30
3K0
MongoDB系列6:MongoDB索引的介绍
一口气说出 4种 LBS “附近的人” 实现方式,面试官笑了
昨天一位公众号粉丝和我讨论了一道面试题,个人觉得比较有意义,这里整理了一下分享给大家,愿小伙伴们面试路上少踩坑。面试题目比较简单:“让你实现一个附近的人功能,你有什么方案?”,这道题其实主要还是考察大家对于技术的广度,本文介绍几种方案,给大家一点思路,避免在面试过程中语塞而影响面试结果,如有不严谨之处,还望亲人们温柔指正!
程序员小富
2020/04/15
1.6K0
一口气说出 4种 LBS “附近的人” 实现方式,面试官笑了
【系统设计】邻近服务
在本文中,我们将设计一个邻近服务,用来发现用户附近的地方,比如餐馆,酒店,商场等。
全球技术精选
2022/09/05
1.1K0
【系统设计】邻近服务
空间索引 - GeoHash算法及其实现优化
前言 上篇博客中提到了空间索引的用途和多种数据库对空间索引的支持情况,那么在应用层以下,好学的小伙伴应该会考虑空间索引的实现原理了。 目前空间索引的实现有 R树和其变种GIST树、四叉树、网格索引等。
枕边书
2018/01/04
2K0
空间索引 - GeoHash算法及其实现优化
一文了解geohash原理,实践实战设计思路
你们有没有遇到被面试官嘲讽的场景;之前有位刚毕业的小学弟在上海魔都某某某大公司面试,二面主要是问了关于redis的相关知识点,回答的也是磕磕绊绊的,其中一个问题是如何实现搜索附近人加好友功能;想跟小伙伴们一起分享、一起探讨下。如果有不正确的地方,欢迎指正批评,共同进步~~~
我是阿沐
2021/06/18
4.5K0
空间索引 - 各数据库空间索引使用报告
本文介绍了Redis、MongoDB、PostgreSQL、MySQL这四种数据库的基本特性,包括数据类型、持久化方式、事务支持、分区和分片等特性。每种数据库都有其适用的场景,例如Redis适合用于缓存和计数器,MongoDB适合用于高并发的读写,PostgreSQL适合用于事务处理和数据仓库,MySQL适合用于关系型数据库和事务处理。每种数据库都有其优缺点,需要根据具体的需求和场景来选择合适的数据库。
枕边书
2018/01/04
7.7K2
Spring认证中国教育管理中心-Spring Data MongoDB教程五
原标题:Spring认证中国教育管理中心-Spring Data MongoDB教程五(内容来源:Spring中国教育管理中心)
IT胶囊
2021/11/24
2.6K0
Spring认证中国教育管理中心-Spring Data MongoDB教程五
Mongodb地理空间索引
关于LBS相关项目,一般存储每一个地点的经纬度的坐标, 假设要查询附近的场所,则须要建立索引来提升查询效率。
全栈程序员站长
2022/07/12
5740
Elasticsearch 在地理信息空间索引的探索和演进
本文梳理了Elasticsearch对于数值索引实现方案的升级和优化思考,从2015年至今数值索引的方案经历了多个版本的迭代,实现思路从最初的字符串模拟到KD-Tree,技术越来越复杂,能力越来越强大,应用场景也越来越丰富。从地理位置信息建模到多维坐标,数据检索到数据分析洞察都可以看到Elasticsearch的身影。
2020labs小助手
2022/06/27
1.5K0
MongoDB中各种类型的索引
上篇文章中我们介绍了MongoDB中索引的简单操作,创建、查看、删除等基本操作,不过上文我们只介绍了一种类型的索引,本文我们来看看其他类型的索引。 ---- _id索引 我们在上文介绍过,我们往集合中添加文档时,默认情况下MongoDB都会帮助我们创建一个名为_id的字段,这个字段就是一个索引。默认情况下,一般的集合都会帮我们创建这个字段作为索引,但也有一些集合不会将_id默认作为索引,比如固定集合,这个我们后面的文章会详细说到这个问题。 复合索引 如果我们的查询条件有多个的话,我们可以对这多个查询条件都建
江南一点雨
2018/04/02
1.4K0
MongoDB系列13:MongoDB查询操作符说明
邓开表同学实战MongoDB系列文章,非常不错,赞!大力推荐! 本文是第13篇,主要讲述MongoDB查询操作符说明实战操作,非常值得一看。 MongoDB系列文章: MongoDB安全实战之Kerberos认证 MongoDB Compass--MongoDB DBA必备的管理工具 MongoDB安全实战之审计 MongoDB安全实战之SSL协议加密 MongoDB安全实战之网络安全加固 MongoDB索引的介绍 MongoDB存储引擎 MongoDB集合的增量更新 MongoDB数据迁移到MySQL
大数据和云计算技术
2018/07/26
1.8K0
空间索引-geohash算法实现
geohash是实现空间索引的一种算法,其他实现空间索引的算法有:R树和其变种GIST树、四叉树、网格索引等
仙士可
2019/12/18
1.8K0
空间索引 - 四叉树
该文介绍了利用四叉树实现空间索引的算法,相比于GeoHash来说,具有更高的查询效率,是地图领域非常有价值的参考技术。同时,四叉树具有很好的扩展性,即使数据量再大,也可以轻松应对。对于数据插入和查询,时间复杂度为O(logN)。
枕边书
2018/01/04
3K0
空间索引 - 四叉树
浅尝辄止MongoDB:基础
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/82840397
用户1148526
2019/05/25
1.7K0
持续搞【附近的人】---听说MongoDB是专业的(三)
一直听说MongoDB才是【专业】搞地理空间查询的,人家才是【专业】的!相当长一段时间来,一说搞【附近的人】就会相当一批人的脑海里就不自主浮想到MongoDB... ...
桶哥
2019/06/05
1.5K0
持续搞【附近的人】---听说MongoDB是专业的(三)
Mongodb GeoJSON 地理数据处理 其实我也很厉害
相信如果提起地理数据的处理,首先想起的数据库就是postgis, 对大名鼎鼎的postgresql + 插件的方式来将POSTGRESQL 变成纯纯的地理数据处理的数据库,这是人尽皆知和童叟无欺的功能。
AustinDatabases
2022/02/09
2K0
Mongodb  GeoJSON  地理数据处理 其实我也很厉害
相关推荐
云MongoDB优化让LBS服务性能提升十倍
更多 >
LV.0
这个人很懒,什么都没有留下~
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验