【沙龙干货】美团点评的Atlas实践

美团点评技术沙龙由美团点评技术团队主办,每月一期,每期沙龙邀请美团点评及其它互联网公司的技术专家分享来自一线的实践经验,覆盖各主要技术领域。

本次沙龙主要围绕数据库相关的主题,内容包括美团数据库自动化运维系统构建、点评侧MySQL自动化服务平台RDS、美团数据库中间件、和小米高级DBA带来的Redis Cluster的大规模运维实践。

讲师简介

平仲,美团点评高级DBA,现负责美团点评数据库中间件Atlas的开发;主要工作经历从事于数据库内核及中间件开发。

概述

这次分享的主要内容包括6个部分:

  • 第一是我的简单介绍一下美团点评Atlas;
  • 第二部分,会介绍一下美团点评Atlas的整体架构;
  • 第三个是美团点评Atlas的主要模块,主要模块介绍我们美团点评在上面的主要工作;
  • 第四个部分是上线的现状;
  • 第五个部分是我们后续的一些安排,未来的计划;
  • 最后是QA的部分。

MTAtlas的优点

首先介绍一下为什么要使用Atlas:

  • 使用Atlas之后,应用程序只需要在连接串中设置Atlas的地址,不需要关注整个数据库集群的结点;
  • Atlas内部实现负载均衡,读写分离;
  • Slave上下线的操作由DBA在自动化运营系统上点一下鼠标就能够完成。

这样极大的减轻了DBA和应用开发人员的工作;而没有Atlas的情况下,这些工作是由RD来实现的,引入Atlas对于系统的可管理性和便利性都有非常大的帮助。

MTAtlas的软件模块

介绍Atlas的软件模块。软件模块分三层:

  • 第一层是一个访问控制,包括用户处理,IP过滤等等的功能;
  • 中间层是一个SQL处理的过程,包括SQL解析,SQL重写,和SQL执行;
  • 第三层就是一个主要和DBA连接相关的一个模块,像读写分离,负载均衡,连接池;
  • 另外还有三个模块是贯穿整个三层的: 第一是连接的管理,负责管理收发数据的底层连接;第二是日志的管理,第三个是监控管理。

MTAtlas连接改进

首先介绍一下连接的管理:根据我们链路比较长的特点,着重添加了对于连接异常的检测和处理,包括:

  • Atlas上游和MGW交互的连接检测;
  • Atlas下游和MySQL连接的检测;
  • Atlas所在机器的连接检测。

MTAltas SESSION级变量

SQL处理模块中增加了SESSION参数的功能: 客户端分配一个DB连接的时候,如果二者SESSION级参数不一样时,首先做一个校正,校正之后才会真正执行查询。

MTAtlas连接池改进

连接池的管理中做了这样的修改:将链表改成Hash表,其中Hash键是用户名,Hash值是以用户身份建立的连接的一个链表。如下图把连接按用户来分,client分别会分到各自user建立的db连接,二者互不影响,既保证了查询的正确性,又保证了较高的性能。

MTAtlas访问控制

下面讲一下访问控制模块,是在我们整个软件模型的第一层。

  • 第一个是增加了一个SQL过滤的功能:
    • 该功能由黑名单的方式实现,黑名单的形式是如下边两个语句;
    • 黑名单可以根据执行的频率,执行的时间来自动的添加,其中频率时间,都是可以根据自己的需求动态修改的,另外我们也提供了一个手动添加黑名单的功能。
  • 第二个个是根据后台db的thread running进行负载均衡,每当分配到一个后台的连接的时候,先检查后台的Thread running数,直到有一个thread running数在我阈值之内的时候才真正去分配。
  • 第三个就是用户IP限制,我们限制了用户的host地址,相当于进行一个权限的控制。
  • 最后一个就是从库流量配置,我可以指定某一个用户只能访问某几个从库,或者反过来说某几个从库只允许某几个用户访问,这样可能在一个更细的力度上对数据库的资源进行分配。

MTAtlas监控模块

MTAtlas的监控体系实现了一个从无到有的过程,目前主要监控一些Atlas内部运行相关的一些参数:

MTAtlas Sharding改进

对于sharding版本,做了如下的改进:

  • 首先我们把分库变成分库分表,并且提供了5种分库分表的方式;
  • 第二个是改进了Lemon基本上兼容MySQL语法;
  • 第三个是有限支持单个库内部的JOIN,经过Lemon解析后,发现涉及的表都是在同一个库,那么表的JOIN是支持的;
  • 同样的道理,单库的事务也是支持的。
  • 最后一个就是增加错误处理:在一个库上面执行出错的时候,会相应有一些rollback的机制,来处理一些异常情况导致的执行失败。

Q:这方面能大概讲一下怎么去改进的?

A:首先是一个语法的支持,我们就是把中间不支持语法的支持,这样的话有些复杂的查询,我们可以通过这个语法来进行一些,比如说where条件的分析,可以知道分布分表的情况,然后就是表的替换。

MTAtlas上线现状

和大家分享一下上线的现状:从2015.5上线第一个版本后到现在已经有87%的服务组接入了MTAtlas, MTAtlas也已经经历了5个版本的迭代。

MTAtlas未来计划

最后讲一下未来的计划:

  • 第一个就是更强大的SQL处理:
    • 增加一些SQL优化,Row cache的功能;
    • 分库分表全面的SQL支持,如聚集,排序;
    • 更全面的连接上下文信息;
  • 第二:监控管理要结合自动故障处理,真正把监控的信息智能化;
  • 第三:下一个是和我们美团点评自己的MHA融合,支持自动故障切换;
  • 第四:支持分布式事务。

原文发布于微信公众号 - 美团点评技术团队(meituantech)

原文发表时间:2016-09-09

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据和云

DBA生存警示:防范频发的数据误删除操作

编辑手记:对于资深的老DBA们,他们在漫长的职业生涯中养成了很多稀奇古怪的守则,以在复杂多变的环境中“幸存”,这源于无数血泪的教训,我曾经在《数据安全警示录》...

37114
来自专栏逻辑熊猫带你玩Python

Linux | “搭建verilog学习环境”

写这一篇文章的初衷一个是分享给各位想进入IC领域的读者以及感谢一位贵人。VerilogHDL是国内目前最流行的硬件描述语言。关于硬件描述语言的问题,这里并不多谈...

7073
来自专栏企鹅号快讯

bt、磁力怎么下载?老司机飙车终极思路……

百度云解析失败,迅雷也是如此?无法下载BT!5大高分下载神器,你用过几个? ——wit小学生 最近好多小伙伴们向小学生吐槽,下载的BT不是没进度就是提示敏感资源...

6.1K10
来自专栏FreeBuf

你说安全就安全?对红芯浏览器的一次安全测试

近日,红芯浏览器“套壳”一事被网络舆论炒的沸沸扬扬。红芯浏览器被官方标榜为“安全、稳定、可控的企业浏览器”,其中“自主可控”一项已经被舆论所质疑,但是被官方放在...

732
来自专栏FreeBuf

一大波iCloud钓鱼网站来袭 果粉们会分辨吗?

国外的FireEye实验室有一套自动化系统,这套系统能够主动侦测最新注册的恶意域名。所谓的恶意域名,绝大部分都是伪装成很多人知道的常用域名,以此来达到“恶意”的...

3115
来自专栏安恒信息

邮箱安全服务专题 | 发现那些对钓鱼邮件安全意识淡薄的员工

上一期我们介绍了针对邮箱应用层和协议层面的安全检测,目前针对邮箱系统自身风险的服务内容已经向大家介绍完了。然而保障了邮箱自身的系统安全还是远远不够的,每一篇邮件...

39010
来自专栏FreeBuf

浅谈开源web程序后台的安全性

一、前言 不知怎的最近甚是思念校园生活,思念食堂的炒饭。那时会去各种安全bbs上刷刷帖子,喜欢看别人写的一些关于安全技巧或经验的总结;那时BBS上很多文...

2039
来自专栏Seebug漏洞平台

摄像头漏洞挖掘入门教程(固件篇)

据 IT 研究与顾问咨询公司 Gartner 预测[1],2017 年全球物联网设备数量将达到 84 亿,比 2016 年的 64 亿增长31%,而全球人口数量...

2291
来自专栏网络安全防护

墨者安全分享:CC攻击的变异品种--慢速攻击

对网络安全有过一定了解的人肯定都听过DDOS攻击和CC攻击,DDOS主要针对IP攻击,CC攻击主要是用来攻击网页的,两者都是通过控制大量僵尸网络肉鸡流量对目标发...

1653
来自专栏BeJavaGod

分布式系统的那些事儿(四) - MQ时代的通信

之前在讲RPC通信的各种好处,特别好用,但是RPC并不是万能的,也并不是适用于各种场景的,因为他是同步的;现如今很多场景下的调用都是异步的,系统A调用B后,并不...

3414

扫码关注云+社区