徐东山:腾讯云安全的使命和技术实现

徐东山腾讯云安全副总监, 2005 年进入腾讯并服务至今,历任后台开发、后台策略安全等岗位。从 2010 年腾讯开放平台和腾讯云启动迄今,一直从事腾讯云安全相关的业务规划和系统建设工作。对海量服务系统开发、后台策略安全设计等有较强烈兴趣和一定积累。

分享主概要

1、腾讯云安全在腾讯云不同发展阶段,承担着不同的使命和职责,在这些不同阶段,腾讯云安全建设方向有着怎么样的体现。对于使用腾讯云的客户,腾讯云安全主要提供的保障和服务。

2、对腾讯云安全的网络防护(大禹)、业务安全(天御)、移动安全(乐固)等产品服务和技术实现的说明。

分享实录

首先介绍下我自己,我是来自腾讯公司的徐东山,当前主要负责腾讯云安全的架构设计与产品规划等工作。

我们团队主要涉及到海量服务后台开发、后台安全策略、运维安全、大数据处理、机器学习等领域,当前也有较大的人力缺口,欢迎在这些方面有经验、同时对腾讯和深圳有兴趣的同学私下联系我。

*现在我开始分享。5 年前,我们说到云计算,还觉得它是一个有些飘渺的技术方向和概念,但今天,我们说到云计算,已经可以认为它是实在的产业并且直接影响到了 IT 行业的现实领域和抉择。

产业发展过程中,腾讯云在里面起到了重要作用。从腾讯云诞生至今,安全一直是最核心的问题,也一直面临质疑和挑战。并且,随着腾讯云与行业的发展,安全的质疑与挑战也随时间与阶段呈现不同的特点

下面,我根据腾讯云发展的不同阶段,对云安全在相应阶段的使命与建设理念进行描述。

腾讯云的发展,可以认为有四个阶段:

1**内部使用阶段:对云计算技术进行研究,并在内部业务如 QQ、Qzone、会员等业务上进行应用。 2**支持开放平台阶段:以开放平台推出为标志,腾讯正式迈出了开放的步伐。其中,腾讯云负责支持合作伙伴的计算、网络等资源需求。 3**公有云阶段:在支持开放平台基础上,腾讯云正式推出了公有云,全面对外提供 IaaS、SaaS 等服务。 4**互联网 阶段:随着互联网 战略的实施,腾讯云在里面承担了基础资源落地的核心任务和使命。

在腾讯云的发展历史中,云安全从开放平台阶段开始介入,通过完成使命,推动着腾讯云在不同阶段的发展和演进。

1**开放平台阶段:在这个阶段,外部合作厂商的服务开始纳入腾讯体系,并对用户直接提供服务。当时最大的挑战在于,服务由合作厂商提供、运营和管理,其服务标准等是否能够符合腾讯要求,会否损害用户利益。基于此,云安全需要对合作厂商的服务进行监控,对损害用户利益的合作厂商,要能及时阻止并处理。 2**公有云阶段:公有云阶段最大的挑战在于,腾讯云第一次对外全面开放了基础措施,原来基于自研的强制的安全规范和措施对公有云客户来说无法落地和实施,在全面开放的背景和要求下,怎么保障腾讯云基础平台和支撑体系的可靠和安全,是云安全当时面临的主要任务。 3**互联网 阶段**:在这个阶段,腾讯云有更强烈的使命来帮助整个行业、整个生态更安全的运营,除了托管在云上的业务,对非托管业务也需要一起覆盖。云安全需要针对互联网行业和生态的痛点,提供切实可行的安全解决方案,从而帮助行业和生态更聚焦在业务成长上。

开放平台时代,云安全主要针对合作厂商的业务进行行为和内容安全审计:

1、对服务进行漏洞扫描、对主机进行检测等,帮助合作厂商发现业务脆弱性并进行修复。

2、对业务内容进行扫描,和结合传播渠道,发现其中不合规的恶意内容,并及时处理。

3、对业务托管机器进行网络监控,对恶意网络行为进行识别,从而从事后发现被恶意控制的机器。

公有云初期,云安全重点保障了支撑体系的安全可靠:

1、梳理安全运营规范和修改安全策略,给正常客户更自由体验,对非正常客户识别行为做到旁路化。 2、对齐行业标准,梳理云计算基础平台的资产和风险,并制定相应的规范和基线,强制执行。 3、对公共的安全需求,进行统一服务提供,通过统一服务减少业务参与,减少风险。 4、定期进行基线更新、风险识别并推动修复,通过自动化开发提升执行效率。

当前,为了配合互联网 战略的更进一步实施,云安全针对客户痛点推出一序列强化服务,在基础服务之外,推出了更有针对性、能力更强的大禹、天御等安全服务,并且覆盖到非云客户。

对一般客户来说,主要存在着下面的几个问题:

1、客户端被篡改。 2、被 DDoS 攻击。 3、业务有漏洞导致被入侵。 4、业务逻辑被盯上,导致被刷。

通过公司内部积累和腾讯云各个阶段的使命达成,腾讯云安全积累了业界领先的能力,并且形成了一整套的安全总体架构。

从层次上,覆盖了组织管理、物理安全、基础平台、合规性审计、网络安全、主机安全、应用安全等各个方面,给客户提供全面强有力的安全保障。

对提供计算和网络资源的云服务商而言,可信是其首要保证的。腾讯云从两方面来保障基础平台的可信度:

1、确保客户的资源只自己可见,包括网络隔离、访问鉴权等。客户只能看到自己的资源,看不到别人的资源,也看不到任何非授权的服务。

2、云服务提供商做好自我保障,断绝从平台方向对客户资源的非授权访问。包括平台自我加固,以免存在漏洞被恶意利用;同时对内部进行审计,任何操作都有记录可追溯,并对异常行为能够自动告警。

通过上面的可信措施落实,腾讯云也获得了一序列的外部合规性认证,包括 ISO 27001:2013、可信云、等保等认证,给客户提供了更可信的保障。

在基础平台和支撑体系安全可靠之外,腾讯云安全在网络、主机与应用、业务、移动等领域均提供了全面的安全服务。

下面,针对云安全服务,我挑选部分内容对大家进行介绍。

大禹、天御、乐固三大产品,分别从网络安全、业务安全、移动安全的方向,提供了整套全面的安全服务。

同时,这三大产品,也可以很好支持非云托管的客户。

首先介绍下 DDoS 攻击:

DDoS 又称为分布式拒绝服务,全称是 Distributed Denial of Service。

DDoS 就是利用合理的请求造成资源过载,导致服务不可用。

描述:城东新开了一家牛肉面馆,生意红火,顾客络绎不绝。

某天,一个地方恶霸召集了手下一批小弟,一窝蜂涌入牛肉面馆,霸占了所有座位,只聊天不点菜,导致真正的顾客无法进店消费。由此,牛肉面馆的生意受到影响,损失惨重。如果把这家牛肉面馆,看作是一家互联网企业,那么这群地痞的恶行,就是典型的分布式拒绝服务,也就是我们所说的 DDoS 攻击

DDoS 黑产

动机=》敲诈勒索:在线盈利企业为首要敲诈目标,收取"保护费";商业竞争:游戏的私服,和电商,是重灾区,竞争对手攻击

成本=》黑产圈承诺 150 元一次,包打死!!!

流量来源=》非法 IDC;肉鸡

面对猖獗的 DDoS 攻击我们能做什么?

1、默默忍受:被打时,网络无法访问

2、扩容机房出口带宽:高成本

3、接入腾讯云-大禹系统

大禹治水,分而治之,而非堵而治之

如果机房带宽 < DDoS 带宽,无法承受。因此,我们聪明地选择全国分布式节点(腾讯既有数据中心)做防护。

大禹系统防护说明:

单节点防护能力 40G+,全国节点 100 ,合计可抵抗攻击 4T+

每个节点由腾讯自研 DDoS 检测和清洗算法

因为是分布式部署,相当于把流量分摊 没有哪个黑产可以进行 4T+的攻击

大禹系统,就是这样以分布式,来保证你的服务可用

大禹系统防护全景图:

用户请求

-> 腾讯 GSLB 调度系统

-> 腾讯云大禹系统流量清洗

-> 业务侧自己的服务器

大禹系统接入流程:

客户到大禹管理台配置安全域名

把用户请求以 cname 的形式重定向到大禹系统 用户请求->域名->大禹系统->

业务侧服务器

*羊毛党第一步:

*其次:

*全路径进行识别和打击:

从信用、行为、内容等方面,对广告、恶意内容等进行识别:

*腾讯验证码:

*类型丰富:

天御提供了防刷、内容识别、验证码等多项业务安全能力

app 存在风险

对抗的主要思路和原理: 1、Dex 加固----整体替换

2、Dex 加固----方法替换

3、SO 加固----PC 加壳

4、自定义加固、多维度加固

注:分内容没有详细说明。欢迎大家扫码下载腾讯云安全白皮书,了解更多内容。

问答实录:

1.全国分布式节点怎么理解?

答:大禹系统使用了 CDN 节点在前面分流攻击流量,我们 CDN 节点是全部分布的。

2.CDN DNS 怎么分配的?

答:dns 解析用了腾讯自研体系的 gslb 系统,能根据用户访问就近接入,并会根据节点质量自动调度。gslb 在我们公司服务了 qq、微信、qzone 等业务,久经挑战。

3."对内部进行审计,任何操作都有记录可追溯",能具体说说么,操作每条指令都存入日志么?

答:这里的操作指腾讯云内部人工的操作,我们通过管理权限、堡垒机等限制员工在合理范围内操作,并把输入的命令记录到流水。

4.腾讯云安全对最典型的 DDos 攻击是怎样防御和限制的?在云平台上,谢谢!**

答:我们的 ddos 防护有三种模式,一种是在云机房内,一种是专门的高防机房,一种是大禹在前端的分流清洗。我理解的是第一种,这种我们是搭建了自研的 ddos 防护设备(宙斯盾,大禹在具体节点上也复用到了这个系统和能力),由宙斯盾进行清洗。对于协议级别攻击(一般也是大流量),我们根据协议内容的异常识别等进行攻击源识别;对于应用层攻击(cc),我们根据请求规则、互动等识别。

5.你们这套系统是只能对腾讯云有用吗?我们私网可以使用吗?

答:大禹、天御、乐固都可以对非云的业务提供,其中,大禹、天御必须要有外网,乐固只要在我们官网上加固。

6.请教下腾讯云 vpc 私有网络与企业网之间建立的 ipsecvpn 通道有什么办法做到监控?

答:对这个我们不会做内容监控,但是可以对流量包量、时间曲线、源端目的的等识别,并判断异常进行告警。

7.你们的 ip 动态迁移是怎么实现的?

答:基于 gslb 和 cdn 节点可用性来调度,对 cdn 节点进行可用性监控,当满足迁移条件时,修改 gslb 解析。

8.请问一下 大禹是如何判断的,如何自动接入大禹的?

答:大禹在各个节点均有攻击清洗能力,在节点可以进行流量清洗。接入的话,只要把域名 cname 给我们分配的特定域名上即可。

9.对于国外服务器的建议与方案呢?

答:腾讯云在香港和北美均有托管机房,可以接入天御,可以使用乐固。但是接入大禹意义不大,因为大禹资源主要在国内。

10.请问面对这么大流量,怎么分析哪些是恶意攻击?哪些是正常流量在 DDOS 攻击的时候 正常用户可以正常使?

答:系统分成检测、清洗、控制等部分,在平时,流量会直接到源站或者业务服务器,同时,流量会分光到检测设备,检测设备对流量进行判断,这个时候检测不会影响业务流量;当检测设备检测到攻击后,会通过控制系统下发策略,这时候业务流量会经过清洗设备,经过清洗后再回到源站或者业务服务器,这个时候清洗会影响到源站。一般性来说,清洗设备只会过滤攻击流量,业务正常流量会透传回到源站。

11.是绿盟的流量清洗设备不?

答:清洗逻辑,当前用的主要是我们自研的设备宙斯盾。

12.我最想知道公司机房怎么接入你们的系统?

答:整个机房接入吧?这个可能具体要看,比如机房外网服务的提供方式,有多少访问入口等的。如果域名少或者 ip 数少,就有办法通过牵引搞掂,如果多的话,就是资源耗费的问题。

13.大禹是分布式的吗,假如攻击流量超过机房的带宽,能转移到其他机房么?

答:大禹是分布式的,流量会分流到各个 cdn 节点,如果某个节点不可用或者超过带宽,会自动剔除该节点,并把该节点的业务流量调度到其他大节点去。

14.mpls 二层 三层?

答:腾讯云体系中,对于转发,主要是基于 3 层和 7 层。

15. "对于应用层攻击(cc),我们根据请求规则、互动等识别 " ——这个没法通用吧,要建立正常业务流量的特征库么?

答:要针对特定的业务设置。这个主要看攻防情况,会设置默认规则,这些会相对简单较容易漏过,之外还有特殊规则,这些主要是漏过后和客户一起制定,联手与攻击者对抗,这块相对坎坷。 对业务流量的特征库,正在做,但当前只对大禹的几个高危用户在试点。

16.请教下,如果腾讯云上某客户业务管理员被非法利用,进行非常规操作,机器学习是否可以进行甄别并发出告警?

答:简单说下思路:异地 ip 和时间登录、操作频次、操作范围等可以识别,还可以根据更广度的操作习惯,但是当前在操作习惯上,更多是 how、when、who 等 5 要素来做。

17.能在清楚点么是如何判断的啊 ?就好像餐馆来了好多人 我怎么判断哪些是消费者哪些是混混 处理策略又是如何清洗的直接过滤么 会不会对正常流量误判断?

答:简单说,协议包里面,ttl、seqno 等字段的合理性,或者是否会对某些返回进行识别。清洗策略是识别恶意后丢弃,如果判断失误,是会有误杀。

18. 阿里云也在香港有托管机房吧?你们的优势在哪?

答:按照你自己的核心需求,找到最关键的几个点来,进行评估。

19.腾讯云安全服务是对客户开放的,还是需要单独购买云安全服务呢?

答:托管在腾讯云上,会享用基础安全服务,如果不是托管,可以单独使用大禹天御和乐固。但是登录防护等则没有办法。

20. 这些是公开的防御系统听说腾讯内部还有一个特别强大的防御系统是吗?

答:说宙斯盾吗,云上的大禹和宙斯盾是我们的精华了。

原创声明,本文系作者授权云+社区-专栏发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏云计算D1net

IaaS供应商选择:传统应用 VS. 云原生应用

随着IaaS供应商们不断扩展其产品组合并提供包括更高级别服务在内的产品,用户应用的需求(不仅仅只是用户的基础设施)也成为了选择供应商的考虑因素之一。 在多年的犹...

2746
来自专栏云计算D1net

DevOps部门正转向公有云

因获取IT基础设施来进行应用试验,DevOps 部门和IT部门的冲突正越来越大。开发者们不再等待内部IT部门为应用程序开发提供IT基础架构,而是开始通过公共云服...

2486
来自专栏Forrest随想录

谈谈技术和成本(三)

接上篇文章,我们讲了技术不是唯一的解决成本问题的手段,但这不代表技术就没有意义,没有价值,相反,到了一定阶段之后,技术将成为最终的决定因素。

564
来自专栏Rainbond开源「容器云平台」

Docker这么火,但是你真的了解吗?

1114
来自专栏SDNLAB

边缘计算的未来:不仅仅是物联网

什么是边缘计算,为什么我们有这样的结论?为此,我们首先需要了解云和SaaS的发展方向。

993
来自专栏IT技术精选文摘

数据中心基础与服务探讨

主要分享三个内容: 数据中心简介 —— 了解 IDC 的架构; 运维服务与人员配置探讨; 案例讨论,外包服务怎样才能更好的做到双赢? 数据中心基础架构 ? 谈到...

3546
来自专栏数据和云

数据为桥迈向智能,渤海财险数据架构智能化演进

Gartner的报告宣称,到2020年,将近50%的企业将会在业务和IT运维方面采用AIOps。尽管AIOps对于广大运维人员来说,仍然是一个新词,但在各企业已...

2715
来自专栏BestSDK

2018,云计算的7个发展趋势

1. 云安全   在2017年,人们经历了比以往更多的网络攻击。美国中央情报局遭遇Vault 7黑客攻击,WannaCry勒索软件爆发,以及Equi...

2803
来自专栏养码场

唯快不破!阿里、美团、滴滴、头条技术专家揭秘:Flink的应用与实践

对于技术人来说,最可怕的事在于:当技术每天都在更新,自己却没有学习的机会,于是轻易被抛弃……

662
来自专栏云计算D1net

边缘服务对企业的弹性策略至关重要的5个原因

部署云计算和边缘计算服务的组合可以帮助减少意外停机,提高安全性和性能,扩展多云基础设施的优势,加快应用程序的开发和交付,并改善用户体验。

870

扫码关注云+社区