看世界杯直播?海外运维实践了解一下

2018世界杯鏖战正酣,在国内看直播的小伙伴想必也看得很过瘾,那么国内的小伙伴是如何收看到流畅、清晰的直播呢?腾讯视频云直播平台作为助力本次世界杯国内直播的重要PaaS平台,期待给大家带来优质的体验。下面我将从全球节点分布建设、智能路由、动态加速、混合云管理以及质量监控上报等方面来详细介绍我们是如何保障将数据在全球网络上高效稳定的传输。

修路(全球节点覆盖)

有句话说得好,“要想富,先修路”,其实对于我们的直播平台同样适用,要想提供优质的服务质量,把‘车’开得又稳又快,首先要有高速的‘路’, 但是要想修好路也不是一件容易的事。

首先需要考虑如下问题:

•  海外国家+城市成千上万,节点该建在哪里

• 如何做到花更少的钱,做更好的事,平衡质量和成本

从这些方面来应对:

• 基于公有云厂商以及客户需求分布

• 综合考虑政策成本质量等因素来调整调度分布策略,eg:

中东地区:

首先迪拜被选覆盖点,但是接入质量不是特别理想,因为迪拜是一个有GFW防火墙的国家,目前只是将迪拜覆盖本地,接下来我们会在卡塔尔或者伊朗选点覆盖中东。

印度和印尼地区:

不仅国际出口不稳定,带宽成本更是其他地区的好几倍,所以目前只选择覆盖本地。

澳大利亚地区:

各大云厂商主流在悉尼和墨尔本等。

目前我们已经建成了了包括中国香港,新加坡,韩国,泰国,印度,德国,俄罗斯,美西/美东,加拿大等10大海外独立中心节点, 以及全球5大洲40多个上行加速节点:

选路(全网动态调度)

有了全球节点覆盖, 我们还应该意识到就近不一定最优, 所以还需要选路,实施全网动态调度,保障用户能够通过最短路径传输到源站,原理如图:

1

如何选取最优接入点?

海外不像国内,运营商和地区要复杂得多,首先解析要准确,美国需要解析到美国,最好能具体识别到洲,越细粒度越好,美东不能接入到美西去。我们采用腾讯GSLB全球IP地址库,可以精确到地区解析,质量较直接按国家级别来调度有很大提升,以美国地区为例:

同时,通过大数据分析拨测各个边缘节点的质量,以便分配最优的点给到用户。

2

如何选取最优传输路径?

在智能路由,全网调度方面又应该如何考量?大家都知道公网的网络经常波动,节点的容量和故障也都会影响传输质量, 所以一套能够帮助大家实时分析当前路由、链路质量、以及节点负载容量情况的路由质量评测系统就非常有必要了:

然后根据分析结果实时干预,实现全网智能调度:

修车(协议优化)

有了高速公路,以及最优路线图,我们还需要有一俩性能优秀的‘车’,可以从如下几个方面来改装优化,帮助其加速:

• 基于TCP RFC的用户态协议栈(保留公平性、友好性)

• 全链路加密,保证数据安全

• 多路复用(无Head-of-line blocking)

• RTT握手+秘钥协商

• 平滑发送(Pacing mechanism)

• 精准RTT测量。基于NACK的丢包发现

• TCP优化

• 连接无缝迁移

使用基于UDP的QUIC协议比使用标准的RTMP协议推流卡顿率更小,尤其是在网络丢包较大时, 卡顿率依然保持不变:

织云混合云管理

前面说到“修路”,“修车”的问题,作为一个多面手的运维Sir,我们还需要保障这些不同国家和地区运营商的“路”能够统一升级、维护、有统一的运营标准。这里就是接下来我们要说到的混合云管理,那么当前混合云有哪些场景和各自的优缺点呢?

同时,这么多的云场景,给运维人员也带来了很多挑战,比如:

机器环境不统一问题

1 操作系统不一样

2 网卡命名不统一

3 内网IP冲突

数据无法上报问题

1 单机属性上报

2 多维属性上报分析

3 一致性上报

业务部署发布问题

1 程序装包和更新

2 配置下发

3 文件下发

安全风险问题

1 外网ssh开放

2 登录、shell审计

3 入侵检测

网络质量问题

1 跨网丢包延时大

2 网络抖动

3 监控告警

运维其他操作问题

1 防火墙修改

2 主机名修改

3 命令执行

4 文件传输

为了解决这些问题, 腾讯织云混合云解决方案是这样设计的:

1、功能设计:

2、整体架构:

腾讯视频云直播海外节点由多个云环境组成,包括腾讯云,腾讯自研环境、其他合作伙伴云厂商等,通过使用织云混合云管理方案,已实现混合云环境的自动化运维。比如包发布功能,全球节点一键发布:

在接到本次俄罗斯世界杯的紧急需求时,也能游刃有余的提供优质的服务。

织云海外节点监控上报方案

解决了上面的问题, 还需要解决各个节点的数据上报、网络链路监控告警等问题,如下:

1、如何及时发现和跟踪海外各个节点的数据是否异常:

2、基于链路的网络质量监控系统:

• 使用基于链路调度的监控方式来上报质量

• 将网络丢包、延时等监控数据入库大数据分析网络情况,给到调度系统决策最优路径

小结

通过前面的分析,我们可以看出,为了帮助用户实现告诉稳定的传输,首先在用户到边缘节点这里要全球部署,精准调度;其次,在加速节点之间要能智能选路,全网动态调度,协议优化;最后,在加速节点到原站这里,还要同城同运营商部署、智能选取最优出口。做到以上三段加速,基本上大家的海外运维之路已经迈开脚步了。

原文发布于微信公众号 - 腾讯织云(TencentCOC)

原文发表时间:2018-06-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏FreeBuf

99%的人都不知道的秘密:世上竟有如此酷炫的钓鱼系统!

钓鱼作为从远古时期出现的手段,到现在的风靡在各种成功的攻击案例中几乎成为一个高级hacker必不可少的技能。

1194
来自专栏云计算D1net

云应用服务到底有多安全?

2039
来自专栏SAP最佳业务实践

SAP最佳业务实践:SD–回扣处理(926)-1业务概览

用途 回扣(协议)是一种向客户回溯付款的特殊折扣。 此折扣基于预定义时间期间的客户销售量,回扣将由客户服务人员通过创建贷项凭单进行结算,此贷项凭单将按照先...

3374
来自专栏非著名程序员

你听说过「互联网档案馆」吗?

互联网档案馆?不知道有多少人听说过「互联网档案馆」呢?又有多少人知道互联网档案馆存在的意义呢?

1423
来自专栏农夫安全

如何给企业做好基本的网络安全防御工作

企业防御 这里总结的是企业在做安全防御的统筹方法,并不是具体某个漏洞如何修复~ 信息安全的实质是采取措施保护信息资产,使之不因偶然或者恶意侵犯而遭受破坏...

9204
来自专栏FreeBuf

[专题]Blackhat2013黑帽大会:五款值得一看的黑客工具

2013年的黑帽大会将于7月27日到8月1日期间在拉斯维加斯召开。在即将到来的2013黑帽安全大会上,安全研究者们将会介绍一些黑客工具。 这些工具可以解决的...

1957
来自专栏企鹅号快讯

研究人员警示智能音箱等物联网设备存在较多安全问题

安全公司趋势科技在最新发布的报告中警示用户考虑购买现在比较流行的智能音箱类设备时应考虑安全问题。 提示这个警示的原因在于研究人员在某些智能音箱中发现众多漏洞,允...

22211
来自专栏BestSDK

恶意推送SDK来袭,300多款APP遭破坏

近日,腾讯TRP-AI反病毒引擎捕获到一个恶意推送信息的软件开发工具包(SDK),取名为“寄生推”,因为其拥有如“寄生虫”一般的恶意推广手段。

1433
来自专栏腾讯数据中心

20KV市电环境下数据中心供电架构初探

大型数据中心用电负荷大、功率密度高,采用20kV配电电压可以提高供电能力、减少土地占用量、减少建设投资、降低损耗和提高电压质量,还可以简化电压等级。电压由10K...

4574
来自专栏企鹅号快讯

机房传统UPS和模块化UPS有什么区别?

前言: 了解模块化UPS的人都知道,如今模块化UPS成为很多企业的新宠,市场份额节节攀高,机房UPS电源产品层出不穷,模块化UPS具有良好的可用性和稳定性,就算...

2107

扫码关注云+社区

领取腾讯云代金券