Netflix全球CDN运维之道

在最近的Strange Loop大会上,Netflix工程经理、OpenConnect工具团队负责人Robert Fernandes就Netflix内部的OpenConnect内容交付网络运营事宜发表了演讲

这个演讲对Netflix转向使用内部CDN Open Connect以及这次转变给运营团队带来的挑战进行了总结。Open Connect团队负责处理与向订阅者交付内容相关的事宜,包括技术运营、库存管理和合作伙伴管理。他们强烈感觉到需要自动化这些活动,但不同的团队各自构建了独立的应用程序,这给部署带来了新的挑战。Fernandes谈到了他们计划如何应对这些挑战。

Netflix的大多数服务都运行在AWS上。Netflix在2007年开始提供流媒体服务,到2009年已经建立了一个叫作Netflix Content Control Plane (NCCP)的内部控制中心。NCCP将最终用户引导到正确的边缘(CDN位置),而实际的内容交付是由第三方提供商完成的,如Akamai、Level 3 Communications和Limelight Networks。该团队于2011年迁移到内部CDN,并将其称为Open Connect,随之而来的是基础设施管理工作。

Netflix应用程序客户端(移动、桌面等)在请求视频时通常会接收到3个域名。OpenConnect向应用程序提供内容和静态资源,比如JavaScript。CDN由定制服务器Open Connect Appliance (OCA)组成,它们都是缓存服务器。它们运行在装有nginx的FreeBSD版本上。总共有两种缓存服务器,一种是相对较慢的HDD,用于批量存储目录,一种是基于闪存的服务器,配备了固态硬盘,具备相对较高的吞吐量,主要用于服务热点内容。Netflix的内容服务器使用了10000多个设备,部署在全球1000多个站点中。一些站点由ISP负责管理服务器,一些站点则由Netflix直接控制和管理硬件。

Open Connect团队的职能被分为开发、运营、网络管理和非技术职能(如合作伙伴管理和交付)。各个团队都从解决自己领域的问题开始,最后得到的是单体应用,Open Connect Tools团队就是为了缓解这种局面而成立的。它负责警报、监控、配置管理、部署自动化、库存管理、日志和指标,以及合作伙伴自助服务。负责控制平面的团队更关注CDN的内容布局、地理布局、路由和安全性。演讲并没有深入探讨应用程序或自动化技术细节。他们未来的计划是使用进一步“分层方法”处理微服务,并提出可以在团队之间共享的公共解决方案。

原文链接

Managing Global CDN Operations at Netflix

  • 发表于:
  • 本文为 InfoQ 中文站特供稿件
  • 首发地址https://www.infoq.cn/article/kKSl0I3OmtJN6OJ9fKer

扫码关注云+社区

领取腾讯云代金券