弹性服务器架构-连接一切的力量

鹅厂网事

发布于 2018-04-27 14:40:32

9.6K13

发布于 2018-04-27 14:40:32

文章被收录于专栏：鹅厂网事

＂鹅厂网事＂由深圳市腾讯计算机系统有限公司技术工程事业群网络平台部运营，我们希望与业界各位志同道合的伙伴交流切磋最新的网络、服务器行业动态信息，同时分享腾讯在网络与服务器领域，规划、运营、研发、服务等层面的实战干货，期待与您的共同成长。

网络平台部以构建敏捷、弹性、低成本的业界领先海量互联网云计算服务平台，为支撑腾讯公司业务持续发展，为业务建立竞争优势、构建行业健康生态而持续贡献价值！

计算-互连-数据

一颗芯片，寄存器通过总线向运算器输送数据。一台服务器，内存通过DDR总线与处理器完成数据互动。一个数据中心，存储集群通过以太网与计算集群形成对数据流的处理和加工。互连是算力与数据的纽带，从芯片内部到数据中心，都能很好地诠释这一基本体系组合。由此展开对服务器体系架构的遐想，在这个注重高效计算和存储的时代，实现多元化系统资源的敏捷交付：端到端的解耦型部件资源，借助于高性能的可定义互连，按需组装并柔性交付服务器，具备裸机性能，却提供更灵活的生命周期管理效率。

GONGGA系统架构

GONGGA系统正是我们面向这一理念的全面实践，让服务器配置具备”可编程”的原力。科技演进步伐持续突飞猛进，芯片架构与工艺的迭代，物理颗粒的升级与创新，总线协议的优化与革命，推动着供给侧的多样性。同时人工智能/云计算/IoT等业务的崛起，业务性能与配置配比需求的差异化诉求则是刚需。

如何做到内外融合的发展，具有腾讯基因的GONGGA服务器正是基于这样的思考，开启了对未来的一次探索：统一系统形态，灵活资源配置。2U规格的系统规格，在腾讯基础架构中拥有最好的适配性。小小的机箱内，不再有CPU/内存等传统计算单元，取而代之的是高速PCIe 互连芯片，通过PCIe内部互连拓扑，实现PCIe设备与传统CPU计算资源的解耦合。基于PCIe互连拓扑，通过管理芯片实现PCIe资源的重构。这样就实现了业务端在源扩充的精准匹配，可以更深层次的针对业务进行资源调整，为智能分配提供基础。通过对传统资源的解耦和重构, 依托腾讯自动化运营平台, 满足业务部门的动态需求。

高性能存储

系统前窗（位置1）可以配置了多种模块化结构，可以容纳24块U.2 NVMe盘或者32条Ruler SSD，单盘30TB的存储容量，让单系统提供了多达1PB的高性能存储密度。通过GONGGA系统内置的PCIe交换芯片，就可以开启基于裸盘存储的共享经济初级模式。多用户按需对物理盘位进行切分使用，属于PCIe直挂形态，硬件性能无损。后期设计升级后可以基于SR-IOV进行更加精细化的空间划分和管理。例如，当现有系统需要存储升级或扩容时，用户可以在现有核心系统增加一块PCIe扩展卡，无须更换新服务系统，即可实现升级和扩容，避免大量数据迁移，并提高现有系统的使用有效性。

在后窗配置全高全长NVMeoF板卡, 那就是块设备输出的共享进阶模式。多张NVMeoF板卡南向连接NVMe设备，北向提供100GbE网络带宽，以NVMeoF协议对外提块设备服务，PCIe交换芯片内建板卡间通信链路，在未来能提供额外的硬件冗余扩展功能。通过这样形态的组合，结合应用层的资源调度和负载均衡，就可以实现类似于AWS EBS的网络块设备服务了。NVMeoF板卡上的ARMv8拥有强大的处理能力，也支持相关二次开发，满足自有协议的实现和优化。

AI

在AI in All的时代，GONGGA系统可以支持的部件中少不了各类计算加速硬件。从Training导向的全高全长规格GPU，多形态的Inference加速卡，到通用FPGA板卡，都可以量化支持。主流训练GPU系统以一机8卡为主，使用GONGGA系统可以实现更灵活的扩展。4台GONGGA系统组装为拥有16卡计算的加速系统，GPU与处理器之间的带宽可通过接线形式自由配置，还能支持一系列提升训练效率的功能：GPUDirect RDMA，GPU之间的P2P通信等。

当前窗装满24块U.2形态的Inference加速卡，可以想象一下基于单机的图片/语音/文本等数据处理能力了。GONGGA系统又融合了通用计算的支持能力，可容纳8张单路高主频x86微服务器刀片，满足基于游戏和Web服务器等定向应用的诉求。

面向未来的互连理念

面向各类异构设备互连的解耦与融合，是GONGGA系统的基本设计思想。从1.0版本的PCIe互连开始，Gen-Z/OpenCAPI/CCIX等互连技术在业界蓬勃发展，需要我们深入探索和参与，结合腾讯运营理念，拥抱开放，逐步迭代。

总结

以上是对系统设计和功能场景的介绍，我们也需要对GONGGA系统带来的价值来进行分析比对。对于AI应用4U8卡形态的训练机型，2台GONGGA系统加上一台通用服务器作为机头可以满足同等功能，由于采用了自主研发模式，保证成本透明度，比同期采购的4U8卡机型在L6级别显著降低。针对NVMe块设备系统，以2台2路服务器并各配16块NVMe盘为参照，1台GONGGA系统可以配置32块Ruler-SSD和内置2块单路系统机头，以1：16形式提供相同块设备服务，而且具备机头间互备的硬件能力，降低系统总成本的同时, 也实现机架位的隐性扩容。还有其他扩容和升级项目，面向硬件的连接方式，减少了数据迁移和整体升级的代价，可以有效提升存量服务器的使用率，不作一一展开讨论了。

总结GONGGA系统的核心能力：1、面向多种硬件资源的解耦和重构能力；2、通用服务器形态下非凡的资源兼容和可视化能力；3、面对应用层完全透明的多种互联技术；4、依托于腾讯高度自动化运维平台的智能管理能力。仰望星空，励志前行，We’re heading for GONGGA！

欢迎关注公众帐号“鹅厂网事”，我们给你提供最新的行业动态信息、腾讯网络与服务器最接地气的干货分享，还有一大波互动交流板块和有奖活动正在筹备当中，需要您的热情参与哦，敬请期待！

注1：凡注明来自“鹅厂网事”的文字和图片等作品，版权均属于“深圳市腾讯计算机系统有限公司”所有，未经官方授权，不得使用，如有违反，一经查实，将保留追究权利；

注2：本文图片部分来至互联网，如涉及相关版权问题，请联系v_huanjian@tencent.com

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2018-03-15，如有侵权请联系 cloudcommunity@tencent.com 删除

硬件开发

本文分享自鹅厂网事微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

硬件开发

登录后参与评论

0 条评论

热度