腾讯云超高网络性能云主机揭秘

随着机器学习,网络游戏,电商抢购等应用的大规模爆发,公有云用户对虚机网络性能要求迅速提高。腾讯云推出网络优化型实例,实现最高450w PPS的虚机网络转发性能以及多达25Gbps的网络吞吐性能,网络延时大大降低。既可以满足用户高速计算的需求,也让用户能够在虚拟化网络中得到媲美物理机的性能体验。

那么腾讯云网络优化型实例是如何做到这一性能的呢?

▲常见虚拟网络的实现

上图描述了基于KVM的传统虚拟化网络的实现,从图中我们可以看到,云服务器外发数据包需要经过KVM、QEMU、TAP、vSwitch等组件的处理,需要经过多次上下文切换,整个路径很长,与物理服务器相比,这里存在明显的性能瓶颈。主要原因在于在虚拟化环境中,网络边界发生了变化,网卡从真实硬件变成了软件模拟,边界交换设备也从硬件交换机变成了软件vSwitch。这些软件模拟工作绝大部分都在宿主机Linux内核来完成。然而Linux内核协议栈设计的目标不在于高性能报文处理,而是通用灵活。在虚拟化环境下,继续使用内核协议栈作为报文交换中心,性能难免捉襟见肘。

为了解决这个问题,腾讯云引入智能网卡和DPDK两种专用高性能报文处理平台。

DPDK是一种用户态高性能报文处理平台,相对于Linux内核,它通过以下手段来优化报文处理性能:

  • 轮询模式收包,降低中断上下文切换开销。
  • 使用hugepage并且预分配内存,减少tlb miss和缺页中断导致的延迟抖动。
  • 不依赖任何系统调用,消除用户态/内核态切换开销。
  • 通过良好设计,可以实现进程间无锁,总体性能随进程数目线性增长。
  • 使用过程中一般会运行在隔离cpu上,降低进程调度对dpdk的影响。

通过以上技术,dpdk可以实现10倍以上于Linux内核的报文收发性能。

智能网卡是一种新型网卡硬件,相比于普通网卡,它主要智能在以下几个方面:

  • 更出色的SR-IOV性能,可以虚拟出更多的VF分配给虚机使用。
  • 让云服务器可以直接使用高性能物理网卡硬件,无需将数据包绕行到母机网卡。
  • 智能网卡具有各种硬件加速功能,包括数据包硬件解析,校验和offload,流量控制,网络安全加速等。
  • 智能网卡本身是可编程的,可以灵活实现各类vSwitch逻辑,避免了宿主机服务器的资源消耗。

既然DPDK和智能网卡能达到如此高的性能,那为什么之前没有见到在公有云中使用呢?

究其原因,是因为这两个平台开发难度比较大。传统的vSwitch一般在内核实现,依赖各种开源软件以及内核框架,但DPDK及智能网卡仅仅提供了收发包接口,所有高级功能都需要自行实现。如果软件架构设计不好,很可能将内核中影响性能的问题再次引入新平台,而无法充分发挥平台优势。因此针对新平台的vSwitch设计对软件开发人员提出了很大挑战。

为了解决这个问题,腾讯云将vSwitch拆分成快速路径和慢速路径。慢速路径负责连接首包的路由/ACL/安全组等规则执行,快速路径负责连接后续包的快速处理。通过分离式架构设计,腾讯云实现了最高450w PPS的网络转发性能以及多达25Gbps的网络带宽,网络延时大大降低,实现接近物理网卡的网络延时。同时,保持了已有的VPC网络的用户体验的一致性。

这样,传统虚拟化网络的实现方案的瓶颈在网络优化型实例得到完美的解决,在网络收发包性能上、内网带宽、网络时延上都得到了较大的提升。

原创声明,本文系作者授权云+社区-专栏发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏腾讯云服务器团队的专栏

热迁移、RTC 计时与安全增强…腾讯云 KVM 性能优化实践经验谈

腾讯云的虚拟机热迁移过程和具体方法是什么?腾讯云又如何看待 KVM 技术开源?KVM 现在面临着哪些新的挑战?

3351
来自专栏牛客网

【蚂蚁金服】一面

【每日一语】现在不是去想缺少什么的时候,该想一想凭现有的东西你能做什么。——海明威《老人与海》

712
来自专栏即时通讯技术

以网游服务端的网络接入层设计为例,理解实时通信的技术挑战1、前言2、相关文章3、主流网游的网络通信架构原理4、题外话:该如何理解C/M架构?5、网络接入层的作用6、网络接入层的通信协议选择7、网络接入

以现在主流的即时通讯应用形态来讲,一个完整的即时通讯IM应用其实是即时通信(英文简写:IM=Instant messaging)和实时通信(英文简写:RTC=R...

612
来自专栏即时通讯技术

以网游服务端的网络接入层设计为例,理解实时通信的技术挑战

以现在主流的即时通讯应用形态来讲,一个完整的即时通讯IM应用其实是即时通信(英文简写:IM=Instant messaging)和实时通信(英文简写:RTC=R...

872
来自专栏魏艾斯博客www.vpsss.net

Sugarhosts 糖果主机中美极速直连 洛杉矶 CN2 线路速度评测

2514
来自专栏我是攻城师

Java与Node.js的较量--一场史诗之战

3646
来自专栏BestSDK

腾讯云丢失数据被索赔1100万!

腾讯方面提出了总金额136,469元的“赔偿+补偿”解决方案,前沿数控则索赔11,016,000元,被腾讯认为过高,双方未达成一致。

802
来自专栏SDNLAB

Service Chain——如何黏合网络资源池

一、 网络资源池 1. 什么是“网络资源池”? 传统模式下,服务器、网络和存储是基于物理设备连接的,因此,针对服务器、存储的网络策略基于物理端口进行部署,设备及...

36113
来自专栏SDNLAB

SDNLAB技术分享(七):开源SDN控制器DCFabric及云计算高效网络

1.DCFabric控制器的由来 1.1 SDN是云计算数据中心网络技术发展的必然要求 随着以虚拟化为基础的云数据中心的发展和成熟, 应用数据猛增,虚拟服...

3186
来自专栏SDNLAB

云数据中心网络虚拟化——大二层技术巡礼之控制平面多虚一

控制平面多虚一,指的是将两台或者多台设备的资源(包括操作系统、转发实例、转发表、端口等)进行整合,对外表现为一台逻辑设备,以Cisco VSS,Huawei C...

3495

扫码关注云+社区