腾讯云高可用云主机性能提升团队:风口浪尖,淡然处之,也无风雨也无晴

导语:记 2017 上半年公司级技术突破奖金奖团队「 腾讯云高可用云主机性能提升项目 」背后的故事

说起来也算幸运,每次聊起云计算,我们都能以一个行业从业者的自豪挺起胸膛,就像小时候作为少先队员,每次给国旗敬礼都会觉得胸前的红领巾更红一点。

说起来也挺幸福,我们能够在腾讯云实验室拿到最先进的黑科技产品,那种兴奋不亚于一个女人买到了全球限量的包包,实在不理解那些看起来都一样的鞋子和包包有什么好发朋友圈的,明明我手里的这根内存和硬盘的结合体看起来屌100倍啊。

说起来也不知道是不是幸运,每天睁开眼都要瞅一眼今天的科技头条,哪家的云服务又被测评了,然后想一想我们的数据,反思一下我们有没有被后浪拍死在沙滩上。

说起来我们应该是工作后从事的工作和专业契合度最高的工种,产品小妹的案头书都是《计算机网络》《图解TCP/IP协议》……毕业了,大学教材不用卖,带来工位,保证你工作几天就想再回回炉,心中升起对算法和数据结构老师的无限思念 。

这些就是腾讯云iaas基础研发团队的日常。

在一个成长的行业, 如果你站在一个第三方的视角,你会看到行业里风起云涌的竞争,不断得有厂商被淘汰,也不断得有黑马进来,情节跌宕起伏,大家争当武林霸主;而身处其中的我们,其实只有最朴实的愿望,把可用性做好,把客户服务好,争取在这个领域把性能做到最高。谈不上风雨,也谈不上彩虹,低头做事,而已。

自我翻新,原地踏步就是退步

从2013年9月9日,qcloud公测上线开始,我们在公有云市场上的赛跑就从来没有停过,竞争对手不给你机会喘息,行业不给你机会休息,客户更不会坐在门口等你长大……我们在市场上售卖的每一款产品,也许就跑在竞品的测试环境里,无时无刻不在对比着,你主机的单线程性能,多线程性能怎么样,你的网络吞吐,虚拟机时延,都是完全公开,容不得半点美化,如果我们提供的主机性能比竞品落后,随时会被揪出来公开吊打,要想反击,只有拿出我们的硬实力,拿出实际的测试数据说话,在这一点上实际的测试数据无法PS,比得就是硬实力。

所以我们才要在短短几年时间内,不断推出二代服务器,三代服务器,GPU、FPGA等异构服务,尤其是今年7月推出的3代云服务器,skylake+smartnic+25G 网络,CPU性能提升30%,网络性能相比上一代提升4倍。在正式推出前,还没有正式环境的情况下,研发同学手工虚拟化压测,一点一点调优,当厂商提供的驱动和kernel版本不匹配时,我们还有大量的patch回合的工作,既要保证性能比上一代更优,还要保证现网所有功能不受影响,(时间有多短,我就不说了,毕竟,这也是我们的竞争力)。

产品小妹每天盯着性能数据比看天气预报还上心,查现网运营数据,着急了干脆用python写脚本自己去数据库搂,让开发哥轮刮眼眶……

在这个行业,原地踏步,就是退步,一切都要用数据说话。

专业VS专业 ,用技术能力为用户护航

现在大家都有一个感受,丢手机比丢钱包还严重。我们的衣食住行几乎都可以靠手机解决,你买东西可以上购物app,吃饭前上各种美食推荐网站搜一下,存钱理财可以用互联网银行,而这些我们时时都在用的app, 有的就是我们自己的客户。也就是说我们面对的客户有可能是比我们还要专业的运维和研发。

客户对我们要求越来越高,我们要想办法比客户走得更快一点。

在弹性高可用的底层,是成千上万的物理机,而物理机不可能没有故障,物理机有故障,不能影响客户业务,一旦客户业务中断,带来的有可能是几千万的损失,想想,如果你是游戏玩家,突然服务连接中断,你会不会骂人? 这个时候就要用到云的弹性能力,热迁移。在客户服务不断的情况下,将客户的主机从有隐患的机器上迁移到健康的机器上,保证用户使用稳定的高性能服务。迁移这两个字,说起来容易,做起来有多难,谁做谁知道。要保证数据一致性,保证迁移速率,要预测母机负载,不能影响客户原有服务性能。近一年来,我们向KVM社区贡献了10个核心patch, 来源于社区,同时又回馈社区,我们做到了。

器以载道,匠心为之,他们是一群不善言辞的iaas人

说到团队里的同学,实在不知道该怎么去描述这一群被我“摧残”的兄弟们。

他们是一群很无趣但也非常有趣的动物。

T恤,短裤,运动鞋,一年365天固定造型,(冬天可能会穿个长裤)。

头发剪没剪,其实也不大看得出来,毕竟剪了跟没剪也没多大差别,除非哪天烫了个头大变形象来上班,(没准是前两天刚整出一个突发受刺激了)。

周末不出去浪,坐在万利达调代码,别说看过凌晨4点的万利达,他能给你讲出凌晨三点、四点和五点的万利达有什么区别……

可是就这么一群无趣的开发哥,也能轻轻松松得跑个半马;午休的时候抱起吉他来一首指南针乐队的歌;甚至在知乎上洋洋洒洒写出连载文章,嬉笑得把周遭调侃一遍,收获迷妹无数;当然还有他们经常自娱自乐的其实不怎么好笑的冷笑话。

就是这么一群人,二半夜爬起来接告警,处理故障;周末怀里还抱着娃,电话会议说开就开;大半夜做演习,为了几ms的优化吵个不停;迎面走过来的某个低调眼镜哥,maybe就是活跃在社区里的头号大牛,在社区粉丝无数;不过从他们那,我听过最动听的话还是:dandan, 可以提测了……

未来已来,努力在当下

随着大数据,AI的行业应用,除了在计算、网络底层能力上不断深挖,高性能网络、异构计算服务等为客户打造极致用户体验;同时,我们还会在PAAS和中间件服务上探寻更多可能性,为行业和用户提供更多前瞻性服务。

下一代iaas指日可待,未来已来,努力就在当下。

感谢兄弟团队,继续携手

感谢所有的兄弟团队,陪伴我们无数个凌晨变更,7*24小时在线服务客户,坚守每一个地域的发布,一遍一遍得验证价格配置是否正确……执手相看泪眼,竟无语凝噎。感谢所有的基础研发团队,我们通力合作,才能给客户提供完整的产品需求;感谢来自各个行业的客户,你们的信任,也催促着我们成长,我们会继续努力,让你们愿意来,愿意留下,愿意和我们一同成长。

仅以此文,献给现在还在万利达码代码、写需求的各位,目标尚未达到,同志仍需努力。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

dandansong的专栏

1 篇文章1 人订阅

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

罗永浩“吓尿”大会上,我裤子真湿了

先说干货,锤子科技这次主要发布了两款产品。一是坚果R1手机,售价3499元~8848元,二是坚果TNT工作站(一台基于安卓系统的台式电脑),售价9999元~14...

1486
来自专栏VRPinea

先睹为快!CES 2017最佳创新奖30款产品为您揭晓

2786
来自专栏精讲JAVA

你给我月薪三千,我凭什么给你干出八千的工作量

那年我刚毕业,幸运的面上了一家软件公司,工资三千,二线城市,勉强生活,但是老板人很热情,我来的时候还专门把我叫到办公室,对我说,我非常喜欢年轻人,...

852
来自专栏VRPinea

育碧公布《星际迷航: 舰桥船员》等多款VR游戏的发行时间

2706
来自专栏程序员互动联盟

只有程序员才会这么做

1. 一个士兵爱上一个公主,公主告诉他,如果他愿意连续100个晚上守在她的阳台下,她就接受他。于是士兵照做了,他等了一天,两天,三天……直到第九十九天,士兵离...

30110
来自专栏VRPinea

海外众筹23万美元的NOLO,到底有什么魔力?

2334
来自专栏VRPinea

特稿︱Caliber VR官方回应所谓抄袭Vive一事

3376
来自专栏机器人网

推荐 | 深度解密Festo最新发布的三款仿生机器人

---- 自然界的各种生物都有其独特的本领,才能在复杂的环境中生存下来,比如蚁群的组织协调能力,蝴蝶飞行中互相通信的能力。不过,德国的自动化公司Festo的研...

2974
来自专栏大数据文摘

重磅 | 谷歌无人驾驶自行车横空出世 我可能看了假的黑科技

1643
来自专栏VRPinea

360度相机大盘点,这个假期带着全景相机去旅行吧!

2875

扫码关注云+社区