腾讯云高可用云主机性能提升团队:风口浪尖,淡然处之,也无风雨也无晴

导语:记 2017 上半年公司级技术突破奖金奖团队「 腾讯云高可用云主机性能提升项目 」背后的故事

说起来也算幸运,每次聊起云计算,我们都能以一个行业从业者的自豪挺起胸膛,就像小时候作为少先队员,每次给国旗敬礼都会觉得胸前的红领巾更红一点。

说起来也挺幸福,我们能够在腾讯云实验室拿到最先进的黑科技产品,那种兴奋不亚于一个女人买到了全球限量的包包,实在不理解那些看起来都一样的鞋子和包包有什么好发朋友圈的,明明我手里的这根内存和硬盘的结合体看起来屌100倍啊。

说起来也不知道是不是幸运,每天睁开眼都要瞅一眼今天的科技头条,哪家的云服务又被测评了,然后想一想我们的数据,反思一下我们有没有被后浪拍死在沙滩上。

说起来我们应该是工作后从事的工作和专业契合度最高的工种,产品小妹的案头书都是《计算机网络》《图解TCP/IP协议》……毕业了,大学教材不用卖,带来工位,保证你工作几天就想再回回炉,心中升起对算法和数据结构老师的无限思念 。

这些就是腾讯云iaas基础研发团队的日常。

在一个成长的行业, 如果你站在一个第三方的视角,你会看到行业里风起云涌的竞争,不断得有厂商被淘汰,也不断得有黑马进来,情节跌宕起伏,大家争当武林霸主;而身处其中的我们,其实只有最朴实的愿望,把可用性做好,把客户服务好,争取在这个领域把性能做到最高。谈不上风雨,也谈不上彩虹,低头做事,而已。

自我翻新,原地踏步就是退步

从2013年9月9日,qcloud公测上线开始,我们在公有云市场上的赛跑就从来没有停过,竞争对手不给你机会喘息,行业不给你机会休息,客户更不会坐在门口等你长大……我们在市场上售卖的每一款产品,也许就跑在竞品的测试环境里,无时无刻不在对比着,你主机的单线程性能,多线程性能怎么样,你的网络吞吐,虚拟机时延,都是完全公开,容不得半点美化,如果我们提供的主机性能比竞品落后,随时会被揪出来公开吊打,要想反击,只有拿出我们的硬实力,拿出实际的测试数据说话,在这一点上实际的测试数据无法PS,比得就是硬实力。

所以我们才要在短短几年时间内,不断推出二代服务器,三代服务器,GPU、FPGA等异构服务,尤其是今年7月推出的3代云服务器,skylake+smartnic+25G 网络,CPU性能提升30%,网络性能相比上一代提升4倍。在正式推出前,还没有正式环境的情况下,研发同学手工虚拟化压测,一点一点调优,当厂商提供的驱动和kernel版本不匹配时,我们还有大量的patch回合的工作,既要保证性能比上一代更优,还要保证现网所有功能不受影响,(时间有多短,我就不说了,毕竟,这也是我们的竞争力)。

产品小妹每天盯着性能数据比看天气预报还上心,查现网运营数据,着急了干脆用python写脚本自己去数据库搂,让开发哥轮刮眼眶……

在这个行业,原地踏步,就是退步,一切都要用数据说话。

专业VS专业 ,用技术能力为用户护航

现在大家都有一个感受,丢手机比丢钱包还严重。我们的衣食住行几乎都可以靠手机解决,你买东西可以上购物app,吃饭前上各种美食推荐网站搜一下,存钱理财可以用互联网银行,而这些我们时时都在用的app, 有的就是我们自己的客户。也就是说我们面对的客户有可能是比我们还要专业的运维和研发。

客户对我们要求越来越高,我们要想办法比客户走得更快一点。

在弹性高可用的底层,是成千上万的物理机,而物理机不可能没有故障,物理机有故障,不能影响客户业务,一旦客户业务中断,带来的有可能是几千万的损失,想想,如果你是游戏玩家,突然服务连接中断,你会不会骂人? 这个时候就要用到云的弹性能力,热迁移。在客户服务不断的情况下,将客户的主机从有隐患的机器上迁移到健康的机器上,保证用户使用稳定的高性能服务。迁移这两个字,说起来容易,做起来有多难,谁做谁知道。要保证数据一致性,保证迁移速率,要预测母机负载,不能影响客户原有服务性能。近一年来,我们向KVM社区贡献了10个核心patch, 来源于社区,同时又回馈社区,我们做到了。

器以载道,匠心为之,他们是一群不善言辞的iaas人

说到团队里的同学,实在不知道该怎么去描述这一群被我“摧残”的兄弟们。

他们是一群很无趣但也非常有趣的动物。

T恤,短裤,运动鞋,一年365天固定造型,(冬天可能会穿个长裤)。

头发剪没剪,其实也不大看得出来,毕竟剪了跟没剪也没多大差别,除非哪天烫了个头大变形象来上班,(没准是前两天刚整出一个突发受刺激了)。

周末不出去浪,坐在万利达调代码,别说看过凌晨4点的万利达,他能给你讲出凌晨三点、四点和五点的万利达有什么区别……

可是就这么一群无趣的开发哥,也能轻轻松松得跑个半马;午休的时候抱起吉他来一首指南针乐队的歌;甚至在知乎上洋洋洒洒写出连载文章,嬉笑得把周遭调侃一遍,收获迷妹无数;当然还有他们经常自娱自乐的其实不怎么好笑的冷笑话。

就是这么一群人,二半夜爬起来接告警,处理故障;周末怀里还抱着娃,电话会议说开就开;大半夜做演习,为了几ms的优化吵个不停;迎面走过来的某个低调眼镜哥,maybe就是活跃在社区里的头号大牛,在社区粉丝无数;不过从他们那,我听过最动听的话还是:dandan, 可以提测了……

未来已来,努力在当下

随着大数据,AI的行业应用,除了在计算、网络底层能力上不断深挖,高性能网络、异构计算服务等为客户打造极致用户体验;同时,我们还会在PAAS和中间件服务上探寻更多可能性,为行业和用户提供更多前瞻性服务。

下一代iaas指日可待,未来已来,努力就在当下。

感谢兄弟团队,继续携手

感谢所有的兄弟团队,陪伴我们无数个凌晨变更,7*24小时在线服务客户,坚守每一个地域的发布,一遍一遍得验证价格配置是否正确……执手相看泪眼,竟无语凝噎。感谢所有的基础研发团队,我们通力合作,才能给客户提供完整的产品需求;感谢来自各个行业的客户,你们的信任,也催促着我们成长,我们会继续努力,让你们愿意来,愿意留下,愿意和我们一同成长。

仅以此文,献给现在还在万利达码代码、写需求的各位,目标尚未达到,同志仍需努力。

原创声明,本文系作者授权云+社区-专栏发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

dandansong的专栏

1 篇文章1 人订阅

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏即时通讯技术

微信多媒体团队梁俊斌访谈:聊一聊我所了解的音视频技术

广州TIT创意园,这里是腾讯在广州的研发团队所在地,LiveVideoStack采访了微信多媒体内核中心音视频算法高级工程师梁俊斌(Denny)。从华为2012...

673
来自专栏华章科技

亚马逊说卡车运数据比光纤快!是真的吗?

抱着精明的企业家一定不会做赔本生意的想法,笔者收集的了一些数据,也做了一些测算。发现,这个世界真的有太多我们意想不到的东西。

692
来自专栏云计算D1net

云服务的墨菲定律

最近《星际穿越》很火热,各路评论和科普帖在网络上频繁出现,其中提到的墨菲定律更是时时被热议。 墨菲定律主要内容是:如果事情有变坏的可能,不管这种可能性有多小,它...

2648
来自专栏腾讯NEXT学位

IMWebConf 2018 前端大会倒计时 4 天!五大会场精彩内容抢先看

? 今天是2018年10月10日,距第7届 IMWebConf 前端大会开幕仅剩 4 天!  IMWebConf 是由腾讯前端 IMWeb 团队发起的国内顶级...

552
来自专栏奇点大数据

话说量化(3)

上次咱们聊了聊市场催生的根本原因,是由于人们为了降低交易的成本而“发明”出来并一直保留至今的。在几千年的过程中,随着运输技术和信息技术的不断发展,市场正在以更快...

681
来自专栏PPV课数据科学社区

如何向你的“弱智室友”解释区块链?

行业报道 ? 导读:事情是这样的,最近我的室友Hasaki一直在问我区块链和比特币的事情,我尝试了很多种不通的姿势以求简单通俗形象生动地跟他解释什么是区块链技术...

3239
来自专栏飞总聊IT

不断被超越的Oracle,见不得人的跑分

去IOE是这些年来一个很重要的口号。IOE是IBM, Oracle和EMC,代表了大型机/小型机, 数据库,以及存储。实话实说, IBM好去,EMC的话,只要不...

945
来自专栏人称T客

你不知道的秘密 深探IPhone诞生全过程

感谢苹果与三星的专利“核战”,苹果才稍微肯让人知道他们是如何开发产品的——如果你以为在苹果内部,产品的开发就好像外界传言般浪漫,这绝对是误解。在法庭上,苹果泄露...

2926
来自专栏数据和云

明日开幕:转折点上-2015Oracle嘉年华

最近几年,国内各种去IOE的声音起伏跌宕,开源产品渐渐深入人心,那么Oracle在做什么?行业向何方向发展? 2015嘉年华大会,正是在这样一个转折点上,Ora...

3274
来自专栏PHP技术

从程序员的角度谈创业三年

关于决定是否创业 2012年4月,正好三年前整,在深圳能源正混的郁郁不得志的时候,大学的好兄弟找到我一起创业,他们有钱、有idea,就是差人,当时的我还是技术菜...

3526

扫码关注云+社区