腾讯云高可用云主机性能提升团队:风口浪尖,淡然处之,也无风雨也无晴

导语:记 2017 上半年公司级技术突破奖金奖团队「 腾讯云高可用云主机性能提升项目 」背后的故事

说起来也算幸运,每次聊起云计算,我们都能以一个行业从业者的自豪挺起胸膛,就像小时候作为少先队员,每次给国旗敬礼都会觉得胸前的红领巾更红一点。

说起来也挺幸福,我们能够在腾讯云实验室拿到最先进的黑科技产品,那种兴奋不亚于一个女人买到了全球限量的包包,实在不理解那些看起来都一样的鞋子和包包有什么好发朋友圈的,明明我手里的这根内存和硬盘的结合体看起来屌100倍啊。

说起来也不知道是不是幸运,每天睁开眼都要瞅一眼今天的科技头条,哪家的云服务又被测评了,然后想一想我们的数据,反思一下我们有没有被后浪拍死在沙滩上。

说起来我们应该是工作后从事的工作和专业契合度最高的工种,产品小妹的案头书都是《计算机网络》《图解TCP/IP协议》……毕业了,大学教材不用卖,带来工位,保证你工作几天就想再回回炉,心中升起对算法和数据结构老师的无限思念 。

这些就是腾讯云iaas基础研发团队的日常。

在一个成长的行业, 如果你站在一个第三方的视角,你会看到行业里风起云涌的竞争,不断得有厂商被淘汰,也不断得有黑马进来,情节跌宕起伏,大家争当武林霸主;而身处其中的我们,其实只有最朴实的愿望,把可用性做好,把客户服务好,争取在这个领域把性能做到最高。谈不上风雨,也谈不上彩虹,低头做事,而已。

自我翻新,原地踏步就是退步

从2013年9月9日,qcloud公测上线开始,我们在公有云市场上的赛跑就从来没有停过,竞争对手不给你机会喘息,行业不给你机会休息,客户更不会坐在门口等你长大……我们在市场上售卖的每一款产品,也许就跑在竞品的测试环境里,无时无刻不在对比着,你主机的单线程性能,多线程性能怎么样,你的网络吞吐,虚拟机时延,都是完全公开,容不得半点美化,如果我们提供的主机性能比竞品落后,随时会被揪出来公开吊打,要想反击,只有拿出我们的硬实力,拿出实际的测试数据说话,在这一点上实际的测试数据无法PS,比得就是硬实力。

所以我们才要在短短几年时间内,不断推出二代服务器,三代服务器,GPU、FPGA等异构服务,尤其是今年7月推出的3代云服务器,skylake+smartnic+25G 网络,CPU性能提升30%,网络性能相比上一代提升4倍。在正式推出前,还没有正式环境的情况下,研发同学手工虚拟化压测,一点一点调优,当厂商提供的驱动和kernel版本不匹配时,我们还有大量的patch回合的工作,既要保证性能比上一代更优,还要保证现网所有功能不受影响,(时间有多短,我就不说了,毕竟,这也是我们的竞争力)。

产品小妹每天盯着性能数据比看天气预报还上心,查现网运营数据,着急了干脆用python写脚本自己去数据库搂,让开发哥轮刮眼眶……

在这个行业,原地踏步,就是退步,一切都要用数据说话。

专业VS专业 ,用技术能力为用户护航

现在大家都有一个感受,丢手机比丢钱包还严重。我们的衣食住行几乎都可以靠手机解决,你买东西可以上购物app,吃饭前上各种美食推荐网站搜一下,存钱理财可以用互联网银行,而这些我们时时都在用的app, 有的就是我们自己的客户。也就是说我们面对的客户有可能是比我们还要专业的运维和研发。

客户对我们要求越来越高,我们要想办法比客户走得更快一点。

在弹性高可用的底层,是成千上万的物理机,而物理机不可能没有故障,物理机有故障,不能影响客户业务,一旦客户业务中断,带来的有可能是几千万的损失,想想,如果你是游戏玩家,突然服务连接中断,你会不会骂人? 这个时候就要用到云的弹性能力,热迁移。在客户服务不断的情况下,将客户的主机从有隐患的机器上迁移到健康的机器上,保证用户使用稳定的高性能服务。迁移这两个字,说起来容易,做起来有多难,谁做谁知道。要保证数据一致性,保证迁移速率,要预测母机负载,不能影响客户原有服务性能。近一年来,我们向KVM社区贡献了10个核心patch, 来源于社区,同时又回馈社区,我们做到了。

器以载道,匠心为之,他们是一群不善言辞的iaas人

说到团队里的同学,实在不知道该怎么去描述这一群被我“摧残”的兄弟们。

他们是一群很无趣但也非常有趣的动物。

T恤,短裤,运动鞋,一年365天固定造型,(冬天可能会穿个长裤)。

头发剪没剪,其实也不大看得出来,毕竟剪了跟没剪也没多大差别,除非哪天烫了个头大变形象来上班,(没准是前两天刚整出一个突发受刺激了)。

周末不出去浪,坐在万利达调代码,别说看过凌晨4点的万利达,他能给你讲出凌晨三点、四点和五点的万利达有什么区别……

可是就这么一群无趣的开发哥,也能轻轻松松得跑个半马;午休的时候抱起吉他来一首指南针乐队的歌;甚至在知乎上洋洋洒洒写出连载文章,嬉笑得把周遭调侃一遍,收获迷妹无数;当然还有他们经常自娱自乐的其实不怎么好笑的冷笑话。

就是这么一群人,二半夜爬起来接告警,处理故障;周末怀里还抱着娃,电话会议说开就开;大半夜做演习,为了几ms的优化吵个不停;迎面走过来的某个低调眼镜哥,maybe就是活跃在社区里的头号大牛,在社区粉丝无数;不过从他们那,我听过最动听的话还是:dandan, 可以提测了……

未来已来,努力在当下

随着大数据,AI的行业应用,除了在计算、网络底层能力上不断深挖,高性能网络、异构计算服务等为客户打造极致用户体验;同时,我们还会在PAAS和中间件服务上探寻更多可能性,为行业和用户提供更多前瞻性服务。

下一代iaas指日可待,未来已来,努力就在当下。

感谢兄弟团队,继续携手

感谢所有的兄弟团队,陪伴我们无数个凌晨变更,7*24小时在线服务客户,坚守每一个地域的发布,一遍一遍得验证价格配置是否正确……执手相看泪眼,竟无语凝噎。感谢所有的基础研发团队,我们通力合作,才能给客户提供完整的产品需求;感谢来自各个行业的客户,你们的信任,也催促着我们成长,我们会继续努力,让你们愿意来,愿意留下,愿意和我们一同成长。

仅以此文,献给现在还在万利达码代码、写需求的各位,目标尚未达到,同志仍需努力。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

dandansong的专栏

1 篇文章1 人订阅

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏包子铺里聊IT

码农们,你不能没有的职场情商

包子君听到Conscious Business这个词是在三番startup mixer活动上听到Fred Kofman的演讲中,后来听Facebook COO...

3468
来自专栏java一日一条

从程序员的角度谈创业三年

2012年4月,正好三年前整,在深圳能源正混的郁郁不得志的时候,大学的好兄弟找到我一起创业,他们有钱、有 idea,就是差人,当时的我还是技术菜鸟,本科学的也不...

591
来自专栏Java技术

大数据时代:我们是一朝天子,还是一世奴隶?

很多人还没有搞清楚什么是PC互联网的时候,移动互联网来了;还没有搞清楚移动互联网的时候,大数据时代又来了!

852
来自专栏企鹅号快讯

看点:“求赞求转发”帖子影响体验 Facebook将降级处理

看点 1 “求赞求转发”帖子影响体验 Facebook将降级处理 ? 12月19日早间消息,Facebook很快就会对主动请求点赞、评论和转发分享的文章进行降级...

20110
来自专栏我就是马云飞

阿里技术专家谈中年危机

1142
来自专栏JAVA技术zhai

朝夕共处的同事抛弃你时,可没空和你说再见(不止适用于程序员)

原本坐在你身边和你一个组,每天同样敲枯燥的业务代码同事突然薪资翻倍被挖走,或者突然被提拔为你的TL,而你仍默默地拿着不变的薪水敲重复的代码。你肯定经历过悄无声息...

3237
来自专栏AI研习社

收集数据太困难?这里为你准备了 71 个免费数据集

日前,KDnuggets 上的一篇文章总结了七十多个免费的数据集,内容涉及到政府、金融、卫生、新闻传媒等各个方面,除了这些数据,文中还提供数据提取地址。 AI ...

3545
来自专栏量子位

随手刷屏的波士顿动力机器人,用3D打印解决了哪些问题

近日,在德国西部的小城亚琛,波士顿动力副总裁Aaron Saunders讲述了这台人形机器人与3D打印/增材制造之间的故事。

793
来自专栏机器人网

【基础知识】工业机器人分类、组成和特点

工业机器人是面向工业领域的多关节机械手或多自由度的机器装置,它能自动执行工作,是靠自身动力和控制能力来实现各种功能的一种机器。它可以接受人类指挥,也可以按照预先...

30910
来自专栏FreeBuf

极客DIY:如何动手“组装”一个机器人

一个需要通电才能维持生命的机器人,不叫机器人,应该叫机械。历经半年时间,北极熊作者开始涉足机器人领域。想要通过人工智能,改变这个世界。 简单自我介绍一下自己:做...

1975

扫码关注云+社区