从2017年开始,我陆续在这里分享了一些关于内核/虚拟化、存储虚拟化、KV 数据库和操作系统基础组件相关的文章,也收获了不少读者的好评。如果这些内容能在大家的工作和学习中提供一点思路或帮助,那我就非常开心了。在这里,有我认识的朋友,也有更多未曾谋面的朋友,借此机会我做一次正式的自我介绍。
我叫皮振伟,2012年本科毕业于西安电子科技大学。2012年至2015年初,我在 MStar Semiconductor(晨星半导体,全球最大的显示器/电视机芯片厂商)工作,主要负责 Android 底层系统软件与芯片相关开发,这段经历让我积累了丰富的操作系统和硬件知识。2015年初到2016年中,我加入腾讯,参与 QQ 后台开发,期间编写了近十万行 C++ 代码,“海量/高并发”“网络异步编程”“KV/SQL/对象存储”“服务发现”等概念深入我心。2016年中至2017年中,我在华为云从事云计算相关工作,并逐渐对 IaaS 方向产生浓厚兴趣。2017年中到2018年中,我在有容云担任 IaaS 架构师,负责构建超融合云计算产品。2018年,我短暂加入阿里云,一个月后离开,并于同年8月加入字节跳动基础架构部。
2018年的字节跳动正处于业务爆发式增长阶段,当时机房建设速度远远跟不上业务需求,服务器成为极其宝贵的资源。我加入后不久,基础架构负责人 LYM 对 IaaS 方向非常支持,希望借助 IaaS 提升资源使用效率,短期缓解资源短缺,长期则为未来更大规模的业务打下架构基础。最初的 IaaS 团队约有十人,我负责计算虚拟化与存储虚拟化两个方向,同时协助处理 Linux 内核和系统工具相关的问题。
很快,我们在2018年底迎来了第一次重大考验:抖音红包首次登陆春晚,需要在春节前一周准备几十万 CPU 资源。由于存储服务器的 CPU 和内存使用率普遍不高,我们决定通过 IaaS 虚拟化技术在存储服务器上创建大规格虚拟机供计算服务使用,从而实现资源互补,理论上可使整机负载趋于饱和。但该方案的前提十分苛刻:必须确保两类负载之间没有性能干扰,并解决计算虚拟机的网络与存储资源问题。在存储方面,系统盘可使用本地几十 GB 的文件,但 TB 级的数据盘在短时间内缺乏分布式存储支持,加之业务日志等数据可丢失,我在春节前两周开始动手,用三天时间编写并测试了 blackholefs——一个伪文件系统。它支持 POSIX 语义(业务无需改造,容器化部署的大量业务逐一改造几乎不现实),可正常写入,但读取时始终返回零。最终,我们有惊无险地度过了春晚流量高峰。万家灯火,鞭炮齐鸣,用户在抖音上抢红包!事后,基于 IaaS 的混合部署为字节节省了数以亿计的成本,我和同事也于 2019 年在 KVM Forum 上分享了这段实践。
此外,通过 IaaS 虚拟化技术,我们还为数据库平均降低了约三分之一的成本、实现了边缘机房负载的快速切换(日常运行 CDN等业务/节假日支持红包等业务)、并更好地支持了飞书私有化部署。关注 AlwaysGeek(或通过腾讯的分享计划同步至腾讯云开发者社区)的朋友在那段时间看到了多篇关于系统稳定性、工具建设与虚拟化混合部署的分享。这段经历是我职业生涯的重要组成部分,我们纯粹通过技术手段为公司大幅降低成本,也通过总结各类问题,编写了不少系统命令、工具,也分享了一些技术文章,帮助了更多的同事和同行。
时间来到2021年底,字节发布公有云,我开始尝试构建差异化竞争力。当时我希望 Redis/Valkey Over RDMA 能成为竞争力的关键部分,也希望这项技术能成为送给世界的礼物,助力全球 KV 缓存成本下降;我还希望通过 virtio-crypto 大幅提升 HTTPS 性能,帮助用户降本增效;以及通过 atophttpd 提升用户的调试体验,实现白屏化操作,通过点击鼠标点击就能查看 atop 相同的详尽数据……2018年至2024年间,我向 Linux Kernel、QEMU、libvirt、atop/atophttpd、Redis、Valkey、libiscsi、SPDK、tgt、rdma-core、bcc、util-linux、procps-ng 等开源项目贡献了数量不等的代码,甚至修复了一个 glibc 的问题。这些都是我职业生涯中的骄傲。
2025年初,随着 DeepSeek R1 的发布和几个现象级 AI 应用的出现,一个全新的时代到来,可以说是浩浩荡荡。看未来远不像看过去那么清晰,激昂和困惑交织在每个人的心头。于是,我在2025年中选择离开字节跳动,回到小兴安岭、黑龙江畔,在阔别二十年的夏天里,放下工作,毫无负担地和家人度过一段假期。
2025年7月,我返回北京,重新投入工作,与志同道合的伙伴共同创立了“张量跃迁”。在 AI 时代,业务呈现爆发式增长,硬件快速迭代,但系统软件的发展似乎略显滞后。我们希望结合更高算力的 GPU 和更高速的 RDMA 等硬件,面向新业务场景设计并开发一款全新的分布式文件系统——GPU Direct Distributed File System,简称 gd2fs。
其最大特点就是快!LLM 的 KV Cache 可直接由 GPU 读写远程 gd2fs,典型延迟接近网卡速度的倒数。在 400Gbps 网卡上,1G 的 KV Cache 读取延迟约 25ms,写入延迟约 40ms。即使使用 TCP,读取延迟也可控制在约 70ms,写入延迟约 125ms。在模型下载方面,DeepSeek-R1-0528(约 642GB)使用 TCP 可在约 25 秒内完成,双网卡环境下可缩短至 20 秒以内。