首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    大幅优化推理过程,字节高性能Transformer推理库获IPDPS 2023最佳论文奖

    论文《ByteTransformer: A High-Performance Transformer Boosted for Variable-Length》提出了字节跳动的 GPU Transformer 推理库 ——ByteTransformer。针对自然语言处理常见的可变长输入,论文提出了一套优化算法,这些算法在保证运算正确性的前提下,成功避免了传统实现中的冗余运算,实现了端到端的推理过程的大幅优化。另外,论文中还手动调优了 Transformer 中的 multi-head attention, layer normalization, activation 等核心算子, 将 ByteTransformer 的推理性提升至业界领先水平。与 PyTorch, TensorFlow, NVIDIA FasterTransformer, Microsoft DeepSpeed-Inference 等知名的深度学习库相比,ByteTransformer 在可变长输入下最高实现 131% 的加速。论文代码已开源。

    01

    “Twitter如今就像疯人院!”睡地板仍被裁女高管爆料:马斯克带来“恐惧文化”,被裁是最大解脱

    大家还记得马斯克刚掌管 Twitter 时,那名因睡在办公室地板上的睡袋里而走红的女高管 Esther Crawford 吗?当大家都以为她获得马斯克信任时,她还是被解雇了。网友有人说 Crawford“阿谀奉承”,也有人讽刺她,“在办公室睡觉还不够,这真是令人震惊”。 对此。Crawford 也在推特中回应道,“看到我在 Twitter 2.0 上全力以赴,你可能会认为我的乐观或努力工作是一个错误。那些嘲笑和嘲笑的人一定是旁观者,而不是竞技场上的人。我为团队在如此多的噪音和混乱中进行建设感到非常自豪。” 离职后,Crawford 在社交平台上写下了一篇“我在 Twitter 的一份工作总结”的文章,这也让我们看到了之前的 Twitter 内部管理的混乱和马斯克入主 Twitter 后的随性和喜怒无常。我们翻译并整理了 Crawford 的帖子,以飨读者。

    02

    【BBuf的CUDA笔记】十四,OpenAI Triton入门笔记三 FusedAttention

    继续Triton的学习,这次来到 https://triton-lang.org/main/getting-started/tutorials/06-fused-attention.html 教程。也就是如何使用Triton来实现FlashAttention V2。对于FlashAttention和FlashAttention V2网上已经有非常多的介绍了,大家如果感兴趣的话我推荐FlashAttention V1看 《图解大模型计算加速系列:FlashAttention V1,从硬件到计算逻辑》https://zhuanlan.zhihu.com/p/669926191 这篇文章的讲解 以及 FlashAttention V2 看 《图解大模型计算加速系列:Flash Attention V2,从原理到并行计算》 https://mp.weixin.qq.com/s/5K6yNj23NmNLcAQofHcT4Q ,原理和公式推导都非常清晰,不过想一口气读完还是要花一些精力的。同时你也可以在 https://github.com/BBuf/how-to-optim-algorithm-in-cuda 找到更多相关资料(此外Meagtron-LM,DeepSpeed等训练Infra框架的迅速跟进也说明了FlashAttention这个系列工作影响之大),例如:

    01
    领券