嗨,我们要开始了。我叫马修·尼斯利。我是NVIDIA的深度学习compiler PM,今天我将介绍一些针对NVIDIA Tensorcores的使用方法。首先我要讲一下Cutlass。我会给你一些背景和概述,为什么你可能会使用它,一些最新和即将推出的功能,然后我会概述一下开放平台Triton。如果你刚刚参加了上一场讲座的话那你已经是懂哥了。
我们讲到了Libra是一个分布式账本,存储着账本状态,从账本状态里面,我们可以获取现在每一个账户的资金情况和存储的相应资源。
本篇介绍下数据在计算机中的表示形式以及常用的寄存器, 最后再学一个稍微复杂点的代码。
论文《ByteTransformer: A High-Performance Transformer Boosted for Variable-Length》提出了字节跳动的 GPU Transformer 推理库 ——ByteTransformer。针对自然语言处理常见的可变长输入,论文提出了一套优化算法,这些算法在保证运算正确性的前提下,成功避免了传统实现中的冗余运算,实现了端到端的推理过程的大幅优化。另外,论文中还手动调优了 Transformer 中的 multi-head attention, layer normalization, activation 等核心算子, 将 ByteTransformer 的推理性提升至业界领先水平。与 PyTorch, TensorFlow, NVIDIA FasterTransformer, Microsoft DeepSpeed-Inference 等知名的深度学习库相比,ByteTransformer 在可变长输入下最高实现 131% 的加速。论文代码已开源。
本周一 安恒萌新粉丝群:928102972分享的工具为 binwalk。 Binwalk是一款快速、易用,用于分析,逆向工程和提取固件映像的工具。简单易用,完全自动化脚本,并通过自定义签名,提取规则和插件模块,还重要一点的是可以轻松地扩展。 在CTF的MISC类题型和IOT安全的固件解包分析中广泛应用,可以大大提高效率。该工具对linux支持较好,对于windows功能支持较差,有条件的童鞋可以在linux上使用练习该神器。
代码图片来自:https://blog.csdn.net/qq_31865983/article/details/103788358
在上一篇文章中,我们初步探索了 Libra & Move 语言 。在这篇文章中,我们将探讨使用者如何跟 Libra 进行互动。
这样输入 h 和输入 help 的结果是一样的,v 和 version 的结果是一样的
%token: 终结符(terminal) %type: 非终结符(non-terminal) 如果采用了union定义,可以通过<>指定token或type的类型。 %left, %right, %nonassoc和%precedence用于定义token的优先级和结合性。
腾讯ISUX isux.tencent.com 社交用户体验设计 01 概述 | Overview SpaceQQ 和 PUPU 是在QQ20周年一起亮相的,我们计划做一个简短的动画剧集向用户展示他们的关系与故事。动画被做成20秒左右以适应手机等智能设备,我们试着将暗指了角色特征的有趣故事包含在这短短的时间里。 SpaceQQ and PUPU appeared together through the QQ 20th anniversary event. We planned a shor
这段时间除了开发算子之外,还在做一些推荐系统相关的工作,这期间主要看的是HugeCTR的代码,其性能优异,系统不复杂,代码结构较扁平,整体还是比较清晰。在这段时间看源码的过程中也算是对HugeCTR有一点了解,这篇博客主要梳理下HugeCTR代码的结构,以及他在MLPERF中做的一些优化。
python发邮件需要掌握两个模块的用法,smtplib和email,这俩模块是python自带的,只需import即可使用。smtplib模块主要负责发送邮件,email模块主要负责构造邮件。
据说学 Rust 的人中,有不少是前端的,主要是很多前端工具链采用 Rust 重写。不仅如此,终端命令工具,也有很多 Rust 的轮子。所以,学学 Rust 造 command line 工具的轮子,对学习 Rust 挺好。
本文主要介绍Bochspwn Reloaded(https://github.com/googleprojectzero/bochspwn-reloaded)内核未初始化漏洞检测技术,它采用污点追踪对内核层向用户层泄露数据的行为进行检测。
发邮件前我们需要了解的是邮件是怎么一个形式去发送到对方手上的,通俗点来说就是你写好一封信,然后装进信封,写上地址,贴上邮票,然后就近找个邮局,把信仍进去,其他的就不关心了,只是关心时间,而电子邮件不像日常发送邮件的按天算,时间都是按
最近看了一篇论文 SuRF: Practical Range Query Filtering with Fast Succinct Tries,里面提到使用一种新的数据结构 Succinct Range Filter(SuRF) 替换掉了 RocksDB 默认的 Bloom filter, 在一些性能测试上面,尤其是 seek 上面,性能提升了不少,并且也降低了很多 I/O 开销,这一下子就引起了我的兴趣。
这儿又出现了一个leave指令,leave就等同于 mov rsp,rbp,pop rbp。
最近遇到一个性能问题,与Auto-Vectorization in LLVM有关,翻译一下官方介绍 http://llvm.org/docs/Vectorizers.html
在 JDK NIO 针对堆外内存的分配场景中,我们经常会看到 System.gc 的身影,比如当我们通过 FileChannel#map 对文件进行内存映射的时候,如果 JVM 进程虚拟内存空间中的虚拟内存不足,JVM 在 native 层就会抛出 OutOfMemoryError 。
《缓冲区溢出攻击实践》以实践者角度介绍了初级缓冲区溢出攻击方法,本文从原理上对该方法做原理性介绍。
http://gcc.gnu.org/onlinedocs/gccint/Initialization.html
在前一篇文章中,我简单介绍了 Succinct Data Structure,这里我们继续介绍 SuRF。
yargs是nodejs下一款方便易用的命令行工具,十分适合快速构建自己的小工具。
由于Java世界的特性所致,安卓应用在代码自身保护方面一直乏善可陈。所谓的Java混淆等技术,也不过是一层簿簿的面纱,极易被撕开,毫无秘密可言。所以,当前也没有谁敢拿“面纱”作为唯一保护措施。
在近期举行的Black Hat Europe会议上,研究人员提到了英特尔管理引擎11(Intel Management Engine 11)中的漏洞,攻击者一旦利用该漏洞绕过传统的基于软件的防护措施,即便计算机关机!也能够进行攻击。
腾讯ISUX isux.tencent.com 社交用户体验设计 随着3D角色成为一种趋势,QQ的厘米秀也从原来的2D升级为3D风格。为了设计出与众不同的3D角色,同时又能体现QQ用户的品味,我们经过了大量的调研和测试。在本文中,我们将详细介绍厘米秀设计的整个过程。 As app/game using 3D avatar became a trend, QQ’s avatar service CMshow(厘米秀) has been renovated from the existin
最近在尝试基于 PHP 做一个反向代理 HTTP 的程序,其中一个需求是将程序收到的HTTP请求还原回 RFC2616 的原始格式。
这篇是Network Policy最后一篇,主题是关于eBPF。前面两篇,我们聊完了Network Policy的意义和iptables实现,今天我们聊聊如何借助eBPF来摆脱对iptables的依赖,并实现Network Policy。
在前面的文章之中,我们已经学习了PyTorch 分布式的基本模块,介绍了官方的几个例子,我们接下来会介绍PyTorch的弹性训练,本文是第五篇,看看Rendezvous 的内部引擎,比如如何处理节点加入,节点离开,等待,心跳等等。
最近一位非常热心的网友建议结合demo来分析一下goroutine的调度器,而且还提供了一个demo代码,于是便有了本文,在此对这位网友表示衷心的感谢!
大家还记得马斯克刚掌管 Twitter 时,那名因睡在办公室地板上的睡袋里而走红的女高管 Esther Crawford 吗?当大家都以为她获得马斯克信任时,她还是被解雇了。网友有人说 Crawford“阿谀奉承”,也有人讽刺她,“在办公室睡觉还不够,这真是令人震惊”。 对此。Crawford 也在推特中回应道,“看到我在 Twitter 2.0 上全力以赴,你可能会认为我的乐观或努力工作是一个错误。那些嘲笑和嘲笑的人一定是旁观者,而不是竞技场上的人。我为团队在如此多的噪音和混乱中进行建设感到非常自豪。” 离职后,Crawford 在社交平台上写下了一篇“我在 Twitter 的一份工作总结”的文章,这也让我们看到了之前的 Twitter 内部管理的混乱和马斯克入主 Twitter 后的随性和喜怒无常。我们翻译并整理了 Crawford 的帖子,以飨读者。
HeapByteBuffer与DirectByteBuffer,在原理上,前者可以看出分配的buffer是在heap区域的,其实真正flush到远程的时候会先拷贝得到直接内存,再做下一步操作 (考虑细节还会到OS级别的内核区直接内存),其实发送静态文件最快速的方法是通过OS级别的send_file,只会经过OS一个内核拷贝,而不会来回拷贝;在NIO的框架下,很多框架会采用 DirectByteBuffer来操作,这样分配的内存不再是在java heap上,而是在C heap上,经过性能测试,可以得到非常快速的网络交互,在大量的网络交互下,一般速度会比HeapByteBuffer 要快速好几倍。
这儿再回顾下leave 和ret的区别: leave 本质上就是epilogue 指令,恢复rsp指针,从栈上弹出rbp指针。 ret本质上也是弹栈,将栈上保存的返回地址弹出并赋值给rip指针,这样就可以接着执行了。
一直有人说这个时代做渗透太难了, 各个平台都开始重视安全性, 不像十几年前, 随便有个栈溢出就能轻松利用. 现在的环境对于新手而言确实不算友好, 上来就需要 面临着各种边界保护, 堆栈保护, 地址布局
机器学习机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。 下面从微观到宏观试着梳理一下机器学习的范畴:一个具体的算法,领域进一步细分,实战应用场景,与其
随着前端组件、包库等工程体系发展,业务组件和工具库关系越来越复杂,非常容易遇到仓库多,库之间互相依赖。导致维护极其困难,发包过程非常繁琐,极大程度地限制了前端同学的开发效率。
Node.js的力量源自于庞大的NPM生态圈,拥有超过150万个包。没有NPM,Node.js虽然仍然可以使用,但其功能将大打折扣。在本系列文章中,我们将探索每位开发者都应该了解的常用NPM包。本篇,我们继续介绍第11至20款工具库,让你在Node.js项目开发中如虎添翼。
继续Triton的学习,这次来到 https://triton-lang.org/main/getting-started/tutorials/06-fused-attention.html 教程。也就是如何使用Triton来实现FlashAttention V2。对于FlashAttention和FlashAttention V2网上已经有非常多的介绍了,大家如果感兴趣的话我推荐FlashAttention V1看 《图解大模型计算加速系列:FlashAttention V1,从硬件到计算逻辑》https://zhuanlan.zhihu.com/p/669926191 这篇文章的讲解 以及 FlashAttention V2 看 《图解大模型计算加速系列:Flash Attention V2,从原理到并行计算》 https://mp.weixin.qq.com/s/5K6yNj23NmNLcAQofHcT4Q ,原理和公式推导都非常清晰,不过想一口气读完还是要花一些精力的。同时你也可以在 https://github.com/BBuf/how-to-optim-algorithm-in-cuda 找到更多相关资料(此外Meagtron-LM,DeepSpeed等训练Infra框架的迅速跟进也说明了FlashAttention这个系列工作影响之大),例如:
矩阵乘作为目前神经网络计算中占比最大的一个部分,其快慢会显著影响神经网络的训练与推断所消耗的时间。虽然现在市面上已经有非常多的矩阵乘的高效实现——如基于 cpu 的 mkl、基于 arm 设备的 ncnn 与 emll、基于 cuda 的 cublas ——掌握了矩阵乘优化的思路不仅能帮助你更好的理解编写高性能代码的一些基本原则,而且许多神经网络加速领域进阶的技巧如算子融合都是与矩阵乘交互从而达到更高的性能。
本文描述基本的32位X86汇编语言的一个子集,其中涉及汇编语言的最核心部分,包括寄存器结构,数据表示,基本的操作指令(包括数据传送指令、逻辑计算指令、算数运算指令),以及函数的调用规则。个人认为:在理
在详细介绍 TurboFan 的工作原理之前,我先简要介绍一下 V8 工作的high level流程。让我们来看看 V8 工作原理的简化图。
最近刚开始学习逆向(Reverse Engineering), 发现其学习曲线也是挺陡峭的, 而网上的 许多writeup文章主旨总结就六个字:“你们看我屌吗?” …几近炫技而对初学者不太友好. 所以
本文主要分析Go语言的panic/recover在AMD64 Linux平台下的实现,包括:
本文的会介绍一些关于V8内基于推测的优化的技术,以此来告诉大家,为什么需要TypeScript。
今天分享一篇匠心制作的《深入探索 Android 包体积优化》,内容比较多,因此分篇分享~
为了阅读Linux内核源代码,是需要一些汇编语言知识的。因为与架构相关的代码基本上都是用汇编语言编写的,所以掌握一些基本的汇编语言语法,能够更好地理解Linux内核源代码,甚至可以对各种架构的差异有一个更深入的理解。
线程初始化的时候,如果 JVM 启用了 TLAB(默认是启用的, 可以通过 -XX:-UseTLAB 关闭),则会初始化 TLAB。
2021年3月12日,植树节,腾讯发起了极客技术挑战赛,规则很简单,在页面上只有一个种树按钮,点击一下,就种下了一棵树。树种得越多越好,排行榜会根据树的数量排名。
领取专属 10元无门槛券
手把手带您无忧上云