C/C++ 工程提供 Python 接口,有利于融合进 Python 的生态。现在 Python 在应用层,有其得天独厚的优势。尤其因为人工智能和大数据的推波助澜, Python 现在以及未来,将长期是最流行的语言之一。
可以把 pybind11 看成是一个胶水,它可以把 C/C++ 语言定义的对象,方便的导出成 python 认识的格式,这样 python 就能直接用了。
pybind11是一个轻量级的“Header-only”的库,它将C++的类型暴露给Python,反之亦然。主要用于将已经存在的C++代码绑定到Python。pybind11的目标和语法都类似于boost.python库。利用编译时的内省来推断类型信息。
IEG 自研引擎 CE 最早支持的脚本是 Lua, 在性能方面, Lua是有一定优势的. 但除此之外的工程组织, 以及现在即将面临的 AI 时代的语料问题, Lua 都很难很好的解决. 在这种情况下, 支持工程组织和语料更丰富的 Python, 就成了优先级较高的任务了. 由于Python的虚拟机以及相关的C API较复杂, 我们选择的方式是将 pybind11 - 一个Python社区知名度比较高, 实现质量也比较高的 Python 导出库与我们引擎的 C++ 反射适配的整合方式, 这样可以在工作量较小的情况下, 支持好 Python 脚本, 同时也能比较好的利用上引擎的C++反射实现. 在做好整合工作前, 我们肯定需要先较深入的了解 pybind11 的相关实现机制, 这也是本篇主要讲述的内容.
编译输出的文件名必须与PYBIND11_MODULE(tradecpt, module)的tradecpt保持一致
目前AI算法开发特别是训练基本都以Python为主,主流的AI计算框架如TensorFlow、PyTorch等都提供了丰富的Python接口。有句话说得好,人生苦短,我用Python。但由于Python属于动态语言,解释执行并缺少成熟的JIT方案,计算密集型场景多核并发受限等原因,很难直接满足较高性能要求的实时Serving需求。在一些对性能要求高的场景下,还是需要使用C/C++来解决。但是如果要求算法同学全部使用C++来开发线上推理服务,成本又非常高,导致开发效率和资源浪费。因此,如果有轻便的方法能将Python和部分C++编写的核心代码结合起来,就能达到既保证开发效率又保证服务性能的效果。本文主要介绍pybind11在腾讯广告多媒体AI Python算法的加速实践,以及过程中的一些经验总结。
为什么又要开一个新坑?原因是,最近在做的项目都是和MLIR有关,并且发现自己已经在MLIR的研发道路上越走越远了。刚刚好前段时间大家都在跟风各种GPT,就去看了看openai目前放出来的产品,无意间发现了triton这把瑞士军刀。其实早在一些年前就听过triton,那会的triton代码还没有被MLIR进行重构,代码内部的某些逻辑写的也没有看的很明白,结合"Triton: An Intermediate Language and Compiler for Tiled Neural Network Computations"这篇论文其实也没有看出太多新的东西。这次在重新捡起来看的时候,发现其中很多不错的优化,其实还是抱着学习如何设计MLIR的Dialect来在GPU上生成高性能的代码为初衷,来对triton进行一个深入的分析。
「上一篇教程:」 https://godweiyang.com/2021/03/18/torch-cpp-cuda
最近在训练大规模数据时,遇到一个【添加复杂数据增强导致训练模型耗时长】的问题,在学习了 MMDetection 和 MMCV 底层关于 PyTorch 的 CUDA/C++ 拓展之后,我也将一些复杂数据增强实现了 GPU 化,并且详细总结了一些经验,分享此篇文章和工程,希望与大家多多交流。
深度强化学习(Deep Reinforcement Learning,DRL)一直是近年来人工智能的一些重大突破的核心。然而,尽管 DRL 有了很大的进步,但由于缺乏工具和库,DRL 方法在主流解决方案中仍然难以应用。因此,DRL 仍然主要是以研究形式存在,并没有在现实世界看到许多采用机器学习的应用方案;而解决这个问题就需要更好的工具和框架。
当我们编写 C++ 库的封装器通常涉及使用一种跨语言的接口技术,比如使用C接口或者使用特定的跨语言库,比如SWIG(Simplified Wrapper and Interface Generator)或者Pybind11。这里我将简要介绍如何使用Pybind11来封装一个C++库,以便在Python中使用。
它使用 xmake.lua 维护项目构建,相比 makefile/CMakeLists.txt,配置语法更加简洁直观,对新手非常友好,短时间内就能快速入门,能够让用户把更多的精力集中在实际的项目开发上。
这段时间除了开发算子之外,还在做一些推荐系统相关的工作,这期间主要看的是HugeCTR的代码,其性能优异,系统不复杂,代码结构较扁平,整体还是比较清晰。在这段时间看源码的过程中也算是对HugeCTR有一点了解,这篇博客主要梳理下HugeCTR代码的结构,以及他在MLPERF中做的一些优化。
在正式开始前,我们需要了解 PyTorch 如何自定义module。这其中,最常见的就是在 python 中继承torch.nn.Module,用 PyTorch 中已有的 operator 来组装成自己的模块。这种方式实现简单,但是,计算效率却未必最佳,另外,如果我们想实现的功能过于复杂,可能 PyTorch 中那些已有的函数也没法满足我们的要求。这时,用 C、C++、CUDA 来扩展 PyTorch 的模块就是最佳的选择了。
大家好,我是Zheng_Bicheng。很高兴和大家分享黑客松比赛中“No.80瑞芯微RK3588:通过Paddle2ONNX打通5个飞桨模型的部署”任务的一些心得体会。 RKNPU2是瑞芯微Rockchip推出的针对RK356X/RK3588/RV1103/RV1106的C++推理工具。在参加黑客松比赛时,FastDeploy仓库[1]还没有集成RKNPU2的引擎。开发者需要使用RKNPU2从头编写代码。在参加完黑客松之后,我为FastDeploy仓库贡献了RKNPU2的后端推理引擎的代码,现在能直接使用FastDeploy快速开发基于RKNPU2的代码。本次教程将以贡献SCRFD模型[2]为例,教你如何给FastDeploy贡献代码。
使用cython编译pyx文件输出c和h文件(带cdef public等定义才会输出头文件),pyx添加
RxSwift 是 Reactive Extensions 标准的 Swift 特定实现,它提供了 Observable 接口来表达计算的通用抽象。该项目旨在为 Rx API 提供真正以 Swift 为先的 API,并允许轻松地组合异步操作和数据流。其主要功能包括 KVO 观察、异步操作、UI 事件等各种数据流都统一封装成序列进行处理,使得 Rx 简单、优雅且强大。
作为 C++ 中与 Eigen 并驾齐驱的一大科学计算库, Armadillo 因其简单易用的特性深受广大程序员和科学家的喜爱,也获得了 Facebook、NASA、Boeing、Siemens、Deutsche Bank、MIT、 CMU、Stanford 等公司和高校的广泛使用。此外, Armadillo 的主作者和 Rcpp 的主作者联合开发了 RcppArmadillo,作为 R 语言中的主要科学计算库,在 Github 每月下载量高达 97.2 万次。除此以外,Armadillo 还在著名开源机器学习库 mlpack 中被用作主要的依赖库之一, 获得了极高的知名度。
Tensorflow官方在2018年宣布,正式发布支持树莓派版本的Tensorflow,编者开始直接用:
本科学管理,被诸如《市场营销学》这类课程的作业搞得焦头烂额时,就会羡慕学计算机(或更广一点如「工科」)的同学:工程问题,有绝对的标准与尺度;不像这种经管的作业,没有明确的基准,辛苦写好的作业到底能得多少分,怕是只有老师的心情说的算。
之前的文章中:Pytorch拓展进阶(一):Pytorch结合C以及Cuda语言。我们简单说明了如何简单利用C语言去拓展Pytorch并且利用编写底层的.cu语言。这篇文章我们说明如何利用C++和Cuda去拓展Pytorch,同样实现我们的自定义功能。
今天在研究PyTorch中Tensor的一些操作的时候,发现其底层Tensor的操作都是用C++写的,并使用pybind11进行C++和Python的桥接。所以,我就想着探索一下Python中如何调用C++代码?
作者|Sam Liu,Second State 工程师,CNCF WasmEdge 维护者 & Miley Fu,CNCF 大使,WasmEdge DevRel
今天,PyTorch 1.5 宣布上线,此版本主要包括几个新的 API 的添加和改进。新版 PyTorch 包括对 C++前端的重大更新,用于计算机视觉模型的「channels last」存储格式,以及用于模型并行训练的分布式 RPC 框架的稳定版本。该版本还提供了针对自动求导机制中黑塞和雅可比的新 API,以及受 pybind 启发,允许用户创建自定义 C++类的一个 API。另外,torch_xla 已可在 PyTorch 1.5 版中使用,并在 1.5 版本中进行了测试,可提供成熟的 Cloud TPU 体验。
最近因为工作需要,学习了一波CUDA。这里简单记录一下PyTorch自定义CUDA算子的方法,写了一个非常简单的example,再介绍一下正确的PyTorch中CUDA运行时间分析方法。
Matterport3DSimulator 可以使用视觉信息(RGB-D 图像)开发与真实 3D 环境交互的 AI Agent,它主要应用于深度强化学习的研究以及自然语言处理和机器人技术的结合技术。
Wannier函数是周期性体系里和分子轨道对应的概念。很多固体物理教材都详细介绍了Wannier函数,如南京大学教材《固体理论》[1]的第八章。Wannier函数定义为Bloch函数的一个傅立叶变换:
这里有实战项目、入门教程、黑科技、开源书籍、大厂开源项目等,涵盖多种编程语言 Python、Java、Go、C/C++、Swift...让你在短时间内感受到开源的魅力,对编程产生兴趣!
本周我们在社区中精选出开发者在使用PaddlePaddle过程中遇到的技术难题,希望能帮助广大用户在Linux安装过程中解答疑惑。
在之前的分享中,我们介绍了 torch jit 是如何通过 trace 转换模型,使用 subgraph rewriter 优化计算图,以及如何使用 aliasDB 来避免别名造成的优化错误。通过这些步骤,由 Python 描述的模型变成了更适合部署的计算图。这次分享我们将目标转向运行时,看看 PyTorch 如何使用生成的计算图进行推理。
CDLL(“dll_name.dll”,winmode=0)加载dll,还有WINDLL、PYDLL
PyTorch 提供了大量与神经网络、任意张量代数、数据处理和其他目的相关的操作。然而,您可能仍然需要更定制化的操作。例如,您可能想使用在论文中找到的新型激活函数,或者实现您作为研究的一部分开发的操作。
8 月 5 日晚,GraphVite 开发者 @唐建(MILA 实验室助理教授,曾获 ICML 2014最佳论文、WWW16 最佳论文提名) 在社交平台上公布了这个图表示学习系统开源的消息。他表示,在百万节点的图上,使用该系统仅需 1 分钟左右就可以学习节点的表示。该系统的目标是为广泛的嵌入方法系列提供通用和高性能的框架,这将非常有利于图学习算法的研究与部署。雷锋网 AI 开发者将其具体介绍及相关地址编译如下。
大家好,我叫Kulinseth,我在苹果的MPS团队工作,今天我将讨论PyTorch中MPS后端的改进。接下来,我将介绍MPS后端进入Beta Stage的新功能。我们添加了一些新功能,如支持分析器、自定义内核和MPS开发者API,这些都是MPS后端的新特性。
在Alphabet大额资金支持下,DeepMind一直以实现AGI为为目标的公司在各个领域不断的尝试,做出了很多基础研究。其中最为出名的当属在强化学习方面的探索,从2013年的Atari游戏到AlphaGo的横空出世,再到终极AlphaZero的实现,完成了一次次巨大的挑战,但一个完善的环境对强化学习的发展来说是非常重要的,而DeepMind就拥有这样一个杀手锏。
如果你制作视频,一定会碰到配乐的问题。虽然网上找的一些免费配乐能勉强满足需求,但是如果有个专属的配乐生成器,根据你的视频画面生成对应配乐是不是不错呢?audiocraft 也许能帮助你,把相关画面用文本描述一下,它就能生成相对应的音乐。
https://developer.nvidia.com/zh-cn/embedded/learn/get-started-jetson-nano-devkit
不知道大家在使用 MMCV 的过程中有没有遇到这种情况:MMCV 没有提供自己需要的 CPU/CUDA 算子,于是希望提一个 PR(Pull Request),将这个算子加入 MMCV,但是又不知从何处下手。本文以最简单的 TensorAdd 算子为例,向大家展示为 MMCV 贡献算子的全过程,希望能够帮助大家更好地理解 MMCV 算子的
在分析 SecDB、Athena、Quartz 几个实时金融与风险分析平台的时候,发现了 Perspective —— 一个 FinTech 开源基金会 FinOS 旗下开源的交互式分析和可视化组件库,由摩根大通(J.P. Morgan Chase)公司开源出去的流式数据可视化组件库。所以,从某种意义上来说也是《金融 Python 即服务:业务自助的数据服务模式》 的后续展开,也可以算是低延迟架构的后续探索。
今天给我们的小主角安装tensorflow,一直为没舍得让它跑高算力东西,今天安装一下。
SWIG (Simplified Wrapper and Interface Generator,简化封装和接口生成器) 是一个开源工具,用于将C/C++代码转换为各种高级编程语言的接口代码。它允许开发人员在Python等脚本语言中直接使用底层的C/C++代码,以提高开发效率和灵活性。
假设一个团队有一个项目经理和三个程序员,甲方正在疯狂地提各种需求,然后项目经理要做的就是根据每位程序员的专长,将不同的需求分配给不同的程序员来做,但是项目经理自己不会去实现需求,此时我们可以说,项目经理就是一个 Dispatcher。
场景描述:今日凌晨,一场技术直播引来了无数人的围观,甚至不惜肝到天明,到底是什么让开发者如此激动?原来是一年一度的 TensorFlow 技术峰会,这场线上直播的盛会,带来了哪些关于 TensorFlow 的信息,本文就将从几个重点进行一次深入的回顾。
测量单个细胞中的基因活性需要破坏这些细胞以读取其内容,这使得研究动态过程和了解细胞命运决定具有挑战性。La Manno et al. (Nature, 2018)[1]引入了 RNA 速率的概念,利用新转录的未剪接的前体 mRNA 和成熟的剪接 mRNA 可以在常见的单细胞 RNA-seq 流程中区分的事实,可以恢复定向动态信息,前者可通过内含子的存在检测。这种不仅测量基因活性,而且测量它们在单个细胞中的变化(RNA 速率)的概念,开辟了研究细胞分化的新方法。最初提出的框架将速率作为观察到的剪接和未剪接 mRNA 的比率与推断的稳态的偏差。如果违反了共同剪接速率的中心假设和对具有稳态 mRNA 水平的完整剪接动力学的观察,则会出现速率估计错误。
最近在整理python-based的benchmark代码,反过来在NV的GPU上又把Triton装了一遍,发现Triton的github repo已经给出了对应的llvm的commit id以及对应的编译细节,然后跟着走了一遍,也顺利的安装成功,只需要按照如下方式即可完成NV GPU上的安装,
视频已成为内容和广告的主要媒介形式,但目前的视频内容理解或审核等AI能力,主流依然是先抽帧,再基于图像帧做特征提取和预测。抽帧由于步骤多、计算重,在视频AI推理场景很容易成为性能瓶颈。因此,有必要使用硬件加速等手段,来对视频抽帧做极致的性能优化。
同时,由于 Python 绑定下的 C ++代码,它使开发者可以在数十行代码中实现较高的 GPU 利用率。解码后的视频帧以 NumPy 数组或 CUDA 设备指针的形式公开,以简化交互过程及其扩展功能。
在芯片性能提升有限的今天,分布式训练成为了应对超大规模数据集和模型的主要方法。本文将向你介绍流行深度学习框架 PyTorch 最新版本( v1.5)的分布式数据并行包的设计、实现和评估。
领取专属 10元无门槛券
手把手带您无忧上云