开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

从C调用cuda函数

要从C语言程序调用CUDA函数，您需要遵循以下步骤：

首先，确保您已经安装了CUDA Toolkit（可以从NVIDIA官网下载）。
编写CUDA源文件（例如my_cuda_functions.cu）：

#include <cuda_runtime.h>

__global__ void my_cuda_function(int *input, int *output) {
    int index = blockIdx.x * blockDim.x + threadIdx.x;
    output[index] = input[index] * 2;
}

extern "C" {
    void launch_my_cuda_function(int *input, int *output, int size) {
        int blockSize = 256;
        int gridSize = (size + blockSize - 1) / blockSize;
        my_cuda_function<<<gridSize, blockSize>>>(input, output);
    }
}

在这个例子中，我们定义了一个名为my_cuda_function的CUDA内核函数，以及一个名为launch_my_cuda_function的包装函数，该函数接受输入数组、输出数组和数组大小作为参数。注意，我们使用extern "C"来防止C++的名称修饰，以便从C语言程序中调用此函数。

编译CUDA源文件：

在命令行中，使用nvcc编译器编译CUDA源文件：

nvcc -c my_cuda_functions.cu -o my_cuda_functions.o

这将生成一个名为my_cuda_functions.o的目标文件。

编写C源文件（例如main.c）：

#include<stdio.h>

void launch_my_cuda_function(int *input, int *output, int size);

int main() {
    int size = 1024;
    int input[size], output[size];

    // 初始化输入数组
    for (int i = 0; i< size; i++) {
        input[i] = i;
    }

    // 调用CUDA函数
    launch_my_cuda_function(input, output, size);

    // 打印输出数组
    for (int i = 0; i< size; i++) {
        printf("%d ", output[i]);
    }

    return 0;
}

在这个C源文件中，我们调用了launch_my_cuda_function函数，该函数是在CUDA源文件中定义的。

链接目标文件和C源文件：

在命令行中，使用gcc链接器将C源文件和CUDA目标文件链接到一起：

gcc main.c my_cuda_functions.o -o my_program -L/usr/local/cuda/lib64 -lcudart

这将生成一个名为my_program的可执行文件。

运行程序：

./my_program

这将运行您的C程序，该程序调用了CUDA函数来处理输入数组并输出结果。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

PyTorch自定义CUDA算子教程与运行时间分析

最近因为工作需要，学习了一波CUDA。这里简单记录一下PyTorch自定义CUDA算子的方法，写了一个非常简单的example，再介绍一下正确的PyTorch中CUDA运行时间分析方法。

02

【C++】基础：CUDA并行编程入门

当使用CUDA（Compute Unified Device Architecture）进行并行计算时，我们可以利用GPU（图形处理器）的强大性能来加速各种应用程序。

01

CUDA编程(机械编程)

参考了很多大神的内容，并非完全原创，只是为了查漏补缺，记录自己的学习过程。个人水平有限，错误难免，欢迎讨论。

02

DAY10:阅读CUDA异步并发执行中的Streams

我们正带领大家开始阅读英文的《CUDA C Programming Guide》,今天是第10天，我们用几天时间来学习CUDA 的编程接口，其中最重要的部分就是CUDA C runtime.希望在接下

02

[源码解析] PyTorch 如何使用GPU

在 PyTorch DataParallel 训练过程中，其会在多个GPU之上复制模型副本，然后才开始训练。笔者在分析过程中，发现如果不把一些GPU相关基础知识整理出来，很难理解DataParallel的这个复制模型的过程，遂有此文。

04

浅析GPU计算——cuda编程

在《浅析GPU计算——CPU和GPU的选择》一文中，我们分析了在遇到什么瓶颈时需要考虑使用GPU去进行计算。本文将结合cuda编程来讲解实际应用例子。（转载请指明出于breaksoftware的csdn博客）

02

CUDA跟OpenCV的混合编程，注意OpenCV需要重新编译

http://blog.csdn.net/wangyaninglm/article/details/39997113

03

三分钟教你如何PyTorch自定义反向传播

在前面两篇教程中，我们详细讲解了如何编写cuda算子，并用PyTorch进行调用，并且详细讲述了三种编译cuda算子的方式，具体可以看前面两篇：

02

pytorch 学习笔记之编写 C 扩展

该文介绍了如何使用 PyTorch 实现 LeNet-5 模型，包括模型结构、训练过程、使用方法等。同时，还提供了一些示例代码和注释，方便读者理解和实践。

00

从头开始进行CUDA编程：Numba并行编程的基本概念

PU（图形处理单元）最初是为计算机图形开发的，但是现在它们几乎在所有需要高计算吞吐量的领域无处不在。这一发展是由GPGPU(通用GPU)接口的开发实现的，它允许我们使用GPU进行通用计算编程。这些接口中最常见的是CUDA，其次是OpenCL和最近刚出现的HIP。

03

英伟达CUDA指令集架构（ISA）介绍

英伟达CUDA指令集架构（ISA）是CUDA技术的核心部分，它定义了GPU如何理解和执行程序中的指令。尽管详细的ISA细节通常对普通开发者来说是透明的，因为大多数开发者通过高级语言（如C/C++）编写CUDA代码，了解其基本原理有助于深入理解CUDA的工作方式和优化代码。

01

【社区投稿】给 NdArray 装上 CUDA 的轮子

Ndarry是Rust编程语言中的一个高性能多维、多类型数组库。它提供了类似 numpy 的多种多维数组的算子。与 Python 相比 Rust 生态缺乏类似 CuPy, Jax 这样利用CUDA 进行加速的开源项目。虽然 Hugging Face 开源的 candle 可以使用 CUDA backend 但是 candle 项瞄准的是大模型的相关应用。本着自己造轮子是最好的学习方法，加上受到 Karpathy llm.c 项目的感召（这个项目是学习如何编写 CUDA kernel 的最好参考之一），我搞了一个 rlib 库给 NdArray 加上一个跑在 CUDA 上的矩阵乘法。ndarray-linalg 库提供的点乘其中一个实现（features）是依赖 openblas 的，对于低维的矩阵性能可以满足需求，但是机器学习，深度学习这些领域遇到的矩阵动辄上千维，openblas 里古老的优化到极致的 Fortran 代码还是敌不过通过并行性开挂的CUDA。

01

MindSpore导入CUDA算子

当今众多的基于Python的AI框架（如MindSpore、PyTorch等）给了开发者非常便利的编程的条件，我们可以用Python的简单的语法写代码，然后由框架在后端自动编译成可以在GPU上高效计算的程序。而对于一些定制化比较高的算法，MindSpore也支持了相关的接口，允许开发者自己开发相应的CUDA算子（需要统一接口），然后编译成.so动态链接库，再用MindSpore内置的函数加载为本地算子。本文针对这种方案写一个简单的示例。

01

DAY36：阅读”执行空间&扩展修饰符

B. C Language Extensions B.1. Function Execution Space Specifiers Function execution space specifiers denote whether a function executes on the host or on the device and whether it is callable from the host or from the device. B.1.1. __device__ The __dev

03

CUDA 02 - 逻辑模型

CUDA逻辑模型是异构模型, 需要CPU和GPU协同工作. 在CUDA中, host和device是两个重要概念, host是指CPU及其内存, device是指GPU及其内存. 典型的CUDA程序的执行流程如下:

04

为什么深度学习模型在GPU上运行更快？

当前，提到深度学习，我们很自然地会想到利用GPU来提升运算效率。GPU最初是为了加速图像渲染和2D、3D图形处理而设计的。但它们强大的并行处理能力，使得它们在深度学习等更广泛的领域中也发挥了重要作用。

01

AI部署篇 | CUDA学习笔记1：向量相加与GPU优化(附CUDA C代码)

GPU并不是一个独立运行的计算平台，而需要与CPU协同工作，也可以把GPU看成是CPU的协处理器，因此当在说GPU并行计算时，其实是指的基于CPU+GPU的异构计算架构。在异构计算架构中，GPU与CPU通过PCIe总线连接在一起进行协同工作，CPU所在位置称为为主机端（host），而GPU所在位置称为设备端（device），如下图所示。

02

快来操纵你的GPU| CUDA编程入门极简教程

2006年，NVIDIA公司发布了CUDA（http://docs.nvidia.com/cuda/），CUDA是建立在NVIDIA的CPUs上的一个通用并行计算平台和编程模型，基于CUDA编程可以利用GPUs的并行计算引擎来更加高效地解决比较复杂的计算难题。近年来，GPU最成功的一个应用就是深度学习领域，基于GPU的并行计算已经成为训练深度学习模型的标配。目前，最新的CUDA版本为CUDA 9。

06

DAY 84:阅读 Driver API和CUDA Context

This appendix assumes knowledge of the concepts described in CUDA C Runtime.

04

Python 提速大杀器之 numba 篇

你是不是曾经有这样的苦恼，python 真的太好用了，但是它真的好慢啊（哭死) ; C++ 很快，但是真的好难写啊，此生能不碰它就不碰它。老天啊，有没有什么两全其美的办法呢？俗话说的好：办法总是比困难多，大家都有这个问题，自然也就有大佬来试着解决这个问题，这就请出我们今天的主角: numba

02

【BBuf的cuda学习笔记十】Megatron-LM的gradient_accumulation_fusion优化

这篇文章来解析一下Megaton-LM涉及到的一个优化gradient_accumulation_fusion。这里fusion的意思是在gemm接口中会将当前的结果累加到先前计算的梯度上，所有这些都在一个操作中完成，可以避免多次访问global memory提升算子的带宽。下面解析一下这个优化的调度逻辑和cuda实现。

03

【知识】详细介绍 CUDA Samples 示例工程

CUDA 是“Compute Unified Device Architecture (计算统一设备架构)”的首字母缩写。CUDA 是一种用于并行计算的 NVIDIA 架构。使用图形处理器也可以提高 PC 的计算能力。

01

用 Numba 加速 Python 代码，变得像 C++ 一样快

注意：这篇文章的 Jupyter Notebook 代码在我的 Github 上：SpeedUpYourAlgorithms-Numba

03

DAY56：阅读Dynamic Global Memory Allocation and Operations

Dynamic global memory allocation and operations are only supported by devices of compute capability 2.x and higher.

03

python调用英伟达GPU加速方法

调用GPU的本质其实是调用CUDA的dll 如果你对CUDA编程不熟悉，可以参考CUDA并行编程概述生成CUDA dll 调用显卡的方法是调用CUDA的dll，因此首先要使用CUDA生成dll 下面是示例CUDA代码 #include "cuda_runtime.h" #include "device_launch_parameters.h" #include <stdio.h> #include <iostream> using namespace std; __global__ void

03

DAY5:阅读 CUDA C编程接口之CUDA C runtime

我们正带领大家开始阅读英文的《CUDA C Programming Guide》,今天是第五天，我们用几天时间来学习CUDA 的编程接口，其中最重要的部分就是CUDA C runtime.希望在接下来的95天里，您可以学习到原汁原味的CUDA，同时能养成英文阅读的习惯。本文共计1273字，阅读时间20分钟 3.2. CUDA C Runtime The runtime is implemented in the cudart library, which is linked to the applic

04

GPU加速03:多流和共享内存—让你的CUDA程序如虎添翼的优化技术！

阅读完前两篇文章后，相信读者应该能够将一些简单的CPU代码修改成GPU并行代码，但是对计算密集型任务，仅仅使用前文的方法还是远远不够的，GPU的并行计算能力未能充分利用。本文将主要介绍一些常用性能优化的进阶技术，这部分对编程技能和硬件知识都有更高的要求，建议读者先阅读本系列的前两篇文章，甚至阅读英伟达官方的编程手册，熟悉CUDA编程的底层知识。当然，将这些优化技巧应用之后，程序将获得更大的加速比，这对于需要跑数小时甚至数天的程序来说，收益非常之大。

02

DAY70：阅读API Reference

我们正带领大家开始阅读英文的《CUDA C Programming Guide》,今天是第70天，我们正在讲解CUDA 动态并行，希望在接下来的30天里，您可以学习到原汁原味的CUDA，同时能养成英文阅读的习惯。

04

NVIDIA Docker CUDA容器化原理分析

在AI应用容器化时，会碰到cuda failure 35错误，查了下是跟CUDA驱动版本有关。但有时同一个镜像在不同环境运行仍会有问题，查了下宿主机的显卡驱动版本，也没发现什么问题。为了彻底解决这类问题，了解了CUDA API的体系结构，并对NVIDIA Docker实现CUDA容器化原理进行了分析。

04

讲解CUBLAS_STATUS_NOT_INITIALIZED解决

在使用CUDA加速库时，特别是在使用CUBLAS库进行GPU加速的线性代数运算时，有时我们可能会遇到CUBLAS_STATUS_NOT_INITIALIZED错误。这个错误通常表示CUBLAS库未正确初始化导致的问题。在本篇文章中，我们将深入探讨这个错误的原因，并给出解决方法。

01

解决cpp_extension dist must be a Distribution instance

当我们在使用PyTorch的cpp_extension扩展时，有时可能会遇到以下错误信息："dist must be a Distribution instance"。这个错误通常发生在我们尝试使用cpp_extension构建和安装扩展时。

03

《GPU高性能编程 CUDA实战》(CUDA By Example)读书笔记

写在最前这本书是2011年出版的，按照计算机的发展速度来说已经算是上古书籍了，不过由于其简单易懂，仍旧被推荐为入门神书。先上封面：由于书比较老，而且由于学习的目的不同，这里只介绍了基础

05

CUDA error: device-side assert triggered

CUDA是一种通用的并行计算平台和编程模型，可以使用CUDA C/C++编写高性能的GPU加速代码。然而，在使用CUDA进行开发时，有时会遇到"cuda error: device-side assert triggered"的错误。本文将介绍这个错误的原因，以及如何解决它。

01

Python的GPU编程实例——近邻表计算

GPU加速是现代工业各种场景中非常常用的一种技术，这得益于GPU计算的高度并行化。在Python中存在有多种GPU并行优化的解决方案，包括之前的博客中提到的cupy、pycuda和numba.cuda，都是GPU加速的标志性Python库。这里我们重点推numba.cuda这一解决方案，因为cupy的优势在于实现好了的众多的函数，在算法实现的灵活性上还比较欠缺；而pycuda虽然提供了很好的灵活性和相当高的性能，但是这要求我们必须在Python的代码中插入C代码，这显然是非常不Pythonic的解决方案。因此我们可以选择numba.cuda这一解决方案，只要在Python函数前方加一个numba.cuda.jit的修饰器，就可以在Python中用最Python的编程语法，实现GPU的加速效果。

02

PyTorch中的C++扩展实现

在正式开始前，我们需要了解 PyTorch 如何自定义module。这其中，最常见的就是在 python 中继承torch.nn.Module，用 PyTorch 中已有的 operator 来组装成自己的模块。这种方式实现简单，但是，计算效率却未必最佳，另外，如果我们想实现的功能过于复杂，可能 PyTorch 中那些已有的函数也没法满足我们的要求。这时，用 C、C++、CUDA 来扩展 PyTorch 的模块就是最佳的选择了。

00

CUDA并行编程概述

CUDA是英伟达推出的GPU架构平台，通过GPU强大的并行执行效率，为计算密集型应用加速，CUDA文件以.cu结尾，支持C++语言编写，在使用CUDA前需要下载 CUDA Toolkit

01

解决MSB3721 命令““C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v9.0\bin\nvcc.e

当我们在使用NVIDIA GPU Computing Toolkit的CUDA进行编译时，有时会遇到以下错误消息：

02

DAY69：阅读API Errors and Launch Failures

我们正带领大家开始阅读英文的《CUDA C Programming Guide》,今天是第69天，我们正在讲解CUDA 动态并行，希望在接下来的31天里，您可以学习到原汁原味的CUDA，同时能养成英文阅读的习惯。

02

深度学习模型部署简要介绍

近几年来，随着算力的不断提升和数据的不断增长，深度学习算法有了长足的发展。深度学习算法也越来越多的应用在各个领域中，比如图像处理在安防领域和自动驾驶领域的应用，再比如语音处理和自然语言处理，以及各种各样的推荐算法。如何让深度学习算法在不同的平台上跑的更快，这是深度学习模型部署所要研究的问题。

02

MindSpore自定义算子中的张量维度问题

在前面的几篇博客中，我们介绍了MindSpore框架下使用CUDA来定义本地算子的基本方法，以及配合反向传播函数的使用，这里主要探讨一下MindSpore框架对于CUDA本地算子的输入输出的规范化形式。

01

更新太快，CUDA 12.0工具包正式发布啦

一下子，CUDA 12.0就出来啦！NVIDIA表示：此版本是多年来的第一个主要版本，它侧重于新的编程模型和通过新硬件功能加速 CUDA 应用程序。

01

深度学习模型部署简要介绍

近几年来，随着算力的不断提升和数据的不断增长，深度学习算法有了长足的发展。深度学习算法也越来越多的应用在各个领域中，比如图像处理在安防领域和自动驾驶领域的应用，再比如语音处理和自然语言处理，以及各种各样的推荐算法。如何让深度学习算法在不同的平台上跑的更快，这是深度学习模型部署所要研究的问题。

02

CUDA是什么-CUDA简介「建议收藏」

在大家开始深度学习时，几乎所有的入门教程都会提到CUDA这个词。那么什么是CUDA？她和我们进行深度学习的环境部署等有什么关系？通过查阅资料，我整理了这份简洁版CUDA入门文档，希望能帮助大家用最快的时间尽可能清晰的了解这个深度学习赖以实现的基础概念。

04

DAY14：阅读CUDA C runtime之错误检查和Call stack

今天这个部分讲完后，下期将开始讲解 Texture and Surface Memory 3.2.9. Error Checking All runtime functions return an error code, but for an asynchronous function (see Asynchronous Concurrent Execution), this error code cannot possibly report any of the asynchronous errors

03

深度解决添加复杂数据增强导致训练模型耗时长的痛点

最近在训练大规模数据时，遇到一个【添加复杂数据增强导致训练模型耗时长】的问题，在学习了 MMDetection 和 MMCV 底层关于 PyTorch 的 CUDA/C++ 拓展之后，我也将一些复杂数据增强实现了 GPU 化，并且详细总结了一些经验，分享此篇文章和工程，希望与大家多多交流。

02

DAY54：阅读Assertion

Assertion is only supported by devices of compute capability 2.x and higher. It is not supported on MacOS, regardless of the device, and loading a module that references the assert function on Mac OS will fail.

03

OpenCV高性能计算基础介绍

原文：https://zhuanlan.zhihu.com/p/429109879

02

2020-10-21CUDA从入门到精通

在老板的要求下，本博主从2012年上高性能计算课程开始接触CUDA编程，随后将该技术应用到了实际项目中，使处理程序加速超过1K，可见基于图形显示器的并行计算对于追求速度的应用来说无疑是一个理想的选择。还有不到一年毕业，怕是毕业后这些技术也就随毕业而去，准备这个暑假开辟一个CUDA专栏，从入门到精通，步步为营，顺便分享设计的一些经验教训，希望能给学习CUDA的童鞋提供一定指导。个人能力所及，错误难免，欢迎讨论。

02

“暑”你当学霸|2022 CUDA线上训练营Day 1学员笔记分享

7月4日，2022 CUDA on Arm Platform线上训练营开始第一天的课程。第一天的课程，NVIDIA开发者社区何琨老师重点讲解: 基于Arm的Jetson开发环境介绍，Arm Linux系统简介（1.1理论课+实验课）介绍实验平台，介绍Linux编译的基本技巧，介绍基本的开发环境。实验课：Makefile 编写规范。 GPU架构及异构计算（1.2）介绍GPU架构以及异构计算的基本原理介绍GPU硬件平台介绍基于Arm的嵌入式平台GPU架构和编程模型之间的关系，介绍

03

大模型与AI底层技术揭秘 (6) 分割与征服

二战结束后，考虑到二战为人类带来的巨大灾难，爱因斯坦与特斯拉联手研发了一台时空穿梭机，并回到了1924年，除掉了由于啤酒馆政变入狱的希特勒，纳粹德国不复存在，但这却将欧洲拖入了新的血雨腥风，使得苏联统治了整个欧洲。不久，斯大林被Nod兄弟会派来的女刺客暗杀……

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭