CUDA编译器nvcc的用法用例与问题简答

本文使用nvcc版本:Cuda compilation tools, release 5.5, V5.5.0


1.nvcc支持OpenMP

书写makefile时,使用-fopenmp命令选项时会报nvcc fatal : Unknown option ‘fopenmp’错误。正确的编译选项是:

-Xcompiler -fopenmp

2.nvcc指定GPU计算能力

在内核中调用原子函数(例如atomicAdd)时,如果编译的时候出现”error: identifier “atomicAdd” is undefined”;

那么首先要确定的GPU显卡计算能力是否在1.1或者1.1以上,原子性操作在低端的计算能力 GPU 是不支持的,1.1 以上的计算能力才支持全局内存的原子操作,1.2 以上的计算能力才支持共享内存的原子操作。

使用原子操作的话在编译的时候需要指明GPU的计算能力,添加如下nvcc的编译选项:

-gencode=arch=compute_35,code=\"sm_35,compute_35\"

3.nvcc提示警告

使用 nvcc -Wall时会提示nvcc fatal : Unknown option ‘Wall’的错误。原来nvcc默认开启所有警告,如果想禁止警告,使用-w编译选项。

具体使用nvcc --help查看帮助。


附1 nvcc编译CUDA实际项目makefile

# Check for 32-bit vs 64-bit
PROC_TYPE = $(strip $(shell uname -m | grep 64))

ifeq ($(PROC_TYPE),)
    FLAGS+= -m32
else
    FLAGS+= -m64
endif

#cuda install path
CUDA_INSTALL_PATH ?= /usr/local/cuda-5.5

#environment variable VPATH
VPATH=./include

#gpu architecture
GENCODE_SM35 := -gencode=arch=compute_35,code=\"sm_35,compute_35\"

CXX=nvcc
CXXFLAGS=-g -Xcompiler -fopenmp -DDEBUG
CXXFLAGS+=$(FLAGS) $(GENCODE_SM35)

#source files
CXXFILES = $(wildcard src/*.cpp)
CUFILES  =$(wildcard src/*.cu)

#header files
INCLUDES= -Iinclude -I${CUDA_INSTALL_PATH}/include

#static lib
LIBDIR=./lib
LIBS=$(LIBDIR)/libxmlextern.a

#preprocess
OBJDIR=./obj
NOTDIR_CXXFILES=$(notdir ${CXXFILES})
NOTDIR_CUFILES=$(notdir ${CUFILES})
OBJS=$(addprefix ./obj/,$(patsubst %.cpp,%.o,${NOTDIR_CXXFILES})) 
OBJS+=$(addprefix ./obj/,$(patsubst %.cu,%.o,${NOTDIR_CUFILES})) 

#compile
DICUALG.out:${OBJS}
    $(MAKE) -C ./src/xmlparser
    $(CXX) -Xcompiler -fopenmp -o $@ $^ $(LIBS) 

${OBJDIR}/%.o :src/%.cpp
    $(CXX) ${CXXFLAGS} ${INCLUDES} -c  $< -o $@

${OBJDIR}/%.o :src/%.cu
    $(CXX) ${CXXFLAGS} ${INCLUDES} -c  $< -o $@

${OBJDIR}/md5.o ${OBJDIR}/common.o:macro.h
${OBJDIR}/GPU_Decomposer3.o:cnre.h gpu_define3.h global.h 

.PHONY:clean
clean:
    rm obj/* ./DICUALG.out

具体不详细解释,有问题可留言提问。


参考文献

[1]NVCC命令编译选项.http://blog.csdn.net/k346k346/article/details/50377714 [2]http://www.tuicool.com/articles/uIj2q2

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏日暮星辰

phpmyadmin与php.ini中的socket配置问题

昨天在安装完新的perconesql数据后,发现phpmyadmin不能正常连接了。一时查来查去不知出了什么问题。

1164
来自专栏游戏杂谈

xcode中嵌入framework(接入快用最新SDK遇到的问题)

但xcode设置中并没有找到Embed Frameworks这个选项,使用以下方式添加

1044
来自专栏高性能服务器开发

+从零实现一款12306刷票软件1.4

这里还有个注意细节,就是通过POST请求发送的数据需要对一些符号做URL Encode,这个我在上一篇文章《从零实现一个http服务器》也详细做了介绍,还不清楚...

2102
来自专栏一只程序汪的自我修养

手把手教你用.NET Core写爬虫

自从上一个项目58HouseSearch从.NET迁移到.NET core之后,磕磕碰碰磨蹭了一个月才正式上线到新版本。

31512
来自专栏Android源码框架分析

Android权限管理原理(4.3-6.x)

Android系统在MarshMallow之前,权限都是在安装的时候授予的,虽然在4.3时,Google就试图在源码里面引入AppOpsManager来达到动态...

2627
来自专栏雨过天晴

原 荐 Docker中使用GPU

8453
来自专栏FreeBuf

新手指南:DVWA-1.9全级别教程之Brute Force

目前,最新的DVWA已经更新到1.9版本 ,而网上的教程大多停留在旧版本,且没有针对DVWA high级别的教程,因此萌发了一个撰写新手教程的想法,错误的地方还...

3649
来自专栏MasiMaro 的技术博文

socket模型处理多个客户端

最近学完了简单的socket编程,发现其实socket的网络编程其实并没有什么难度,只是简单的函数调用,记住客户端与服务端的步骤,写起来基本没有什么问题。 ...

2212
来自专栏JackieZheng

Spring实战——XML和JavaConfig的混合配置

前言 看了园龄已经两年多了,再不能写完内容直接点击发布,留下一片密密麻麻的文字让别人看的头昏脑涨。所以现在每次写完主要内容后,还需要对于格式稍稍调整下。那么有没...

2916
来自专栏图像识别与深度学习

2018-08-15python通过蓝牙接megpi主板

Equipment Class: DXX - Part 15 Low Power Communication Device Transmitter

2782

扫码关注云+社区