DAY21:阅读CUDA Array

3.2.11.3. CUDA Arrays

CUDA arrays are opaque memory layouts optimized for texture fetching. They are one dimensional, two dimensional, or three-dimensional and composed of elements, each of which has 1, 2 or 4 components that may be signed or unsigned 8-, 16-, or 32-bit integers, 16-bit floats, or 32-bit floats. CUDA arrays are only accessible by kernels through texture fetching as described in Texture Memory or surface reading and writing as described in Surface Memory.

3.2.11.4. Read/Write Coherency

The texture and surface memory is cached (see Device Memory Accesses) and within the same kernel call, the cache is not kept coherent with respect to global memory writes and surface memory writes, so any texture fetch or surface read to an address that has been written to via a global write or a surface write in the same kernel call returns undefined data. In other words, a thread can safely read some texture or surface memory location only if this memory location has been updated by a previous kernel call or memory copy, but not if it has been previously updated by the same thread or another thread from the same kernel call.

3.2.12. Graphics Interoperability

Some resources from OpenGL and Direct3D may be mapped into the address space of CUDA, either to enable CUDA to read data written by OpenGL or Direct3D, or to enable CUDA to write data for consumption by OpenGL or Direct3D.

A resource must be registered to CUDA before it can be mapped using the functions mentioned in OpenGL Interoperability and Direct3D Interoperability. These functions return a pointer to a CUDA graphics resource of type struct cudaGraphicsResource. Registering a resource is potentially high-overhead and therefore typically called only once per resource. A CUDA graphics resource is unregistered using cudaGraphicsUnregisterResource(). Each CUDA context which intends to use the resource is required to register it separately.

Once a resource is registered to CUDA, it can be mapped and unmapped as many times as necessary using cudaGraphicsMapResources() and cudaGraphicsUnmapResources().cudaGraphicsResourceSetMapFlags() can be called to specify usage hints (write-only, read-only) that the CUDA driver can use to optimize resource management.

A mapped resource can be read from or written to by kernels using the device memory address returned by cudaGraphicsResourceGetMappedPointer() for buffers andcudaGraphicsSubResourceGetMappedArray() for CUDA arrays.

Accessing a resource through OpenGL, Direct3D, or another CUDA context while it is mapped produces undefined results. OpenGL Interoperability and Direct3D Interoperability give specifics for each graphics API and some code samples. SLI Interoperability gives specifics for when the system is in SLI mode.

本文备注/经验分享:

CUDA Array——

CUDA Array是一种为纹理拾取优化过布局的存储,具体存储布局对用户来说是不透明的。它由1维,2维,或者3维的元素(纹元)构成,每个元素可以有1个,2个,或者4个分量(注意并没有3个分量的元素)。而每个分量则是8-bit, 16-bit, 32-bit的整数(有符号或者无符号),或者16-bit和32-bit浮点数构成。CUDA Array在kernel里只能通过texture的拾取(读取),或者Surface的读写来访问。如同之前在Texture Memory章节和Surface Memory章节那里描述的一样。

CUDA Array是普通的数组么?这个不是普通的数组的。普通的数组布局是知道的(一个元素接着一个元素,先行,再列),而这个的布局NV不告诉你的。你只需要知道是一种优化过的秘密布局方式即可。这个是和普通的数组的最大区别。如果你想知道内部的秘密,网上有第三方资料(特别是AMD的资料)可以告诉你内部的真实情况。

Read/Write Coherency 读取和写入的一致性问题:Texture和Surface的存储经过缓存,在同一次kernel启动期间,这个(读取用的)缓存不维持和普通的global memoryx写入的一致性,也不维持和Surface写入的一致性。所以试图在同一次kernel启动内部,试图通过Texture拾取或者Surface读取一个刚刚通过普通global memory(指针)写入过的,或者Surface写入过的地址,返回的结果将是未定义的。(这就是我们之前说过的,本次的写入,下一次启动才能生效)。注意因为texture和surface的后备存储前者可能是普通线性内存或者CUDA Array, 或者是CUDA Array,可能通过普通写入或者surface写入来改变内容的,所以这里两种都说了。但这个写入本次如果立刻读取来用,值是未定义的。(可能读取到你写入后的新值,也可能读取到写入之前的老值,甚至可能是这两种的混合情况。所以说将读取到未定义的结果),换句话说,一个(设备端)的线程,如果想安全的读取到一些texture或者surface的内容,那么必须是之前通过cudaMemcpy*()系列函数,或者是之前的kernel改写过才可以。而不是同样的一次kernel调用期间,被这个线程自己,或者其他线程改写过。

Graphics Interoperability 这部分是讲OpenGL和Direct3D互操作这个,我们对这部分不是很熟悉,所以就不讲了,抱歉了各位!

有不明白的地方,请在本文后留言

或者在我们的技术论坛bbs.gpuworld.cn上发帖

原文发布于微信公众号 - 吉浦迅科技(gpusolution)

原文发表时间:2018-05-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏小詹同学

如何用 Python 打飞机 ?

前言:python 除了生孩子 ,啥都会 。包括打飞机 !今天小詹的一位读者就来教你如何用 python 打飞机 !

3075
来自专栏生信宝典

图像处理R包magick学习笔记

作者:严涛 浙江大学作物遗传育种在读研究生(生物信息学方向)伪码农,R语言爱好者,爱开源

1172
来自专栏macOS 开发学习

Mac开发跬步积累(四):ImageIO解析Gif 图像数据

这里可以看到Gif 是保存了多幅图像的一个图像文件,有了这个基础认识,我们就可以使用代码来解析Gif图像了.

1053
来自专栏Flutter入门

Android OpenGL ES(六) - 将输入源换成视频

上文中,我们是将相机提供的预览画面输入到Surface当中,然后进行滤镜处理和录制。 那我们可以切换输入源为视频吗?

4655
来自专栏前端杂货铺

不要使用浏览器嗅探,尽量使用特性检测和特性模拟

平淡的描述   在js中,能使用特征监测就尽量不要使用浏览器嗅探。嗅探浏览器目的是判断可否使用这个对象或者API,但是抛开浏览器 的各个版本的userAgent...

3035
来自专栏程序员互动联盟

【专业技术】Win32 SDK编程:我们如何输出文本

在使用Win32编程时,我们常常需要输出文本到窗口上,Windows所有的文本字符或者图形输出都是通过图形设备接口(GDI)进行的,Windows的三大组件之一...

3665
来自专栏UAI人工智能

RLLAB 入门

3813
来自专栏流媒体人生

mpg文件切片之后,不能播放问题分析

对于大部分mpg文件切片都能正常播放,而少部分mpg切片之后只有第一个切片能播放,后续的切片视频播放均失败,只能播放视频。

942
来自专栏数据小魔方

Excel单元格内容合并的技巧!!!

今天给大家分享单元格内容合并的技巧! ▽ 之前推送过一篇单元格数据分裂的技巧,很多同学都私信我说很实用,并且希望以后能够多写一些这种可以瞬间提升工作效率的小技巧...

2997
来自专栏小灰灰

Java 借助ImageMagic实现图片编辑服务

Java 借助ImageMagic实现图片编辑服务 java原生对于图片的编辑处理并没有特别友好,而且问题也有不少,那么作为一个java后端,如果要提供图片的编...

7556

扫码关注云+社区