显存地址linux_linux显存地址空间_linux 显存 - 腾讯云开发者社区

3.2.7. Unified Virtual Address Space【统一虚拟地址空间】 When the application is run as a 64-bit process, a single address space is used for the host and all the devices of compute capability 2.0 and higher. All host memory allocations made via CUDA API calls a

DAY89：阅读Unified Memory Programming

我们正带领大家开始阅读英文的《CUDA C Programming Guide》,今天是第89天，我们正在讲解Unified Memory Programming，希望在接下来的13天里，您可以学习到原汁原味的CUDA，同时能养成英文阅读的习惯。

您找到你想要的搜索结果了吗？

是的

没有找到

操作系统开发：BIOS/MBR基础与调试

使用 Docker 快速上手 Stability AI 的 SDXL 1.0 正式版

本篇文章，我们聊聊如何使用 Docker 来本地部署使用 Stability AI 刚刚推出的 SDXL 1.0，新一代的开源图片生成模型，以及在当前如何高效的使用显卡进行推理。

使用 Docker 快速上手 Stability AI 的 SDXL 1.0 正式版

深入理解mmap 0拷贝技术

我们知道，linux系统中用户空间和内核空间是隔离的，用户空间程序不能随意的访问内核空间数据，只能通过中断或者异常的方式进入内核态，一般情况下，我们使用copy_to_user和copy_from_user等内核api来实现用户空间和内核空间的数据拷贝，但是像显存这样的设备如果也采用这样的方式就显的效率非常底下，因为用户经常需要在屏幕上进行绘制，要消除这种复制的操作就需要应用程序直接能够访问显存，但是显存被映射到内核空间，应用程序是没有访问权限的，如果显存也能同时映射到用户空间那就不需要拷贝操作了，于是字符设备中提供了mmap接口，可以将内核空间映射的那块物理内存再次映射到用户空间，这样用户空间就可以直接访问不需要任何拷贝操作，这就是我们今天要说的0拷贝技术。

Linux应用开发【第一章】Framebuffer应用开发

LCD Framebuffer 就是一块显存，在嵌入式系统中，显存是被包含在内存中。LCD Framebuffer里的若干字节（根据驱动程序对LCD控制器的配置而定）表示LCD屏幕中的一个像素点，一一对应整个LCD屏幕。举个例子，LCD屏幕是800*600的分辨率，即LCD屏幕存在480000个像素点，若每个像素点4个字节表示，那么LCD Framebuffer显存大小为480000 *4=960000字节，即1.92MB。因此我们的内存将会分割至少1.92MB的空间用作显存。具体地址在哪里，这个就是又驱动程序去定，应用程序只需直接使用即可，硬件相关操作已由驱动程序封装好。

CUDA并行编程概述

CUDA是英伟达推出的GPU架构平台，通过GPU强大的并行执行效率，为计算密集型应用加速，CUDA文件以.cu结尾，支持C++语言编写，在使用CUDA前需要下载 CUDA Toolkit

ChatGLM-6B 大模型的前世今生

ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型，基于 General Language Model (GLM) 架构，具有 62 亿参数。结合模型量化技术，用户可以在消费级的显卡上进行本地部署（INT4 量化级别下最低只需 6GB 显存）。 ChatGLM-6B 使用了和 ChatGPT 相似的技术，针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练，辅以监督微调、反馈自助、人类反馈强化学习等技术的加持，62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答，更多信息请参考我们的博客。欢迎通过 chatglm.cn 体验更大规模的 ChatGLM 模型。

全平台硬件解码渲染方法与优化实践

大家好，我是来自PPTV的王斌。接下来我将围绕以下几个话题，为大家分享有关全平台硬件解码的渲染与优化的实践经验。

[Intel AIGC体验] DELL灵越14 Plus体验大语言模型

今年最为火爆的产业无疑就是AIGC，也就是以AI为主导的生成式内容，包括ChatGPT、AI画图、AI作诗等功能。可以说，只能玩游戏而不支持AIGC的显卡已经不符合时代的需求。如今NVIDIA 在AI时代一飞冲天，可能会让很多同学误认为只有NVIDIA显卡才支持Stable Diffusion这类的AI应用。但事实上，还有一家厂商对于AI的投入力度并不逊于NVIDIA，而且在多年前就开始布局AI，它就是芯片巨头Intel公司。

GPU功耗管理方式介绍(Linux)

Management PCI-Express Runtime D3 (RTD3) Power Management是一种用于管理PCI-Express设备的低功耗模式的技术RTD3是一种睡眠状态，当PCI-Express设备处于空闲状态时，可以将其置于低功耗模式，以减少能源消耗和热量产生。英伟达™（NVIDIA®）图形处理器有许多省电机制。其中一些机制会降低芯片不同部分的时钟和电压，在某些情况下还会完全关闭芯片部分的时钟或电源，但不会影响功能或继续运行，只是速度较慢。然而，英伟达™（NVIDIA®）GPU 的最低能耗状态需要关闭整个芯片的电源，通常是通过调用 ACPI 来实现。这显然会影响功能。在关机状态下，GPU 无法运行任何功能。必须注意的是，只有在 GPU 上没有运行任何工作负载的情况下才能进入这种状态，而且在试图开始工作或进行任何内存映射 I/O (MMIO) 访问之前，必须先重新开启 GPU 并恢复任何必要的状态。

异构计算系列文章（一）：定义、场景及局限性

2020 开年，ZILLIZ 与 InfoQ 筹备了以异构计算为专题的一系列文章。此篇文章作为异构计算专题的开篇，整体性的介绍了异构计算的定义、场景与局限性。在后续的专题文章中，我们将深入不同的 AI 应用场景进一步解释异构计算的优势。

GPU温度的采集

随着高清，4K视频的推广，视频GPU硬件编码，解码，转码已经开始成为主流。同时人工智能的兴起，深度学习也离不开硬件GPU的模型训练和计算。GPU硬件参数越来得到开发人员的关注，对GPU 温度，占用率，显存等参数也纳入监控平台的重要监控指标。本文以温度为例介绍如何监控显卡GPU相关参数。

使用ChatGLM记录

ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型，基于 General Language Model (GLM) 架构，具有 62 亿参数。结合模型量化技术，用户可以在消费级的显卡上进行本地部署（INT4 量化级别下最低只需 6GB 显存）。

Pytorch 内存分配与 max_split_size_mb

假如我们当前的显存分配如上图所示，假设当前想分配 800MB 显存，虽然空闲的总显存有 1000MB，但是上方图的空闲显存由地址不连续的两个 500MB 的块组成，不够分配这 800MB 显存；而下方的图中，如果两个 500MB 的空闲块地址连续，就可以通过显存碎片的整理组成一个 1000MB 的整块，足够分配 800MB。上方图的这种情况就被称为显存碎片化。

用腾讯Cloud Studio一键免费部署AI大模型

AI大模型部署到本地很耗资源，需要很大的内存和硬盘，很多电脑都满足不了要求。而且部署过程很复杂，非专业人士很难上手。

讲解gpu显存查看 nvidia-smi实时刷新

在深度学习和计算机图形学等领域，使用GPU进行加速已经成为常见的做法。然而，GPU的显存是一种有限的资源，我们需要时刻关注显存的使用情况，以避免显存溢出导致的程序错误。NVIDIA提供了一个命令行工具nvidia-smi，能够实时查看GPU的状态和显存使用情况。本文将介绍如何使用nvidia-smi命令在终端实时刷新GPU显存。

DAY23：阅读WDDM和TCC模式

3.5. Mode Switches GPUs that have a display output dedicate some DRAM memory to the so-called primary surface, which is used to refresh the display device whose output is viewed by the user. When users initiate a mode switch of the display by changing th

Linux驱动开发: FrameBuffe(LCD)驱动开发

帧缓冲（framebuffer）是Linux 系统为显示设备提供的一个接口，它将显示缓冲区抽象，屏蔽图像硬件的底层差异，允许上层应用程序在图形模式下直接对显示缓冲区进行读写操作。用户不必关心物理显示缓冲区的具体位置及存放方式，这些都由帧缓冲设备驱动本身来完成。

cuda编程基础(建站)

3.项目生生成成功 .cu文件就是跑在GPU上面的文件。文件夹里面是自动生成的一些要依赖的库文件你可以不用管

腾讯云GPU服务器初体验：从零搭建Pytorch GPU开发环境

点击【立即选购】可以进入选购页面。每种机型又对应不同的规格。基本上同机型（比如GN7）他们的显卡型号都是相同的，该机型下的不同规格（比如GN7.LARGE20、GN7.2XLARGE32)只是在CPU、内存、带宽以及显卡个数方面不同而已。下面简单列一下机型与显卡的对应关系（截至2022年5月）：

韦东山：Linux驱动程序基石之mmap

应用程序和驱动程序之间传递数据时，可以通过read、write函数进行。这涉及在用户态buffer和内核态buffer之间传数据，如下图所示：

韦东山：Linux驱动程序基石之mmap

应用程序和驱动程序之间传递数据时，可以通过read、write函数进行。这涉及在用户态buffer和内核态buffer之间传数据，如下图所示：

Stable Diffusion XL1.0正式发布了，赶紧来尝鲜吧

之前使用AIGC生成图片，一般都是生成512*512的图，然后再进行放大，以达到高清出图的要求。但是这里有个问题是底模其实都是海量的512*512图片训练出来的，所以出图效果上经常不如人意，在细节上会差一些。这次SDXL1.0直接使用1024*1024的海量图片训练底模，而且分为了文生图用的base模型和图生图进行优化和放大的refiner模型，从而在开源免费的文生图软件上实现了不输于Midjourney的出图效果。

【NVIDIA GTC2022】揭秘 Jetson 上的统一内存

本文整理自NVIDIA GTC2022讲座[SE2600] （另：本公众号没有测试PPT中代码，代码只代表原作者本人观点，欢迎大家留言讨论）我们知道Jetson是一个被称为集成 gpu 的产品，这意味着我们的 cpu 和一个 gpu 共享一个物理统一的内存结果，这与你可能熟悉的典型独立 gpu 完全不同，独立gpu 显卡有自己的内存与cpu、内存的系统分开，所以cpu、内存和gpu内存之间有很多迁移。它也恰好是典型独立GPU 计算的最大瓶颈之一。因此，当我们在编写项目时，我们真的应该考虑到一些阴暗面，因

【i.MX6ULL】驱动开发11——LCD驱动实践

之前在Linux系统移植时提到过LCD驱动，本篇来看下Linux设备树如何配置LCD驱动。

挑战性能极限小显卡大作为，教你如何在有限资源下运行大型深度学习模型，GPU显存估算并高效利用全攻略！

“10b”、“13b”、“70b” 等术语通常指的是大型神经网络模型的参数数量。其中的 “b” 代表 “billion”，也就是十亿。表示模型中的参数量，每个参数用来存储模型的权重和偏差等信息。例如：

Linux中如何管理Nvidia GPU卡

由于测试环境使用的是NVIDIA的显卡，这里直接通过lspci命令即可查询具体显卡信息

DAY6:阅读 CUDA C编程接口之CUDA C runtime

我们正带领大家开始阅读英文的《CUDA C Programming Guide》,今天是第六天，我们用几天时间来学习CUDA 的编程接口，其中最重要的部分就是CUDA C runtime.希望在接下来的95天里，您可以学习到原汁原味的CUDA，同时能养成英文阅读的习惯。本文共计845字，阅读时间15分钟 3.2.4. Page-Locked Host Memory【锁页内存】 The runtime provides functions to allow the use of page-locked

Mxnet Scala Package 学习笔记一

前言从刚开始接触Mxnet这个框架到现在已经大概四个月了。Mxnet最吸引我的地方就是它提供了很多语言的接口，其中有Scala（my favorite），这是我从Caffe转过来的原因之一。 Mxnet是我第一个参与的开源项目，可以说这四个月来我学到了很多东西。本文的其中目的在于介绍一下如何用 Mxnet Scala 包来开发自己的 deep learning 的应用，有哪些坑需要注意的，最后就是安利一下Mxnet 这个框架了。然后，还有就是Mxnet Scala Pack

GaiaStack上的GPU虚拟化技术

为什么需要GPU虚拟化根据平台收集的GPU使用率的历史，我们发现独占卡的模式会对GPU这种宝贵计算资源存在浪费现象，即不同用户对模型的理解深度不同，导致申请了独立的卡却没有把资源用满的情况。针对这种情况，虚拟化GPU技术可以更好的解决这种痛点，让机器的计算资源得到充分利用。现有技术情况目前来看，绝大多数公司使用的是英伟达（NVIDIA）的公司的计算卡，所以下面主要介绍NVIDIA的技术现状。 NVIDIA在前几年释放出来一个NVIDIA vGPU的一个硬件虚拟化的技术，该技术的介绍是 NVIDIA

OV2640摄像头显示方式探究

GD32F450I开发板上配了一个OV2640摄像头，其最大像素尺寸可设置为1600*1200，板子上的RGB-LCD液晶屏的尺寸为480*272，本篇来测试摄像头在整个屏幕上的显示效果。

STM32CubeMX | 41-使用LTDC驱动TFT-LCD屏幕（RGB屏）

本篇详细的记录了如何使用STM32CubeMX配置 STM32F767IGT6 的 LTDC 外设驱动 TFT-LCD （RGB）屏幕。

格灵深瞳开源全球最大最干净的人脸识别数据集：Glint360K

链接：https://zhuanlan.zhihu.com/p/265673438

B站开源算法，让你的动漫视频/图片从360p秒变4K

本文项目地址：Real-CUGAN at main · bilibili/ailab · GitHub

试一试在没有操作系统的机器上运行下我们的代码

Hello，小伙伴们大家好，在上一篇文章中（传送门：没有操作系统，也能运行我们的程序？(理论部分)），我们已经知道了一台计算机是如何加载操作系统到内存之中的。在这里简单的回顾一下，首先CPU先执行ROM中的BIOS程序进行硬件自检，硬件没问题之后，BIOS程序开始加载硬盘第一个扇区共512个字节到内存中，这512个字节是操作系统的引导代码，是专门引导操作系统的，因此这个扇区也叫主引导扇区。CPU执行操作系统引导代码，将操作系统的核心部分加载到内存中，这样操作系统就跑起来了，计算机就有灵魂了。好了，当然，我们也可以把我们的代码放到硬盘的第一个扇区，然后按下开机键，让BIOS把我们的代码加载到内存中，让CPU去执行我们的代码，这样，就实现了在计算机裸机上直接去运行我们的代码了。OK，我们开始动手做下实验吧。

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐