开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

如何最大限度地减少启动内核函数前后的cuda内存相关操作带来的开销？

在云计算领域中，为了最大限度地减少启动内核函数前后的CUDA内存相关操作带来的开销，可以采取以下几个策略：

内存预分配：在启动内核函数之前，可以通过使用cudaMalloc函数预先分配所需的内存空间，避免在内核函数执行期间动态分配内存带来的开销。这样可以减少内存分配和释放的时间消耗。
内存复用：在多次执行内核函数的情况下，可以尽量复用已经分配的内存空间，避免重复的内存分配和释放操作。通过在内核函数之间传递指针，可以实现数据的复用，减少内存操作的开销。
异步内存操作：使用CUDA的异步内存操作功能，可以在内核函数执行期间同时进行内存传输操作。通过使用cudaMemcpyAsync函数进行异步的内存拷贝，可以将内存传输与内核函数的执行重叠，减少等待时间，提高整体性能。
使用共享内存：共享内存是一种高速缓存的形式，位于多个线程之间共享。通过将数据存储在共享内存中，可以减少对全局内存的访问，提高内存访问效率。在启动内核函数前，可以通过使用__shared__关键字声明共享内存，并在内核函数中使用共享内存进行数据交换。
内存对齐：在分配内存时，可以考虑将数据按照特定的对齐方式进行分配，以提高内存访问的效率。通过使用cudaMallocPitch函数进行内存分配，可以实现内存对齐，减少内存访问的开销。
内存压缩：对于大规模的数据集，可以考虑使用数据压缩技术来减少内存占用。通过使用压缩算法对数据进行压缩，并在内核函数中进行解压缩操作，可以减少内存传输和存储的开销。

总结起来，为了最大限度地减少启动内核函数前后的CUDA内存相关操作带来的开销，可以采取内存预分配、内存复用、异步内存操作、使用共享内存、内存对齐和内存压缩等策略。这些策略可以提高内存访问效率，减少内存操作的开销，从而提高云计算中的CUDA应用性能。

腾讯云相关产品和产品介绍链接地址：

腾讯云GPU云服务器：https://cloud.tencent.com/product/cvm/gpu
腾讯云弹性GPU：https://cloud.tencent.com/product/ecg
腾讯云容器服务：https://cloud.tencent.com/product/ccs
腾讯云函数计算：https://cloud.tencent.com/product/scf

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

GPU加速——OpenCL学习与实践

参考刘文志等所著《OpenCL异构并行计算》，结合自身实践所做的总结，在此，特别感谢蒋工给予的指导。由于作者认知水平有限，文中如有不到的地方，欢迎大家批评指正。

02

英伟达CUDA架构核心概念及入门示例

理解英伟达CUDA架构涉及几个核心概念，这些概念共同构成了CUDA并行计算平台的基础。 1. SIMT（Single Instruction Multiple Thread）架构 CUDA架构基于SIMT模型，这意味着单个指令可以被多个线程并行执行。每个线程代表了最小的执行单位，而线程被组织成线程块(Thread Block)，进一步被组织成网格(Grid)。这种层级结构允许程序员设计高度并行的算法，充分利用GPU的并行计算核心。 2. 层级结构 - 线程（Threads）: 执行具体计算任务的最小单位。 - 线程块（Thread Blocks）: 一组线程，它们共享一些资源，如共享内存，并作为一个单元被调度。 - 网格（Grid）: 包含多个线程块，形成执行任务的整体结构。 3. 内存模型 - 全局内存: 所有线程均可访问，但访问速度相对较慢。 - 共享内存: 位于同一线程块内的线程共享，访问速度快，常用于减少内存访问延迟。 - 常量内存和纹理内存: 优化特定类型数据访问的内存类型。 - 寄存器: 最快速的存储，每个线程独有，但数量有限。 4. 同步机制屏蔽同步（Barrier Synchronization）通过同步点确保线程块内或网格内的所有线程达到某个执行点后再继续，保证数据一致性。 5. CUDA指令集架构（ISA） CUDA提供了专门的指令集，允许GPU执行并行计算任务。这些指令针对SIMT架构优化，支持高效的数据并行操作。 6. 编程模型 CUDA编程模型允许开发者使用C/C++等高级语言编写程序，通过扩展如`__global__`, `__device__`等关键字定义GPU执行的函数（核函数，kernel functions）。核函数会在GPU上并行执行，而CPU代码负责调度这些核函数并在CPU与GPU之间管理数据传输。 7. 软件栈 CUDA包含一系列工具和库，如nvcc编译器、CUDA runtime、性能分析工具、数学库（如cuFFT, cuBLAS）、深度学习库（如cuDNN）等，为开发者提供了完整的开发环境。

01

CUDA-入门（转）

CUDA，Compute Unified Device Architecture的简称，是由NVIDIA公司创立的基于他们公司生产的图形处理器GPUs（Graphics Processing Units,可以通俗的理解为显卡）的一个并行计算平台和编程模型。

04

深入了解 eBPF：一种监控和保护平台的新方法

在这篇文章中，我想简单介绍一下 Elastic 的Universal Profiler和安全解决方案都使用的一项非常有趣的技术，称为 eBPF，并解释为什么它是现代可观测性中至关重要的一项技术。

02

CUDA 6中的统一内存模型

白嘉庆，西邮陈莉君教授门下研一学生。曾在华为西安研究所任C++开发一职，目前兴趣是学习Linux内核网络安全相关内容。

03

一文带你深入探索 eBPF 可观测性技术底层奥秘

当今，可观测性领域正在经历一场颠覆性的转变，其中核心驱动力便是 “eBPF”（扩展伯克利数据包过滤器）技术。作为下一代改革先锋，eBPF 技术正在彻底改变我们对系统观测和监控的认知。在之前的文章中，我们已经详细介绍了 eBPF 技术及其对可观测性的影响。

06

从传统运维到云运维演进历程之软件定义存储（三）下

上回书讲到了运维小哥的调优方法论（上），对于Ceph运维人员来说最头痛的莫过于两件事：一、Ceph调优；二、Ceph运维。调优是件非常头疼的事情，下面来看看运维小哥是如何调优的。

01

Udacity并行计算课程笔记-The GPU Programming Model

一、传统的提高计算速度的方法 faster clocks (设置更快的时钟） more work over per clock cycle(每个时钟周期做更多的工作) more processors(更多处理器) 二、CPU & GPU CPU更加侧重执行时间，做到延时小 GPU则侧重吞吐量，能够执行大量的计算更形象的理解就是假如我们载一群人去北京，CPU就像那种敞篷跑车一样速度贼快，但是一次只能坐两个人，而GPU就像是大巴车一样，虽然可能速度不如跑车，但是一次能载超多人。总结起来相比于CPU，GPU有

07

GPU加速03:多流和共享内存—让你的CUDA程序如虎添翼的优化技术！

阅读完前两篇文章后，相信读者应该能够将一些简单的CPU代码修改成GPU并行代码，但是对计算密集型任务，仅仅使用前文的方法还是远远不够的，GPU的并行计算能力未能充分利用。本文将主要介绍一些常用性能优化的进阶技术，这部分对编程技能和硬件知识都有更高的要求，建议读者先阅读本系列的前两篇文章，甚至阅读英伟达官方的编程手册，熟悉CUDA编程的底层知识。当然，将这些优化技巧应用之后，程序将获得更大的加速比，这对于需要跑数小时甚至数天的程序来说，收益非常之大。

02

Python CUDA 编程 - 4 - 网格跨步

当核心数量不够或想限制当前任务使用的GPU核心数时可以使用网格跨步的思路编写CUDA程序。背景 CUDA的执行配置：[gridDim, blockDim]中的blockDim最大只能是1024，但是并没提到gridDim的最大限制。英伟达给出的官方回复是gridDim最大为一个32位整数的最大值，也就是2,147,483,648，大约二十亿。这个数字已经非常大了，足以应付绝大多数的计算，但是如果对并行计算的维度有更高需求呢？答案是网格跨步，它能提供更优的并行计算效率。网格跨步 📷 这里仍然以

03

MIT Taco 项目：自动生成张量计算的优化代码，深度学习加速效果提高 100 倍

我们生活在大数据的时代，但在实际应用中，大多数数据是 “稀疏的”。例如，如果用一个庞大的表格表示亚马逊所有客户与其所有产品的对应映射关系，购买某个产品以 “1” 表示，未购买以 “0” 表示，这张表的大部分将会是 0。使用稀疏数据进行分析的算法最终做了大量的加法和乘法，而这大部分计算是无效的。通常，程序员通过编写自定义代码来优化和避免零条目，但这种代码通常编写起来复杂，而且通常适用范围狭窄。 AI研习社发现，在 ACM 的系统、程序、语言和应用会议（SPLASH）上，麻省理工学院、法国替代能源和原子能委

开发 | MIT Taco项目：自动生成张量计算的优化代码，深度学习加速效果提高100倍

AI科技评论消息：我们生活在大数据的时代，但在实际应用中，大多数数据是“稀疏的”。例如，如果用一个庞大的表格表示亚马逊所有客户与其所有产品的对应映射关系，购买某个产品以“1”表示，未购买以“0”表示，这张表的大部分将会是0。使用稀疏数据进行分析的算法最终做了大量的加法和乘法，而这大部分计算是无效的。通常，程序员通过编写自定义代码来优化和避免零条目，但这种代码通常编写起来复杂，而且通常适用范围狭窄。 AI科技评论发现，在ACM的系统、程序、语言和应用会议（SPLASH）上，麻省理工学院、法国替代能源和原子能

异构计算综述

异构计算（Heterogeneous computing）技术从80年代中期产生，由于它能经济有效地获取高性能计算能力、可扩展性好、计算资源利用率高、发展潜力巨大，目前已成为并行/分布计算领域中的研究热点之一。本文主要介绍了CPU+GPU基础知识及其异构系统体系结构（CUDA）和基于OpenCL的异构系统，并且总结了两种结构的特点，从而对异构计算有了更深的理解。

03

结合例子学习eBPF与bcc：kretprobe与Tracepoint

在前面的文章中，我们学习了如何通过追踪kprobe，今天我们来学习更多的追踪机制：

02

CUDA 基础 01 - 概念

这一点在数据量大、运算复杂度不高的条件下极为适用。可以简单地把一块GPU想象成一个超多核的CPU运算部件。这些CPU有自己的寄存器，还有供数据交换用的共享内存、缓存，同时周围还有取指部件和相应的调度机制，保证指令能够在之上执行。

03

CUDA编程(机械编程)

参考了很多大神的内容，并非完全原创，只是为了查漏补缺，记录自己的学习过程。个人水平有限，错误难免，欢迎讨论。

02

利用eBPF探测Rootkit漏洞

作者简介：许庆伟，Linux Kernel Security Researcher & Performance Develope 如今，云原生平台越来越多的使用了基于eBPF的安全探测技术。这项技术通过创建安全的Hook钩子探针来监测内部函数和获取重要数据，从而支持对应用程序的运行时做监测和分析。Tracee是用于Linux的运行时安全和取证的开源项目，它基于eBPF实现，所以在安全监测方面效果更加优化。在本文中，我们将探索控制eBPF事件的方法，并研究一个使用BPF事件捕获rootkit的案例。Root

01

数据分析项目实战！Python分析员工为何离职

注意力机制彻底改变了自然语言处理和深度学习领域。它们允许模型在执行机器翻译、语言生成等任务时专注于输入数据的相关部分。

01

多视图聚类总结

互补原则：该原则规定，为了更全面、更准确地描述数据对象，应该使用多个视图。在多视图数据的上下文，每个视图都足以完成特定的知识发现任务。然而，不同的视图通常包含相互补充的信息。例如，在图像处理领域，每幅图像都由不同类型的特征来描述，如lbp、sift和hog，其中lbp是一种强大的纹理特征，sift对图像的光照、噪声和旋转具有鲁棒性，而hog对边缘信息敏感。因此，有必要利用这些相互补充的信息来描述这些数据对象，并对内部集群提供更深入的见解。

03

从头开始进行CUDA编程：线程间协作的常见技术

在前一篇文章中，我们介绍了如何使用 GPU 运行的并行算法。这些并行任务是那些完全相互独立的任务，这点与我们一般认识的编程方式有很大的不同，虽然我们可以从并行中受益，但是这种奇葩的并行运行方式对于我们来说肯定感到非常的复杂。所以在本篇文章的Numba代码中，我们将介绍一些允许线程在计算中协作的常见技术。

03

「人工智能研学社· ML系统与架构小组」第一期：如何在单块GPU上训练超大型深度学习模型

机器之心原创人工智能研学社问题：GPU 内存限制 GPU 在深度神经网络训练之中的强大表现无需我赘言。通过现在流行的深度学习框架将计算分配给 GPU 来执行，要比自己从头开始便捷很多。然而，有一件事你会避之唯恐不及，即 GPU 的动态随机存取内存（DRAM（Dynamic Random Access Memory））限制。在给定模型和批量大小的情况下，事实上你可以计算出训练所需的 GPU 内存而无需实际运行它。例如，使用 128 的批量训练 AlexNet 需要 1.1GB 的全局内存，而这仅是 5

09

BPF之巅：洞悉Linux系统和应用性能

BPF是近年来Linux 系统技术领域一个巨大的创新。作为 Linux 内核的一个关键发展节点，其重要程度不亚于虚拟化、容器、SDN 等技术。

02

PyTorch团队重写「分割一切」模型，比原始实现快8倍

从年初到现在，生成式 AI 发展迅猛。但很多时候，我们又不得不面临一个难题：如何加快生成式 AI 的训练、推理等，尤其是在使用 PyTorch 的情况下。

01

在CUDA的天下，OpenAI开源GPU编程语言Triton，将同时支持N卡和A卡

过去十年中，深度神经网络 (DNN) 已成为最重要的机器学习模型之一，创造了从自然语言处理到计算机视觉、计算神经科学等许多领域的 SOTA 实现。DNN 模型的优势来自于它的层次结构，这一特征导致其计算量巨大，但也会产生大量高度并行化的工作，特别适合多核和众核处理器。

06

从「根」上找出模型瓶颈！康奈尔AI联合创始人发文，从第一原理出发剖析深度学习

---- 新智元报道编辑：LRS 【新智元导读】了解事物的底层逻辑才能更好地解决问题。康奈尔大学AI联合创始人最近发了一篇文章，从第一原理出发，深度剖析深度学习性能瓶颈的三座大山：计算、内存和开销。如果想提升模型的性能，你的第一直觉是问搜索引擎吗？通常情况下你得到的建议只能是一些技巧性的操作，比如使用in-place operation，把梯度设置为None，或者是把PyTorch版本从1.10.1退回到稳定版1.10.0等等。这些临时找到的骚操作虽然可以一时地解决当下问题，但要是用了以后

02

[翻译]CURAND Libaray--Host API--(2)

2.3 返回值所有的CURAND host端的函数返回值都是curandStatus_t.如果调用没有错误，则返回成功，即返回值为CURAND_STATUS_SUCCESS.如果发生了错误，返回值会依据错误的不同而不同。因为cuda允许内核函数异步的调用cpu端的代码，因此返回的错误，有可能是在调用函数库时发生的，而非CURAND内核函数，此时，返回值是CURAND_STATUS_PREEXISTING. 2.4 触发函数 curandStatus_t curandGenerate(curandGener

Linux 命令（124）—— lsof 命令

lsof（list open files）用于查看进程打开的文件，是十分方便的系统监测工具。因为 lsof 命令需要访问核心内存和各种系统文件，所以需要 root 权限才可执行。

01

AMP并发编程概述

在CPU上执行的代码是串行的，它的优点在于强逻辑性和强扩展性。代码必须严格按顺序执行，任何次序的错误都可能会导致程序出错。

01

[翻译]CURAND Libaray--Host API--(1)

2Host API简述使用host api,用户需要在头文件的部分包含 curand.h，并且添加CURAND的动态链接库，即在LINKER的INPUT里面添加”curand.lib;”。这个文档是基于CUDA runtime的，所以用户的代码也应该是在runtime时调用的。而driver API是不支持CURAND的。触发器生成随机数，CURAND同过内部的封装产生伪随机数列或者真随机数列。具体的步骤如下： 1 使用函数curandCreateGenerator创建一个新的目标类型（参考触发器类型

07

在CUDA的天下，OpenAI开源GPU编程语言Triton，将同时支持N卡和A卡

机器之心报道编辑：蛋酱、陈萍 OpenAI 开源了全新的 GPU 编程语言 Triton，它能成为 CUDA 的替代品吗？过去十年中，深度神经网络 (DNN) 已成为最重要的机器学习模型之一，创造了从自然语言处理到计算机视觉、计算神经科学等许多领域的 SOTA 实现。DNN 模型的优势来自于它的层次结构，这一特征导致其计算量巨大，但也会产生大量高度并行化的工作，特别适合多核和众核处理器。深度学习领域的新研究思路往往是结合原生框架 operator 来实现的，这种方法虽然方便，但需要创建或移动许多临时张

01

使用Python写CUDA程序

使用Python写CUDA程序有两种方式： * Numba * PyCUDA

03

万字长文解读 Linux 内核追踪机制

Linux 存在众多 tracing tools，比如 ftrace、perf，他们可用于内核的调试、提高内核的可观测性。众多的工具也意味着繁杂的概念，诸如 tracepoint、trace events、kprobe、eBPF 等，甚至让人搞不清楚他们到底是干什么的。本文尝试理清这些概念。

05

OpenAI 开源 Triton语言：取代英伟达的 CUDA

知名AI研究实验室OpenAI LLC今天发布了Triton；它声称，这种类似Python的专门编程语言可使开发人员能够更轻松自如地开发高速机器学习算法。两年前，OpenAI的科学家Philippe Tillet就在一篇学术论文中介绍了Triton的第一个版本。作为今天重大发布的一部分内容，OpenAI推出了大幅升级的版本：Triton 1.0，针对企业机器学习项目进行了诸多优化。深度神经网络已成为一种很重要的AI模型，能够在自然语言处理、计算机视觉及其他领域获得最先进的性能。这种模型的优势在于其层次结

02

linux系统编程之基础必备（一）：计算机体系结构一点基础知识

05

大规模储能技术_新技术储备

可执行与可链接格式（英语：Executable and Linkable Format，缩写 ELF，此前的写法是 Extensible Linking Format），常被称为 ELF格式，在计算中，是一种用于可执行文件、目标代码、共享库和核心转储（core dump）的标准文件格式。

01

eBPF 入门开发实践教程零：介绍 eBPF 的基本概念、常见的开发工具

eBPF 是一项革命性的技术，起源于 Linux 内核，可以在操作系统的内核中运行沙盒程序。它被用来安全和有效地扩展内核的功能，而不需要改变内核的源代码或加载内核模块。eBPF 通过允许在操作系统内运行沙盒程序，应用程序开发人员可以在运行时，可编程地向操作系统动态添加额外的功能。然后，操作系统保证安全和执行效率，就像在即时编译（JIT）编译器和验证引擎的帮助下进行本地编译一样。eBPF 程序在内核版本之间是可移植的，并且可以自动更新，从而避免了工作负载中断和节点重启。

00

使用EBPF追踪LINUX内核

我们可以使用BPF对Linux内核进行跟踪，收集我们想要的内核数据，从而对Linux中的程序进行分析和调试。与其它的跟踪技术相比，使用BPF的主要优点是几乎可以访问Linux内核和应用程序的任何信息，同时，BPF对系统性能影响很小，执行效率很高，而且开发人员不需要因为收集数据而修改程序。

05

使用eBPF追踪Linux内核

我们可以使用BPF对Linux内核进行跟踪，收集我们想要的内核数据，从而对Linux中的程序进行分析和调试。与其它的跟踪技术相比，使用BPF的主要优点是几乎可以访问Linux内核和应用程序的任何信息，同时，BPF对系统性能影响很小，执行效率很高，而且开发人员不需要因为收集数据而修改程序。

02

内核知识第四讲,简单的认识内核函数.以及调试驱动技巧

int 3则是产生一个断点,请注意,一定要配合WinDbg进行调试,也就是双机调试,否则这条代码则会蓝屏.

02

linux系统编程之基础必备（三）：文件描述符file descriptor与inode的相关知识

06

Linux：为什么性能工具需要 BPF 技术

了解更多BPF技术内幕，推荐阅读《BPF之巅：洞悉Linux系统和应用性能》一书。 ▼ BPF是近年来Linux 系统技术领域一个巨大的创新。作为 Linux 内核的一个关键发展节点，其重要程度不亚于虚拟化、容器、SDN 等技术。 ▼BPF 的工作方式十分有趣：最终用户使用 BPF 虚拟机的指令集（也称 BPF 字节码）定义过滤器表达式，然后传递给内核，由解释器执行。这使得包过滤可以在内核中直接进行，避免了向用户态进程复制每个数据包，从而提升了数据包过滤的性能，tcpdump(8) 就是这样工作的。

04

8比特数值也能训练模型？商汤提训练加速新算法丨CVPR 2020

在CVPR 2020上，商汤研究院链接与编译团队、高性能计算团队和北航刘祥龙老师团队合作提出了用于加速卷积神经网络训练过程的INT8训练技术。该工作通过将网络的输入、权重和梯度量化到8比特来加速网络的前向传播和反向传播过程，缩短卷积神经网络训练时间。

01

基于 eBPF 实现容器运行时安全

BPF 全称是「Berkeley Packet Filter」，中文翻译为「伯克利包过滤器」。它源于 1992 年伯克利实验室，Steven McCanne 和 Van Jacobson 写得一篇名为《The BSD Packet Filter: A New Architecture for User-level Packet Capture》的论文。该论文描述是在 BSD 系统上设计了一种新的用户级的数据包过滤架构。在性能上，新的架构比当时基于栈过滤器的 CSPF 快 20 倍，比之前 Unix 的数据包过滤器，例如：SunOS 的 NIT（The Network Interface Tap ）快 100 倍。

02

CUDA 04 - 同步

栅栏同步是一个原语, 在很多并行编程语言中都很常见. 在CUDA中, 同步可以在两个级别执行:

03

通过 ftrace 来分析 Linux 内核

通过使用一个名为 ftrace 的机制来阐明追踪内核函数的一些情况。它使得任何 Linux 用户可以轻松地追踪内核，并且了解更多关于 Linux 内核内部如何工作。

03

金融系统性能优化之道

系统设计得再好，如不能及时完成业务处理也不行。为什么不同业务有不同优化需求，以及常见的优化方式和问题有哪些。

02

Eunomia: 基于 eBPF 的轻量级 CloudNative Monitor 工具，用于容器安全性和可观察性（概要介绍）

Eunomia 是一个使用 C/C++ 开发的基于 eBPF的轻量级，高性能云原生监控工具，旨在帮助用户了解容器的各项行为、监控可疑的容器安全事件，力求提供覆盖容器全生命周期的轻量级开源监控解决方案。它使用 Linux eBPF 技术在运行时跟踪您的系统和应用程序，并分析收集的事件以检测可疑的行为模式。目前，它包含性能分析、容器集群网络可视化分析*、容器安全感知告警、一键部署、持久化存储监控等功能，提供了多样化的 ebpf 追踪点。其核心导出器/命令行工具最小仅需要约 4MB 大小的二进制程序，即可在支持的 Linux 内核上启动。

03

为了加速在GPU上进行深度学习训练，NVIDIA原来还做了这么多事情，你都知道么?

不同行业采用人工智能的速度取决于最大化数据科学家的生产力。NVIDIA每个月都会发布优化的NGC容器，为深度学习框架和库提供更好的性能，帮助科学家最大限度地发挥他们的潜力。英伟达持续投资于完整的数据科学栈，包括GPU架构、系统和软件栈。这种整体的方法为深度学习模型培训提供了最好的性能，NVIDIA赢得了提交给MLPerf的所有六个基准测试，这是第一个全行业的AI基准测试。NVIDIA在最近几年引入了几代新的GPU架构，最终在Volta和图灵GPU上实现了张量核心架构，其中包括对混合精度计算的本机支持。NVIDIA在MXNet和PyTorch框架上完成了这些记录，展示了NVIDIA 平台的多功能性。

04

r0下进程保护

SSDT 的全称是 System Services Descriptor Table，系统服务描述符表。这个表就是一个把 Ring3 的 Win32 API 和 Ring0 的内核 API 联系起来。SSDT 并不仅仅只包含一个庞大的地址索引表，它还包含着一些其它有用的信息，诸如地址索引的基地址、服务函数个数等。通过修改此表的函数地址可以对常用 Windows 函数及 API 进行 Hook，从而实现对一些关心的系统动作进行过滤、监控的目的。一些 HIPS、防毒软件、系统监控、注册表监控软件往往会采用此接口来实现自己的监控模块。

02

分析 Linux 内核通过 ftrace 来操作的命令

ftrace 现在已经是内核中的一部分了，你不再需要事先安装它了。也就是说，如果你在使用最近的 Linux 系统，那么 ftrace 是已经启用了的。为了验证 ftrace 是否可用，运行 mount 命令并查找 tracefs。如果你看到类似下面的输出，表示 ftrace 已经启用，你可以轻松地尝试本文中下面的例子。下面有些命令需要在 root 用户下使用（用 sudo 执行是不够的）。

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭