我有多个ubuntu22.04服务器与不同的NVIDIA卡,但他们从来没有达到高于P2的电源状态,并没有达到最高的时钟速度。
我试了很多,但似乎没有什么能说服这张牌走得更高。
root@pod0003:~# nvidia-smi -q -a
==============NVSMI LOG==============
Timestamp : Fri Jan 27 19:00:11 2023
Driver Version : 525.78.01
CUDA Version : 12.0
Attached GPUs : 1
GPU 00000000:05:00.0
Product Name : NVIDIA GeForce RTX 3060
Product Brand : GeForce
Product Architecture : Ampere
Display Mode : Disabled
Display Active : Disabled
Persistence Mode : Enabled
MIG Mode
Current : N/A
Pending : N/A
Accounting Mode : Disabled
Accounting Mode Buffer Size : 4000
Driver Model
Current : N/A
Pending : N/A
Serial Number : N/A
GPU UUID : GPU-1fbe1409-48f9-577f-c063-1e5d895d900b
Minor Number : 0
VBIOS Version : 94.06.4D.00.1B
MultiGPU Board : No
Board ID : 0x500
Board Part Number : N/A
GPU Part Number : 2544-302-A1
Module ID : 1
Inforom Version
Image Version : G001.0000.94.01
OEM Object : 2.0
ECC Object : N/A
Power Management Object : N/A
GPU Operation Mode
Current : N/A
Pending : N/A
GSP Firmware Version : N/A
GPU Virtualization Mode
Virtualization Mode : None
Host VGPU Mode : N/A
IBMNPU
Relaxed Ordering Mode : N/A
PCI
Bus : 0x05
Device : 0x00
Domain : 0x0000
Device Id : 0x254410DE
Bus Id : 00000000:05:00.0
Sub System Id : 0x397D1462
GPU Link Info
PCIe Generation
Max : 4
Current : 4
Device Current : 4
Device Max : 4
Host Max : 4
Link Width
Max : 16x
Current : 16x
Bridge Chip
Type : N/A
Firmware : N/A
Replays Since Reset : 0
Replay Number Rollovers : 0
Tx Throughput : 32000 KB/s
Rx Throughput : 95000 KB/s
Atomic Caps Inbound : N/A
Atomic Caps Outbound : N/A
Fan Speed : 42 %
Performance State : P2
Clocks Throttle Reasons
Idle : Not Active
Applications Clocks Setting : Not Active
SW Power Cap : Not Active
HW Slowdown : Not Active
HW Thermal Slowdown : Not Active
HW Power Brake Slowdown : Not Active
Sync Boost : Not Active
SW Thermal Slowdown : Not Active
Display Clock Setting : Not Active
FB Memory Usage
Total : 8192 MiB
Reserved : 218 MiB
Used : 5886 MiB
Free : 2087 MiB
BAR1 Memory Usage
Total : 8192 MiB
Used : 7 MiB
Free : 8185 MiB
Compute Mode : Default
Utilization
Gpu : 100 %
Memory : 91 %
Encoder : 0 %
Decoder : 0 %
Encoder Stats
Active Sessions : 0
Average FPS : 0
Average Latency : 0
FBC Stats
Active Sessions : 0
Average FPS : 0
Average Latency : 0
Ecc Mode
Current : N/A
Pending : N/A
ECC Errors
Volatile
SRAM Correctable : N/A
SRAM Uncorrectable : N/A
DRAM Correctable : N/A
DRAM Uncorrectable : N/A
Aggregate
SRAM Correctable : N/A
SRAM Uncorrectable : N/A
DRAM Correctable : N/A
DRAM Uncorrectable : N/A
Retired Pages
Single Bit ECC : N/A
Double Bit ECC : N/A
Pending Page Blacklist : N/A
Remapped Rows : N/A
Temperature
GPU Current Temp : 62 C
GPU Shutdown Temp : 98 C
GPU Slowdown Temp : 95 C
GPU Max Operating Temp : 93 C
GPU Target Temperature : 83 C
Memory Current Temp : N/A
Memory Max Operating Temp : N/A
Power Readings
Power Management : Supported
Power Draw : 118.71 W
Power Limit : 170.00 W
Default Power Limit : 170.00 W
Enforced Power Limit : 170.00 W
Min Power Limit : 100.00 W
Max Power Limit : 170.00 W
Clocks
Graphics : 1957 MHz
SM : 1957 MHz
Memory : 7300 MHz
Video : 1717 MHz
Applications Clocks
Graphics : N/A
Memory : N/A
Default Applications Clocks
Graphics : N/A
Memory : N/A
Deferred Clocks
Memory : N/A
Max Clocks
Graphics : 2130 MHz
SM : 2130 MHz
Memory : 7501 MHz
Video : 1950 MHz
Max Customer Boost Clocks
Graphics : N/A
Clock Policy
Auto Boost : N/A
Auto Boost Default : N/A
Voltage
Graphics : 1081.250 mV
Fabric
State : N/A
Status : N/A
Processes
GPU instance ID : N/A
Compute instance ID : N/A
Process ID : 9165
Type : G
Name : /usr/lib/xorg/Xorg
Used GPU Memory : 5 MiB
GPU instance ID : N/A
Compute instance ID : N/A
Process ID : 9902
Type : C
Name : /home/tk/jupyter/panenv/bin/python
Used GPU Memory : 2938 MiB
从这个日志中可以看到,没有节气门的原因是活动的。然而,我被困在性能状态P2的时钟速度:
Graphics : 1957 MHz
SM : 1957 MHz
Memory : 7300 MHz
Video : 1717 MHz
而max则是:
Graphics : 2130 MHz
SM : 2130 MHz
Memory : 7501 MHz
Video : 1950 MHz
最值得注意的是,我尝试过:
X :0 &
export DISPLAY=:0
nvidia-settings -a "[gpu:0]/GpuPowerMizerMode=1"
但没有结果。
我用这张卡进行丹索尔流模型训练。该系统是一个里森12的核心,在一个千兆字节的B550上,启用了可调整大小的条和PCIe的第4代,这是可以看到的,这是非常好的使用。电源是750瓦
根据NVIDIA,P态的意思是:
P0/P1 - Maximum 3D performance
P2/P3 - Balanced 3D performance-power
P8 - Basic HD video playback
P10 - DVD playback
P12 - Minimum idle power consumption
我在这里错过了什么?
发布于 2023-01-27 21:49:21
我偶然发现了这:
关于NVIDIA‘CUDA -强制P2状态’的官方背景我们询问了NVIDIA的这一特性,他们回答说:基本上,我们添加了这个p-状态,因为为一些CUDA应用程序在最大内存时钟上运行会在运行大型数据集时导致内存错误。想想DL应用程序,石油勘探用例,等等,你正在处理大量的数字,它会错误地与完整的内存时钟。这些应用程序的类型,你真的不应该运行在GeForce上无论如何,但由于有很多人做,并遇到这个问题,我们为他们创建了这个新模式。
因此,最终,这是一个稳定的权衡,应该被接受。
https://askubuntu.com/questions/1452220
复制相似问题