Nvidia: NVRM: GPU at 0000:01:00.0 Has Fallen Off The Bus

时间:2019-11-20 08:53:13  来源:igfitidea点击:

问题

在CentOS /var/log/messages文件中,提示下面报错:

May 28 06:53:19 kart1 kernel: [49298.937949] NVRM: GPU at 0000:01:00.0 has fallen off the bus.  May 29 06:14:01 kart1 kernel: [28508.567838] NVRM: GPU at 0000:01:00.0 has fallen off the bus.

NVIDIA 内核模块版本为 x86_64 282.15。

解决方案

安装最新的内核版本和NVIDIA驱动程序

更新内核并安装最新的NVIDIA Unix驱动程序。

将NVIDIA驱动程序置于持久模式

将GPU设置为持久性模式。

编辑/etc/rc.local文件,并在exit 0语句之前添加以下行:

/usr/bin/nvidia-smi -pm 1

这样,GPU在启动后立即设置为持久模式。

使用命令设置持久模式?

以root用户身份执行以下命令:

# /usr/bin/nvidia-smi -pm 1

如何验证显卡设置了持久模式?

以root用户身份执行以下命令:

# /usr/bin/nvidia-smi -q | grep -i Persistence

Linux如何查看显卡GPU的设置?

执行以下命令以显示GPU或单元信息:

# nvidia-smi -q | less

输出示例:

==============NVSMI LOG==============

Timestamp                       : Tue Feb 21 07:20:20 2012

Driver Version                  : 280.13

Attached GPUs                   : 1

GPU 0000:01:00.0
    Product Name                : Quadro FX 2800M
    Display Mode                : N/A
    Persistence Mode            : Enabled
    Driver Model
        Current                 : N/A
        Pending                 : N/A
    Serial Number               : N/A
    GPU UUID                    : N/A
    Inforom Version
        OEM Object              : N/A
        ECC Object              : N/A
        Power Management Object : N/A
    PCI
        Bus                     : 1
        Device                  : 0
        Domain                  : 0
        Device Id               : 061D10DE
        Bus Id                  : 0000:01:00.0
    Fan Speed                   : N/A
    Memory Usage
        Total                   : 1023 Mb
        Used                    : 74 Mb
        Free                    : 949 Mb
    Compute Mode                : Default
    Utilization
        Gpu                     : N/A
        Memory                  : N/A
    Ecc Mode
        Current                 : N/A
        Pending                 : N/A
    ECC Errors
        Volatile
            Single Bit            
                Device Memory   : N/A
                Register File   : N/A
                L1 Cache        : N/A
                L2 Cache        : N/A
                Total           : N/A
            Double Bit            
                Device Memory   : N/A
                Register File   : N/A
                L1 Cache        : N/A
                L2 Cache        : N/A
                Total           : N/A
        Aggregate
            Single Bit            
                Device Memory   : N/A
                Register File   : N/A
                L1 Cache        : N/A
                L2 Cache        : N/A
                Total           : N/A
            Double Bit            
                Device Memory   : N/A
                Register File   : N/A
                L1 Cache        : N/A
                L2 Cache        : N/A
                Total           : N/A
    Temperature
        Gpu                     : 48 C
    Power Readings
        Power State             : N/A
        Power Management        : N/A
        Power Draw              : N/A
        Power Limit             : N/A
    Clocks
        Graphics                : N/A
        SM                      : N/A
        Memory                  : N/A