GPU ของฉันกำลังจะตายใช่ไหม


14

ฉันปิดการใช้งานการป้องกันหน่วยความจำ ECC ชั่วคราวใน NVIDIA K20m (อุปกรณ์ 0 ในโหนดของฉัน) และตอนนี้ฉันไม่สามารถนำกลับมาใช้งานได้อีกครั้ง ก่อนหน้านั้นทำงานอย่างถูกต้องเมื่อเปิดใช้งาน ECC ดังนั้นนี่คือสิ่งที่ฉันทำ: ฉันปิดใช้งาน ECC ด้วย

nvidia-smi -i 0 --ecc-config=0

และรีบูต เมื่อมันมาถึงมันแสดงให้เห็นถึงการใช้ GPU 100% และมันจะไม่เริ่มต้นเมล็ดใด ๆ (จริง ๆ แล้วมันล้มเหลวแล้วเมื่อสร้างบริบท) เหตุผลคือข้อผิดพลาดสองบิต ฉันรีเซ็ตด้วย

nvidia-smi -i 0 --reset-ecc-errors=0

และรีบูตโหนด หลังจากรีบูตการใช้งานอุปกรณ์เป็น 0% และฉันสามารถเริ่มงานได้ตามปกติ ไม่กี่ชั่วโมงต่อมาอุปกรณ์แสดงให้เห็นว่ามีการใช้ GPU 100% อีกครั้ง ครั้งนี้มันไม่ได้รายงานข้อผิดพลาดสองบิต (ไม่ใช่แม้แต่ข้อผิดพลาดบิตเดียว) อย่างไรก็ตามเนื่องจากฉันไม่สามารถทำงานได้ฉันจึงรีบูตโหนดและมีการใช้งาน GPU 100% ฉันไม่สามารถใช้งานได้ แต่รายงานว่าไม่มีข้อผิดพลาดเล็กน้อย เรื่องนี้มันคืออะไร?

GPU 0000:02:00.0
    Product Name                : Tesla K20m
    Display Mode                : Disabled
    Persistence Mode            : Enabled
    Driver Model
        Current                 : N/A
        Pending                 : N/A
    Serial Number               : 0324512044699
    GPU UUID                    : GPU-9bfe1aba-1628-a406-3ed5-2af49462a997
    VBIOS Version               : 80.10.11.00.0B
    Inforom Version
        Image Version           : 2081.0208.01.07
        OEM Object              : 1.1
        ECC Object              : 3.0
        Power Management Object : N/A
    GPU Operation Mode
        Current                 : Compute
        Pending                 : Compute
    PCI
        Bus                     : 0x02
        Device                  : 0x00
        Domain                  : 0x0000
        Device Id               : 0x102810DE
        Bus Id                  : 0000:02:00.0
        Sub System Id           : 0x101510DE
        GPU Link Info
            PCIe Generation
                Max             : 2
                Current         : 2
            Link Width
                Max             : 16x
                Current         : 16x
    Fan Speed                   : N/A
    Performance State           : P0
    Clocks Throttle Reasons
        Idle                    : Not Active
        User Defined Clocks     : Not Active
        SW Power Cap            : Not Active
        HW Slowdown             : Not Active
        Unknown                 : Not Active
    Memory Usage
        Total                   : 4799 MB
        Used                    : 12 MB
        Free                    : 4787 MB
    Compute Mode                : Default
    Utilization
        Gpu                     : 100 %
        Memory                  : 0 %
    Ecc Mode
        Current                 : Enabled
        Pending                 : Enabled
    ECC Errors
        Volatile
            Single Bit            
                Device Memory   : 0
                Register File   : 0
                L1 Cache        : 0
                L2 Cache        : 0
                Texture Memory  : 0
                Total           : 0
            Double Bit            
                Device Memory   : 0
                Register File   : 0
                L1 Cache        : 0
                L2 Cache        : 0
                Texture Memory  : 0
                Total           : 0
        Aggregate
            Single Bit            
                Device Memory   : 0
                Register File   : 0
                L1 Cache        : 0
                L2 Cache        : 0
                Texture Memory  : 0
                Total           : 0
            Double Bit            
                Device Memory   : 0
                Register File   : 0
                L1 Cache        : 0
                L2 Cache        : 0
                Texture Memory  : 0
                Total           : 0
    Temperature
        Gpu                     : 30 C
    Power Readings
        Power Management        : Supported
        Power Draw              : 49.51 W
        Power Limit             : 225.00 W
        Default Power Limit     : 225.00 W
        Min Power Limit         : 150.00 W
        Max Power Limit         : 225.00 W
    Clocks
        Graphics                : 758 MHz
        SM                      : 758 MHz
        Memory                  : 2600 MHz
    Applications Clocks
        Graphics                : 705 MHz
        Memory                  : 2600 MHz
    Max Clocks
        Graphics                : 758 MHz
        SM                      : 758 MHz
        Memory                  : 2600 MHz
    Compute Processes           : None

2
ดูแปลก ๆ ไม่เคยเห็นอะไรแบบนี้ แม้ว่าอาจจะไม่ได้ช่วยแก้ปัญหาลองติดตั้งไดรเวอร์อีกครั้งหรืออาจ?
Ben Franchuk

ฉันเดาว่าคุณได้ลองใช้สิ่งที่ชัดเจนแล้วเพียงคัดลอกและติดตั้งใหม่ทุกอย่างแล้วหรือยัง ฉันหมายถึงอืมฉันรู้ฮาร์ดแวร์นิดหน่อยดังนั้นแนวทางของฉันคือการทำให้แน่ใจว่าซอฟต์แวร์ - สิ่งที่ฉันเข้าใจ - ควรทำงาน และจากนั้นฉันจะประกาศชิ้นส่วนที่แตกหักจนกว่าจะแย้งกับความคิดเห็นที่มีความรู้มากขึ้น
Ariane

ฉันได้ตรวจสอบมันและใช้เวลาค้นคว้าปัญหานี้และสาเหตุของมัน ดูเหมือนว่าทางออกที่ดีที่สุดคือการเปลี่ยนฮาร์ดแวร์
Adovi

1
คุณลองรีเซ็ต CMOS แล้วหรือยัง
Sergei

คำตอบ:


2

GPU ของฉันกำลังจะตายใช่ไหม

ฉันว่ามันตายไปแล้ว ไม่มีการรายงานข้อผิดพลาดบิตอีกต่อไปเพราะคุณปิดสิ่งที่ตรวจพบได้ (ECC ตรวจพบมากกว่าที่จะสามารถแก้ไขได้) อย่างไรก็ตามอาจเป็นหน่วยความจำในการ์ด (หรือการ์ดจริง) ที่พัฒนาเป็นความผิด

มีผู้ต้องสงสัยอีกสองคนก่อนที่ฉันจะโยนมันลงในถังขยะ "รีไซเคิล": การระบายความร้อนและแหล่งจ่ายไฟ การระบายความร้อนนั้นง่ายต่อการตรวจสอบ; พลังงานไม่มาก

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.