Memecahkan masalah GPU di GKE


Halaman ini menunjukkan cara menyelesaikan masalah terkait GPU di Google Kubernetes Engine (GKE).

Jika Anda memerlukan bantuan tambahan, hubungi Cloud Customer Care.

Penginstalan driver GPU

Bagian ini memberikan informasi pemecahan masalah untuk penginstalan driver perangkat NVIDIA otomatis di GKE.

Penginstalan {i>driver<i} gagal di node Ubuntu

Jika Anda menggunakan node Ubuntu yang telah memasang GPU L4 atau GPU H100, driver GPU default yang diinstal GKE mungkin tidak berada pada atau lebih baru dari versi yang diperlukan untuk GPU tersebut. Akibatnya, Pod plugin perangkat GPU tetap dalam status Tertunda dan workload GPU Anda pada node tersebut mungkin mengalami masalah.

Untuk mengatasi masalah ini, instal driver versi 500 atau yang lebih baru secara manual dengan menjalankan perintah berikut:

kubectl apply -f https://raw.githubusercontent.com/GoogleCloudPlatform/container-engine-accelerators/master/nvidia-driver-installer/ubuntu/daemonset-preloaded-R535.yaml

Plugin perangkat GPU gagal dengan error CrashLoopBackOff

Masalah berikut terjadi jika Anda menggunakan metode penginstalan driver manual di kumpulan node sebelum 25 Januari 2023 dan kemudian mengupgrade kumpulan node Anda ke versi GKE yang mendukung penginstalan driver otomatis. Kedua beban kerja penginstalan beroperasi secara bersamaan dan mencoba menginstal versi driver yang mengalami konflik pada node Anda.

Penampung init plugin perangkat GPU gagal dengan status Init:CrashLoopBackOff. Log untuk penampung mirip dengan berikut ini:

failed to verify installation: failed to verify GPU driver installation: exit status 18

Untuk mengatasi masalah ini, coba metode berikut:

  • Hapus penginstalan driver manual DaemonSet dari cluster Anda. Tindakan ini akan menghapus beban kerja penginstalan yang bertentangan dan memungkinkan GKE menginstal driver secara otomatis ke node Anda.

    kubectl delete -f https://raw.githubusercontent.com/GoogleCloudPlatform/container-engine-accelerators/master/nvidia-driver-installer/cos/daemonset-preloaded.yaml
    
  • Terapkan ulang manifes DaemonSet penginstalan driver manual ke cluster Anda. Pada 25 Januari 2023, kami memperbarui manifes untuk mengabaikan node yang menggunakan penginstalan driver otomatis.

    kubectl apply -f https://raw.githubusercontent.com/GoogleCloudPlatform/container-engine-accelerators/master/nvidia-driver-installer/cos/daemonset-preloaded.yaml
    
  • Nonaktifkan penginstalan driver otomatis untuk node pool. DaemonSet penginstalan driver yang ada akan berfungsi seperti yang diharapkan setelah operasi update selesai.

    gcloud container node-pools update POOL_NAME \
        --accelerator=type=GPU_TYPE,count=GPU_COUNT,gpu-driver-version=disabled \
        --cluster=CLUSTER_NAME \
        --location=LOCATION
    

    Ganti kode berikut:

    • POOL_NAME: nama node pool.
    • GPU_TYPE: jenis GPU yang sudah digunakan kumpulan node.
    • GPU_COUNT: jumlah GPU yang sudah terpasang ke kumpulan node.
    • CLUSTER_NAME: nama cluster GKE yang berisi kumpulan node.
    • LOCATION: lokasi Compute Engine cluster.

Langkah selanjutnya

Jika Anda memerlukan bantuan tambahan, hubungi Cloud Customer Care.