Halaman ini menunjukkan cara menyelesaikan masalah terkait GPU di Google Kubernetes Engine (GKE).
Jika Anda memerlukan bantuan tambahan, hubungi Cloud Customer Care.
Penginstalan driver GPU
Bagian ini memberikan informasi pemecahan masalah untuk penginstalan driver perangkat NVIDIA otomatis di GKE.
Penginstalan {i>driver<i} gagal di node Ubuntu
Jika Anda menggunakan node Ubuntu yang telah memasang GPU L4 atau GPU H100, driver GPU default yang diinstal GKE mungkin tidak berada pada atau lebih baru dari versi yang diperlukan untuk GPU tersebut. Akibatnya, Pod plugin perangkat GPU tetap dalam status Tertunda dan workload GPU Anda pada node tersebut mungkin mengalami masalah.
Untuk mengatasi masalah ini, instal driver versi 500 atau yang lebih baru secara manual dengan menjalankan perintah berikut:
kubectl apply -f https://raw.githubusercontent.com/GoogleCloudPlatform/container-engine-accelerators/master/nvidia-driver-installer/ubuntu/daemonset-preloaded-R535.yaml
Plugin perangkat GPU gagal dengan error CrashLoopBackOff
Masalah berikut terjadi jika Anda menggunakan metode penginstalan driver manual di kumpulan node sebelum 25 Januari 2023 dan kemudian mengupgrade kumpulan node Anda ke versi GKE yang mendukung penginstalan driver otomatis. Kedua beban kerja penginstalan beroperasi secara bersamaan dan mencoba menginstal versi driver yang mengalami konflik pada node Anda.
Penampung init plugin perangkat GPU gagal dengan status
Init:CrashLoopBackOff
. Log untuk penampung mirip dengan berikut ini:
failed to verify installation: failed to verify GPU driver installation: exit status 18
Untuk mengatasi masalah ini, coba metode berikut:
Hapus penginstalan driver manual DaemonSet dari cluster Anda. Tindakan ini akan menghapus beban kerja penginstalan yang bertentangan dan memungkinkan GKE menginstal driver secara otomatis ke node Anda.
kubectl delete -f https://raw.githubusercontent.com/GoogleCloudPlatform/container-engine-accelerators/master/nvidia-driver-installer/cos/daemonset-preloaded.yaml
Terapkan ulang manifes DaemonSet penginstalan driver manual ke cluster Anda. Pada 25 Januari 2023, kami memperbarui manifes untuk mengabaikan node yang menggunakan penginstalan driver otomatis.
kubectl apply -f https://raw.githubusercontent.com/GoogleCloudPlatform/container-engine-accelerators/master/nvidia-driver-installer/cos/daemonset-preloaded.yaml
Nonaktifkan penginstalan driver otomatis untuk node pool. DaemonSet penginstalan driver yang ada akan berfungsi seperti yang diharapkan setelah operasi update selesai.
gcloud container node-pools update POOL_NAME \ --accelerator=type=GPU_TYPE,count=GPU_COUNT,gpu-driver-version=disabled \ --cluster=CLUSTER_NAME \ --location=LOCATION
Ganti kode berikut:
POOL_NAME
: nama node pool.GPU_TYPE
: jenis GPU yang sudah digunakan kumpulan node.GPU_COUNT
: jumlah GPU yang sudah terpasang ke kumpulan node.CLUSTER_NAME
: nama cluster GKE yang berisi kumpulan node.LOCATION
: lokasi Compute Engine cluster.
Langkah selanjutnya
Jika Anda memerlukan bantuan tambahan, hubungi Cloud Customer Care.