Kumpulkan dan lihat log serta metrik untuk cluster Ray di Google Kubernetes Engine (GKE)


Halaman ini menunjukkan cara mengonfigurasi Google Kubernetes Engine (GKE) untuk mengumpulkan log dan metrik untuk cluster Ray yang berjalan di Google Kubernetes Engine (GKE), serta cara melihat log dan metrik Ray di Cloud Logging dan Cloud Monitoring.

Untuk selengkapnya informasi tentang Ray dan KubeRay, lihat Ringkasan Ray on Google Kubernetes Engine (GKE).

Sebelum memulai

Sebelum memulai, pastikan Anda telah menjalankan tugas berikut:

  • Aktifkan Google Kubernetes Engine API.
  • Mengaktifkan Google Kubernetes Engine API
  • Jika ingin menggunakan Google Cloud CLI untuk tugas ini, instal lalu lakukan inisialisasi gcloud CLI. Jika sebelumnya Anda telah menginstal gcloud CLI, dapatkan versi terbaru dengan menjalankan gcloud components update.

Persyaratan dan batasan

  • Anda harus mengaktifkan logging sistem dan workload di GKE yang ada sebelum Anda mengaktifkan pengumpulan log untuk cluster Ray.
  • Jika Anda mengaktifkan pengumpulan log untuk cluster Ray pada GKE, GKE hanya mengumpulkan log dari membuat Ray Pod, bukan dari Ray Pod yang sudah ada.
  • Untuk cluster GKE Standar, Anda harus mengaktifkan Google Cloud Managed Service for Prometheus untuk mengaktifkan pengumpulan metrik untuk cluster Ray. Untuk cluster Autopilot, Google Cloud Managed Service for Prometheus diaktifkan oleh secara default.
  • Anda tidak boleh menentukan volume yang diberi nama ray-logs dalam penampung Sinar apa pun di gugus Ray. Jika tidak, GKE tidak akan mengumpulkan log.

Mengaktifkan pengumpulan log untuk cluster Ray

Anda bisa mengaktifkan pengumpulan log untuk cluster Ray dengan Cluster GKE standar atau Autopilot. Sinar log yang dikumpulkan GKE dari cluster Ray diklasifikasikan sebagai log container. Ini termasuk semua log yang dihasilkan oleh {i>header<i} gugus Ray dan node pekerja.

Anda dapat mengaktifkan pengumpulan log untuk cluster Ray menggunakan Konsol Google Cloud atau gcloud CLI.

Konsol

  1. Buka halaman Google Kubernetes Engine di konsol Google Cloud.

    Buka Google Kubernetes Engine

  2. Klik Create, lalu di bagian Standard atau Autopilot, klik Configure.

  3. Dari panel navigasi, pada bagian Cluster, klik Fitur.

  4. Di bagian Operations, pastikan System and Workloads kotak centang dipilih.

  5. Di bagian AI and Machine Learning, pilih Aktifkan Operator Ray, lalu pilih Aktifkan pengumpulan log untuk Gugus sinar.

  6. Klik Create.

Untuk cluster Standar, Anda juga harus mengaktifkan Google Cloud Managed Service for Prometheus.

gcloud

Membuat cluster menggunakan opsi --addons=RayOperator dan Opsi --enable-ray-cluster-logging:

gcloud container clusters create CLUSTER_NAME \
    --cluster-version=VERSION \
    --addons=RayOperator \
    --enable-ray-cluster-logging

Ganti kode berikut:

  • CLUSTER_NAME: nama cluster baru.
  • VERSION: versi GKE, yang harus 1.30.2-gke.1060005 atau yang lebih baru. Anda juga dapat gunakan opsi --release-channel untuk memilih saluran rilis. Tujuan saluran rilis harus memiliki versi default 1.30.2-gke.106000 atau yang lebih baru.

Anda dapat mengaktifkan pengumpulan log untuk cluster Ray pada cluster yang ada dengan menggunakan gcloud container clusters update perintah dengan opsi --addons=RayOperator dan --enable-ray-cluster-logging.

Melihat log Ray

Anda dapat melihat log yang dikumpulkan dari cluster Ray yang berjalan di GKE menggunakan Logging.

  1. Buka halaman Cloud Logging di Konsol Google Cloud.

    Buka Cloud Logging

  2. Buka editor kueri dan tempelkan ekspresi Anda ke editor kueri

  3. Klik Run query

Anda dapat menggunakan contoh kueri berikut di Logs Explorer:

Nama kueri/filter Ekspresi
Semua log Ray
resource.type="k8s_container"
labels."k8s-pod/ray_io/is-ray-node"="yes"
Semua catatan kepala Ray
resource.type="k8s_container"
labels."k8s-pod/ray_io/node-type"="head"
Semua log dalam gugus Ray
resource.type="k8s_container"
labels."k8s-pod/ray_io/cluster"="RAY_CLUSTER_NAME"
Semua log dari tugas Ray
resource.type="k8s_container"
jsonPayload.ray_submission_id="RAY_JOB_SUBMISSION_ID"

Mengaktifkan pengumpulan metrik untuk cluster Ray

Anda bisa mengaktifkan pengumpulan metrik untuk gugus Ray dengan yang baru atau yang sudah ada Cluster GKE standar atau Autopilot.

Setelah Anda mengaktifkan pengumpulan metrik untuk cluster Ray, GKE mengumpulkan metrik dari gugus Ray yang sudah ada dan gugus Ray baru. GKE mengumpulkan semua metrik sistem yang diekspor oleh Ray di Prometheus format font.

Anda dapat mengaktifkan pengumpulan metrik untuk gugus Ray menggunakan Konsol Google Cloud atau gcloud CLI.

Konsol

  1. Buka halaman Google Kubernetes Engine di konsol Google Cloud.

    Buka Google Kubernetes Engine

  2. Klik Create, lalu di bagian Standard atau Autopilot, klik Configure.

  3. Dari panel navigasi, pada bagian Cluster, klik Fitur.

  4. Di bagian Operations, pastikan System and Workloads kotak centang dipilih.

  5. Di bagian AI and Machine Learning, pilih Aktifkan Operator Sinar, lalu pilih Aktifkan pengumpulan metrik untuk Gugus sinar.

  6. Klik Create.

Untuk cluster Standar, Anda juga harus mengaktifkan Google Cloud Managed Service for Prometheus.

gcloud

Membuat cluster menggunakan opsi --addons=RayOperator dan Opsi --enable-ray-cluster-monitoring:

gcloud container clusters create CLUSTER_NAME \
    --cluster-version=VERSION \
    --addons=RayOperator \
    --enable-ray-cluster-monitoring

Ganti kode berikut:

  • CLUSTER_NAME: nama cluster baru.
  • VERSION: versi GKE, yang harus 1.30.2-gke.1060005 atau yang lebih baru. Anda juga dapat gunakan opsi --release-channel untuk memilih saluran rilis. Tujuan saluran rilis harus memiliki versi default 1.30.2-gke.106000 atau yang lebih baru.

Anda dapat mengaktifkan pengumpulan log untuk cluster Ray pada cluster yang ada dengan menggunakan gcloud container clusters update perintah dengan opsi --addons=RayOperator dan --enable-ray-cluster-monitoring.

Melihat metrik Sinar

Anda dapat melihat metrik yang dikumpulkan dari cluster Ray yang berjalan di GKE menggunakan Monitoring.

  1. Buka halaman Metrics Explorer di Konsol Google Cloud.

    Buka Metrics Explorer

  2. Pada menu drop-down Select a metric, masukkan Prometheus Target.

  3. Di bagian Active Metric Kategori, pilih Ray.

Langkah selanjutnya