Raccogli e visualizza log e metriche per i cluster Ray su Google Kubernetes Engine (GKE)


Questa pagina mostra come configurare Google Kubernetes Engine (GKE) per raccogliere i log e metriche per i cluster Ray in esecuzione su Google Kubernetes Engine (GKE), oltre a istruzioni per Visualizzare log e metriche Ray in Cloud Logging e Cloud Monitoring.

Per ulteriori informazioni informazioni su Ray e KubeRay, vedi Panoramica di Ray on Google Kubernetes Engine (GKE).

Prima di iniziare

Prima di iniziare, assicurati di aver eseguito le seguenti attività:

  • Attiva l'API Google Kubernetes Engine.
  • Abilita l'API Google Kubernetes Engine
  • Se vuoi utilizzare Google Cloud CLI per questa attività, install e poi inizializzare con gcloud CLI. Se hai già installato gcloud CLI, scarica la versione più recente eseguendo gcloud components update.

Requisiti e limitazioni

  • Devi abilitare il logging del sistema e dei carichi di lavoro su un cluster GKE esistente prima di abilitare la raccolta di log per i cluster Ray.
  • Se abiliti la raccolta di log per i cluster Ray su un modello nel cluster GKE, GKE raccoglie solo i log che ha creato pod Ray, non da pod Ray esistenti.
  • Per i cluster GKE standard, devi abilitare Google Cloud Managed Service per Prometheus per abilitare la raccolta delle metriche per i cluster Ray. Per i cluster Autopilot, Google Cloud Managed Service per Prometheus è abilitato da predefinito.
  • Non specificare un volume denominato ray-logs in qualsiasi container Ray nell'ammasso Ray. In caso contrario, GKE non raccoglierà logaritmi.

Abilita la raccolta di log per un cluster Ray

Puoi abilitare la raccolta di log per cluster Ray con asset nuovi o esistenti Autopilot o GKE Standard. Il raggio i log che GKE raccoglie dai cluster Ray vengono classificati come log dei container. Sono inclusi tutti i log prodotti dall'intestazione del cluster Ray e nodi worker.

Puoi abilitare la raccolta di log per i cluster Ray utilizzando la console Google Cloud o gcloud CLI.

Console

  1. Vai alla pagina Google Kubernetes Engine nella console Google Cloud.

    Vai a Google Kubernetes Engine

  2. Fai clic su Crea, quindi nella sezione Standard o Autopilot, fai clic su Configura.

  3. Nel riquadro di navigazione, in Cluster, fai clic su Funzionalità.

  4. Nella sezione Operazioni, assicurati che i valori per Sistema e carichi di lavoro .

  5. Nella sezione IA e machine learning, seleziona Abilita Ray Operator, quindi seleziona Abilita la raccolta di log per cluster Ray.

  6. Fai clic su Crea.

Per i cluster Standard, devi anche abilitare Google Cloud Managed Service per Prometheus.

gcloud

Crea un cluster utilizzando l'opzione --addons=RayOperator e Opzione --enable-ray-cluster-logging:

gcloud container clusters create CLUSTER_NAME \
    --cluster-version=VERSION \
    --addons=RayOperator \
    --enable-ray-cluster-logging

Sostituisci quanto segue:

  • CLUSTER_NAME: il nome del nuovo cluster.
  • VERSION: la versione GKE, che deve essere 1.30.2-gke.1060005 o successivo. Puoi anche usa l'opzione --release-channel per selezionare un canale di rilascio. La il canale di rilascio deve avere la versione predefinita 1.30.2-gke.106000 o in un secondo momento.

Puoi abilitare la raccolta di log per i cluster Ray su un cluster esistente utilizzando gcloud container clusters update con l'opzione --addons=RayOperator e i parametri Opzione --enable-ray-cluster-logging.

Visualizza log Ray

Puoi visualizzare i log raccolti dai cluster Ray in esecuzione su GKE utilizzando Logging.

  1. Vai alla pagina Cloud Logging nella console Google Cloud.

    Vai a Cloud Logging

  2. Apri l'editor di query e incolla l'espressione al suo interno

  3. Fai clic su Esegui query.

Puoi utilizzare le seguenti query di esempio in Esplora log:

Nome query/filtro Espressione
Tutti i log Ray
resource.type="k8s_container"
labels."k8s-pod/ray_io/is-ray-node"="yes"
Tutti i log di testa Ray
resource.type="k8s_container"
labels."k8s-pod/ray_io/node-type"="head"
Tutti i log in un cluster Ray
resource.type="k8s_container"
labels."k8s-pod/ray_io/cluster"="RAY_CLUSTER_NAME"
Tutti i log di un job Ray
resource.type="k8s_container"
jsonPayload.ray_submission_id="RAY_JOB_SUBMISSION_ID"

Abilita la raccolta delle metriche per un cluster Ray

Puoi abilitare la raccolta delle metriche per i cluster Ray con asset nuovi o esistenti Autopilot o GKE Standard.

Dopo aver abilitato la raccolta delle metriche per i cluster Ray, GKE raccoglie metriche dai cluster Ray esistenti e da nuovi cluster Ray. GKE raccoglie tutte le metriche di sistema esportate da Ray in Prometheus formato.

Puoi abilitare la raccolta delle metriche per i cluster Ray utilizzando console Google Cloud o gcloud CLI.

Console

  1. Vai alla pagina Google Kubernetes Engine nella console Google Cloud.

    Vai a Google Kubernetes Engine

  2. Fai clic su Crea, quindi nella sezione Standard o Autopilot, fai clic su Configura.

  3. Nel riquadro di navigazione, in Cluster, fai clic su Funzionalità.

  4. Nella sezione Operazioni, assicurati che i valori per Sistema e carichi di lavoro .

  5. Nella sezione IA e machine learning, seleziona Abilita Ray Operator, quindi seleziona Abilita la raccolta delle metriche per cluster Ray.

  6. Fai clic su Crea.

Per i cluster Standard, devi anche abilitare Google Cloud Managed Service per Prometheus.

gcloud

Crea un cluster utilizzando l'opzione --addons=RayOperator e Opzione --enable-ray-cluster-monitoring:

gcloud container clusters create CLUSTER_NAME \
    --cluster-version=VERSION \
    --addons=RayOperator \
    --enable-ray-cluster-monitoring

Sostituisci quanto segue:

  • CLUSTER_NAME: il nome del nuovo cluster.
  • VERSION: la versione GKE, che deve essere 1.30.2-gke.1060005 o successivo. Puoi anche usa l'opzione --release-channel per selezionare un canale di rilascio. La il canale di rilascio deve avere la versione predefinita 1.30.2-gke.106000 o in un secondo momento.

Puoi abilitare la raccolta di log per i cluster Ray su un cluster esistente utilizzando gcloud container clusters update con l'opzione --addons=RayOperator e i parametri Opzione --enable-ray-cluster-monitoring.

Visualizza metriche Ray

Puoi visualizzare le metriche raccolte dai cluster Ray in esecuzione su GKE utilizzando Monitoring.

  1. Vai alla pagina Esplora metriche nella console Google Cloud.

    Vai a Esplora metriche

  2. Nel menu a discesa Seleziona una metrica, inserisci Target Prometheus.

  3. Nella sezione Categorie di metriche attive, seleziona Raggio.

Passaggi successivi