Questa pagina mostra come configurare Google Kubernetes Engine (GKE) per raccogliere i log e metriche per i cluster Ray in esecuzione su Google Kubernetes Engine (GKE), oltre a istruzioni per Visualizzare log e metriche Ray in Cloud Logging e Cloud Monitoring.
Per ulteriori informazioni informazioni su Ray e KubeRay, vedi Panoramica di Ray on Google Kubernetes Engine (GKE).
Prima di iniziare
Prima di iniziare, assicurati di aver eseguito le seguenti attività:
- Attiva l'API Google Kubernetes Engine. Abilita l'API Google Kubernetes Engine
- Se vuoi utilizzare Google Cloud CLI per questa attività,
install e poi
inizializzare
con gcloud CLI. Se hai già installato gcloud CLI, scarica la versione più recente
eseguendo
gcloud components update
.
Requisiti e limitazioni
- Devi abilitare il logging del sistema e dei carichi di lavoro su un cluster GKE esistente prima di abilitare la raccolta di log per i cluster Ray.
- Se abiliti la raccolta di log per i cluster Ray su un modello nel cluster GKE, GKE raccoglie solo i log che ha creato pod Ray, non da pod Ray esistenti.
- Per i cluster GKE standard, devi abilitare Google Cloud Managed Service per Prometheus per abilitare la raccolta delle metriche per i cluster Ray. Per i cluster Autopilot, Google Cloud Managed Service per Prometheus è abilitato da predefinito.
- Non specificare un volume denominato
ray-logs
in qualsiasi container Ray nell'ammasso Ray. In caso contrario, GKE non raccoglierà logaritmi.
Abilita la raccolta di log per un cluster Ray
Puoi abilitare la raccolta di log per cluster Ray con asset nuovi o esistenti Autopilot o GKE Standard. Il raggio i log che GKE raccoglie dai cluster Ray vengono classificati come log dei container. Sono inclusi tutti i log prodotti dall'intestazione del cluster Ray e nodi worker.
Puoi abilitare la raccolta di log per i cluster Ray utilizzando la console Google Cloud o gcloud CLI.
Console
Vai alla pagina Google Kubernetes Engine nella console Google Cloud.
Fai clic su
Crea, quindi nella sezione Standard o Autopilot, fai clic su Configura.Nel riquadro di navigazione, in Cluster, fai clic su Funzionalità.
Nella sezione Operazioni, assicurati che i valori per Sistema e carichi di lavoro .
Nella sezione IA e machine learning, seleziona Abilita Ray Operator, quindi seleziona Abilita la raccolta di log per cluster Ray.
Fai clic su Crea.
Per i cluster Standard, devi anche abilitare Google Cloud Managed Service per Prometheus.
gcloud
Crea un cluster utilizzando l'opzione --addons=RayOperator
e
Opzione --enable-ray-cluster-logging
:
gcloud container clusters create CLUSTER_NAME \
--cluster-version=VERSION \
--addons=RayOperator \
--enable-ray-cluster-logging
Sostituisci quanto segue:
CLUSTER_NAME
: il nome del nuovo cluster.VERSION
: la versione GKE, che deve essere 1.30.2-gke.1060005 o successivo. Puoi anche usa l'opzione--release-channel
per selezionare un canale di rilascio. La il canale di rilascio deve avere la versione predefinita 1.30.2-gke.106000 o in un secondo momento.
Puoi abilitare la raccolta di log per i cluster Ray su un cluster esistente
utilizzando
gcloud container clusters update
con l'opzione --addons=RayOperator
e i parametri
Opzione --enable-ray-cluster-logging
.
Visualizza log Ray
Puoi visualizzare i log raccolti dai cluster Ray in esecuzione su GKE utilizzando Logging.
Vai alla pagina Cloud Logging nella console Google Cloud.
Apri l'editor di query e incolla l'espressione al suo interno
Fai clic su Esegui query.
Puoi utilizzare le seguenti query di esempio in Esplora log:
Nome query/filtro | Espressione |
---|---|
Tutti i log Ray | resource.type="k8s_container" labels."k8s-pod/ray_io/is-ray-node"="yes" |
Tutti i log di testa Ray | resource.type="k8s_container" labels."k8s-pod/ray_io/node-type"="head" |
Tutti i log in un cluster Ray | resource.type="k8s_container" labels."k8s-pod/ray_io/cluster"="RAY_CLUSTER_NAME" |
Tutti i log di un job Ray | resource.type="k8s_container" jsonPayload.ray_submission_id="RAY_JOB_SUBMISSION_ID" |
Abilita la raccolta delle metriche per un cluster Ray
Puoi abilitare la raccolta delle metriche per i cluster Ray con asset nuovi o esistenti Autopilot o GKE Standard.
Dopo aver abilitato la raccolta delle metriche per i cluster Ray, GKE raccoglie metriche dai cluster Ray esistenti e da nuovi cluster Ray. GKE raccoglie tutte le metriche di sistema esportate da Ray in Prometheus formato.
Puoi abilitare la raccolta delle metriche per i cluster Ray utilizzando console Google Cloud o gcloud CLI.
Console
Vai alla pagina Google Kubernetes Engine nella console Google Cloud.
Fai clic su
Crea, quindi nella sezione Standard o Autopilot, fai clic su Configura.Nel riquadro di navigazione, in Cluster, fai clic su Funzionalità.
Nella sezione Operazioni, assicurati che i valori per Sistema e carichi di lavoro .
Nella sezione IA e machine learning, seleziona Abilita Ray Operator, quindi seleziona Abilita la raccolta delle metriche per cluster Ray.
Fai clic su Crea.
Per i cluster Standard, devi anche abilitare Google Cloud Managed Service per Prometheus.
gcloud
Crea un cluster utilizzando l'opzione --addons=RayOperator
e
Opzione --enable-ray-cluster-monitoring
:
gcloud container clusters create CLUSTER_NAME \
--cluster-version=VERSION \
--addons=RayOperator \
--enable-ray-cluster-monitoring
Sostituisci quanto segue:
CLUSTER_NAME
: il nome del nuovo cluster.VERSION
: la versione GKE, che deve essere 1.30.2-gke.1060005 o successivo. Puoi anche usa l'opzione--release-channel
per selezionare un canale di rilascio. La il canale di rilascio deve avere la versione predefinita 1.30.2-gke.106000 o in un secondo momento.
Puoi abilitare la raccolta di log per i cluster Ray su un cluster esistente
utilizzando
gcloud container clusters update
con l'opzione --addons=RayOperator
e i parametri
Opzione --enable-ray-cluster-monitoring
.
Visualizza metriche Ray
Puoi visualizzare le metriche raccolte dai cluster Ray in esecuzione su GKE utilizzando Monitoring.
Vai alla pagina Esplora metriche nella console Google Cloud.
Nel menu a discesa Seleziona una metrica, inserisci Target Prometheus.
Nella sezione Categorie di metriche attive, seleziona Raggio.
Passaggi successivi
- Informazioni su Ray su Kubernetes.
- Esplora il Documentazione di KubeRay.