Collecter et afficher les journaux et les métriques des clusters Ray sur Google Kubernetes Engine (GKE)


Cette page explique comment configurer Google Kubernetes Engine (GKE) pour collecter les journaux et les métriques des clusters Ray exécutés sur Google Kubernetes Engine (GKE), et comment afficher les journaux et les métriques Ray dans Cloud Logging et Cloud Monitoring.

Pour en savoir plus sur Ray et KubeRay, consultez la page Présentation de Ray sur Google Kubernetes Engine (GKE).

Avant de commencer

Avant de commencer, effectuez les tâches suivantes :

  • Activez l'API Google Kubernetes Engine.
  • Activer l'API Google Kubernetes Engine
  • Si vous souhaitez utiliser Google Cloud CLI pour cette tâche, installez puis initialisez gcloud CLI. Si vous avez déjà installé gcloud CLI, assurez-vous de disposer de la dernière version en exécutant la commande gcloud components update.

Conditions requises et limites

  • Vous devez activer la journalisation du système et de la charge de travail sur un cluster GKE existant avant d'activer la collecte de journaux pour les clusters Ray.
  • Si vous activez la collecte de journaux pour les clusters Ray sur un cluster GKE existant, GKE ne collecte les journaux que des pods Ray nouvellement créés, et non des pods Ray existants.
  • Pour les clusters GKE standards, vous devez activer Google Cloud Managed Service pour Prometheus afin d'activer la collecte de métriques pour les clusters Ray. Pour les clusters Autopilot, Google Cloud Managed Service pour Prometheus est activé par défaut.
  • Vous ne devez pas déployer de volume nommé ray-logs dans un conteneur Ray du cluster Ray. Sinon, GKE ne collecte pas de journaux.

  • GKE ne déploie pas de volume de journaux Ray dans un conteneur Ray du cluster Ray. Vous ne devez pas déployer manuellement un volume de journaux Ray.

Activer la collecte de journaux pour un cluster Ray

Vous pouvez activer la collecte de journaux pour les clusters Ray avec des clusters GKE Autopilot ou standards nouveaux ou existants. Les journaux Ray que GKE collecte à partir de clusters Ray sont classés en tant que journaux de conteneurs. Cela inclut tous les journaux générés par l'en-tête du cluster Ray et les nœuds de calcul.

Vous pouvez activer la collecte de journaux pour les clusters Ray à l'aide de la console Google Cloud ou de gcloud CLI.

Console

  1. Accédez à la page Google Kubernetes Engine dans Google Cloud Console.

    Accéder à Google Kubernetes Engine

  2. Cliquez sur Créer, puis sur Configurer dans la section Standard ou Autopilot.

  3. Dans le volet de navigation, sous Cluster, cliquez sur Fonctionnalités.

  4. Dans la section Opérations, assurez-vous que la case Système et charges de travail est cochée.

  5. Dans la section IA et machine learning, sélectionnez Activer l'opérateur Ray, puis Activer la collecte de journaux pour les clusters Ray.

  6. Cliquez sur Créer.

Pour les clusters standards, vous devez également activer Google Cloud Managed Service pour Prometheus.

gcloud

Créez un cluster à l'aide des options --addons=RayOperator et --enable-ray-cluster-logging:

gcloud container clusters create-auto CLUSTER_NAME \
    --cluster-version=VERSION \
    --addons=RayOperator \
    --enable-ray-cluster-logging

Remplacez les éléments suivants :

  • CLUSTER_NAME : nom du nouveau cluster
  • VERSION : version de GKE, qui doit être 1.30.2-gke.1060005 ou ultérieure. Vous pouvez également utiliser l'option --release-channel pour sélectionner une version disponible. La version disponible doit disposer de la version par défaut 1.30.2-gke.106000 ou ultérieure.

Vous pouvez activer la collecte de journaux pour les clusters Ray sur un cluster existant à l'aide de la commande gcloud container clusters update avec l'option --addons=RayOperator et --enable-ray-cluster-logging.

Afficher les journaux Ray

Vous pouvez afficher les journaux collectés à partir des clusters Ray exécutés sur GKE à l'aide de Logging.

  1. Accédez à la page Cloud Logging dans la console Google Cloud.

    Accéder à Cloud Logging

  2. Exécutez la requête suivante :

      resource.type="k8s_container"
      labels."k8s-pod/ray_io/is-ray-node"="yes"
    
  3. Vous pouvez éventuellement filtrer les résultats à l'aide du filtre Nom du pod.

Activer la collecte de métriques pour un cluster Ray

Vous pouvez activer la collecte de métriques pour les clusters Ray avec des clusters GKE Autopilot ou standards nouveaux ou existants.

Une fois la collecte de métriques activée pour les clusters Ray, GKE collecte les métriques des clusters Ray existants et des nouveaux clusters Ray. GKE collecte toutes les métriques système exportées par Ray au format Prometheus.

Vous pouvez activer la collecte de métriques pour les clusters Ray à l'aide de la console Google Cloud ou de gcloud CLI.

Console

  1. Accédez à la page Google Kubernetes Engine dans Google Cloud Console.

    Accéder à Google Kubernetes Engine

  2. Cliquez sur Créer, puis sur Configurer dans la section Standard ou Autopilot.

  3. Dans le volet de navigation, sous Cluster, cliquez sur Fonctionnalités.

  4. Dans la section Opérations, assurez-vous que la case Système et charges de travail est cochée.

  5. Dans la section IA et machine learning, sélectionnez Activer l'opérateur Ray, puis Activer la collecte de journaux pour les clusters Ray.

  6. Cliquez sur Créer.

Pour les clusters standards, vous devez également activer Google Cloud Managed Service pour Prometheus.

gcloud

Créez un cluster à l'aide des options --addons=RayOperator et --enable-ray-cluster-monitoring:

gcloud container clusters create-auto CLUSTER_NAME \
    --cluster-version=VERSION \
    --addons=RayOperator \
    --enable-ray-cluster-monitoring

Remplacez les éléments suivants :

  • CLUSTER_NAME : nom du nouveau cluster
  • VERSION : version de GKE, qui doit être 1.30.2-gke.1060005 ou ultérieure. Vous pouvez également utiliser l'option --release-channel pour sélectionner une version disponible. La version disponible doit disposer de la version par défaut 1.30.2-gke.106000 ou ultérieure.

Vous pouvez activer la collecte de journaux pour les clusters Ray sur un cluster existant à l'aide de la commande gcloud container clusters update avec l'option --addons=RayOperator et --enable-ray-cluster-monitoring.

Afficher les métriques Ray

Vous pouvez afficher les métriques collectées à partir des clusters Ray exécutés sur GKE à l'aide de Monitoring.

  1. Accédez à la page Explorateur de métriques dans la console Google Cloud.

    Accéder à l'explorateur de métriques

  2. Dans le menu déroulant Sélectionner une métrique, saisissez Cible Prometheus.

  3. Dans la section Catégories de métriques actives, sélectionnez Ray.

Étape suivante