Lire des données à partir d'une source de flux Pub/Sub

Cloud Data Fusion est compatible avec les sources Pub/Sub dans les pipelines de flux de données.

Avant de commencer

Rôles et autorisations

Pour obtenir les autorisations dont vous avez besoin pour lire à partir d'une source de flux Pub/Sub, demandez à votre administrateur de vous accorder le Rôle IAM Éditeur Pub/Sub (roles/pubsub.editor) sur le compte de service utilisé pour accéder à l'abonnement Pub/Sub. Pour en savoir plus sur l'attribution de rôles, consultez la section Gérer les accès.

Ce rôle prédéfini contient les autorisations requises pour lire les données d'une source de flux Pub/Sub. Pour connaître les autorisations exactes requises, développez la section Autorisations requises :

Autorisations requises

Les autorisations suivantes sont requises pour lire les données d'une source de flux Pub/Sub:

  • pubsub.snapshots.create
  • pubsub.snapshots.delete
  • pubsub.snapshots.seek
  • pubsub.subscriptions.consume
  • pubsub.topics.attachSubscription

Vous pouvez également obtenir ces autorisations avec des rôles personnalisés ou d'autres rôles prédéfinis.

Vous accordez le rôle au compte de service que vous avez spécifié dans les propriétés du plug-in pour accéder à Pub/Sub. Si aucune valeur n'est spécifiée, sur le compte de service Dataproc.

Pour en savoir plus sur l'attribution de rôles, consultez la section Gérer les accès.

Ajouter une source Pub/Sub à votre pipeline de données en flux continu

  1. Accédez à votre instance:

    1. Dans la console Google Cloud, accédez à la page Cloud Data Fusion.

    2. Pour ouvrir l'instance dans Cloud Data Fusion Studio, Cliquez sur Instances, puis sur Afficher l'instance.

      Accéder à la page "Instances"

  2. Dans l'interface Web de Cloud Data Fusion, cliquez sur Studio.

  3. Sélectionnez Data Pipeline - Realtime (Pipeline de données - Temps réel).

  4. Dans le menu Source, sélectionnez Pub/Sub. Un Pub/Sub source de flux de données apparaît dans le pipeline.

  5. Sur le nœud Pub/Sub, cliquez sur Propriétés pour configurer le source. Pour en savoir plus, consultez Source de streaming Pub/Sub :

Compatibilité avec une seule source Pub/Sub sans plug-ins de fenêtrage

Cloud Data Fusion version 6.9.1 accepte les pipelines en temps réel avec un seul Source de flux Pub/Sub et aucun plug-in Windower.

  • La source de flux Pub/Sub est compatible et les données sont traitées au moins une fois. L'activation des points de contrôle Spark n'est pas obligatoire.
  • La source de diffusion Pub/Sub crée un Instantané Pub/Sub au début de chaque lot et le supprime à la fin de chaque lot.
  • La création d'instantanés Pub/Sub est payante. Pour en savoir plus, consultez Tarifs de Pub/Sub
  • Vous pouvez surveiller la création d'instantanés Cloud Audit Logs :

Mettre à niveau un pipeline avec une source de flux Pub/Sub

Cloud Data Fusion est compatible avec les mises à niveau directes des applications. des pipelines de traitement par flux avec une source de flux Pub/Sub créée dans 6.9.1 ou version ultérieure.

Cloud Data Fusion ne permet pas de mettre à niveau les pipelines de données avec une Source de streaming Pub/Sub dans la version 6.9.0 ou antérieure. À la place, mettre à niveau ces pipelines vers la version 6.9.1:

  1. Arrêtez la publication des données sur le sujet lorsque la mise à niveau de l'instance est planifiée.
  2. Attendez que le pipeline ait fini de traiter les données publiées.
  3. Une fois les données entièrement traitées, arrêtez le pipeline.
  4. Mettez à niveau l'instance.
  5. Dupliquez le pipeline existant et installez les plug-ins les plus récents.
  6. Déployez le pipeline.
  7. Exécutez le nouveau pipeline pour lire les données.

    La nouvelle version utilise automatiquement les instantanés au lieu de créer des points de contrôle Spark.

  8. Supprimez l'ancien pipeline.

Étape suivante