Répliquer des données dans BigQuery en temps quasi réel avec Datastream

Découvrez comment répliquer les données d'une base de données source vers des ensembles de données BigQuery à l'aide de Datastream.


Pour obtenir des instructions détaillées sur cette tâche directement dans la console Google Cloud, cliquez sur Visite guidée :

Visite guidée


Avant de commencer

  1. Connectez-vous à votre compte Google Cloud. Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de nos produits en conditions réelles. Les nouveaux clients bénéficient également de 300 $ de crédits gratuits pour exécuter, tester et déployer des charges de travail.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Vérifiez que la facturation est activée pour votre projet Google Cloud.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  5. Vérifiez que la facturation est activée pour votre projet Google Cloud.

  6. Activez Datastream API.

    Activer l'API

  7. Assurez-vous que le rôle "Administrateur Datastream" est attribué à votre compte utilisateur.

    Accéder à la page IAM

Si vous souhaitez créer une configuration de connectivité privée pour un réseau VPC standard ou partagé, vous devez remplir des conditions préalables supplémentaires. Pour en savoir plus, consultez la section Créer une configuration de connectivité privée.

Conditions requises

Datastream propose un large éventail d'options de sources, de destinations et de méthodes de connectivité réseau.

Dans ce guide de démarrage rapide, nous partons du principe que vous répliquez des données d'une base de données Cloud SQL pour PostgreSQL vers BigQuery. Pour la base de données source, vous devriez pouvoir configurer votre instance de base de données pour qu'elle accepte les connexions provenant d'adresses IP publiques Datastream.

Ne connaissant pas les spécificités de votre environnement, nous ne pouvons pas fournir de procédure détaillée pour la configuration de votre réseau.

Pour ce guide de démarrage rapide, vous allez sélectionner Liste d'autorisation d'adresses IP comme méthode de connectivité réseau. La liste d'autorisation d'adresses IP est une fonctionnalité de sécurité souvent utilisée pour limiter et contrôler l'accès aux données de votre base de données source aux utilisateurs de confiance. Vous pouvez utiliser les listes d'autorisation d'adresses IP pour créer des listes d'adresses IP ou de plages d'adresses IP de confiance à partir desquelles vos utilisateurs et d'autres services cloud tels que Datastream peuvent accéder à ces données. Pour utiliser les listes d'autorisation d'adresses IP, vous devez ouvrir la base de données Cloud SQL source aux connexions entrantes provenant de Datastream.

Créer des profils de connexion

En créant des profils de connexion, vous stockez des informations de base sur la source et la destination dans Datastream. Vous pouvez ensuite réutiliser ces informations dans plusieurs flux.

Dans ce guide de démarrage rapide, vous allez sélectionner PostgreSQL comme type de profil pour votre profil de connexion source, et BigQuery comme type de profil pour votre profil de connexion de destination. Datastream utilise les informations des profils de connexion pour se connecter à la base de données source et à BigQuery.

Créer un profil de connexion source pour la base de données PostgreSQL

  1. Accédez à la page Profils de connexion pour Datastream dans la Google Cloud Console.

    Accéder à la page Profils de connexion

  2. Cliquez sur CRÉER UN PROFIL.

  3. Sur la page Create a connection profile (Créer un profil de connexion), cliquez sur le type de profil PostgreSQL (car vous souhaitez créer un profil de connexion source pour la base de données PostgreSQL).

  4. Fournissez les informations suivantes dans la section Définir les paramètres de connexion de la page Créer un profil PostgreSQL:

    • Saisissez My Source Connection Profile dans le champ Nom du profil de connexion pour votre base de données source.
    • Conservez l'ID du profil de connexion généré automatiquement.
    • Sélectionnez la région dans laquelle le profil de connexion sera stocké.

    • Saisissez les informations sur la connexion :

      • Dans le champ Nom d'hôte ou adresse IP, saisissez un nom d'hôte ou une adresse IP publique que Datastream peut utiliser pour se connecter à la base de données PostgreSQL source. Vous fournissez une adresse IP publique, car la liste d'autorisation d'adresses IP sera utilisée comme méthode de connectivité réseau dans ce guide de démarrage rapide.
      • Dans le champ Port, saisissez le numéro de port réservé à la base de données source. Pour une base de données PostgreSQL, le port par défaut est généralement 5432.
      • Saisissez un nom d'utilisateur et un mot de passe pour vous authentifier auprès de votre base de données source.
      • Dans le champ Base de données, saisissez le nom qui identifie l'instance de base de données. Pour les bases de données PostgreSQL, il s'agit généralement de postgres.
  5. Dans la section Définir les paramètres de connexion, cliquez sur CONTINUER. La section Définir une méthode de connectivité de la page Créer un profil PostgreSQL est active.

  6. Choisissez la méthode de mise en réseau que vous souhaitez utiliser pour établir la connectivité entre la base de données source et Datastream. Pour ce guide de démarrage rapide, sélectionnez Liste d'autorisation d'adresses IP comme méthode de mise en réseau dans le menu déroulant Méthode de connectivité.

  7. Configurez votre base de données source pour autoriser les connexions entrantes provenant des adresses IP publiques Datastream qui s'affichent.

  8. Dans la section Définir la méthode de connectivité, cliquez sur CONTINUER. La section Tester le profil de connexion de la page Créer un profil PostgreSQL est active.

  9. Cliquez sur Lancer le test pour vérifier que la base de données PostgreSQL source et Datastream peuvent communiquer entre eux.

  10. Vérifiez que l'état "Test réussi" s'affiche.

  11. Si le test échoue, vous pouvez résoudre le problème dans la partie appropriée du flux, puis revenir au test. Consultez la page Diagnostiquer les problèmes pour connaître les étapes de dépannage.

  12. Cliquez sur CRÉER.

Créer un profil de connexion de destination pour BigQuery

  1. Accédez à la page Profils de connexion pour Datastream dans la Google Cloud Console.

    Accéder à la page Profils de connexion

  2. Cliquez sur CRÉER UN PROFIL.

  3. Sur la page Créer un profil de connexion, cliquez sur le type de profil BigQuery (car vous souhaitez créer un profil de connexion de destination pour BigQuery).

  4. Indiquez les informations suivantes sur la page Créer un profil BigQuery:

    • Saisissez My Destination Connection Profile dans le champ Nom du profil de connexion pour votre service BigQuery de destination.
    • Conservez l'ID du profil de connexion généré automatiquement.
    • Sélectionnez la région dans laquelle le profil de connexion sera stocké.
  5. Cliquez sur CRÉER.

Après avoir créé un profil de connexion source pour la base de données PostgreSQL et un profil de connexion de destination pour BigQuery, vous pouvez les utiliser pour créer un flux.

Créer un flux

Dans cette section, vous allez créer un flux pour répliquer les données d'une base de données PostgreSQL source vers BigQuery.

La création d'un flux comprend les éléments suivants :

  • Définir les paramètres du flux.
  • Sélectionnez le profil de connexion que vous avez créé pour votre base de données source (le profil de connexion source). Pour ce guide de démarrage rapide, il s'agit de Mon profil de connexion source.
  • Configurez les informations sur la base de données source pour le flux en spécifiant les propriétés de réplication, ainsi que les tables et les schémas de la base de données source que Datastream :
    • Transfert possible vers la destination.
    • Transfert restreint vers la destination.
  • Déterminez si Datastream remplira les données de l'historique, diffusera les modifications en cours vers la destination ou ne diffusera que les modifications apportées aux données.
  • Sélectionnez le profil de connexion que vous avez créé pour BigQuery (profil de connexion de destination). Pour ce guide de démarrage rapide, il s'agit de Mon profil de connexion de destination.
  • Configuration des informations sur la destination du flux, telles que la configuration des ensembles de données BigQuery.
  • Validation du flux...

Définir les paramètres du flux

  1. Accédez à la page Flux de Datastream dans Google Cloud Console.

    Accéder à la page "Flux"

  2. Cliquez sur CRÉER UN FLUX.

  3. Indiquez les informations suivantes dans le panneau Définir les détails du flux de la page Créer un flux :

    • Saisissez My Stream dans le champ Nom du flux.
    • Conservez l'ID de flux généré automatiquement.
    • Dans le menu Région, sélectionnez la région dans laquelle vous avez créé votre profil de connexion source.
    • Dans le menu Type de source, sélectionnez le type de profil PostgreSQL.
    • Dans le menu Type de destination, sélectionnez le type de profil BigQuery.
  4. Passez en revue les conditions préalables requises qui sont générées automatiquement pour indiquer comment votre environnement doit être préparé pour un flux. Ces prérequis incluent la configuration de la base de données source et de BigQuery.

  5. Cliquez sur CONTINUER. Le panneau Définir un profil de connexion PostgreSQL de la page Créer un flux s'affiche.

Spécifier des informations sur le profil de connexion source

  1. Dans le menu Profil de connexion source, sélectionnez votre profil de connexion source pour la base de données PostgreSQL.

  2. Cliquez sur RUN TEST (EXÉCUTER LE TEST) pour vérifier que la base de données source et Datastream peuvent communiquer entre eux.

    Si le test échoue, le problème associé au profil de connexion s'affiche. Consultez la page Diagnostiquer les problèmes pour connaître les étapes de dépannage. Apportez les modifications nécessaires pour corriger le problème, puis recommencez le test.

  3. Cliquez sur CONTINUE (Continuer). Le panneau Configurer la source du flux de la page Créer un flux s'affiche.

Configurer les informations sur la base de données source du flux

  1. Indiquez les noms Emplacement de réplication et Publication pour votre base de données source. L'emplacement de réplication et la publication ont été créés lors de la configuration de votre base de données PostgreSQL.

  2. Utilisez le menu Objets à inclure pour spécifier les tables et les schémas de votre base de données source que Datastream répliquera dans BigQuery. Le menu ne se charge que si votre base de données comporte jusqu'à 5 000 objets.

    Dans le cadre de ce guide de démarrage rapide, vous souhaitez que Datastream transfère toutes les tables et tous les schémas. Par conséquent, sélectionnez Toutes les tables de tous les schémas dans le menu.

  3. Cliquez sur CONTINUER. Le panneau Définir un profil de connexion BigQuery de la page Créer un flux s'affiche.

Sélectionner un profil de connexion de destination

  1. Dans le menu Profil de connexion de destination, sélectionnez votre profil de connexion de destination pour BigQuery.

  2. Cliquez sur CONTINUER. Le panneau Configurer la destination du flux de la page Créer un flux s'affiche.

Configurer les informations sur la destination du flux

  1. Sélectionnez l'option Ensemble de données pour chaque schéma afin que Datastream crée automatiquement un ensemble de données dans BigQuery pour chaque schéma de la base de données source.

  2. Sélectionnez l'emplacement dans lequel les ensembles de données seront créés dans BigQuery. Cet emplacement ne doit pas nécessairement être identique à la région dans laquelle le flux Datastream est créé.

  3. Définissez le préfixe sur quickstart-. Datastream ajoute cette chaîne au début de chaque ensemble de données qu'il crée dans BigQuery.

  4. Dans le champ Stream write mode (Mode d'écriture de flux), laissez la valeur définie sur Merge (Fusionner). De cette façon, les tables dans BigQuery restent synchronisées avec la source.

  5. Dans la liste déroulante Spécifier la limite d'obsolescence des données, laissez la valeur définie sur 15 minutes. BigQuery utilise cette valeur pour déterminer le niveau d'obsolescence de vos données lorsqu'elles sont interrogées.

  6. Cliquez sur CONTINUER. Le panneau Vérifier les détails et créer le flux de la page Créer un flux s'affiche.

Créer le flux

  1. Vérifiez les détails du flux ainsi que les profils de connexion source et de destination que le flux utilisera pour transférer des données d'une base de données PostgreSQL source vers BigQuery.

  2. Cliquez sur RUN VALIDATION (LANCER LA VALIDATION) pour valider le flux. En validant un flux, Datastream vérifie que la source est correctement configurée, vérifie que le flux peut se connecter à la source et à la destination, et vérifie la configuration de bout en bout du flux.

  3. Une fois tous les tests de validation effectués, cliquez sur CRÉER.

  4. Dans la boîte de dialogue Créer un flux ?, cliquez sur CRÉER.

Démarrer le flux

Dans la section précédente du guide de démarrage rapide, vous avez créé un flux, mais vous ne l'avez pas démarré. Vous pouvez le faire maintenant.

Dans ce guide de démarrage rapide, vous allez créer et démarrer un flux séparément au cas où le processus de création de flux entraînerait une charge accrue sur votre base de données source. Pour décaler cette charge, vous devez créer le flux sans le démarrer, puis le lancer lorsque la charge peut être générée.

En démarrant le flux, Datastream peut transférer les données, les schémas et les tables de la base de données source vers la destination.

  1. Accédez à la page Flux de Datastream dans Google Cloud Console.

    Accéder à la page "Flux"

  2. Cochez la case située à gauche du flux que vous souhaitez commencer. Dans le cadre de ce guide de démarrage rapide, il s'agit de Mon flux.

  3. Cliquez sur DÉMARRER.

  4. Dans la boîte de dialogue, cliquez sur DÉMARRER. L'état du flux passe de Not started à Starting à Running.

    Après avoir démarré un flux, vous pouvez vérifier que Datastream a transféré les données de la base de données source vers la destination.

Vérifier le flux

Dans cette section, vous allez confirmer que Datastream transfère les données de toutes les tables de votre base de données PostgreSQL source vers BigQuery.

  1. Accédez à la page Flux de Datastream dans Google Cloud Console.

    Accéder à la page "Flux"

  2. Cliquez sur le flux que vous avez créé. Dans le cadre de ce guide de démarrage rapide, il s'agit de Mon flux.

  3. Sur la page Détails du flux, cliquez sur le lien qui s'affiche sous le champ Chemin d'écriture de la destination. BigQuery Studio s'ouvre dans un onglet distinct.

  4. Vérifiez que vous voyez des ensembles de données et des tables représentant des schémas et des tables de votre base de données PostgreSQL source.

  5. Cliquez sur l'une des tables pour afficher un aperçu de vos données.

Effectuer un nettoyage

Pour éviter que les ressources utilisées sur cette page soient facturées sur votre compte Google Cloud, procédez comme suit :

  1. Utilisez la console Google Cloud pour supprimer votre projet, vos profils de connexion et flux Datastream, ainsi que vos ensembles de données BigQuery.

Si vous nettoyez les ressources que vous avez créées dans Datastream, elles ne seront plus comptabilisées dans votre quota et ne vous seront plus facturées. Dans les sections suivantes, nous allons voir comment supprimer ou désactiver ces ressources.

Supprimer votre projet

Le moyen le plus simple d'empêcher la facturation est de supprimer le projet que vous avez créé pour ce guide de démarrage rapide.

  1. Dans Cloud Console, accédez à la page Gérer les ressources :

    Accéder à la page Gérer les ressources

  2. Dans la liste des projets, sélectionnez le projet que vous souhaitez supprimer, puis cliquez sur Supprimer.

  3. Dans la boîte de dialogue, saisissez l'ID du projet, puis cliquez sur Arrêter pour supprimer le projet.

Supprimer le flux

  1. Accédez à la page Flux de Datastream dans Google Cloud Console.

    Accéder à la page "Flux"

  2. Cliquez sur le flux que vous souhaitez supprimer. Dans le cadre de ce guide de démarrage rapide, il s'agit de Mon flux.

  3. Cliquez sur METTRE EN VEILLE.

  4. Dans la boîte de dialogue, cliquez sur METTRE EN VEILLE.

  5. Dans le volet État du flux de la page Détails du flux, vérifiez que l'état du flux est Paused.

  6. Cliquez sur SUPPRIMER.

  7. Dans la boîte de dialogue, saisissez Delete dans la zone de texte, puis cliquez sur SUPPRIMER.

Supprimer les profils de connexion

  1. Accédez à la page Profils de connexion pour Datastream dans la Google Cloud Console.

    Accéder à la page Profils de connexion

  2. Cochez la case correspondant à chaque profil de connexion que vous souhaitez supprimer. Pour ce guide de démarrage rapide, cochez les cases Mon profil de connexion source et Mon profil de connexion de destination.

  3. Cliquez sur SUPPRIMER.

  4. Dans la boîte de dialogue, cliquez sur SUPPRIMER.

Supprimer vos ensembles de données BigQuery

  1. Accédez à la page BigQuery Studio dans la Google Cloud Console.

    Accéder à BigQuery Studio

  2. Développez le nœud du projet dans lequel vous avez créé ce guide de démarrage rapide.

  3. Pour chaque ensemble de données à supprimer, cliquez sur le menu Afficher les actions, puis sur Supprimer.

  4. Dans la boîte de dialogue, saisissez delete dans la zone de texte, puis cliquez sur SUPPRIMER.

Étapes suivantes