Cette page a été traduite par l'API Cloud Translation.

Propriétés de l'approvisionneur Dataproc

L'approvisionneur Dataproc dans Cloud Data Fusion appelle le L'API Dataproc pour créer et supprimer des clusters dans Google Cloud projets. Vous pouvez configurer les clusters dans les paramètres de l'approvisionneur.

Pour en savoir plus sur la compatibilité entre Cloud Data Fusion, et les versions de Dataproc, consultez la section Compatibilité des versions.

Propriétés

Valeur	Description
ID du projet	Le projet Google Cloud dans lequel Dataproc un cluster est créé. Le projet doit comporter l'API Dataproc est activé.
Clé du compte de service du créateur	La clé du compte de service fournie à l'approvisionneur doit autorisation d'accéder à Dataproc et Compute Engine API. Votre clé de compte étant sensible, nous vous recommandons de fournir la clé de compte à l'aide du stockage sécurisé. Après avoir créé la clé sécurisée, vous pouvez l'ajouter à un espace de noms ou à un du profil de calcul du système. Pour un profil de calcul d'espace de noms, cliquez sur et sélectionnez le bouclier sécurisé . Pour un profil de calcul système, saisissez le nom de la clé dans champ Clé de compte sécurisée.
Région	Un emplacement géographique où vous pouvez héberger vos ressources, telles que les nœuds de calcul du cluster Dataproc.
Zone	Une zone de déploiement isolée au sein d'une région
Réseau	Le réseau VPC de votre projet Google Cloud qui sera utilisé lorsque vous créez un cluster Dataproc.
ID du projet hôte du réseau	Si le réseau se trouve dans un autre projet Google Cloud, saisissez l'ID de ce projet. Pour un VPC partagé, indiquez le projet hôte ID de l'emplacement du réseau.
Sous-réseau	Sous-réseau à utiliser lors de la création des clusters. Il doit être compris dans la plage réseau et dans la région dans laquelle se trouve la zone. Si ce champ n'est pas renseigné, un sous-réseau en fonction du réseau et de la zone.
Compte de service Runner	Nom du compte de service des machines virtuelles Dataproc (VM) utilisées pour exécuter des programmes. Si ce champ n'est pas renseigné, compte de service Compute Engine est utilisé.
Nombre d'instances maîtres	Nombre de nœuds maîtres du cluster. Ces nœuds contiennent Le gestionnaire de ressources YARN, le composant NameNode (nœud de noms HDFS) et tous les pilotes. Doit être défini sur 1 ou 3. La valeur par défaut est 1.
Type de machine maître	Type de machine maître à utiliser. Sélectionnez l'une des options suivantes : types de machines: n1 n2 N2D e2 Dans Cloud Data Fusion 6.7.2 et versions ultérieures, la valeur par défaut est e2 : Dans la version 6.7.1, la valeur par défaut est n2. Dans les versions 6.7.0 et antérieures, la valeur par défaut est n1.
Cœurs maîtres	Nombre de cœurs virtuels alloués à un nœud maître. La valeur par défaut est 2.
Mémoire maître (Go)	Quantité de mémoire, en gigaoctets, allouée à un nœud maître. La valeur par défaut est 8 Go.
Master disk size (GB) (Taille du disque maître (Go))	Taille de disque, en gigaoctets, allouée à un nœud maître. La valeur par défaut est 1 000 Go.
Master disk type (Type de disque maître)	Type de disque de démarrage pour un nœud maître: Disque persistant standard Disque persistant SSD La valeur par défaut est Standard Persistent Disk.
Type de machine des nœuds de calcul	Type de machine de nœud de calcul à utiliser. Sélectionnez l'une des options suivantes : types de machines: n1 n2 N2D e2 Dans Cloud Data Fusion 6.7.2 et versions ultérieures, la valeur par défaut est e2 : Dans la version 6.7.1, la valeur par défaut est n2. Dans les versions 6.7.0 et antérieures, la valeur par défaut est n1.
Cœurs de nœud de calcul	Nombre de cœurs virtuels alloués à un nœud de calcul. La valeur par défaut est 2.
Mémoire du nœud de calcul (Go)	Quantité de mémoire, en gigaoctets, allouée à un nœud de calcul. La valeur par défaut est 8 Go.
Taille du disque des nœuds de calcul (Go)	Taille de disque, en gigaoctets, allouée à un nœud de calcul. La valeur par défaut est 1 000 Go.
Type de disque des nœuds de calcul	Type de disque de démarrage pour un nœud de calcul: Disque persistant standard Disque persistant SSD La valeur par défaut est Standard Persistent Disk.
Utiliser l'autoscaling prédéfini	Permet d'utiliser l'autoscaling Dataproc prédéfini.
Nombre de nœuds de calcul primaires	Les nœuds de calcul contiennent un gestionnaire de nœuds YARN et un composant DataNode HDFS. La valeur par défaut est 2.
Nombre de nœuds de calcul secondaires	Les nœuds de calcul secondaires contiennent un gestionnaire de nœuds YARN, mais pas de nœud HDFS DataNode. Il est normalement défini sur zéro, sauf si une règle d'autoscaling nécessite qu'elle soit plus élevée.
Règle d'autoscaling	Chemin d'accès à l'ID de la règle d'autoscaling ou à l'URI de la ressource. En savoir plus sur la configuration et l'utilisation de Dataproc l'autoscaling pour redimensionner automatiquement et dynamiquement les clusters afin de répondre des charges de travail requises, consultez la section Quand utiliser l'autoscaling ? et l'autoscaling de Dataproc Google Cloud.
Métadonnées	Métadonnées supplémentaires pour les instances exécutées dans votre cluster. Vous pouvez généralement pour suivre la facturation et les rejets de débit. Pour plus plus d'informations, consultez la section Métadonnées du cluster.
Tags réseau	Attribuez des tags réseau pour appliquer les règles de pare-feu aux nœuds spécifiques dans un cluster. Les tags réseau doivent commencer par une lettre minuscule et peuvent contenir lettres minuscules, chiffres et traits d'union. Les tags doivent se terminer par une lettre minuscule. une lettre ou un chiffre.
Activer le démarrage sécurisé	Il active le démarrage sécurisé VM Dataproc. La valeur par défaut est False.
Activer vTPM	Active le module Virtual Trusted Platform Module (vTPM) sur les VM Dataproc. La valeur par défaut est False.
Activer la surveillance de l'intégrité	Active la surveillance de l'intégrité virtuelle sur le VM Dataproc. La valeur par défaut est False.
Version de l'image	Version de l'image Dataproc. Si vous ne renseignez pas ce champ, il s'agit sélectionné automatiquement. Si la propriété URI de l'image personnalisée est laissée vide, cette propriété est ignorée.
URI de l'image personnalisée	URI de l'image Dataproc. Si ce champ n'est pas renseigné, il est déduit de la propriété Version de l'image.
Bucket de préproduction	bucket Cloud Storage utilisé pour organiser les dépendances de tâches pour exécuter des pipelines dans Dataproc.
Bucket temporaire	Bucket Cloud Storage utilisé pour stocker des clusters éphémères et les données de jobs, telles que les fichiers d'historique Spark dans Dataproc. Cette propriété a été introduite dans la version de Cloud Data Fusion 6.9.2.
Nom de la clé de chiffrement	La clé de chiffrement gérée par le client (CMEK) utilisée par Dataproc.
Champs d'application OAuth	Les habilitations OAuth 2.0 que vous devrez peut-être demander pour accéder à Google en fonction du niveau d'accès dont vous avez besoin. Champ d'application de Google Cloud Platform est toujours incluse. Cette propriété a été introduite dans la version de Cloud Data Fusion 6.9.2.
Actions d'initialisation	Liste des scripts à exécuter pendant l'initialisation du cluster. Les actions d'initialisation doivent être placées sur Cloud Storage.
Propriétés du cluster	Les propriétés de cluster remplacent les propriétés de configuration par défaut de les services Hadoop. Pour en savoir plus sur les paires clé-valeur applicables, consultez la section Propriétés du cluster.
Libellés courants	Étiquettes pour organiser les clusters et les jobs Dataproc en cours de création. Vous pouvez ajouter une étiquette à chaque ressource, puis filtrer les ressources par étiquette. Les informations sur les étiquettes sont transmises au système de facturation afin que les clients peut décomposer vos frais de facturation par libellé.
Durée maximale d'inactivité	Configurer Dataproc pour supprimer un cluster inactif que le nombre de minutes spécifié. Les clusters sont normalement supprimés directement après la fin d'une exécution, mais la suppression peut échouer dans de rares situations. Pour Pour en savoir plus, consultez Résoudre les problèmes de suppression clusters. La valeur par défaut est 30 minutes.
Ignorer la suppression du cluster	Permet d'ignorer ou non la suppression du cluster à la fin d'une exécution. Vous devez supprimer manuellement des clusters. Il ne doit être utilisé que lors du débogage d'une erreur exécuter. La valeur par défaut est False.
Activer l'intégration de Stackdriver Logging	Activer l'intégration de Stackdriver Logging La valeur par défaut est True.
Activer l'intégration de Stackdriver Monitoring	Activer l'intégration de Stackdriver Monitoring La valeur par défaut est True.
Activer la passerelle des composants	Activer la passerelle des composants pour accéder aux interfaces du cluster comme le gestionnaire de ressources YARN et le serveur d'historique Spark. La valeur par défaut est False.
Privilégier l'adresse IP externe	Lorsque le système s'exécute sur Google Cloud sur le même réseau que le cluster, il utilise normalement l'adresse IP interne communiquer avec le cluster. Pour toujours utiliser l'adresse IP externe, définissez définissez cette valeur sur True. La valeur par défaut est False.
Créer un délai de sondage	Nombre de secondes d'attente après la création d'un cluster pour commencer pour vérifier si le cluster a bien été créé. La valeur par défaut est 60 secondes. Les paramètres d'interrogation contrôlent la fréquence à laquelle l'état du cluster est interrogé créer et supprimer des clusters. Si de nombreux pipelines sont programmés exécutés en même temps, vous pouvez modifier ces paramètres.
Créer une gigue de sondage	Gigue maximale aléatoire, en secondes, à ajouter au délai lorsque créer un cluster. Vous pouvez utiliser cette propriété pour empêcher d'appels d'API simultanés dans Google Cloud de pipelines planifiés pour s'exécuter exactement au même moment. La valeur par défaut est 20 secondes.
Supprimer le délai de sondage	Nombre de secondes d'attente après la suppression d'un cluster pour commencer pour vérifier si le cluster a été supprimé. La valeur par défaut est 30 secondes.
Intervalle du sondage	Nombre de secondes d'attente entre les interrogations de l'état du cluster. La valeur par défaut est 2.

Propriétés de l'interface Web des profils Dataproc mappées avec des propriétés JSON

Nom de la propriété de l'interface utilisateur du profil Dataproc	Nom de la propriété JSON du profil Dataproc
Libellé du profil	`name`
Nom du profil	`label`
Description	`description`
ID du projet	`projectId`
Clé du compte de service du créateur	`accountKey`
Région	`region`
Zone	`zone`
Réseau	`network`
ID du projet hôte du réseau	`networkHostProjectId`
Sous-réseau	`subnet`
Compte de service Runner	`serviceAccount`
Nombre d'instances maîtres	`masterNumNodes`
Type de machine maître	`masterMachineType`
Cœurs maîtres	`masterCPUs`
Mémoire maître (Go)	`masterMemoryMB`
Master disk size (GB) (Taille du disque maître (Go))	`masterDiskGB`
Master disk type (Type de disque maître)	`masterDiskType`
Nombre de nœuds de calcul primaires	`workerNumNodes`
Nombre de nœuds de calcul secondaires	`secondaryWorkerNumNodes`
Type de machine des nœuds de calcul	`workerMachineType`
Cœurs de nœud de calcul	`workerCPUs`
Mémoire du nœud de calcul (Go)	`workerMemoryMB`
Taille du disque des nœuds de calcul (Go)	`workerDiskGB`
Type de disque des nœuds de calcul	`workerDiskType`
Métadonnées	`clusterMetaData`
Tags réseau	`networkTags`
Activer le démarrage sécurisé	`secureBootEnabled`
Activer vTPM	`vTpmEnabled`
Activer la surveillance de l'intégrité	`integrityMonitoringEnabled`
Version de l'image	`imageVersion`
URI de l'image personnalisée	`customImageUri`
Bucket Cloud Storage	`gcsBucket`
Nom de la clé de chiffrement	`encryptionKeyName`
Règle d'autoscaling	`autoScalingPolicy`
Actions d'initialisation	`initActions`
Propriétés du cluster	`clusterProperties`
Libellés	`clusterLabels`
Durée maximale d'inactivité	`idleTTL`
Ignorer la suppression du cluster	`skipDelete`
Activer l'intégration de Stackdriver Logging	`stackdriverLoggingEnabled`
Activer l'intégration de Stackdriver Monitoring	`stackdriverMonitoringEnabled`
Activer la passerelle des composants	`componentGatewayEnabled`
Privilégier l'adresse IP externe	`preferExternalIP`
Créer un délai de sondage	`pollCreateDelay`
Créer une gigue de sondage	`pollCreateJitter`
Supprimer le délai de sondage	`pollDeleteDelay`
Intervalle du sondage	`pollInterval`

Bonnes pratiques

Lorsque vous créez un cluster statique pour vos pipelines, reportez-vous à la bonnes pratiques de configuration d'un cluster.

Étape suivante

Découvrez comment gérer les profils de calcul.