Diese Seite wurde von der Cloud Translation API übersetzt.

Attribute des Dataproc-Bereitstellers

Der Dataproc-Bereitsteller in Cloud Data Fusion ruft die Funktion Dataproc API zum Erstellen und Löschen von Clustern in Google Cloud Projekten. Sie können die Cluster in den Einstellungen des Bereitstellers konfigurieren.

Weitere Informationen zur Kompatibilität von Cloud Data Fusion und Dataproc-Versionen finden Sie unter Versionskompatibilität.

Properties

Attribut	Beschreibung
Projekt-ID	Das Google Cloud-Projekt, in dem die Dataproc-Anwendung wird der Cluster erstellt. Das Projekt muss die Dataproc API haben aktiviert.
Creator-Dienstkontoschlüssel	Der Dienstkontoschlüssel, der dem Bereitsteller zur Verfügung gestellt wird, muss folgende Voraussetzungen erfüllen: Berechtigung für den Zugriff auf Dataproc und Compute Engine APIs Da Ihr Kontoschlüssel vertraulich ist, sollten Sie den Kontoschlüssel mithilfe von Secure Storage. Nachdem Sie den sicheren Schlüssel erstellt haben, können Sie ihn einem Namespace oder einem Compute-Profil des Systems. Klicken Sie für ein Namespace-Compute-Profil auf das -Schild und wähle die sicherere . Geben Sie für ein Compute-Profil des Systems den Namen des Schlüssels in das Feld Secure Account Key (Sicherer Kontoschlüssel) ein.
Region	Ein geografischer Standort, an dem Sie Ihre Ressourcen hosten können, z. B. die Rechenknoten für den Dataproc-Cluster.
Zone	Ein isolierter Bereitstellungsbereich innerhalb einer Region.
Netzwerk	Das VPC-Netzwerk in Ihrem Google Cloud-Projekt, das verwendet wird wenn Sie einen Dataproc-Cluster erstellen.
Projekt-ID des Netzwerk-Hosts	Befindet sich das Netzwerk in einem anderen Google Cloud-Projekt, geben Sie die ID dieses Projekts. Geben Sie für eine freigegebene VPC das Hostprojekt ein ID, unter der sich das Netzwerk befindet.
Subnetz	Das Subnetz, das beim Erstellen von Clustern verwendet werden soll. Er muss innerhalb der angegebenen Netzwerk und in der Region, in der sich die Zone befindet. Wenn Sie das Feld leer lassen, basierend auf dem Netzwerk und der Zone ausgewählt.
Runner-Dienstkonto	Der Name des Dienstkontos der virtuellen Dataproc-Maschinen (VMs), die zum Ausführen von Programmen verwendet werden. Wenn Sie das Feld leer lassen, Compute Engine-Dienstkonto verwendet.
Anzahl der Master	Die Anzahl der Master-Knoten im Cluster. Diese Knoten enthalten die YARN Resource Manager, HDFS NameNode und alle Treiber Muss auf 1 oder 3. Der Standardwert ist 1.
Master-Maschinentyp	Der Typ der zu verwendenden Master-Maschine. Wählen Sie eine der folgenden Optionen aus: Maschinentypen: n1 n2 N2D e2 In Cloud Data Fusion Version 6.7.2 und höher ist die Standardeinstellung e2: In Version 6.7.1 ist die Standardeinstellung n2. In Version 6.7.0 und niedriger ist die Standardeinstellung n1.
Masterkerne	Anzahl der virtuellen Kerne, die einem Masterknoten zugewiesen sind. Der Standardwert ist 2.
Masterarbeitsspeicher (GB)	Die Speichermenge in Gigabyte, die einem Masterknoten zugewiesen ist. Der Standardwert ist 8 GB.
Größe des Masterlaufwerks (GB)	Laufwerksgröße in Gigabyte, die einem Masterknoten zugewiesen ist. Der Standardwert ist 1.000 GB.
Master-Laufwerkstyp	Typ des Bootlaufwerks für einen Masterknoten: Persistente Standardfestplatte Nichtflüchtiger SSD-Speicher Die Standardeinstellung ist Nichtflüchtiger Standardspeicher.
Worker-Maschinentyp	Der Typ der zu verwendenden Worker-Maschine. Wählen Sie eine der folgenden Optionen aus: Maschinentypen: n1 n2 N2D e2 In Cloud Data Fusion Version 6.7.2 und höher ist die Standardeinstellung e2: In Version 6.7.1 ist die Standardeinstellung n2. In Version 6.7.0 und niedriger ist die Standardeinstellung n1.
Worker-Kerne	Anzahl der virtuellen Kerne, die einem Worker-Knoten zugewiesen sind. Der Standardwert ist 2.
Worker-Arbeitsspeicher (GB)	Die Größe des Arbeitsspeichers in Gigabyte, der einem Worker-Knoten zugewiesen ist. Der Standardwert ist 8 GB.
Worker-Laufwerksgröße (GB)	Laufwerksgröße in Gigabyte, die einem Worker-Knoten zugewiesen ist. Der Standardwert ist 1.000 GB.
Worker-Laufwerkstyp	Typ des Bootlaufwerks für einen Worker-Knoten: Persistente Standardfestplatte Nichtflüchtiger SSD-Speicher Die Standardeinstellung ist Nichtflüchtiger Standardspeicher.
Vordefiniertes Autoscaling verwenden	Ermöglicht die Verwendung des vordefinierten Dataproc-Autoscalings.
Anzahl der primären Worker	Worker-Knoten enthalten einen YARN NodeManager und einen HDFS DataNode. Der Standardwert ist 2.
Anzahl der sekundären Worker	Sekundäre Worker-Knoten enthalten einen YARN NodeManager, aber kein HDFS. DataNode. Dieser Wert ist normalerweise auf null gesetzt, es sei denn, es gibt eine Autoscaling-Richtlinie muss er höher sein.
Autoscaling-Richtlinie	Pfad für die Autoscaling-Richtlinien-ID oder den Ressourcen-URI. Informationen zum Konfigurieren und Verwenden von Dataproc um die Größe von Clustern automatisch und dynamisch anzupassen, Arbeitslastanforderungen, siehe Automatische Skalierung und Dataproc – Autoscaling Cluster.
Metadaten	Zusätzliche Metadaten für Instanzen, die in Ihrem Cluster ausgeführt werden. Sie können verwenden es in der Regel zur Nachverfolgung von Rechnungen und Rückbuchungen. Weitere Informationen Weitere Informationen finden Sie unter Clustermetadaten.
Netzwerk-Tags	Weisen Sie Netzwerk-Tags zu, um Firewallregeln auf bestimmte Knoten von ein Cluster. Netzwerk-Tags müssen mit einem Kleinbuchstaben beginnen und dürfen Kleinbuchstaben, Ziffern und Bindestriche. Tags müssen mit einem Kleinbuchstaben enden Buchstaben oder eine Zahl eingeben.
Secure Boot aktivieren	Aktiviert Secure Boot auf dem Dataproc-VMs Standardwert ist False.
vTPM aktivieren	Aktiviert das virtuelle Trusted Platform Module (vTPM) auf den Dataproc-VMs. Standardwert ist False.
Integritätsmonitoring aktivieren	Aktiviert das virtuelle Integritätsmonitoring auf der Dataproc-VMs Standardwert ist False.
Image-Version	Die Dataproc-Image-Version. Wenn Sie das Feld leer lassen, automatisch ausgewählt. Wenn die Eigenschaft URI des benutzerdefinierten Images gleich leer gelassen wird, wird diese Eigenschaft ignoriert.
URI des benutzerdefinierten Images	Der URI des Dataproc-Images. Wenn Sie das Feld leer lassen, wird es aus die Eigenschaft Image-Version.
Staging-Bucket	Cloud Storage-Bucket zum Staging von Jobabhängigkeiten und Konfigurationsdateien zum Ausführen von Pipelines in Dataproc
Temporärer Bucket	Cloud Storage-Bucket zum Speichern von sitzungsspezifischen Clustern und Jobdaten wie Spark-Verlaufsdateien in Dataproc. Dieses Attribut wurde in der Cloud Data Fusion-Version eingeführt 6.9.2.
Name des Verschlüsselungsschlüssels	Der vom Kunden verwaltete Verschlüsselungsschlüssel (CMEK), der von Dataproc nutzen.
OAuth-Bereiche	Die OAuth 2.0-Bereiche, die Sie für den Zugriff auf Google APIs, je nach benötigter Zugriffsebene. Umfang der Google Cloud Platform ist immer enthalten. Dieses Attribut wurde in der Cloud Data Fusion-Version eingeführt 6.9.2.
Initialisierungsaktionen	Eine Liste von Skripts, die während der Initialisierung des Clusters ausgeführt werden. Initialisierungsaktionen sollten in Cloud Storage platziert werden.
Clusterattribute	Clusterattribute, die die Attribute der Standardkonfiguration von für die Hadoop-Dienste. Weitere Informationen zu anwendbaren Schlüssel/Wert-Paaren Siehe Clusterattribute.
Häufig verwendete Labels	Labels zum Organisieren der Dataproc-Cluster und -Jobs erstellt wird. Sie können jede Ressource mit einem Label versehen und dann die Ressourcen nach Labels filtern. Informationen zu Labels werden an das Abrechnungssystem weitergeleitet, können Sie Ihre Rechnungskosten nach .
Maximale Inaktivitätszeit	Dataproc für das Löschen eines inaktiven Clusters konfigurieren länger als die angegebene Anzahl an Minuten ist. Cluster werden normalerweise gelöscht direkt nach dem Ende einer Ausführung. Der Löschvorgang kann jedoch in seltenen Fällen fehlschlagen. Für finden Sie unter Fehlerbehebung beim Löschen Cluster. Der Standardwert ist 30 Minuten.
Löschen des Clusters überspringen	Gibt an, ob das Löschen des Clusters am Ende einer Ausführung übersprungen werden soll. Du musst Cluster manuell löschen. Sollte nur zum Debuggen eines fehlgeschlagenen ausführen. Standardwert ist False.
Stackdriver Logging-Integration aktivieren	Aktivieren Sie die Integration von Stackdriver Logging. Standardwert ist True.
Stackdriver Monitoring-Integration aktivieren	Aktivieren Sie die Einbindung von Stackdriver Monitoring. Standardwert ist True.
Component Gateway aktivieren	Gewähren Sie dem Component Gateway Zugriff auf die Schnittstellen des Clusters. wie YARN ResourceManager und Spark HistoryServer. Standardwert ist False.
Externe IP-Adresse bevorzugen	Wenn das System im selben Netzwerk in Google Cloud ausgeführt wird genau wie der Cluster, wird normalerweise die interne IP-Adresse verwendet, Kommunikation mit dem Cluster. Wenn Sie immer die externe IP-Adresse verwenden möchten, legen Sie diesen Wert auf True. Standardwert ist False.
Verzögerung bei der Erstellung von Umfragen	Die Anzahl der Sekunden, die nach dem Erstellen eines Clusters gewartet werden soll um zu sehen, ob der Cluster erstellt wurde. Der Standardwert ist 60 Sekunden. Die Abfrageeinstellungen steuern, wie oft der Clusterstatus abgefragt wird, Erstellen und Löschen von Clustern. Wenn Sie viele Pipelines geplant haben, gleichzeitig ausgeführt werden sollen, sollten Sie diese Einstellungen ändern.
Umfrage-Jitter erstellen	Maximaler zufälliger Jitter in Sekunden, der zur Verzögerung hinzugefügt wird, wenn Cluster erstellen. Mit dieser Eigenschaft können Sie verhindern, API-Aufrufe in Google Cloud ausführen, wenn Sie viele Pipelines, deren Ausführung geplant ist. Der Standardwert ist 20 Sekunden.
Verzögerte Umfrage löschen	Die Anzahl der Sekunden, die nach dem Löschen eines Clusters gewartet werden soll, um zu beginnen um festzustellen, ob der Cluster gelöscht wurde. Der Standardwert ist 30 Sekunden.
Abfrageintervall	Die Anzahl der Sekunden, die zwischen Abfragen des Clusterstatus gewartet werden soll. Der Standardwert ist 2.

Attribute der Weboberfläche des Dataproc-Profils, die JSON-Attributen zugeordnet sind

Name der UI-Eigenschaft des Dataproc-Profils	JSON-Attributname des Dataproc-Profils
Profillabel	`name`
Profilname	`label`
Beschreibung	`description`
Projekt-ID	`projectId`
Creator-Dienstkontoschlüssel	`accountKey`
Region	`region`
Zone	`zone`
Netzwerk	`network`
Projekt-ID des Netzwerk-Hosts	`networkHostProjectId`
Subnetz	`subnet`
Runner-Dienstkonto	`serviceAccount`
Anzahl der Master	`masterNumNodes`
Master-Maschinentyp	`masterMachineType`
Masterkerne	`masterCPUs`
Masterarbeitsspeicher (GB)	`masterMemoryMB`
Größe des Masterlaufwerks (GB)	`masterDiskGB`
Master-Laufwerkstyp	`masterDiskType`
Anzahl der primären Worker	`workerNumNodes`
Anzahl der sekundären Worker	`secondaryWorkerNumNodes`
Worker-Maschinentyp	`workerMachineType`
Worker-Kerne	`workerCPUs`
Worker-Arbeitsspeicher (GB)	`workerMemoryMB`
Worker-Laufwerksgröße (GB)	`workerDiskGB`
Worker-Laufwerkstyp	`workerDiskType`
Metadaten	`clusterMetaData`
Netzwerk-Tags	`networkTags`
Secure Boot aktivieren	`secureBootEnabled`
vTPM aktivieren	`vTpmEnabled`
Integritätsmonitoring aktivieren	`integrityMonitoringEnabled`
Image-Version	`imageVersion`
URI des benutzerdefinierten Images	`customImageUri`
Cloud Storage-Bucket	`gcsBucket`
Name des Verschlüsselungsschlüssels	`encryptionKeyName`
Autoscaling-Richtlinie	`autoScalingPolicy`
Initialisierungsaktionen	`initActions`
Clusterattribute	`clusterProperties`
Labels	`clusterLabels`
Maximale Inaktivitätszeit	`idleTTL`
Löschen des Clusters überspringen	`skipDelete`
Stackdriver Logging-Integration aktivieren	`stackdriverLoggingEnabled`
Stackdriver Monitoring-Integration aktivieren	`stackdriverMonitoringEnabled`
Component Gateway aktivieren	`componentGatewayEnabled`
Externe IP-Adresse bevorzugen	`preferExternalIP`
Verzögerung bei der Erstellung von Umfragen	`pollCreateDelay`
Umfrage-Jitter erstellen	`pollCreateJitter`
Verzögerte Umfrage löschen	`pollDeleteDelay`
Abfrageintervall	`pollInterval`

Best Practices

Informationen zum Erstellen eines statischen Clusters für Ihre Pipelines finden Sie in der Best Practices für die Clusterkonfiguration

Nächste Schritte

Weitere Informationen zur Verwaltung von Computing-Profilen