Attribute des Dataproc-Bereitstellers

Der Dataproc-Bereitsteller in Cloud Data Fusion ruft die Funktion Dataproc API zum Erstellen und Löschen von Clustern in Google Cloud Projekten. Sie können die Cluster in den Einstellungen des Bereitstellers konfigurieren.

Weitere Informationen zur Kompatibilität von Cloud Data Fusion und Dataproc-Versionen finden Sie unter Versionskompatibilität.

Properties

Attribut Beschreibung
Projekt-ID Das Google Cloud-Projekt, in dem die Dataproc-Anwendung wird der Cluster erstellt. Das Projekt muss die Dataproc API haben aktiviert.
Creator-Dienstkontoschlüssel

Der Dienstkontoschlüssel, der dem Bereitsteller zur Verfügung gestellt wird, muss folgende Voraussetzungen erfüllen: Berechtigung für den Zugriff auf Dataproc und Compute Engine APIs Da Ihr Kontoschlüssel vertraulich ist, sollten Sie den Kontoschlüssel mithilfe von Secure Storage.

Nachdem Sie den sicheren Schlüssel erstellt haben, können Sie ihn einem Namespace oder einem Compute-Profil des Systems. Klicken Sie für ein Namespace-Compute-Profil auf das -Schild und wähle die sicherere . Geben Sie für ein Compute-Profil des Systems den Namen des Schlüssels in das Feld Secure Account Key (Sicherer Kontoschlüssel) ein.

Region Ein geografischer Standort, an dem Sie Ihre Ressourcen hosten können, z. B. die Rechenknoten für den Dataproc-Cluster.
Zone Ein isolierter Bereitstellungsbereich innerhalb einer Region.
Netzwerk Das VPC-Netzwerk in Ihrem Google Cloud-Projekt, das verwendet wird wenn Sie einen Dataproc-Cluster erstellen.
Projekt-ID des Netzwerk-Hosts Befindet sich das Netzwerk in einem anderen Google Cloud-Projekt, geben Sie die ID dieses Projekts. Geben Sie für eine freigegebene VPC das Hostprojekt ein ID, unter der sich das Netzwerk befindet.
Subnetz Das Subnetz, das beim Erstellen von Clustern verwendet werden soll. Er muss innerhalb der angegebenen Netzwerk und in der Region, in der sich die Zone befindet. Wenn Sie das Feld leer lassen, basierend auf dem Netzwerk und der Zone ausgewählt.
Runner-Dienstkonto Der Name des Dienstkontos der virtuellen Dataproc-Maschinen (VMs), die zum Ausführen von Programmen verwendet werden. Wenn Sie das Feld leer lassen, Compute Engine-Dienstkonto verwendet.
Anzahl der Master

Die Anzahl der Master-Knoten im Cluster. Diese Knoten enthalten die YARN Resource Manager, HDFS NameNode und alle Treiber Muss auf 1 oder 3.

Der Standardwert ist 1.

Master-Maschinentyp

Der Typ der zu verwendenden Master-Maschine. Wählen Sie eine der folgenden Optionen aus: Maschinentypen:

  • n1
  • n2
  • N2D
  • e2

In Cloud Data Fusion Version 6.7.2 und höher ist die Standardeinstellung e2:

In Version 6.7.1 ist die Standardeinstellung n2.

In Version 6.7.0 und niedriger ist die Standardeinstellung n1.

Masterkerne

Anzahl der virtuellen Kerne, die einem Masterknoten zugewiesen sind.

Der Standardwert ist 2.

Masterarbeitsspeicher (GB)

Die Speichermenge in Gigabyte, die einem Masterknoten zugewiesen ist.

Der Standardwert ist 8 GB.

Größe des Masterlaufwerks (GB)

Laufwerksgröße in Gigabyte, die einem Masterknoten zugewiesen ist.

Der Standardwert ist 1.000 GB.

Master-Laufwerkstyp

Typ des Bootlaufwerks für einen Masterknoten:

  • Persistente Standardfestplatte
  • Nichtflüchtiger SSD-Speicher

Die Standardeinstellung ist Nichtflüchtiger Standardspeicher.

Worker-Maschinentyp

Der Typ der zu verwendenden Worker-Maschine. Wählen Sie eine der folgenden Optionen aus: Maschinentypen:

  • n1
  • n2
  • N2D
  • e2

In Cloud Data Fusion Version 6.7.2 und höher ist die Standardeinstellung e2:

In Version 6.7.1 ist die Standardeinstellung n2.

In Version 6.7.0 und niedriger ist die Standardeinstellung n1.

Worker-Kerne

Anzahl der virtuellen Kerne, die einem Worker-Knoten zugewiesen sind.

Der Standardwert ist 2.

Worker-Arbeitsspeicher (GB)

Die Größe des Arbeitsspeichers in Gigabyte, der einem Worker-Knoten zugewiesen ist.

Der Standardwert ist 8 GB.

Worker-Laufwerksgröße (GB)

Laufwerksgröße in Gigabyte, die einem Worker-Knoten zugewiesen ist.

Der Standardwert ist 1.000 GB.

Worker-Laufwerkstyp

Typ des Bootlaufwerks für einen Worker-Knoten:

  • Persistente Standardfestplatte
  • Nichtflüchtiger SSD-Speicher

Die Standardeinstellung ist Nichtflüchtiger Standardspeicher.

Vordefiniertes Autoscaling verwenden Ermöglicht die Verwendung des vordefinierten Dataproc-Autoscalings.
Anzahl der primären Worker

Worker-Knoten enthalten einen YARN NodeManager und einen HDFS DataNode.

Der Standardwert ist 2.

Anzahl der sekundären Worker Sekundäre Worker-Knoten enthalten einen YARN NodeManager, aber kein HDFS. DataNode. Dieser Wert ist normalerweise auf null gesetzt, es sei denn, es gibt eine Autoscaling-Richtlinie muss er höher sein.
Autoscaling-Richtlinie

Pfad für die Autoscaling-Richtlinien-ID oder den Ressourcen-URI.

Informationen zum Konfigurieren und Verwenden von Dataproc um die Größe von Clustern automatisch und dynamisch anzupassen, Arbeitslastanforderungen, siehe Automatische Skalierung und Dataproc – Autoscaling Cluster.

Metadaten Zusätzliche Metadaten für Instanzen, die in Ihrem Cluster ausgeführt werden. Sie können verwenden es in der Regel zur Nachverfolgung von Rechnungen und Rückbuchungen. Weitere Informationen Weitere Informationen finden Sie unter Clustermetadaten.
Netzwerk-Tags Weisen Sie Netzwerk-Tags zu, um Firewallregeln auf bestimmte Knoten von ein Cluster. Netzwerk-Tags müssen mit einem Kleinbuchstaben beginnen und dürfen Kleinbuchstaben, Ziffern und Bindestriche. Tags müssen mit einem Kleinbuchstaben enden Buchstaben oder eine Zahl eingeben.
Secure Boot aktivieren

Aktiviert Secure Boot auf dem Dataproc-VMs

Standardwert ist False.

vTPM aktivieren

Aktiviert das virtuelle Trusted Platform Module (vTPM) auf den Dataproc-VMs.

Standardwert ist False.

Integritätsmonitoring aktivieren

Aktiviert das virtuelle Integritätsmonitoring auf der Dataproc-VMs

Standardwert ist False.

Image-Version Die Dataproc-Image-Version. Wenn Sie das Feld leer lassen, automatisch ausgewählt. Wenn die Eigenschaft URI des benutzerdefinierten Images gleich leer gelassen wird, wird diese Eigenschaft ignoriert.
URI des benutzerdefinierten Images Der URI des Dataproc-Images. Wenn Sie das Feld leer lassen, wird es aus die Eigenschaft Image-Version.
Staging-Bucket Cloud Storage-Bucket zum Staging von Jobabhängigkeiten und Konfigurationsdateien zum Ausführen von Pipelines in Dataproc
Temporärer Bucket

Cloud Storage-Bucket zum Speichern von sitzungsspezifischen Clustern und Jobdaten wie Spark-Verlaufsdateien in Dataproc.

Dieses Attribut wurde in der Cloud Data Fusion-Version eingeführt 6.9.2.

Name des Verschlüsselungsschlüssels Der vom Kunden verwaltete Verschlüsselungsschlüssel (CMEK), der von Dataproc nutzen.
OAuth-Bereiche

Die OAuth 2.0-Bereiche, die Sie für den Zugriff auf Google APIs, je nach benötigter Zugriffsebene. Umfang der Google Cloud Platform ist immer enthalten.

Dieses Attribut wurde in der Cloud Data Fusion-Version eingeführt 6.9.2.

Initialisierungsaktionen Eine Liste von Skripts, die während der Initialisierung des Clusters ausgeführt werden. Initialisierungsaktionen sollten in Cloud Storage platziert werden.
Clusterattribute Clusterattribute, die die Attribute der Standardkonfiguration von für die Hadoop-Dienste. Weitere Informationen zu anwendbaren Schlüssel/Wert-Paaren Siehe Clusterattribute.
Häufig verwendete Labels

Labels zum Organisieren der Dataproc-Cluster und -Jobs erstellt wird.

Sie können jede Ressource mit einem Label versehen und dann die Ressourcen nach Labels filtern. Informationen zu Labels werden an das Abrechnungssystem weitergeleitet, können Sie Ihre Rechnungskosten nach .

Maximale Inaktivitätszeit

Dataproc für das Löschen eines inaktiven Clusters konfigurieren länger als die angegebene Anzahl an Minuten ist. Cluster werden normalerweise gelöscht direkt nach dem Ende einer Ausführung. Der Löschvorgang kann jedoch in seltenen Fällen fehlschlagen. Für finden Sie unter Fehlerbehebung beim Löschen Cluster.

Der Standardwert ist 30 Minuten.

Löschen des Clusters überspringen

Gibt an, ob das Löschen des Clusters am Ende einer Ausführung übersprungen werden soll. Du musst Cluster manuell löschen. Sollte nur zum Debuggen eines fehlgeschlagenen ausführen.

Standardwert ist False.

Stackdriver Logging-Integration aktivieren

Aktivieren Sie die Integration von Stackdriver Logging.

Standardwert ist True.

Stackdriver Monitoring-Integration aktivieren

Aktivieren Sie die Einbindung von Stackdriver Monitoring.

Standardwert ist True.

Component Gateway aktivieren

Gewähren Sie dem Component Gateway Zugriff auf die Schnittstellen des Clusters. wie YARN ResourceManager und Spark HistoryServer.

Standardwert ist False.

Externe IP-Adresse bevorzugen

Wenn das System im selben Netzwerk in Google Cloud ausgeführt wird genau wie der Cluster, wird normalerweise die interne IP-Adresse verwendet, Kommunikation mit dem Cluster. Wenn Sie immer die externe IP-Adresse verwenden möchten, legen Sie diesen Wert auf True.

Standardwert ist False.

Verzögerung bei der Erstellung von Umfragen

Die Anzahl der Sekunden, die nach dem Erstellen eines Clusters gewartet werden soll um zu sehen, ob der Cluster erstellt wurde.

Der Standardwert ist 60 Sekunden.

Die Abfrageeinstellungen steuern, wie oft der Clusterstatus abgefragt wird, Erstellen und Löschen von Clustern. Wenn Sie viele Pipelines geplant haben, gleichzeitig ausgeführt werden sollen, sollten Sie diese Einstellungen ändern.

Umfrage-Jitter erstellen

Maximaler zufälliger Jitter in Sekunden, der zur Verzögerung hinzugefügt wird, wenn Cluster erstellen. Mit dieser Eigenschaft können Sie verhindern, API-Aufrufe in Google Cloud ausführen, wenn Sie viele Pipelines, deren Ausführung geplant ist.

Der Standardwert ist 20 Sekunden.

Verzögerte Umfrage löschen

Die Anzahl der Sekunden, die nach dem Löschen eines Clusters gewartet werden soll, um zu beginnen um festzustellen, ob der Cluster gelöscht wurde.

Der Standardwert ist 30 Sekunden.

Abfrageintervall

Die Anzahl der Sekunden, die zwischen Abfragen des Clusterstatus gewartet werden soll.

Der Standardwert ist 2.

Attribute der Weboberfläche des Dataproc-Profils, die JSON-Attributen zugeordnet sind

Name der UI-Eigenschaft des Dataproc-Profils JSON-Attributname des Dataproc-Profils
Profillabel name
Profilname label
Beschreibung description
Projekt-ID projectId
Creator-Dienstkontoschlüssel accountKey
Region region
Zone zone
Netzwerk network
Projekt-ID des Netzwerk-Hosts networkHostProjectId
Subnetz subnet
Runner-Dienstkonto serviceAccount
Anzahl der Master masterNumNodes
Master-Maschinentyp masterMachineType
Masterkerne masterCPUs
Masterarbeitsspeicher (GB) masterMemoryMB
Größe des Masterlaufwerks (GB) masterDiskGB
Master-Laufwerkstyp masterDiskType
Anzahl der primären Worker workerNumNodes
Anzahl der sekundären Worker secondaryWorkerNumNodes
Worker-Maschinentyp workerMachineType
Worker-Kerne workerCPUs
Worker-Arbeitsspeicher (GB) workerMemoryMB
Worker-Laufwerksgröße (GB) workerDiskGB
Worker-Laufwerkstyp workerDiskType
Metadaten clusterMetaData
Netzwerk-Tags networkTags
Secure Boot aktivieren secureBootEnabled
vTPM aktivieren vTpmEnabled
Integritätsmonitoring aktivieren integrityMonitoringEnabled
Image-Version imageVersion
URI des benutzerdefinierten Images customImageUri
Cloud Storage-Bucket gcsBucket
Name des Verschlüsselungsschlüssels encryptionKeyName
Autoscaling-Richtlinie autoScalingPolicy
Initialisierungsaktionen initActions
Clusterattribute clusterProperties
Labels clusterLabels
Maximale Inaktivitätszeit idleTTL
Löschen des Clusters überspringen skipDelete
Stackdriver Logging-Integration aktivieren stackdriverLoggingEnabled
Stackdriver Monitoring-Integration aktivieren stackdriverMonitoringEnabled
Component Gateway aktivieren componentGatewayEnabled
Externe IP-Adresse bevorzugen preferExternalIP
Verzögerung bei der Erstellung von Umfragen pollCreateDelay
Umfrage-Jitter erstellen pollCreateJitter
Verzögerte Umfrage löschen pollDeleteDelay
Abfrageintervall pollInterval

Best Practices

Informationen zum Erstellen eines statischen Clusters für Ihre Pipelines finden Sie in der Best Practices für die Clusterkonfiguration

Nächste Schritte