Workbench für die Datenerkundung verwenden

Mit der Workbench für die Datenerkundung in Dataplex (Explore) können Sie interaktiv Vollständig verwaltete Daten mit nur einem Klick auf Spark SQL abfragen Skripts und Jupyter Notebooks erstellen. Mit dem Tool „Erkunden“ können Sie teamübergreifend zusammenarbeiten können Sie Code-Assets veröffentlichen, freigeben und suchen.

Serverlose Infrastruktur bereitstellen, skalieren und verwalten erforderlich, um Ihre Spark SQL-Skripts und -Notebooks mit Nutzeranmeldedaten auszuführen. Sie können Ihre Arbeit mit serverloser Planung über Workbench operationalisieren.

In diesem Dokument wird die Verwendung der Explore-Funktionen in Dataplex.

Kosten

Dataplex bietet Explores auf der Premium-Verarbeitungsstufe.

Terminologie

In diesem Dokument werden die folgenden Begriffe verwendet:

Umgebung

Eine Umgebung bietet serverlose Rechenressourcen für Spark SQL Abfragen und Notebooks, die in einem Lake ausgeführt werden sollen. Dataplex Umgebungen erstellt und verwaltet.

Administratoren können einen oder mehrere Nutzer zum Ausführen von Abfragen und Notebooks autorisieren konfigurierte Umgebung aktivieren, indem Sie Entwicklerrolle oder zugehörige IAM-Berechtigungen.

Sitzung

Wenn ein autorisierter Nutzer eine Umgebung für seine Abfragen auswählt und Notebooks verwenden, verwendet Dataplex die angegebene Umgebungskonfiguration um eine nutzerspezifische aktive Sitzung zu erstellen. Je nach Umgebung Konfiguration wird eine Sitzung automatisch beendet, wenn sie nicht verwendet wird.

Pro Nutzer dauert es einige Minuten, bis eine neue Sitzung gestartet wird. Einmal pro Sitzung werden nachfolgende Abfragen und Notebooks für denselben Nutzer ausgeführt. Eine Sitzung ist maximal 10 Stunden lang aktiv sein.

In einer Umgebung erstellt Dataplex nur eine Sitzung pro Nutzer, die sowohl von Spark SQL-Skripts als auch von Jupyter Notebooks genutzt wird.

Dataplex verwendet Nutzeranmeldedaten in einer Sitzung, um ausgeführt zu werden Operationen wie das Abfragen von Daten aus Cloud Storage BigQuery

Knoten

Ein Knoten gibt die Rechenkapazität in einer Umgebungskonfiguration an. Ein Knoten ist 4 Datenrecheneinheiten (Data Compute Units, DCU), die mit 4 vCPUs und 16 GB RAM

Standardumgebung

Sie können eine Standardumgebung pro Lake mit der ID default erstellen. Eine Standardumgebung muss eine Standardkonfiguration verwenden. Eine Standardkonfiguration besteht aus Folgendem:

  • Rechenkapazität von einem Knoten
  • Größe des primären Laufwerks: 100 GB
  • Automatisches Herunterfahren von Sitzungen (Zeit zum automatischen Herunterfahren) auf 10 Minuten Inaktivität festgelegt
  • Der Parameter sessionSpec.enableFastStartup, der standardmäßig auf true. Wenn dieser Parameter auf true festgelegt ist, Die Sitzungen für diese Umgebung werden vorab bereitgestellt, damit sie Dadurch wird die Startzeit der ersten Sitzung verkürzt.
  • Eine schnelle Startsitzung ist eine Sitzung mit einem einzelnen Knoten, die von Dataplex Gebühren unter SKU „Premium Processing“ ähnlich wie bei einer regulären Sitzung. Es ist maximal eine „Always-On-Sitzung“ und sind für einen schnellen Start verfügbar. Dadurch entstehen Kosten, auch wenn sie nicht verwendet werden. Dataplex hält diese vorab erstellte Sitzung 10 Stunden lang aktiv. beendet ihn und erstellt eine neue Sitzung.

Wenn Sie nicht explizit eine Umgebung auswählen und eine Standardumgebung Umgebung erstellt hat, verwendet Dataplex die Standardumgebung um Sitzungen zu erstellen.

SQL-Script

Ein SQL-Skript ist ein Spark SQL-Skript, das als Inhalt in einem Dataplex-Lake. Sie können das Skript in einem Lake speichern und für andere Hauptkonten freigeben. Sie können die Ausführung auch planen, Serverloser Spark-Job in Dataplex. Dataplex aktiviert Standardmäßiger Spark SQL-Zugriff auf Tabellen, die Daten in Cloud Storage zugeordnet sind und BigQuery.

Notebook

Ein Python 3-Notebook ist ein Jupyter-Notebook, das Sie als Inhalt in einem Dataplex-Lake. Sie können ein Notizbuch als Inhalt in einen Lake mit anderen Hauptkonten oder planen, dass sie als serverlosen Spark-Batchjob von Dataproc in Dataplex.

Für Daten in BigQuery können Sie auf BigQuery Tabellen direkt über Spark, ohne den magischen Befehl %%bigquery zu verwenden.

Hinweise

Verknüpfen Sie zuerst Ihren Lake mit Dataproc Metastore und gewähren Sie den erforderlichen Rollen.

Lake mit Dataproc Metastore (DPMS) verknüpfen

So verwenden Sie die Funktion „Erkunden“:

Hier erfahren Sie, wie Sie Dataproc Metastore mit Dataplex für den Zugriff auf Metadaten in Spark.

Erforderliche Rollen

Abhängig von den Aktionen, die Sie ausführen möchten, benötigen Sie alle folgenden IAM-Berechtigungen, Rollen. Alle Umgebungen in einem Lake übernehmen Berechtigungen, die auf Lake-Ebene gewährt wurden.

Dataplex-IAM-Rollen:

  • Dataplex-Betrachter
  • Dataplex-Entwickler
  • Dataplex-Metadatenleser
  • Dataplex-Datenleser

Weitere Rollen:

Logging

Informationen zur Verwendung von „Erkunden“ finden Sie in den folgenden Dokumenten:

Bekannte Einschränkungen

In diesem Abschnitt werden die bekannten Einschränkungen von Explores beschrieben.

  • Explore ist für Lakes in den folgenden Regionen verfügbar:

    • asia-northeast1
    • asia-southeast1
    • europe-west1
    • europe-west2
    • us-central1
    • us-east1
    • us-west1
  • Sie können in einem Projekt bis zu 10 Umgebungen pro Region verwenden. Weitere Informationen zum Erhöhen des Kontingentlimits finden Sie unter Mit Kontingenten arbeiten.

  • Sie können Umgebungen mit maximal 150 Knoten erstellen. Die Sitzungsdauer ist auf 10 Stunden beschränkt.

  • Spark SQL-Skripts können nur Daten innerhalb eines bestimmten Lakes abfragen. Wenn Sie in einem anderen Lake abfragen möchten, müssen Sie zu diesem Lake wechseln und einen Umgebung in diesem Lake.

  • Nachdem Sie ein Projekt wiederhergestellt haben, stellt Dataplex keine Inhalte wieder her wie SQL-Skripts oder Notebooks. Gehen Sie vorsichtig vor, wenn Löschen eines Projekts über die Inhaltsressourcen von Explore.

  • Wenn bei der Planung eines Notebooks benutzerdefinierte Pakete vorhanden sind, kann das Notebook nur mit der gcloud CLI planen. Weitere Informationen Weitere Informationen finden Sie unter Notebooks mit benutzerdefinierten Paketen planen.

  • Wenn Sie eine Umgebung vor dem Löschen der Skripts und Notebooks löschen, kann nicht auf die Explore-Seite zugreifen. Achten Sie daher darauf, dass Sie den Skripts und Notebooks vor dem Löschen einer Umgebung im explorativen Analysetool löschen.

  • Explore-Sitzungen unterstützen nicht Hadoop Distributed File Systems (HDFS). Keine Nutzerdaten in einer Explore-Sitzung speichern, da sie gelöscht werden, wenn wird die Sitzung beendet.

  • Die maximale Größe für ein Notebook oder ein SQL-Script beträgt 1 MB.

Umgebung erstellen

  1. Rufen Sie in der Google Cloud Console Dataplex auf Seite Lakes verwalten aufrufen.

    Zu Dataplex

  2. Wählen Sie einen Dataplex-Lake aus, für den Sie einen erstellen möchten zu verbessern.

  3. Klicken Sie auf den Tab Environments (Umgebungen).

  4. Klicken Sie auf Umgebung erstellen.

  5. Geben Sie im Feld Anzeigename einen Namen für die Umgebung ein.

  6. Geben Sie unter Umgebungs-ID eine eindeutige ID ein.

  7. Optional: Geben Sie eine Beschreibung für die neue Umgebung ein.

  8. Geben Sie im Bereich Computing konfigurieren Folgendes an:

    1. Anzahl der Knoten: Die Anzahl der bereitzustellenden Knoten. für Nutzersitzungen, die für diese Umgebung erstellt wurden.
    2. Maximale Anzahl von Knoten: Die maximale Anzahl von Knoten, die Dataplex kann in den Nutzersitzungen, die verknüpft sind, automatisch skalieren in dieser Umgebung.
    3. Größe des primären Laufwerks: Die Größe des Laufwerks, bereitgestellten Knoten.
    4. Zeit zum automatischen Herunterfahren: Die Inaktivitätszeit, nach der Dataplex beendet automatisch Nutzersitzungen, die mit diesem zu verbessern. Sie können ein Minimum von 10 Minuten und ein Maximum von 60 Minuten.
  9. Im Bereich Softwarepakete (optional) können Sie zusätzliche Python-Pakete, JAR-Dateien und Spark-Attribute, die in Nutzersitzungen installiert werden sollen die für diese Umgebung bereitgestellt wird.

    Wenn Sie eine Umgebung erstellen und den Cloud Storage-Pfad für Java-JARs oder Python-Pakete, damit Dataplex die JARs installiert oder Paketen haben, achten Sie darauf, dass Cloud Dataplex Der Dienst-Agent hat die erforderlichen Berechtigungen für den Zugriff auf Cloud Storage -Dateien.

  10. Klicken Sie auf Erstellen.

Hinweise

  • Ein Knoten wird vier Datenrecheneinheiten (Data Compute Units, DCUs) zugeordnet, die mit 4 vCPUs und 16 GB RAM

  • Sie können eine Umgebung mit einem Knoten oder mit drei oder mehr Knoten erstellen.

  • Als Lake-Administrator können Sie Umgebungen im Voraus einrichten, Nutzer können ihre Arbeitslasten mit den vordefinierten Konfigurationen ausführen.

  • Obwohl Umgebungen für mehrere Nutzer freigegeben werden können, erstellt mit der Umgebung eine separate Sitzung pro Nutzer Konfiguration.

Standardumgebung erstellen

Siehe Konfigurationsanforderungen für eine Standardumgebung.

Console

  1. Öffnen Sie Dataplex in der Google Cloud Console.

    Zu Dataplex

  2. Rufen Sie die Ansicht Verwalten auf.

  3. Wählen Sie einen Dataplex-Lake aus.

  4. Klicken Sie auf den Tab Environments (Umgebungen).

  5. Klicken Sie auf Standardumgebung erstellen.

.

gcloud

Führen Sie folgenden Befehl aus, um eine Standardumgebung mit aktiviertem schnellem Start zu erstellen: Befehl:

gcloud dataplex environments create default --project=PROJECT_ID --lake=LAKE_ID --location=REGION--os-image-version=latest --session-enable-fast-startup

Daten mit Spark SQL Workbench untersuchen

Verwenden Sie Spark SQL, um BigQuery- und Cloud Storage-Daten zu untersuchen Skripts erstellt.

Skript erstellen und speichern

  1. Rufen Sie in der Google Cloud Console die Dataplex-Funktion Explore auf. Seite.

  2. Wählen Sie in der Ansicht Explore den Lake mit den gewünschten Daten-Assets aus. zu erkunden.

  3. Maximieren Sie den Lake im Ressourcenbrowser. Daraufhin wird Folgendes angezeigt: Ordner:

    • Daten: Enthält alle Datenbanken und Tabellen in der DPMS-Instanz die mit dem See verbunden sind, einschließlich der Hudi-, Iceberg- und Delta Lake-Tabellen.
    • Notebooks: Enthält alle Notebooks, die im ausgewählten Lake erstellt wurden.
    • Spark SQL-Skripts: Enthält alle Spark SQL-Skripts, die in ausgewählten Lake.
  4. Maximieren Sie Daten und wählen Sie die erforderliche Datenbank und die Tabelle aus.

  5. Um eine Beispielabfrage zu verwenden, klicken Sie auf ABFRAGE. Spark SQL Workbench füllt einen neuen Tab automatisch mit einer Beispielabfrage.

  6. Um ein neues Skript zu erstellen, klicken Sie im Spark SQL Editor auf Neues Skript. und geben Sie Ihre Abfragen ein.

  7. Um das Script zu speichern, wählen Sie Speichern > Script speichern aus.

Skript ausführen

  1. Klicken Sie im Spark SQL Editor auf den Tab mit der Abfrage, die Sie ausführen möchten.

  2. Klicken Sie auf Umgebung auswählen. Wählen Sie die Umgebung aus, um die Abfrage auszuführen. Wenn Sie keine Umgebung auswählen, verwendet die Standardumgebung, um eine Sitzung pro Nutzer zu erstellen.

    Sie können mehrere Spark SQL-Abfragen im selben Skript ausführen, indem Sie die Abfragen mit Semikolons.

  3. Klicken Sie auf Ausführen.

  4. Sehen Sie sich die Ergebnisse des Abfrageverlaufs für jede Abfrage im Skript an. mithilfe der Drop-down-Liste.

Script planen

Sie können ein Script so planen, dass es als Dataplex-Aufgabe ausgeführt wird. Weitere Informationen finden Sie unter Zeitpläne für SQL-Skripts erstellen und verwalten.

Skript freigeben

Sie können ein Skript mithilfe von IAM-Berechtigungen für andere Nutzer in der Organisation freigeben:

  1. Klicken Sie in der Ansicht Explore auf das Spark SQL-Skript, das Sie freigeben möchten.

  2. Klicken Sie im Dreipunkt-Menü auf Freigeben.

  3. Überprüfen Sie die Berechtigungen. Betrachter, Bearbeiter und Administrator hinzufügen oder entfernen Berechtigungen für das freigegebene Skript.

Nachdem Sie ein Script freigegeben haben, können Nutzer mit Lese- oder Bearbeitungsberechtigungen auf Lake-Ebene kann zum Lake navigieren und am gemeinsam genutzten Skript arbeiten.

BigQuery- und Cloud Storage-Daten mit Spark SQL untersuchen

Für jedes BigQuery-Dataset, das einer Zone als Asset hinzugefügt wird, Dataplex ermöglicht direkten Spark SQL-Zugriff auf alle Tabellen darin Dataset. Sie können Daten in Dataplex mit Spark SQL-Scripts oder Notizbüchern. Beispiel:

 select * from ZONE_ID.TABLE_ID

Wenn Ihre Assets Cloud Storage-Buckets in derselben Zone zugeordnet sind, Dataplex bietet eine einheitliche Liste von Tabellen, mit Spark beginnen.

Daten mit Notebooks untersuchen

In diesem Abschnitt wird beschrieben, wie Sie Daten erstellen, planen, freigeben, importieren und exportieren. Notizbüchern.

Notebook erstellen und speichern

  1. Rufen Sie in der Google Cloud Console die Dataplex-Funktion Explore auf. Seite.

  2. Wählen Sie in der Ansicht Explore einen Lake aus.

  3. Maximieren Sie den Lake und klicken Sie auf den Ordner Notebooks.

  4. Klicken Sie auf Neues Notebook.

  5. Geben Sie im Feld Notebook-Pfad den Namen des Notebooks an.

  6. Optional: Geben Sie im Feld Beschreibung eine Beschreibung für das neue Notizbuch.

  7. Optional: Fügen Sie Labels hinzu.

  8. Klicken Sie auf Notebook erstellen. Ein Notebook wird jetzt erstellt.

  9. Klicken Sie zum Öffnen des erstellten Notebooks auf Notebook öffnen.

  10. Wählen Sie eine Umgebung aus, in der Dataplex ein Nutzersitzung beim Erstellen oder Öffnen Ihres Notebooks. Stellen Sie sicher, dass Sie und wählen Sie eine Umgebung mit vertrauenswürdigen Paketen aus.

    Wenn Sie keine Umgebung auswählen, verwendet Dataplex die Standardeinstellung zu verbessern. Wenn Sie noch keine Umgebung haben, erstellen Sie eine. Weitere Informationen Weitere Informationen finden Sie unter Umgebung erstellen.

    Sie können jetzt Ihre Daten untersuchen, indem Sie Python-Code schreiben und das Notebook speichern nach der explorativen Datenanalyse. Später können Sie das erstellte Notebook in der Vorschau anzeigen und dessen ohne eine Sitzung zu erstellen und den Code auszuführen.

Notebook planen

Sie können ein Notebook so planen, dass es als Dataplex-Aufgabe ausgeführt wird. Weitere Informationen finden Sie unter Zeitpläne für Notebooks erstellen und verwalten.

Notebook freigeben

Sie können ein Notebook mithilfe von IAM-Berechtigungen für andere Nutzer in der Organisation freigeben:

  1. Klicken Sie in der Ansicht Explore auf den Ordner Notebooks.

  2. Wählen Sie das Jupyter-Notebook aus, das Sie freigeben möchten.

  3. Klicken Sie auf Freigeben.

  4. Überprüfen Sie die Berechtigungen. Betrachter, Bearbeiter und Administrator hinzufügen oder entfernen Berechtigungen für dieses Notebook.

    Nachdem Sie ein Notebook freigegeben haben, können Nutzer mit Lese- oder Bearbeitungsberechtigungen am Lake Ebene kann zum Lake navigieren und am freigegebenen Notebook arbeiten.

Notebook importieren

Sie können ein Notebook aus einem Cloud Storage-Bucket importieren:

  1. Klicken Sie in der Ansicht Explore auf den Ordner Notebooks.

  2. Klicken Sie auf Importieren.

  3. Rufen Sie den Cloud Storage-Bucket auf, der das von Ihnen verwendete Notebook enthält. die Sie importieren möchten.

  4. Wählen Sie das Notebook aus, geben Sie einen Namen an und klicken Sie auf Importieren.

    Das importierte Notebook wird im Ordner Notebooks erstellt. Sie können das importierte Notebook bearbeiten, freigeben und planen.

Notebook exportieren

Sie können ein Notebook in einen Cloud Storage-Bucket exportieren, die von anderen Nutzern in der Organisation mit IAM-Berechtigungen verwendet werden.

  1. Klicken Sie in der Ansicht Explore auf den Ordner Notebooks.

  2. Markieren Sie das Notizbuch, das Sie exportieren möchten.

  3. Klicken Sie auf das Menü und dann auf Exportieren.

  4. Geben Sie den Cloud Storage-Pfad ein, in den Sie das Notebook exportieren möchten.

  5. Klicken Sie auf Notebook exportieren.

Nächste Schritte