Crea una pipeline di dati
Questa guida rapida illustra come svolgere le seguenti operazioni:
- Creare un'istanza di Cloud Data Fusion.
- Esegui il deployment di una pipeline di esempio fornita con l'istanza di Cloud Data Fusion. La pipeline esegue quanto segue:
- Legge un file JSON contenente i dati sui bestseller del NYT da Cloud Storage.
- Esegue trasformazioni sul file per analizzare e pulire i dati.
- Carica su BigQuery i libri più votati aggiunti la scorsa settimana che costano meno di 25 $.
Prima di iniziare
- Accedi al tuo account Google Cloud. Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti gratuiti per l'esecuzione, il test e il deployment dei carichi di lavoro.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Attiva l'API Cloud Data Fusion.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Attiva l'API Cloud Data Fusion.
Crea un'istanza di Cloud Data Fusion
- Fai clic su Crea un'istanza.
- Inserisci un Nome istanza.
- Inserisci una descrizione per l'istanza.
- Inserisci la regione in cui creare l'istanza.
- Scegli la versione di Cloud Data Fusion da utilizzare.
- Scegli la versione di Cloud Data Fusion.
- Per Cloud Data Fusion versione 6.2.3 e successive, nel campo Autorizzazione, scegli l'account di servizio Dataproc da utilizzare per eseguire la pipeline di Cloud Data Fusion in Dataproc. Il valore predefinito, l'account Compute Engine, è preselezionato.
- Fai clic su Crea. Il completamento del processo di creazione dell'istanza richiede fino a 30 minuti. Mentre Cloud Data Fusion crea l'istanza, viene visualizzata una ruota di avanzamento accanto al nome dell'istanza nella pagina Istanze. Al termine, l'istanza diventa un segno di spunta verde e indica che è possibile iniziare a utilizzare l'istanza.
Esplora l'interfaccia web di Cloud Data Fusion
Quando utilizzi Cloud Data Fusion, utilizzi sia la console Google Cloud sia l'interfaccia web separata di Cloud Data Fusion.
Nella console Google Cloud puoi fare quanto segue:
- Crea un progetto nella console Google Cloud
- Crea ed elimina istanze Cloud Data Fusion
- Visualizza i dettagli dell'istanza di Cloud Data Fusion
Nell'interfaccia web di Cloud Data Fusion, puoi utilizzare varie pagine, ad esempio Studio o Wrangler, per utilizzare la funzionalità di Cloud Data Fusion.
Per esplorare l'interfaccia di Cloud Data Fusion, segui questi passaggi:
- Nella console Google Cloud, apri la pagina Istanze.
- Nella colonna Azioni dell'istanza, fai clic sul link Visualizza istanza.
- Nell'interfaccia web di Cloud Data Fusion, utilizza il pannello di navigazione a sinistra per passare alla pagina che ti interessa.
Esegui il deployment di una pipeline di esempio
Le pipeline di esempio sono disponibili tramite Hub Cloud Data Fusion, che ti consente di condividere pipeline, plug-in e soluzioni riutilizzabili di Cloud Data Fusion.
- Nell'interfaccia web di Cloud Data Fusion, fai clic su Hub.
- Nel riquadro a sinistra, fai clic su Pipeline.
- Fai clic sulla pipeline della guida rapida di Cloud Data Fusion.
- Fai clic su Crea.
- Nel riquadro di configurazione della guida rapida di Cloud Data Fusion, fai clic su Fine.
Fai clic su Personalizza pipeline.
Una rappresentazione visiva della tua pipeline viene visualizzata nella pagina Studio, che è un'interfaccia grafica per lo sviluppo di pipeline di integrazione dei dati. I plug-in delle pipeline disponibili sono elencati a sinistra e la pipeline viene visualizzata nell'area del canvas principale. Puoi esplorare la pipeline tenendo premuto il puntatore su ciascun nodo della pipeline e facendo clic su Proprietà. Il menu delle proprietà di ciascun nodo consente di visualizzare gli oggetti e le operazioni associate al nodo.
Nel menu in alto a destra, fai clic su Esegui il deployment. Questo passaggio invia la pipeline a Cloud Data Fusion. Eseguirai la pipeline nella sezione successiva di questa guida rapida.
Visualizza la pipeline
La pipeline di cui hai eseguito il deployment viene visualizzata nella visualizzazione dei dettagli della pipeline, dove puoi eseguire le seguenti operazioni:
- Visualizza la struttura e la configurazione della pipeline.
- Esegui la pipeline manualmente oppure configura una pianificazione o un trigger.
- Visualizza un riepilogo delle esecuzioni storiche della pipeline, inclusi i tempi di esecuzione, i log e le metriche.
Esegui la pipeline
Nella visualizzazione dei dettagli della pipeline, fai clic su Esegui per eseguirla.
Durante l'esecuzione di una pipeline, Cloud Data Fusion effettua le seguenti operazioni:
- Esegue il provisioning di un cluster Dataproc temporaneo
- Esegue la pipeline sul cluster utilizzando Apache Spark
- Elimina il cluster
Visualizza i risultati
Dopo alcuni minuti, la pipeline termina. Lo stato della pipeline diventa Riuscito e viene visualizzato il numero di record elaborati da ciascun nodo.
- Vai all'interfaccia web di BigQuery.
Per visualizzare un esempio dei risultati, vai al set di dati
DataFusionQuickstart
nel tuo progetto, fai clic sulla tabellatop_rated_inexpensive
ed esegui una semplice query. Ad esempio:SELECT * FROM PROJECT_ID.GCPQuickStart.top_rated_inexpensive LIMIT 10
Sostituisci PROJECT_ID con l'ID progetto.
Esegui la pulizia
Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questa pagina, segui questi passaggi:
- Elimina il set di dati BigQuery in cui la pipeline ha scritto in questa guida rapida.
(Facoltativo) Elimina il progetto.
- Nella console Google Cloud, vai alla pagina Gestisci risorse.
- Nell'elenco dei progetti, seleziona il progetto che vuoi eliminare, quindi fai clic su Elimina.
- Nella finestra di dialogo, digita l'ID del progetto e fai clic su Chiudi per eliminare il progetto.