Provisioner in Cloud Data Fusion

Un provisioner è responsabile della creazione e dell'eliminazione del cluster cloud in cui viene eseguita la pipeline. Provisioner diversi sono in grado di creando diversi tipi di cluster su vari cloud.

Ogni provisioner espone un insieme di impostazioni di configurazione che controllano il tipo del cluster creato per l'esecuzione. Ad esempio, il modello Dataproc e i provisioner Amazon EMR hanno impostazioni sulle dimensioni del cluster. I provisioner hanno inoltre le impostazioni per le credenziali necessarie per comunicare con i rispettivi cloud il provisioning dei nodi di computing richiesti.

Provisioner supportati in Cloud Data Fusion

Cloud Data Fusion supporta i seguenti provisioner:

Dataproc
Un servizio cloud completamente gestito, veloce e facile da usare per eseguire Apache Spark e i cluster Apache Hadoop.
Amazon Elastic MapReduce (EMR)
Fornisce un framework Hadoop gestito che elabora grandi quantità di dati su di istanze Amazon EC2 scalabili in modo dinamico.
Hadoop remoto
Esegui job su un cluster Hadoop preesistente, on-premise o nel cloud.