Aprovisionadores en Cloud Data Fusion

Un aprovisionador es responsable de crear y eliminar el clúster de la nube. en la que se ejecuta la canalización. Diferentes aprovisionadores son capaces de creando diferentes tipos de clústeres en varias nubes.

Cada aprovisionador expone un conjunto de parámetros de configuración que controlan el tipo del clúster que se crea para una ejecución. Por ejemplo, el clúster de Dataproc y los aprovisionadores de Amazon EMR tienen una configuración de tamaño del clúster. Los aprovisionadores también tienen de las credenciales necesarias para comunicarse con sus respectivas nubes y aprovisionar los nodos de procesamiento requeridos.

Aprovisionadores compatibles con Cloud Data Fusion

Cloud Data Fusion admite los siguientes aprovisionadores:

Dataproc
Un servicio de nube rápido, fácil de usar y completamente administrado para ejecutar Apache Spark y Apache Hadoop.
Amazon Elastic MapReduce (EMR)
Proporciona un framework administrado de Hadoop que procesa grandes cantidades de datos en con instancias de Amazon EC2 escalables de forma dinámica.
Hadoop remoto
Ejecuta trabajos en un clúster de Hadoop preexistente, ya sea a nivel local o en el en la nube.