Descripción general de Wrangler

Wrangler es una herramienta visual de preparación de datos dentro de la interfaz de Studio de Cloud Data Fusion. Te permite limpiar y transformar los datos antes de usarlos Canalizaciones de extracción, transformación y carga (ETL). Wrangler aplica transformaciones en una muestra de tus datos en un solo lugar (llamada Vista previa) antes de ejecutar la lógica en todo el conjunto de datos. Esta vista previa te ayuda a aplicar transformaciones y a obtener un de comprensión sobre cómo afectan a todo el conjunto de datos.

Directivas de Wrangler

Una directiva es una sola instrucción que se usa en Wrangler. Directivas especificar cómo manipular tus datos, como transformarlos, filtrarlos o dinamizar registros individuales.

Los siguientes conceptos están relacionados con las directivas:

Receta
Una receta es un conjunto de directivas. Consiste en una o más directivas.
Paso de transformación
Un paso de transformación es la implementación de una directiva de transformación de datos, que operan en un solo registro o conjunto de registros. Un paso de transformación puede generar cero o más registros a partir de la aplicación de una directiva. Wrangler aplica los pasos de transformación en el orden indicado en la receta.

Componentes de Wrangler

En las siguientes secciones, se explican los componentes de Wrangler en Cloud Data Fusion Studio.

Lugar de trabajo de Wrangler

El lugar de trabajo de Wrangler es una página de la interfaz de Cloud Data Fusion Studio en la que analizas, combinas, limpias y transformas conjuntos de datos. En Workspace puedes hacer lo siguiente:

  • Agrega pasos de transformación a una receta con el menú desplegable en cada .
  • Para ver o borrar los pasos de una receta, selecciona Transformation steps. .
  • Para descubrir columnas con campos en blanco y otra información, consulta la barra Calidad de los datos.
  • Haz clic en Más para ver el esquema del conjunto de datos.
  • Crear una canalización de datos con un complemento de origen para el conjunto de datos y la transformación de Wrangler con la receta que contiene los de transformación, que se realizan cuando se ejecuta la canalización.

Modo de alimentación (CLI) de Wrangler

Para especificar directivas con sintaxis declarativa, usa el modo Power (CLI). Es útil para las siguientes tareas:

  • Usar directivas que no están disponibles en la interfaz de Studio
  • Cómo agregar directivas definidas por el usuario
  • Cómo aplicar una directiva a varias columnas

Para usar el modo de energía de Wrangler, ingresa las directivas en la barra negra en la parte inferior de la pestaña Datos de Wrangler.

Pestaña Estadísticas de Wrangler

Puedes usar la pestaña Insights de la página de Wrangler para realizar el descubrimiento de datos en un conjunto de datos.

Limitaciones

  • Wrangler solo es compatible con canalizaciones de ETL por lotes.
  • Wrangler aplica la transformación solo en los datos de muestra. Esta muestra se limitan a los primeros 1,000 registros.
  • Wrangler requiere que las conexiones se creen con la fuente. Para ver más información, consulta Crea y administra conexiones.
  • Wrangler siempre requiere que al menos un lugar de trabajo de Wrangler esté abierto.
  • No se admite hacer clic en el botón Wrangle en la transformación de Wrangler.

Puedes acceder a Wrangler de dos maneras desde la interfaz de Cloud Data Fusion Studio:

  • Para abrir el espacio de trabajo de Wrangler de Cloud Data Fusion, Dirígete a Cloud Data Fusion Studio y haz clic en Wrangler.
  • Para configurar las propiedades de Wrangler, dirígete a Cloud Data Fusion Studio. y haz clic en Studio > Transformaciones > Wrangler.

Conectándose a una fuente de datos

Wrangler admite varias fuentes de datos, como BigQuery, Cloud Storage y bases de datos externas (con configuración adicional). Para usar Wrangler, debes crear una conexión con la fuente.

Para crear la conexión, ve a la lista Conexiones y selecciona con tu fuente de datos. Para obtener más información, consulta Crea y administra conexiones.

Explora los datos y obtén una vista previa de ellos

Wrangler muestra una muestra de tus datos (por lo general, 1,000 filas) para su inspección. Puedes obtener una descripción general del esquema de datos, incluidos los tipos de datos estadísticas.

Aplicar directivas

Wrangler ofrece una variedad de directivas integradas para la transformación común de datos tareas.

  • Arrastra la directiva elegida a una columna específica o a los datos. ventana de vista previa.
  • Cada directiva tiene opciones de configuración para personalizar su comportamiento.

Para obtener más información, consulta Directivas de línea de comandos de Wrangler.

Vista previa de los resultados de la transformación

A medida que aplicas directivas, la ventana de vista previa de datos se actualiza de forma dinámica para reflejar los cambios. Esto te permite ver el impacto inmediato de cada transformación en tus datos.

Define mejor y, luego, itera.

Para definir mejor tu proceso de manejo de datos, continúa agregando directivas, modificando configuraciones y revisando la vista previa.

La interfaz visual de Wrangler te ayuda a experimentar y garantizar que tu transformaciones de datos producen el resultado esperado.

Agrega transformaciones a una canalización

Si bien Wrangler no es una solución de almacenamiento persistente, Cloud Data Fusion ofrece formas de capturar tu lógica de limpieza:

  • Crea una canalización. Desde el espacio de trabajo de Wrangler, convierte tu Wrangler de transformación en una canalización de Cloud Data Fusion pasos:

    1. Haz clic en Crear canalización.
    2. Selecciona Canalización por lotes. Se abrirá la página Pipeline Studio que tiene una fuente y una transformación Wrangler.
  • Aplica transformaciones. Si usas el complemento Wrangler en la página Studio, haz clic en Aplicar para convertir tus transformaciones de Wrangler en una canalización de Cloud Data Fusion.

Editar recetas

Cuando usas el espacio de trabajo de Wrangler para crear una transformación de Wrangler, después de cuando agregas la transformación de Wrangler a una canalización, se recomienda usar la interfaz de Wrangler para agregar o editar recetas.

En la transformación Wrangler, si editas manualmente la receta o agregas pasos nuevos a la receta y los cambios afectan el esquema de salida, debes actualizar el esquema de salida en la transformación de Wrangler para que coincida con los cambios receta. Solo las recetas creadas o editadas en el lugar de trabajo de Wrangler crear y actualizar automáticamente el esquema de salida en la transformación de Wrangler.

Editar una receta en la transformación de Wrangler que se creó en Wrangler interfaz web, sigue estos pasos:

  1. Ve al nodo de Wrangler en tu canalización y haz clic en Properties.
  2. Haz clic en Wrangle.
  3. Edita o agrega una receta nueva.
  4. Haz clic en Aplicar.

¿Qué sigue?