Cómo analizar archivos

En esta página, se explica cómo analizar archivos cuando preparas datos en Wrangler de Cloud Data Fusion Studio. Wrangler te permite analizar un archivo antes en el lugar de trabajo de Wrangler:

  • Wrangler infiere los tipos de datos y asigna cada columna al tipo de datos inferidos en del mismo modo que lo hacen los complementos de fuente de archivos en Pipeline Studio.
  • Cuando la inferencia de esquemas no es posible, puedes importar el esquema de un archivo. formato, como JSON.
  • La receta no incluye la directiva de análisis, que reduce la transformación. de seguridad durante las ejecuciones de las canalizaciones.
  • Cuando creas una canalización desde Wrangler, el complemento de origen incluye todos los las mismas propiedades y valores de análisis que estableces en Wrangler.

Crea una conexión de archivos

Para analizar un archivo antes de cargarlo en Wrangler, debes usar una conexión de archivos. como Archivo, Cloud Storage o Amazon S3.

  1. Ve al lugar de trabajo de Wrangler en Cloud Data Fusion.
  2. Haz clic en la flecha de expansión Seleccionar datos para ver las conexiones disponibles.
  3. Agrega una conexión para Archivo, Cloud Storage o S3. Para ver más consulta Crear y administrar conexiones.
  4. Para abrir el cuadro de diálogo de opciones de análisis, ve al panel Seleccionar datos y, luego, haz clic en el nombre del archivo.
  5. En el diálogo Parsing options, ingresa la siguiente información:

    1. En el campo Formato, elige el formato de archivo de los datos que quieres de lectura, por ejemplo, csv. Para obtener más información, consulta Contenido formatos.

      • Si eliges el formato de delimitador, en el campo Delimitador, ingresa la información del delimitador.
      • Si eliges el formato CSV, TSV o delimitador, aparecerá la opción Habilitar comillas valores. Si tus datos están entre comillas, selecciona True. Este parámetro de configuración quita las comillas de los elementos salida. Por ejemplo, la siguiente entrada, 1, "a, b, c", analiza en dos campos. El primer campo tiene el valor 1. El segundo tiene el valor a, b, c. El delimitador de nueva línea no puede entre comillas.
      • Si eliges el formato de texto, CSV, TSV o delimitador, aparecerá la opción Usar la primera fila como encabezado. Para usar la primera línea de cada archivo como un encabezado de columna, seleccione True.
    2. En el campo Codificación de archivos, selecciona el tipo de codificación de archivo de la archivo fuente, por ejemplo, UTF-8.

    3. Opcional: para importar el esquema o anular el esquema inferido para el haz clic en Importar esquema. Importas el esquema para los formatos, como como JSON y algunos archivos Avro, cuando no es posible la inferencia de esquemas. El esquema debe estar en formato Avro.

    4. Haz clic en Confirmar. El archivo analizado aparecerá en el espacio de trabajo de Wrangler.

Formatos admitidos

Los siguientes formatos son compatibles con el análisis de archivos:

  • Avro
  • Blob (el formato BLOB requiere un esquema que contenga un campo llamado body) del tipo bytes)
  • CSV
  • Delimitado
  • JSON
  • Parquet
  • Texto (el formato de texto requiere un esquema que contenga un campo llamado body) del tipo string)
  • TSV

¿Qué sigue?