0 / 0
Volver a la versión inglesa de la documentación
Conexión de Apache HDFS
Última actualización: 07 jun 2024
Conexión de Apache HDFS

Para acceder a los datos en Apache HDFS, cree un activo de conexión para el mismo.

Apache Hadoop Distributed File System (HDFS) es un sistema de archivos distribuido diseñado para ejecutarse en hardware básico. Apache HDFS se denominaba anteriormente Hortonworks HDFS.

Crear una conexión con Apache HDFS

Para crear el activo de conexión, necesita estos detalles de conexión. El URL WebHDFS es necesario.
Las propiedades disponibles en el formulario de conexión dependen de si selecciona Conectar a Apache Hive para que pueda escribir tablas en el origen de datos Hive .

  • WebHDFS URL para acceder a HDFS.
  • Host de Hive : nombre de host o dirección IP del servidor Apache Hive .
  • Base de datos de Hive: La base de datos en Apache Hive.
  • Número de puerto Hive: El número de puerto del servidor Apache Hive. El valor predeterminado es 10000.
  • Hive Vía de acceso HTTP: la vía de acceso del punto final como, por ejemplo, gateway/default/hive cuando el servidor está configurado para la modalidad de transporte HTTP.
  • Certificado SSL (si lo requiere el servidor Apache Hive ).

Para Conectividad privada, para conectarse a una base de datos que no se exterioriza a Internet (por ejemplo, detrás de un cortafuegos), debe configurar una conexión segura.

Elija el método para crear una conexión basada en el lugar en el que se encuentra en la plataforma

En un proyecto
Pulse Activos > Nuevo activo > Conectar a un origen de datos. Consulte Adición de una conexión a un proyecto.
En un espacio de despliegue
Pulse Importar activos > Acceso a datos > Conexión. Consulte Adición de activos de datos a un espacio de despliegue.
En el catálogo de activos de la plataforma
Pulse Nueva conexión. Consulte Adición de conexiones de plataforma.

Paso siguiente: Añadir activos de datos desde la conexión

Dónde puede utilizar esta conexión

Puede utilizar conexiones Apache HDFS en los siguientes espacios de trabajo y herramientas:

Proyectos

  • Data Refinery
  • Decision Optimization
  • SPSS Modeler
  • Synthetic Data Generator

Catálogos

  • Platform assets catalog

Configuración de HDFS

Instalar y configurar un clúster de Hadoop

Tipos de archivos soportados

La conexión Apache HDFS da soporte a estos tipos de archivo: Avro, CSV, Texto delimitado, Excel, JSON, ORC, Parquet, SAS, SAV, SHP y XML.

Formatos de tabla

Además del archivo plano, la conexión Apache HDFS da soporte a estos formatos de tabla de Data Lake: Delta Lake e Iceberg.

Más información

Guía de usuario de HDFS

Tema principal: Conexiones soportadas

Búsqueda y respuesta de IA generativa
Estas respuestas las genera un modelo de lenguaje grande en watsonx.ai que se basa en el contenido de la documentación del producto. Más información