Para acceder a los datos en Apache HDFS, cree un activo de conexión para el mismo.
Apache Hadoop Distributed File System (HDFS) es un sistema de archivos distribuido diseñado para ejecutarse en hardware básico. Apache HDFS se denominaba anteriormente Hortonworks HDFS.
Crear una conexión con Apache HDFS
Para crear el activo de conexión, necesita estos detalles de conexión. El URL WebHDFS es necesario.
Las propiedades disponibles en el formulario de conexión dependen de si selecciona Conectar a Apache Hive para que pueda escribir tablas en el origen de datos Hive .
- WebHDFS URL para acceder a HDFS.
- Host de Hive : nombre de host o dirección IP del servidor Apache Hive .
- Base de datos de Hive: La base de datos en Apache Hive.
- Número de puerto Hive: El número de puerto del servidor Apache Hive. El valor predeterminado es
10000
. - Hive Vía de acceso HTTP: la vía de acceso del punto final como, por ejemplo, gateway/default/hive cuando el servidor está configurado para la modalidad de transporte HTTP.
- Certificado SSL (si lo requiere el servidor Apache Hive ).
Para Conectividad privada, para conectarse a una base de datos que no se exterioriza a Internet (por ejemplo, detrás de un cortafuegos), debe configurar una conexión segura.
Elija el método para crear una conexión basada en el lugar en el que se encuentra en la plataforma
- En un proyecto
- Pulse Activos > Nuevo activo > Conectar a un origen de datos. Consulte Adición de una conexión a un proyecto.
- En un espacio de despliegue
- Pulse Importar activos > Acceso a datos > Conexión. Consulte Adición de activos de datos a un espacio de despliegue.
- En el catálogo de activos de la plataforma
- Pulse Nueva conexión. Consulte Adición de conexiones de plataforma.
Paso siguiente: Añadir activos de datos desde la conexión
Dónde puede utilizar esta conexión
Puede utilizar conexiones Apache HDFS en los siguientes espacios de trabajo y herramientas:
Proyectos
- Data Refinery
- Decision Optimization
- SPSS Modeler
- Synthetic Data Generator
Catálogos
- Platform assets catalog
Configuración de HDFS
Tipos de archivos soportados
La conexión Apache HDFS da soporte a estos tipos de archivo: Avro, CSV, Texto delimitado, Excel, JSON, ORC, Parquet, SAS, SAV, SHP y XML.
Formatos de tabla
Además del archivo plano, la conexión Apache HDFS da soporte a estos formatos de tabla de Data Lake: Delta Lake e Iceberg.
Más información
Tema principal: Conexiones soportadas