Connexion Apache HDFS

Dernière mise à jour : 02 avr. 2025
Connexion Apache HDFS

Pour accéder à vos données dans Apache HDFS, créez un actif de connexion.

Apache Hadoop Distributed File System (HDFS) est un système de fichiers réparti conçu pour s'exécuter sur du matériel de base. Apache HDFS était anciennement Hortonworks HDFS.

Versions prises en charge

Apache HDFS 3.1.

Création d'une connexion à Apache HDFS

Pour créer l'actif de connexion, vous avez besoin de ces détails de connexion. Le site WebHDFS URL est obligatoire.
Les propriétés disponibles dans le formulaire de connexion dépendent de l'option Connect to Apache Hive qui permet d'écrire des tables dans la source de données Hive.

  • WebHDFS URL pour accéder à HDFS.
  • Hôte Hive : nom d'hôte ou adresse IP du serveur Apache Hive .
  • Base de données Hive: Base de données dans Apache Hive.
  • Numéro de port Hive : numéro de port du serveur Apache Hive. La valeur par défaut est 10000.
  • Hive HTTP path : Le chemin du point de terminaison tel que gateway/default/hive lorsque le serveur est configuré pour le mode de transport HTTP.
  • Certificat SSL (si requis par le serveur Apache Hive ).

Pour la connectivité privée, pour vous connecter à une base de données qui n'est pas externalisée sur Internet (par exemple, derrière un pare-feu), vous devez configurer une connexion sécurisée.

Choisissez la méthode de création d'une connexion basée sur l'emplacement dans la plateforme.

Dans un projet
Cliquez sur Actifs > Nouvel actif > Connexion à une source de données. Voir Ajout d'une connexion à un projet.  
Dans un espace de déploiement
Cliquez sur Importer les actifs > Accès aux données > Connexion. Voir Ajout d'actifs de données à un espace de déploiement.
Dans le catalogue d'actifs de la plateforme
Cliquez sur Nouvelle connexion. Voir Ajout de connexions de plateforme.

Etape suivante : ajout d'actifs de données à partir de la connexion

Où vous pouvez utiliser cette connexion

Vous pouvez utiliser les connexions Apache HDFS dans les espaces de travail et les outils suivants :

Projets

  • Data Refinery
  • Decision Optimization
  • SPSS Modeler
  • Synthetic Data Generator

Catalogs

  • Platform assets catalog

Configuration d'Apache HDFS

Installation et configuration d'un cluster Hadoop

Types de fichier pris en charge

La connexion Apache HDFS prend en charge les types de fichiers suivants : Avro, CSV, Delimited text, Excel, JSON, ORC, Parquet, SAS, SAV, SHP et XML.

Formats de table

Outre les fichiers plats, la connexion Apache HDFS prend en charge les formats de table Data Lake suivants : Delta Lake et Iceberg.

En savoir plus

Guide de l'utilisateur d'Apache HDFS

Rubrique parent : Connexions prises en charge