Pour accéder à vos données dans Apache HDFS, créez un actif de connexion.
Apache Hadoop Distributed File System (HDFS) est un système de fichiers réparti conçu pour s'exécuter sur du matériel de base. Apache HDFS était anciennement Hortonworks HDFS.
Création d'une connexion à Apache HDFS
Pour créer l'actif de connexion, vous avez besoin de ces détails de connexion. L'URL WebHDFS est requise.
Les propriétés disponibles dans le formulaire de connexion varient selon que vous sélectionnez Se connecter à Apache Hive pour pouvoir écrire des tables dans la source de données Hive .
- WebHDFS : URL permettant d'accéder à HDFS.
- Hôte Hive : nom d'hôte ou adresse IP du serveur Apache Hive .
- Base de données Hive: Base de données dans Apache Hive.
- Numéro de port Hive : numéro de port du serveur Apache Hive. La valeur par défaut est
10000
. - Chemin HTTP Hive : chemin du noeud final, tel que gateway/default/hive, lorsque le serveur est configuré pour le mode de transport HTTP.
- Certificat SSL (si requis par le serveur Apache Hive ).
Pour la connectivité privée, pour vous connecter à une base de données qui n'est pas externalisée sur Internet (par exemple, derrière un pare-feu), vous devez configurer une connexion sécurisée.
Choisissez la méthode de création d'une connexion basée sur l'emplacement dans la plateforme.
- Dans un projet
- Cliquez sur Actifs > Nouvel actif > Connexion à une source de données. Voir Ajout d'une connexion à un projet.
- Dans un espace de déploiement
- Cliquez sur Importer les actifs > Accès aux données > Connexion. Voir Ajout d'actifs de données à un espace de déploiement.
- Dans le catalogue d'actifs de la plateforme
- Cliquez sur Nouvelle connexion. Voir Ajout de connexions de plateforme.
Etape suivante : ajout d'actifs de données à partir de la connexion
Où vous pouvez utiliser cette connexion
Vous pouvez utiliser les connexions Apache HDFS dans les espaces de travail et les outils suivants :
Projets
- Data Refinery
- Decision Optimization
- SPSS Modeler
- Synthetic Data Generator
Catalogs
- Platform assets catalog
Configuration d'Apache HDFS
Types de fichier pris en charge
La connexion Apache HDFS prend en charge les types de fichiers suivants : Avro, CSV, Delimited text, Excel, JSON, ORC, Parquet, SAS, SAV, SHP et XML.
Formats de table
En plus du fichier à plat, la connexion Apache HDFS prend en charge les formats de table Data Lake suivants: Delta Lake et Iceberg.
En savoir plus
Guide de l'utilisateur d'Apache HDFS
Rubrique parent : Connexions prises en charge