0 / 0
Retourner à la version anglaise de la documentation
Connexion Apache HDFS
Dernière mise à jour : 07 juin 2024
Connexion Apache HDFS

Pour accéder à vos données dans Apache HDFS, créez un actif de connexion.

Apache Hadoop Distributed File System (HDFS) est un système de fichiers réparti conçu pour s'exécuter sur du matériel de base. Apache HDFS était anciennement Hortonworks HDFS.

Création d'une connexion à Apache HDFS

Pour créer l'actif de connexion, vous avez besoin de ces détails de connexion. L'URL WebHDFS est requise.
Les propriétés disponibles dans le formulaire de connexion varient selon que vous sélectionnez Se connecter à Apache Hive pour pouvoir écrire des tables dans la source de données Hive .

  • WebHDFS : URL permettant d'accéder à HDFS.
  • Hôte Hive : nom d'hôte ou adresse IP du serveur Apache Hive .
  • Base de données Hive: Base de données dans Apache Hive.
  • Numéro de port Hive : numéro de port du serveur Apache Hive. La valeur par défaut est 10000.
  • Chemin HTTP Hive : chemin du noeud final, tel que gateway/default/hive, lorsque le serveur est configuré pour le mode de transport HTTP.
  • Certificat SSL (si requis par le serveur Apache Hive ).

Pour la connectivité privée, pour vous connecter à une base de données qui n'est pas externalisée sur Internet (par exemple, derrière un pare-feu), vous devez configurer une connexion sécurisée.

Choisissez la méthode de création d'une connexion basée sur l'emplacement dans la plateforme.

Dans un projet
Cliquez sur Actifs > Nouvel actif > Connexion à une source de données. Voir Ajout d'une connexion à un projet.  
Dans un espace de déploiement
Cliquez sur Importer les actifs > Accès aux données > Connexion. Voir Ajout d'actifs de données à un espace de déploiement.
Dans le catalogue d'actifs de la plateforme
Cliquez sur Nouvelle connexion. Voir Ajout de connexions de plateforme.

Etape suivante : ajout d'actifs de données à partir de la connexion

Où vous pouvez utiliser cette connexion

Vous pouvez utiliser les connexions Apache HDFS dans les espaces de travail et les outils suivants :

Projets

  • Data Refinery
  • Decision Optimization
  • SPSS Modeler
  • Synthetic Data Generator

Catalogs

  • Platform assets catalog

Configuration d'Apache HDFS

Installation et configuration d'un cluster Hadoop

Types de fichier pris en charge

La connexion Apache HDFS prend en charge les types de fichiers suivants : Avro, CSV, Delimited text, Excel, JSON, ORC, Parquet, SAS, SAV, SHP et XML.

Formats de table

En plus du fichier à plat, la connexion Apache HDFS prend en charge les formats de table Data Lake suivants: Delta Lake et Iceberg.

En savoir plus

Guide de l'utilisateur d'Apache HDFS

Rubrique parent : Connexions prises en charge

Recherche et réponse à l'IA générative
Ces réponses sont générées par un modèle de langue de grande taille dans watsonx.ai en fonction du contenu de la documentation du produit. En savoir plus