Connexion Apache HDFS | IBM Cloud Pak for Data as a Service

Retourner à la version anglaise de la documentation

Connexion Apache HDFS

Pour accéder à vos données dans Apache HDFS, créez un actif de connexion.

Apache Hadoop Distributed File System (HDFS) est un système de fichiers réparti conçu pour s'exécuter sur du matériel de base. Apache HDFS était anciennement Hortonworks HDFS.

Création d'une connexion à Apache HDFS

Pour créer l'actif de connexion, vous avez besoin de ces détails de connexion. L' URL WebHDFS est requise.
Les propriétés disponibles dans le formulaire de connexion varient selon que vous sélectionnez Se connecter à Apache Hive pour pouvoir écrire des tables dans la source de données Hive .

WebHDFS URL pour accéder à HDFS.
Hôte Hive : nom d'hôte ou adresse IP du serveur Apache Hive .
Base de données Hive: Base de données dans Apache Hive.
Numéro de port Hive : numéro de port du serveur Apache Hive. La valeur par défaut est 10000.
Chemin Hive HTTP : chemin du noeud final, tel que gateway/default/hive, lorsque le serveur est configuré pour le mode de transport HTTP .
Certificat SSL (si requis par le serveur Apache Hive ).

Données d'identification

Le nom d'utilisateur est requis.

Nom d'utilisateur et mot de passe
Utilisateur et mot de passe Hive si vous vous connectez à Apache Hive

Pour la connectivité privée, pour vous connecter à une base de données qui n'est pas externalisée sur Internet (par exemple, derrière un pare-feu), vous devez configurer une connexion sécurisée.

Choisissez la méthode de création d'une connexion basée sur l'emplacement dans la plateforme.

Dans un projet: Cliquez sur Actifs > Nouvel actif > Outils d'accès aux données > Connexion. Voir Ajout d'une connexion à un projet.
Dans un catalogue: Cliquez sur Ajouter au catalogue > Connexion. Voir Ajout d'un actif de connexion à un catalogue.
Dans un espace de déploiement: Cliquez sur Ajouter à l'espace > Connexion. Voir Ajout de connexions à un espace de déploiement.
Dans le catalogue d'actifs de la plateforme: Cliquez sur Nouvelle connexion. Voir Ajout de connexions de plateforme.

Etape suivante : ajout d'actifs de données à partir de la connexion

Où vous pouvez utiliser cette connexion

Vous pouvez utiliser les connexions Apache HDFS dans les espaces de travail et les outils suivants :

Projets

Règles de qualité des données (IBM Knowledge Catalog)
Data Refinery (Watson Studio ou IBM Knowledge Catalog)
DataStage (serviceDataStage ). Voir Connexion à une source de données dans DataStage.
Decision Optimization (Watson Studio et Watson Machine Learning)
Enrichissement de métadonnées (IBM Knowledge Catalog)
Metadata import (IBM Knowledge Catalog)
SPSS Modeler (Watson Studio)

Catalogs

Platform assets catalog
Autres catalogues (IBM Knowledge Catalog)

Configuration d'Apache HDFS

Installation et configuration d'un cluster Hadoop

Types de fichier pris en charge

La connexion Apache HDFS prend en charge les types de fichiers suivants : Avro, CSV, Delimited text, Excel, JSON, ORC, Parquet, SAS, SAV, SHP et XML.

Formats de table

En plus du fichier à plat, la connexion Apache HDFS prend en charge les formats de table Data Lake suivants: Delta Lake et Iceberg.

En savoir plus

Guide de l'utilisateur d'Apache HDFS

Rubrique parent : Connexions prises en charge