Per accedere ai dati in Apache HDFS, crea un asset di connessione per esso.
Apache Hadoop Distributed File System (HDFS) è un file system distribuito progettato per essere eseguito su hardware di base. Apache HDFS era precedentemente Hortonworks HDFS.
Crea una connessione a Apache HDFS
Per creare l'asset di connessione, sono necessari questi dettagli di connessione. L'URL WebHDFS è obbligatorio.
Le proprietà disponibili nel modulo di connessione dipendono dal fatto che si selezioni Connetti a Apache Hive in modo da poter scrivere tabelle nell'origine dati Hive .
- URL WebHDFS per accedere a HDFS.
- Host Hive : nome host o indirizzo IP del server Apache Hive .
- Database Hive : il database in Apache Hive.
- Numero porta Hive : il numero porta del server Apache Hive . Il valore predefinito è
10000
. - Hive Percorso HTTP: il percorso dell'endpoint, ad esempio gateway/default/hive, quando il server è configurato per la modalità di trasporto HTTP.
- Certificato SSL (se richiesto dal server Apache Hive ).
Credenziali
Il nome utente è obbligatorio.
- Nome utente e password
- Utente e password Hive se ci si connette a Apache Hive
Per la connettività privata, per stabilire una connessione a un database che non sia esternalizzato a internet (ad esempio, dietro un firewall), devi configurare una connessione sicura.
Scegliere il metodo per la creazione di una connessione in base alla posizione in cui ci si trova nella piattaforma
- In un progetto
- Fare clic su Asset> Nuovo asset> Connetti a una origine dati. Consultare Aggiunta di una connessione a un progetto.
- In un catalogo
- Fare clic su Aggiungi al catalogo> Connessione. Consultare Aggiunta di un asset di connessione a un catalogo.
- In uno spazio di distribuzione
- Fare clic su Importa asset> Accesso dati> Connessione. Consultare Aggiunta di asset di dati a uno spazio di distribuzione.
- Nel Platform assets catalog
- Fare clic su Nuova connessione. Consultare Aggiunta di connessioni di piattaforma.
Passo successivo: aggiungere gli asset di dati dalla connessione
Dove è possibile utilizzare questa connessione
Puoi utilizzare le connessioni Apache HDFS nei seguenti spazi di lavoro e strumenti:
Progetti
- Regole di qualità dei datiIBM Knowledge Catalog)
- Data Refinerywatsonx.ai Studio o IBM Knowledge Catalog)
- DataStage (servizioDataStage ). Consultare Connessione a un'origine dati in DataStage.
- Decision Optimizationwatsonx.ai Studio e watsonx.ai Runtime)
- Arricchimento dei metadatiIBM Knowledge Catalog)
- Metadata import (IBM Knowledge Catalog)
- SPSS Modelerwatsonx.ai Studio)
Cataloghi
Platform assets catalog
Altri cataloghiIBM Knowledge Catalog)
Configurazione Apache HDFS
Tipi di file supportati
La connessione Apache HDFS supporta i seguenti tipi di file: Avro, CSV, Testo delimitato, Excel, JSON, ORC, Parquet, SAS, SAV, SHP e XML.
Formati tabella
Oltre al file flat, la connessione Apache HDFS supporta questi formati di tabella Data Lake: Delta Lake e Iceberg.
Ulteriori informazioni
Apache HDFS Guida per l'utente
Argomento principale Connessioni supportate