0 / 0
Torna alla versione inglese della documentazione
Connessione Apache HDFS
Ultimo aggiornamento: 22 nov 2024
Connessione Apache HDFS

Per accedere ai dati in Apache HDFS, crea un asset di connessione per esso.

Apache Hadoop Distributed File System (HDFS) è un file system distribuito progettato per essere eseguito su hardware di base. Apache HDFS era precedentemente Hortonworks HDFS.

Crea una connessione a Apache HDFS

Per creare l'asset di connessione, sono necessari questi dettagli di connessione. L'URL WebHDFS è obbligatorio.
Le proprietà disponibili nel modulo di connessione dipendono dal fatto che si selezioni Connetti a Apache Hive in modo da poter scrivere tabelle nell'origine dati Hive .

  • URL WebHDFS per accedere a HDFS.
  • Host Hive : nome host o indirizzo IP del server Apache Hive .
  • Database Hive : il database in Apache Hive.
  • Numero porta Hive : il numero porta del server Apache Hive . Il valore predefinito è 10000.
  • Hive Percorso HTTP: il percorso dell'endpoint, ad esempio gateway/default/hive, quando il server è configurato per la modalità di trasporto HTTP.
  • Certificato SSL (se richiesto dal server Apache Hive ).

Credenziali

Il nome utente è obbligatorio.

  • Nome utente e password
  • Utente e password Hive se ci si connette a Apache Hive

Per la connettività privata, per stabilire una connessione a un database che non sia esternalizzato a internet (ad esempio, dietro un firewall), devi configurare una connessione sicura.

Scegliere il metodo per la creazione di una connessione in base alla posizione in cui ci si trova nella piattaforma

In un progetto
Fare clic su Asset> Nuovo asset> Connetti a una origine dati. Consultare Aggiunta di una connessione a un progetto.
In un catalogo
Fare clic su Aggiungi al catalogo> Connessione. Consultare Aggiunta di un asset di connessione a un catalogo.
In uno spazio di distribuzione
Fare clic su Importa asset> Accesso dati> Connessione. Consultare Aggiunta di asset di dati a uno spazio di distribuzione.
Nel Platform assets catalog
Fare clic su Nuova connessione. Consultare Aggiunta di connessioni di piattaforma.

Passo successivo: aggiungere gli asset di dati dalla connessione

Dove è possibile utilizzare questa connessione

Puoi utilizzare le connessioni Apache HDFS nei seguenti spazi di lavoro e strumenti:

Progetti

  • Regole di qualità dei datiIBM Knowledge Catalog)
  • Data Refinerywatsonx.ai Studio o IBM Knowledge Catalog)
  • DataStage (servizioDataStage ). Consultare Connessione a un'origine dati in DataStage.
  • Decision Optimizationwatsonx.ai Studio e watsonx.ai Runtime)
  • Arricchimento dei metadatiIBM Knowledge Catalog)
  • Metadata import (IBM Knowledge Catalog)
  • SPSS Modelerwatsonx.ai Studio)

Cataloghi

  • Platform assets catalog

  • Altri cataloghiIBM Knowledge Catalog)

Configurazione Apache HDFS

Installare e configurare un cluster Hadoop

Tipi di file supportati

La connessione Apache HDFS supporta i seguenti tipi di file: Avro, CSV, Testo delimitato, Excel, JSON, ORC, Parquet, SAS, SAV, SHP e XML.

Formati tabella

Oltre al file flat, la connessione Apache HDFS supporta questi formati di tabella Data Lake: Delta Lake e Iceberg.

Ulteriori informazioni

Apache HDFS Guida per l'utente

Argomento principale Connessioni supportate

Ricerca e risposta AI generativa
Queste risposte sono generate da un modello di lingua di grandi dimensioni in watsonx.ai basato sul contenuto della documentazione del prodotto. Ulteriori informazioni