Connessione Apache HDFS

Ultimo aggiornamento: 02 apr 2025
Connessione Apache HDFS

Per accedere ai dati in Apache HDFS, crea un asset di connessione per esso.

Apache Hadoop Distributed File System (HDFS) è un file system distribuito progettato per essere eseguito su hardware di base. Apache HDFS era precedentemente Hortonworks HDFS.

Versioni supportate

Apache HDFS 3.1.

Crea una connessione a Apache HDFS

Per creare l'asset di connessione, sono necessari questi dettagli di connessione. È necessario il sito WebHDFS URL.
Le proprietà disponibili nel modulo di connessione dipendono dal fatto che si sia selezionato Connetti a Apache Hive, in modo da poter scrivere tabelle nell'origine dati Hive.

  • WebHDFS URL per accedere a HDFS.
  • Host Hive : nome host o indirizzo IP del server Apache Hive .
  • Database Hive : il database in Apache Hive.
  • Numero porta Hive : il numero porta del server Apache Hive . Il valore predefinito è 10000.
  • Hive HTTP percorso: Il percorso dell'endpoint, ad esempio gateway/default/hive quando il server è configurato per la modalità di trasporto HTTP.
  • Certificato SSL (se richiesto dal server Apache Hive ).

Per la connettività privata, per stabilire una connessione a un database che non sia esternalizzato a internet (ad esempio, dietro un firewall), devi configurare una connessione sicura.

Scegliere il metodo per la creazione di una connessione in base alla posizione in cui ci si trova nella piattaforma

In un progetto
Fare clic su Asset> Nuovo asset> Connetti a una origine dati. Consultare Aggiunta di una connessione a un progetto.
In uno spazio di distribuzione
Fare clic su Importa asset> Accesso dati> Connessione. Consultare Aggiunta di asset di dati a uno spazio di distribuzione.
Nel Platform assets catalog
Fare clic su Nuova connessione. Consultare Aggiunta di connessioni di piattaforma.

Passo successivo: aggiungere gli asset di dati dalla connessione

Dove è possibile utilizzare questa connessione

Puoi utilizzare le connessioni Apache HDFS nei seguenti spazi di lavoro e strumenti:

Progetti

  • Data Refinery
  • Decision Optimization
  • SPSS Modeler
  • Synthetic Data Generator

Cataloghi

  • Platform assets catalog

Configurazione Apache HDFS

Installare e configurare un cluster Hadoop

Tipi di file supportati

La connessione Apache HDFS supporta i seguenti tipi di file: Avro, CSV, Testo delimitato, Excel, JSON, ORC, Parquet, SAS, SAV, SHP e XML.

Formati di tabella

Oltre al file Flat, la connessione Apache HDFS supporta i seguenti formati di tabelle Data Lake: Delta Lake e Iceberg.

Ulteriori informazioni

Apache HDFS Guida per l'utente

Argomento principale Connessioni supportate