Apache HDFS-Verbindung

Letzte Aktualisierung: 05. Apr. 2025
Apache HDFS-Verbindung

Sie können ein Verbindungsasset für den Zugriff auf Ihre Daten in Apache HDFS erstellen.

Apache Hadoop Distributed File System (HDFS) ist ein verteiltes Dateisystem, das auf Standardhardware ausgeführt werden kann. Apache HDFS war früher Hortonworks HDFS.

Unterstützte Versionen

Apache HDFS 3.1.

Eine Verbindung zu Apache HDFS erstellen

Zum Erstellen des Verbindungsassets benötigen Sie die folgenden Verbindungsdetails. Die Website WebHDFS URL ist erforderlich.
Die verfügbaren Eigenschaften im Verbindungsformular hängen davon ab, ob Sie Verbinden mit Apache Hive wählen, damit Sie Tabellen in die Datenquelle Hive schreiben können.

  • WebHDFS URL um auf HDFS zuzugreifen.
  • Hive -Host: Der Hostname oder die IP-Adresse des Apache Hive -Servers.
  • Hive-Datenbank: Die Datenbank in Apache Hive.
  • Hive-Portnummer: Die Port-Nummer des Apache-Hive-Servers. Der Standardwert ist 10000.
  • Hive HTTP pfad: Der Pfad des Endpunkts, z. B. Gateway/Standard/Hive, wenn der Server für den Transportmodus HTTP konfiguriert ist.
  • SSL-Zertifikat (falls für den Apache Hive -Server erforderlich)

Berechtigungsnachweise

Der Benutzername ist erforderlich.

  • Benutzername und Kennwort
  • Hive -Benutzer und -Kennwort, wenn Sie eine Verbindung zu Apache Hive herstellen

Für private Konnektivität müssen Sie eine sichere Verbindung einrichten, um eine Verbindung zu einer Datenbank herstellen zu können, die nicht über das Internet zugänglich ist (z. B. hinter einer Firewall).

Je nach Position auf der Plattform geeignete Methode zum Erstellen einer Verbindung auswählen

In einem Projekt
Klicken Sie auf Assets > Neues Asset > Verbindung zu einer Datenquelle herstellen. Weitere Informationen finden Sie unter Verbindung zu einem Projekt hinzufügen.
In einem Katalog
Klicken Sie auf Zu Katalog hinzufügen > Verbindung. Weitere Informationen finden Sie unter Verbindungsasset zu einem Katalog hinzufügen.
In einem Bereitstellungsbereich
Klicken Sie auf Assets importieren > Datenzugriff > Verbindung. Siehe Datenassets zu einem Bereitstellungsbereich hinzufügen.
Im Katalog der Plattformressourcen
Klicken Sie auf Neue Verbindung. Weitere Informationen finden Sie unter Hinzufügen von Plattformverbindungen.

Nächster Schritt: Fügen Sie Datenassets aus der Verbindung hinzu

Wo Sie diese Verbindung verwenden können

Sie können Apache HDFS-Verbindungen in den folgenden Arbeitsbereichen und Tools verwenden:

Projekte

  • DatenqualitätsregelnIBM Knowledge Catalog)
  • Data Refinerywatsonx.ai Studio oder IBM Knowledge Catalog)
  • DataStage (DataStage -Service) Siehe Verbindung zu einer Datenquelle in DataStage.
  • Decision Optimizationwatsonx.ai Studio und watsonx.ai Runtime)
  • Anreicherung von MetadatenIBM Knowledge Catalog)
  • Metadata import (IBM Knowledge Catalog)
  • SPSS Modelerwatsonx.ai Studio)

Kataloge

  • Platform assets catalog

  • Andere KatalogeIBM Knowledge Catalog)

Apache HDFS-Konfiguration

Hadoop -Cluster installieren und einrichten

Unterstützte Dateitypen

Die Apache HDFS-Verbindung unterstützt die folgenden Dateitypen: Avro, CSV, Text mit Trennzeichen, Excel, JSON, OR, Parquet, SAS, SAV, SHP und XML.

Tabellenformate

Zusätzlich zu Flat File unterstützt die Verbindung Apache HDFS die folgenden Data Lake-Tabellenformate: Delta Lake und Iceberg.

Weitere Informationen

Apache HDFS Users Guide

Übergeordnetes Thema: Unterstützte Verbindungen