Apache HDFS 接続
Apache HDFS 内のデータにアクセスするには、そのデータ用の接続資産を作成します。
Apache Hadoop Distributed File System (HDFS) は、コモディティー・ハードウェア上で実行するように設計された分散ファイル・システムです。 Apache HDFS は、以前は Hortonworks HDFS でした。
サポートされるバージョン
Apache HDFS 3.1.
Apache HDFS への接続の作成
接続資産を作成するには、以下の接続の詳細が必要です。 WebHDFS URL。
接続フォームで使用可能なプロパティは、 データソースにテーブルを書き込めるように、 Hive Apache Hive に接続を選択したかどうかによって異なります。
- WebHDFS URL をクリックして HDFS にアクセスする。
- Hive ホスト: Apache Hive サーバーのホスト名または IP アドレス。
- Hive データベース: Apache Hive内のデータベースです。
- Hive のポート番号: Apache Hive サーバーのポート番号です。 デフォルト値は
です。10000
- Hive HTTP パス:サーバーが HTTP トランスポート・モード用に設定されている場合、ゲートウェイ/デフォルト/ハイブなどのエンドポイントのパス。
- SSL 証明書 ( Apache Hive サーバーで必要な場合)。
資格情報
ユーザー名は必須です。
- ユーザー名とパスワード
- Hive ユーザーおよびパスワード ( Apache Hive に接続する場合)
プライベート接続の場合、インターネットに外部化されていないデータベース (例えば、ファイアウォールの内側) に接続するには、 セキュア接続をセットアップする必要があります。
プラットフォーム内の場所に基づいて接続を作成する方法を選択してください
- プロジェクト内
- 「アセット」>「新規アセット」>「データ・ソースへの接続」をクリックします。 プロジェクトへの接続の追加を参照してください。
- カタログ内
- 「カタログに追加」>「接続」をクリックしてください。 カタログへの接続資産の追加を参照してください。
- デプロイメント・スペース内
- 「アセットのインポート」>「データ・アクセス」>「接続」をクリックします。 デプロイメント・スペースへのデータ資産の追加を参照してください。
- Platform assets catalog
- 新規接続をクリックしてください。 プラットフォーム接続の追加を参照してください。
次のステップ: 接続からデータ資産を追加する
プロジェクトでの接続からのデータの追加を参照してください。
カタログ内の接続からのデータの追加を参照してください。
この接続を使用できる場所
Apache HDFS 接続は、以下のワークスペースおよびツールで使用できます:
プロジェクト
- データ品質ルールIBM Knowledge Catalog
- Data Refinerywatsonx.aiStudio またはIBM Knowledge Catalog
- DataStage (DataStage サービス)。 DataStageでのデータ・ソースへの接続を参照してください。
- Decision Optimizationwatsonx.aiStudio およびwatsonx.aiRuntime)
- メタデータ・エンリッチメントIBM Knowledge Catalog
- Metadata import (IBM Knowledge Catalog)
- SPSS Modelerwatsonx.aiStudio)
カタログ
Platform assets catalog
その他のカタログIBM Knowledge Catalog)
Apache HDFS のセットアップ
サポートされるファイル・タイプ
Apache HDFS 接続は、Avro、CSV、Delimited text、Excel、JSON、ORC、Parquet、SAS、SAV、SHP、および XML の各ファイル・タイプをサポートします。
テーブル・フォーマット
フラットファイルに加えて、 Apache HDFS 接続は以下の Data Lake テーブル形式をサポートしています: Delta Lake と Iceberg。
もっと見る
親トピック: サポートされた接続