Apache HDFS 内のデータにアクセスするには、そのデータ用の接続資産を作成します。
Apache Hadoop Distributed File System (HDFS) は、コモディティー・ハードウェア上で実行するように設計された分散ファイル・システムです。 Apache HDFS は、以前は Hortonworks HDFS でした。
Apache HDFS への接続の作成
接続資産を作成するには、以下の接続の詳細が必要です。 WebHDFS URL は必須です。
接続フォームで使用可能なプロパティーは、 「 Apache Hive を選択して Hive データ・ソースに表を書き込むことができるかどうかによって異なります。
- WebHDFS HDFS。
- Hive ホスト: Apache Hive サーバーのホスト名または IP アドレス。
- Hive データベース: Apache Hive内のデータベースです。
- Hive のポート番号: Apache Hive サーバーのポート番号です。 デフォルト値は
10000
です。 - Hive HTTP パス: サーバーが HTTP トランスポート・モード用に構成されている場合のエンドポイントのパス (gateway/default/hive など)。
- SSL 証明書 ( Apache Hive サーバーで必要な場合)。
資格情報
ユーザー名は必須です。
- ユーザー名とパスワード
- Hive ユーザーおよびパスワード ( Apache Hive に接続する場合)
プライベート接続の場合、インターネットに外部化されていないデータベース (例えば、ファイアウォールの内側) に接続するには、 セキュア接続をセットアップする必要があります。
プラットフォーム内の場所に基づいて接続を作成する方法を選択してください
- プロジェクト内
- 「アセット」>「新規アセット」>「データ・ソースへの接続」をクリックします。 プロジェクトへの接続の追加を参照してください。
- カタログ内
- 「カタログに追加」>「接続」をクリックしてください。 カタログへの接続資産の追加を参照してください。
- デプロイメント・スペース内
- 「アセットのインポート」>「データ・アクセス」>「接続」をクリックします。 デプロイメント・スペースへのデータ資産の追加を参照してください。
- Platform assets catalog
- 新規接続をクリックしてください。 プラットフォーム接続の追加を参照してください。
次のステップ: 接続からデータ資産を追加する
プロジェクトでの接続からのデータの追加を参照してください。
カタログ内の接続からのデータの追加を参照してください。
この接続を使用できる場所
Apache HDFS 接続は、以下のワークスペースおよびツールで使用できます:
プロジェクト
- データ品質ルールIBM Knowledge Catalog
- Data Refinerywatsonx.aiStudio またはIBM Knowledge Catalog
- DataStage (DataStage サービス)。 DataStageでのデータ・ソースへの接続を参照してください。
- Decision Optimizationwatsonx.aiStudio およびwatsonx.aiRuntime)
- メタデータ・エンリッチメントIBM Knowledge Catalog
- Metadata import (IBM Knowledge Catalog)
- SPSS Modelerwatsonx.aiStudio)
カタログ
Platform assets catalog
その他のカタログIBM Knowledge Catalog)
Apache HDFS のセットアップ
サポートされるファイル・タイプ
Apache HDFS 接続は、Avro、CSV、Delimited text、Excel、JSON、ORC、Parquet、SAS、SAV、SHP、および XML の各ファイル・タイプをサポートします。
表形式
フラット・ファイルに加えて、 Apache HDFS 接続では、データ・レイク・テーブル・フォーマットとしてデルタ・レイクおよび Iceberg がサポートされています。
もっと見る
親トピック: サポートされた接続