Apache HDFS 接続
Apache HDFS 内のデータにアクセスするには、そのデータ用の接続資産を作成します。
Apache Hadoop Distributed File System (HDFS) は、コモディティー・ハードウェア上で実行するように設計された分散ファイル・システムです。 Apache HDFS は、以前は Hortonworks HDFS でした。
Apache HDFS への接続の作成
接続資産を作成するには、以下の接続の詳細が必要です。 WebHDFS URL は必須です。
接続フォームで使用可能なプロパティーは、 「 Apache Hive を選択して Hive データ・ソースにテーブルを書き込むことができるかどうかによって異なります。
- WebHDFS URL 。 HDFSにアクセスします。
- Hive ホスト: Apache Hive サーバーのホスト名または IP アドレス。
- Hive データベース: Apache Hive内のデータベースです。
- Hive のポート番号: Apache Hive サーバーのポート番号です。 デフォルト値は
10000
です。 - Hive HTTP パス: サーバーが HTTP トランスポート・モード用に構成されている場合のエンドポイントのパス (gateway/default/hive など)。
- SSL 証明書 ( Apache Hive サーバーで必要な場合)。
資格情報
ユーザー名は必須です。
- ユーザー名とパスワード
- Hive ユーザーおよびパスワード ( Apache Hive に接続する場合)
プライベート接続の場合、インターネットに外部化されていないデータベース (例えば、ファイアウォールの内側) に接続するには、 セキュア接続をセットアップする必要があります。
プラットフォーム内の場所に基づいて接続を作成する方法を選択してください
- プロジェクト内
- 「資産」>「新規資産」>「データ・アクセス・ツール」>「接続」をクリックします。 プロジェクトへの接続の追加を参照してください。
- カタログ内
- 「カタログに追加」>「接続」をクリックしてください。 カタログへの接続資産の追加を参照してください。
- デプロイメント・スペース内
- 「スペースに追加」>「接続」をクリックします。 デプロイメント・スペースへの接続の追加を参照してください。
- Platform assets catalog
- 新規接続をクリックしてください。 プラットフォーム接続の追加を参照してください。
次のステップ: 接続からデータ資産を追加する
プロジェクトでの接続からのデータの追加を参照してください。
カタログ内の接続からのデータの追加を参照してください。
この接続を使用できる場所
Apache HDFS 接続は、以下のワークスペースおよびツールで使用できます:
プロジェクト
- データ品質ルール (IBM Knowledge Catalog)
- Data Refinery (Watson Studio または IBM Knowledge Catalog)
- DataStage (DataStage サービス)。 DataStageでのデータ・ソースへの接続を参照してください。
- Decision Optimization (Watson Studio および Watson Machine Learning)
- メタデータ・エンリッチ (IBM Knowledge Catalog)
- Metadata import (IBM Knowledge Catalog)
- SPSS Modeler (Watson Studio)
カタログ
Platform assets catalog
その他のカタログ (IBM Knowledge Catalog)
Apache HDFS のセットアップ
サポートされるファイル・タイプ
Apache HDFS 接続は、Avro、CSV、Delimited text、Excel、JSON、ORC、Parquet、SAS、SAV、SHP、および XML の各ファイル・タイプをサポートします。
表形式
フラット・ファイルに加えて、 Apache HDFS 接続では、データ・レイク・テーブル・フォーマットとしてデルタ・レイクおよび Iceberg がサポートされています。
もっと見る
親トピック: サポートされた接続