0 / 0
Go back to the English version of the documentation
Apache HDFS 连接
Last updated: 2024年11月22日
Apache HDFS 连接

要在 Apache HDFS中访问数据,请为其创建连接资产。

Apache Hadoop Distributed File System (HDFS) 是设计为在商用硬件上运行的分布式文件系统。 Apache HDFS 先前称为 Hortonworks HDFS。

创建与 Apache HDFS 的连接

要创建连接资产,您需要这些连接详细信息。 WebHDFS URL 是必需的。
连接表单中的可用属性取决于您是否选择 连接到 Apache Hive ,以便可以将表写入 Hive 数据源。

  • WebHDFS 用于访问 HDFS的 URL。
  • Hive 主机: Apache Hive 服务器的主机名或 IP 地址。
  • Hive 数据库: Apache Hive中的数据库。
  • Hive 端口号:Apache Hive 服务器的端口号。 缺省值为 10000
  • Hive HTTP 路径: 针对 HTTP 传输方式配置服务器时端点的路径,例如 gateway/default/hive。
  • SSL 证书 (如果 Apache Hive 服务器需要)。

凭证

用户名必需。

  • 用户名和密码
  • Hive 用户和密码 (如果您连接到 Apache Hive )

对于 专用连接,要连接到未外部化到因特网的数据库 (例如,在防火墙后) ,必须设置 安全连接

根据您在平台中的位置选择创建连接的方法

在项目中
单击 资产> 新资产> 连接到数据源。 请参阅将连接添加到项目
在目录中
单击 添加到目录> 连接。 请参阅将连接资产添加到目录中
在部署空间中
单击 导入资产> 数据访问> 连接。 请参阅 向部署空间添加数据资产
在平台资产目录中
单击新建连接。 请参阅添加平台连接

下一步:从连接添加数据资产

您可以在何处使用此连接

您可以在以下工作空间和工具中使用 Apache HDFS 连接:

项目

  • 数据质量规则IBM Knowledge Catalog
  • Data Refinerywatsonx.aiStudio 或IBM Knowledge Catalog
  • DataStage (DataStage 服务)。 请参阅 连接到 DataStage中的数据源
  • Decision Optimization(watsonx.ai工作室和 "watsonx.ai运行时)
  • 丰富元数据IBM Knowledge Catalog
  • Metadata import (IBM Knowledge Catalog)
  • SPSS Modelerwatsonx.aiStudio)

目录

  • Platform assets catalog

  • 其他目录IBM Knowledge Catalog

Apache HDFS 设置

安装和设置 Hadoop 集群

支持的文件类型

Apache HDFS 连接支持以下文件类型 :Avro , CSV ,定界文本, Excel , JSON , ORC , Parquet , SAS , SAV , SHP 和 XML。

表格式

除了平面文件外, Apache HDFS 连接还支持以下 Data Lake 表格式: Delta Lake 和 Iceberg。

了解更多信息

Apache HDFS 用户指南

父主题: 支持的连接

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more