0 / 0
Go back to the English version of the documentation
Microsoft Azure Data Lake Storage 连接
Last updated: 2024年11月28日
Microsoft Azure Data Lake Storage 连接

要在 Microsoft Azure Data Lake Storage中访问数据,请为其创建连接资产。

Azure Data Lake Storage (ADLS) 是在 Microsoft 公共云 Azure中托管的可扩展数据存储和分析服务。 Microsoft Azure Data Lake Storage 连接支持访问 Gen1 和 Gen2 Azure Data Lake Storage 存储库。

创建与 Microsoft Azure Data Lake Storage 的连接

要创建连接资产,您需要以下连接详细信息:

注:Entra ID 身份验证的前提条件:

Microsoft Entra ID 是一项基于云的身份和访问管理服务。 要获取 Entra ID 身份验证方法的连接值,请登录 Microsoft Azure 门户,然后转到您的存储帐户。 有关 Microsoft Entra ID 的信息,请参阅 What is Microsoft Entra ID?

Entra ID 客户机密钥凭证

  • 租户 ID:Microsoft Entra 租户 ID。 要查找租户 ID,请转到 Microsoft Entra ID> 属性。 向下滚动到 租户 ID 字段。 有关详细信息,请参阅 如何查找您的 Microsoft Entra 租户 ID
  • 客户端 ID:授权访问 Microsoft Azure Data Lake Storage 的客户端 ID。 要查找应用程序的客户端 ID,请选择 Microsoft Entra ID。 从 应用程序注册中,选择您的应用程序。 单击 Copy 以复制应用程序的客户端 ID。 有关详细信息,请参阅 注册 Microsoft Entra 应用程序并创建服务委托
  • 客户端密钥:与客户端 ID 关联的身份验证密钥,用于授权访问 Microsoft Azure Data Lake Storage。 要查找应用程序的客户端秘密,请选择 Microsoft Entra ID。 从 应用程序注册中,选择您的应用程序。 转到 Certificates & secrets > Client secrets。 单击 Copy 复制现有客户机密文,或单击 New client secret 创建新客户机密文并复制。 有关详细信息,请参阅 注册 Microsoft Entra 应用程序并创建服务委托
  • 存储帐户 URL:存储帐户 URL。

Entra ID 用户名密码凭证

  • 客户端 ID:授权访问 Microsoft Azure Data Lake Storage 的客户端 ID。 要查找应用程序的客户端 ID,请选择 Microsoft Entra ID。 从 应用程序注册中,选择您的应用程序。 单击 Copy 以复制应用程序的客户端 ID。 有关详细信息,请参阅 注册 Microsoft Entra 应用程序并创建服务委托
  • UsernamePassword:Microsoft Azure Data Lake Storage 帐户的用户名和密码。 您需要有权限才能在没有多因素身份验证的情况下访问文件。
  • 存储帐户 URL:存储帐户 URL。
  • WebHDFS URL: 用于访问 HDFS的 WebHDFS URL。
    要连接到第 2 代 ADLS ,请使用以下格式: https://<account-name>.dfs.core.windows.net/<file-system>
    其中 <account-name> 是创建 ADLS 实例时使用的名称。
    对于 <file-system>,请使用您创建的容器的名称。 有关详细信息,请参阅Microsoft Data Lake StorageGen2文档

  • 租户标识: Azure Active Directory 租户标识
  • 客户机标识: 用于授权访问 Microsoft Azure Data Lake Storage 的客户机标识
  • 客户机密钥: 与用于授权访问 Microsoft Azure Data Lake Storage 的客户机标识相关联的认证密钥

选择 服务器代理 以通过代理服务器访问 Azure Data Lake Storage 数据源。 根据其设置,代理服务器可以提供负载均衡,提高安全性和隐私性。 代理服务器设置独立于认证凭证以及个人或共享凭证选择。

  • 代理主机: 代理 URL。 例如,https://proxy.example.com
  • 代理端口号: 用于连接到代理服务器的端口号。 例如, 80808443
  • HTTP 或 HTTPS 的 代理协议 选项是可选的。

对于 专用连接,要连接到未外部化到因特网的数据库 (例如,在防火墙后) ,必须设置 安全连接

根据您在平台中的位置选择创建连接的方法

在项目中
单击 资产> 新资产> 连接到数据源。 请参阅将连接添加到项目
在目录中
单击 添加到目录> 连接。 请参阅将连接资产添加到目录中
在部署空间中
单击 导入资产> 数据访问> 连接。 请参阅 向部署空间添加数据资产
在平台资产目录中
单击新建连接。 请参阅添加平台连接

下一步:从连接添加数据资产

您可以在何处使用此连接

您可以在以下工作空间和工具中使用 Microsoft Azure Data Lake Storage 连接:

项目

  • 数据质量规则 (IBM Knowledge Catalog)
  • DataStage (DataStage 服务)。 请参阅 连接到 DataStage中的数据源
  • Decision Optimization(watsonx.ai工作室和 "watsonx.ai运行时)
  • 元数据丰富(IBM Knowledge Catalog)
  • Metadata import (IBM Knowledge Catalog)
  • SPSS Modelerwatsonx.aiStudio)

目录

  • Platform assets catalog

  • 其他目录 (IBM Knowledge Catalog)

Azure Data Lake Storage 认证设置

要设置认证,您需要租户标识、客户机(或应用程序)标识以及客户机私钥。

支持的文件类型

Microsoft Azure Data Lake Storage 连接支持以下文件类型 :Avro , CSV ,定界文本, Excel , JSON , ORC , Parquet , SAS , SAV , SHP 和 XML。

表格式

除平面文件外, Microsoft Azure Data Lake Storage 连接还支持以下 Data Lake 表格式: Delta Lake 和 Iceberg。

了解更多信息

Azure Data Lake

父主题: 支持的连接

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more