要在 Microsoft Azure Data Lake Storage中访问数据,请为其创建连接资产。
Azure Data Lake Storage (ADLS) 是在 Microsoft 公共云 Azure中托管的可扩展数据存储和分析服务。 Microsoft Azure Data Lake Storage 连接支持访问 Gen1 和 Gen2 Azure Data Lake Storage 存储库。
创建与 Microsoft Azure Data Lake Storage 的连接
要创建连接资产,您需要以下连接详细信息:
Microsoft Entra ID 是一项基于云的身份和访问管理服务。 要获取 Entra ID 身份验证方法的连接值,请登录 Microsoft Azure 门户,然后转到您的存储帐户。 有关 Microsoft Entra ID 的信息,请参阅 What is Microsoft Entra ID?。
Entra ID 客户机密钥凭证
- 租户 ID:Microsoft Entra 租户 ID。 要查找租户 ID,请转到 Microsoft Entra ID> 属性。 向下滚动到 租户 ID 字段。 有关详细信息,请参阅 如何查找您的 Microsoft Entra 租户 ID。
- 客户端 ID:授权访问 Microsoft Azure Data Lake Storage 的客户端 ID。 要查找应用程序的客户端 ID,请选择 Microsoft Entra ID。 从 应用程序注册中,选择您的应用程序。 单击 Copy 以复制应用程序的客户端 ID。 有关详细信息,请参阅 注册 Microsoft Entra 应用程序并创建服务委托。
- 客户端密钥:与客户端 ID 关联的身份验证密钥,用于授权访问 Microsoft Azure Data Lake Storage。 要查找应用程序的客户端秘密,请选择 Microsoft Entra ID。 从 应用程序注册中,选择您的应用程序。 转到 Certificates & secrets > Client secrets。 单击 Copy 复制现有客户机密文,或单击 New client secret 创建新客户机密文并复制。 有关详细信息,请参阅 注册 Microsoft Entra 应用程序并创建服务委托。
- 存储帐户 URL:存储帐户 URL。
Entra ID 用户名密码凭证
- 客户端 ID:授权访问 Microsoft Azure Data Lake Storage 的客户端 ID。 要查找应用程序的客户端 ID,请选择 Microsoft Entra ID。 从 应用程序注册中,选择您的应用程序。 单击 Copy 以复制应用程序的客户端 ID。 有关详细信息,请参阅 注册 Microsoft Entra 应用程序并创建服务委托。
- Username 和 Password:Microsoft Azure Data Lake Storage 帐户的用户名和密码。 您需要有权限才能在没有多因素身份验证的情况下访问文件。
- 存储帐户 URL:存储帐户 URL。
- WebHDFS URL: 用于访问 HDFS的 WebHDFS URL。
要连接到第 2 代 ADLS ,请使用以下格式:https://<account-name>.dfs.core.windows.net/<file-system>
其中<account-name>
是创建 ADLS 实例时使用的名称。
对于<file-system>
,请使用您创建的容器的名称。 有关详细信息,请参阅Microsoft Data Lake StorageGen2文档。
- 租户标识: Azure Active Directory 租户标识
- 客户机标识: 用于授权访问 Microsoft Azure Data Lake Storage 的客户机标识
- 客户机密钥: 与用于授权访问 Microsoft Azure Data Lake Storage 的客户机标识相关联的认证密钥
选择 服务器代理 以通过代理服务器访问 Azure Data Lake Storage 数据源。 根据其设置,代理服务器可以提供负载均衡,提高安全性和隐私性。 代理服务器设置独立于认证凭证以及个人或共享凭证选择。
- 代理主机: 代理 URL。 例如,
https://proxy.example.com
。 - 代理端口号: 用于连接到代理服务器的端口号。 例如,
8080
或8443
。 - HTTP 或 HTTPS 的 代理协议 选项是可选的。
对于 专用连接,要连接到未外部化到因特网的数据库 (例如,在防火墙后) ,必须设置 安全连接。
根据您在平台中的位置选择创建连接的方法
- 在项目中
- 单击 资产> 新资产> 连接到数据源。 请参阅将连接添加到项目。
- 在目录中
- 单击 添加到目录> 连接。 请参阅将连接资产添加到目录中。
- 在部署空间中
- 单击 导入资产> 数据访问> 连接。 请参阅 向部署空间添加数据资产。
- 在平台资产目录中
- 单击新建连接。 请参阅添加平台连接。
下一步:从连接添加数据资产
请参阅通过项目中的连接添加数据。
请参阅从目录中的连接添加数据。
您可以在何处使用此连接
您可以在以下工作空间和工具中使用 Microsoft Azure Data Lake Storage 连接:
项目
- 数据质量规则 (IBM Knowledge Catalog)
- DataStage (DataStage 服务)。 请参阅 连接到 DataStage中的数据源。
- Decision Optimization(watsonx.ai工作室和 "watsonx.ai运行时)
- 元数据丰富(IBM Knowledge Catalog)
- Metadata import (IBM Knowledge Catalog)
- SPSS Modelerwatsonx.aiStudio)
目录
Platform assets catalog
其他目录 (IBM Knowledge Catalog)
Azure Data Lake Storage 认证设置
要设置认证,您需要租户标识、客户机(或应用程序)标识以及客户机私钥。
- Gen1:
- 创建 Azure Active Directory (Azure AD) Web 应用程序,获取应用程序标识,认证密钥和租户标识。
- 然后,必须将 Azure AD 应用程序分配给 Azure Data Lake Storage 帐户文件或文件夹。 按照 "使用 "Azure进行服务对服务验证 使用 "Azure进行数据湖存储 使用 "Active Directory进行服务对服务验证 的步骤 1、2 和 3 操作。
- Gen2:
- 按照从AzureAD 获取令牌以授权客户端应用程序请求中的说明进行操作。 这些步骤将创建新身份。 创建身份后,设置许可权以授予应用程序对 ADLS 的访问权。 Microsoft Azure Data Lake Storage 连接将使用应用程序的关联客户机标识,客户机密钥和租户标识。
- 使用 Storage Explorer 授予 Azure 应用程序对存储容器的访问权。 有关说明,请参见 "Use Azure Storage Explorer to manage directories and files in Azure Data Lake Storage Gen2。
支持的文件类型
Microsoft Azure Data Lake Storage 连接支持以下文件类型 :Avro , CSV ,定界文本, Excel , JSON , ORC , Parquet , SAS , SAV , SHP 和 XML。
表格式
除平面文件外, Microsoft Azure Data Lake Storage 连接还支持以下 Data Lake 表格式: Delta Lake 和 Iceberg。
了解更多信息
父主题: 支持的连接