执行本教程以使用数据光纤网试用的数据集成用例在源数据存储器和目标数据存储器之间设置数据复制。 您的目标是使用 Data Replication 将来自提供者的 Db2 on Cloud 数据源的信用评分信息集成,方法是设置一个近乎实时的连续复制订阅源,将高效的数据从源数据库捕获到金库的 Event Streams 实例中。 Event Streams 是使用 Apache Kafka构建的高吞吐量消息总线。 它专门针对摄入 IBM Cloud 的事件以及服务与应用程序之间的事件流分发而优化。 有关 Event Streams的更多信息,请参阅 了解更多信息 部分。
该教程的故事是,金银需要遵守一项新法规,其中不能向资质不足的贷款申请人提供贷款。 作为 Golden Bank 的数据工程师,您需要提供对贷款申请人最新信用评分的访问。 这些信用评分源自外部提供者拥有的 Db2 on Cloud 数据库,并持续交付到 Golden Bank 的 Event Streams 中心。 Event Streams 中心中的数据由应用程序用于查找抵押贷款申请人的信用评分,以确定合格申请人的贷款审批。
以下动画图像提供了在教程结束时将完成的内容的快速预览。 单击该图像以查看更大的图像。
预览教程
在本教程中,您将完成以下任务:
- 设置先决条件。
- 任务 1: 设置 Event Streams。
- 任务 2: 查看信用评分数据。
- 任务 3: 创建与 Event Streams 实例的连接。
- 任务 4: 将 Data Replication 服务与项目相关联。
- 任务 5: 设置数据复制。
- 任务 6: 运行数据复制。
- 任务 7: 验证数据复制。
- 清除
观看此视频以预览本教程中的步骤。 视频中显示的用户界面可能存在细微差异。 该视频旨在与编写的教程相伴。
此视频提供了一种可视方法来学习本文档中的概念和任务。
完成本教程的提示
以下是成功完成本教程的一些提示。
使用视频图片
以下动画图像显示了如何使用视频图片和目录功能:
在社区中获取帮助
如果您需要本教程的帮助,可以在Cloud Pak for Data社区讨论区提问或寻找答案。
设置浏览器窗口
为了获得完成本教程的最佳体验,请在一个浏览器窗口中打开 Cloud Pak for Data ,并在另一个浏览器窗口中保持本教程页面处于打开状态,以便在两个应用程序之间轻松切换。 请考虑将两个浏览器窗口并排排列,以便更轻松地进行后续操作。
设置先决条件
注册 Cloud Pak for Data as a Service
您必须注册 Cloud Pak for Data as a Service ,并为数据集成用例供应必要的服务。
- 如果您具有现有的 Cloud Pak for Data as a Service 帐户,那么可以开始使用本教程。 如果您有轻量套餐帐户,那么每个帐户只有一个用户可以运行本教程。
- 如果您还没有 Cloud Pak for Data as a Service 帐户,请 注册以获取数据光纤网试用。
观看以下视频,了解Cloud Pak for Data 中的数据结构。
此视频提供了一种可视方法来学习本文档中的概念和任务。
验证必需的供应服务
To preview this task, watch the video beginning at 01:29.
请遵循以下步骤来验证或供应必需的服务:
在 Cloud Pak for Data中,验证您是否位于达拉斯区域中。 如果没有,请单击区域下拉菜单,然后选择达拉斯。
从导航菜单",选择服务 > 服务实例。
使用 产品 下拉列表来确定现有 Data Replication 服务实例是否存在。
如果需要创建 Data Replication 服务实例,请单击 添加服务。
选择 Data Replication。
选择轻量套餐。
单击创建。
请稍候,正在供应 Data Replication 服务,这可能需要几分钟才能完成。
重复这些步骤以验证或供应以下其他服务:
- watsonx.ai工作室
- Cloud Object Storage
- Event Streams -可能会提示您登录到 IBM Cloud 帐户。
检查您的进度
下图显示了供应的服务实例。 现在,您已准备好创建样本项目。
创建样本项目
To preview this task, watch the video beginning at 02:19.
如果已有本教程的样本项目,请跳至 任务 1。 否则,请完成以下步骤:
访问资源中心的数据集成教程示例项目。
单击创建项目。
如果提示将项目与 Cloud Object Storage 实例相关联,请从列表中选择 Cloud Object Storage 实例。
单击创建。
等待项目导入完成,然后单击 查看新项目 以验证是否已成功创建项目和资产。
单击 资产 选项卡以查看连接,已连接的数据资产和笔记本。
检查您的进度
下图显示了样本项目中的 "资产" 选项卡。 现在,您已准备好开始本教程。
任务 1: 设置 Event Streams
To preview this task, watch the video beginning at 03:05.
作为 先决条件的一部分,您供应了新的 Event Streams 实例。 现在,您需要设置该服务实例。 请执行以下步骤:
创建主题以存储从 Db2 on Cloud中的源数据复制的数据。 该主题是 Event Streams 流的核心。 数据通过主题从生产应用程序传递至使用应用程序。
复制包含设置数据复制所需的引导服务器信息的样本代码。
创建将用于在项目中创建与服务的连接的凭证。
返回IBM Cloud控制台资源列表。
展开 集成 部分。
单击 Event Streams 实例的服务实例名称以查看实例详细信息。
首先,要创建主题,请单击 主题 页面。
单击 创建主题。
对于 主题名称,输入
golden-bank-mortgage
。单击下一步。
在 分区 部分中,接受缺省值,然后单击 下一步。
在 消息保留时间 部分中,接受缺省值,然后单击 创建主题。
打开文本编辑器,然后将主题名称
golden-bank-mortgage
粘贴到文本文件中以稍后使用。
接下来,返回到 " 主题 " 页面,单击 连接到此服务 以检索连接信息。
复制 引导服务器 字段中的值。 在项目中创建与 Event Streams 实例的连接时,需要引导服务器。
将引导程序服务器值粘贴到同一文本文件中以稍后使用。
单击 样本代码 选项卡。
复制 样本配置属性 字段中的值。 您将使用此片段中的一些属性来安全地连接到服务。
将样本代码粘贴到同一文本文件中以稍后使用。
单击 X 以关闭 连接到此服务 面板。
最后,要创建凭证,请单击 服务凭证 页面。
单击新建凭证。
接受缺省名称,或者如果您愿意,请对其进行更改。
对于 角色,接受 Manager的缺省值。
展开 高级选项 部分。
在 选择服务标识 字段中,选择 自动生成。
单击添加。
在新凭证旁边,单击 复制到剪贴板 图标。
将凭证粘贴到同一文本文件中以稍后使用。
您的文本文件应包含以下所有信息:
TOPIC NAME: golden-bank-mortgage
BOOTSTRAP SERVER FIELD
broker-5-7w81scvsqh485hbz.kafka.svc04.us-south.eventstreams.cloud.ibm.com:9093,broker-1-7w81scvsqh485hbz.kafka.svc04.us-south.eventstreams.cloud.ibm.com:9093,broker-2-7w81scvsqh485hbz.kafka.svc04.us-south.eventstreams.cloud.ibm.com:9093,broker-0-7w81scvsqh485hbz.kafka.svc04.us-south.eventstreams.cloud.ibm.com:9093,broker-3-7w81scvsqh485hbz.kafka.svc04.us-south.eventstreams.cloud.ibm.com:9093,broker-4-7w81scvsqh485hbz.kafka.svc04.us-south.eventstreams.cloud.ibm.com:9093
SAMPLE CODE
bootstrap.servers=broker-5-pqny71x0b9vh7nwh.kafka.svc11.us-south.eventstreams.cloud.ibm.com:9093,broker-0-pqny71x0b9vh7nwh.kafka.svc11.us-south.eventstreams.cloud.ibm.com:9093,broker-2-pqny71x0b9vh7nwh.kafka.svc11.us-south.eventstreams.cloud.ibm.com:9093,broker-1-pqny71x0b9vh7nwh.kafka.svc11.us-south.eventstreams.cloud.ibm.com:9093,broker-3-pqny71x0b9vh7nwh.kafka.svc11.us-south.eventstreams.cloud.ibm.com:9093,broker-4-pqny71x0b9vh7nwh.kafka.svc11.us-south.eventstreams.cloud.ibm.com:9093
sasl.jaas.config=org.apache.kafka.common.security.plain.PlainLoginModule required username="token" password="<APIKEY>";
security.protocol=SASL_SSL
sasl.mechanism=PLAIN
ssl.protocol=TLSv1.2
ssl.enabled.protocols=TLSv1.2
ssl.endpoint.identification.algorithm=HTTPS
CREDENTIALS
{
"api_key": "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx",
"apikey": "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx",
"bootstrap_endpoints": "broker-2-pqny71x0b9vh7nwh.kafka.svc11.us-south.eventstreams.cloud.ibm.com:9093,broker-0-pqny71x0b9vh7nwh.kafka.svc11.us-south.eventstreams.cloud.ibm.com:9093,broker-4-pqny71x0b9vh7nwh.kafka.svc11.us-south.eventstreams.cloud.ibm.com:9093,broker-5-pqny71x0b9vh7nwh.kafka.svc11.us-south.eventstreams.cloud.ibm.com:9093,broker-3-pqny71x0b9vh7nwh.kafka.svc11.us-south.eventstreams.cloud.ibm.com:9093,broker-1-pqny71x0b9vh7nwh.kafka.svc11.us-south.eventstreams.cloud.ibm.com:9093",
"iam_apikey_description": "Auto-generated for key crn:v1:bluemix:public:messagehub:us-south:a/a53b11fc95fcca4d96484d0de5f3bc3c:6b5a2cb2-74ef-432d-817f-f053873e7ed2:resource-key:96372942-5d26-4c59-8ca4-41ab6766ba91",
"iam_apikey_name": "Service credentials-1",
"iam_role_crn": "crn:v1:bluemix:public:iam::::serviceRole:Manager",
"iam_serviceid_crn": "crn:v1:bluemix:public:iam-identity::a/a53b11fc95fcca4d96484d0de5f3bc3c::serviceid:ServiceId-4773bed1-f423-43ea-adff-469389dca54c",
"instance_id": "6b5a2cb2-74ef-432d-817f-f053873e7ed2",
"kafka_admin_url": "https://pqny71x0b9vh7nwh.svc11.us-south.eventstreams.cloud.ibm.com",
"kafka_brokers_sasl": [
"broker-2-pqny71x0b9vh7nwh.kafka.svc11.us-south.eventstreams.cloud.ibm.com:9093",
"broker-0-pqny71x0b9vh7nwh.kafka.svc11.us-south.eventstreams.cloud.ibm.com:9093",
"broker-4-pqny71x0b9vh7nwh.kafka.svc11.us-south.eventstreams.cloud.ibm.com:9093",
"broker-5-pqny71x0b9vh7nwh.kafka.svc11.us-south.eventstreams.cloud.ibm.com:9093",
"broker-3-pqny71x0b9vh7nwh.kafka.svc11.us-south.eventstreams.cloud.ibm.com:9093",
"broker-1-pqny71x0b9vh7nwh.kafka.svc11.us-south.eventstreams.cloud.ibm.com:9093"
],
"kafka_http_url": "https://pqny71x0b9vh7nwh.svc11.us-south.eventstreams.cloud.ibm.com",
"password": "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx",
"user": "token"
检查您的进度
下图显示了 IBM Cloud中 Event Streams 实例的 "主题" 页面。 现在,您已准备好在项目中创建与 Event Streams 实例的连接。
任务 2: 查看信用评分数据
To preview this task, watch the video beginning at 05:06.
样本项目包含与存储源数据的 Db2 on Cloud 实例的连接。 执行以下步骤以查看连接资产和信用评分数据:
返回到 Cloud Pak for Data as a Service 浏览器选项卡。 您将看到数据集成项目。 如果未看到该项目,请执行以下步骤:
从导航菜单",选择项目 > 查看所有项目。
单击 数据集成 项目以将其打开。
在 资产 选项卡上,单击 所有资产。
找到 Data Fabric Trial- Db2 on Cloud -Source 连接资产。
找到 CREDIT_SCORE 已连接的数据资产。
单击 CREDIT_SCORE 资产以查看预览。 此数据资产映射到提供者的 Db2 on Cloud 实例的 BANKING 模式中的 CREDIT_SCORE 表。 它包含有关抵押贷款申请人的信息,例如标识,名称,地址和信用评分。 您要为此数据资产设置数据复制。
单击导航路径中的数据集成项目名称返回项目。
检查您的进度
下图显示了样本项目中的信用评分数据资产。 现在,您已准备好在此项目中创建与 Event Streams 服务的连接。
任务 3: 创建与 Event Streams 实例的连接
To preview this task, watch the video beginning at 05:34.
要设置复制,您还需要使用在 任务 1中收集的信息连接到作为 先决条件 的一部分供应的新 Event Streams 实例。 执行以下步骤以创建连接资产:
在 资产 选项卡上,单击 新建资产> 连接到数据源。
选择 Apache Kafka 连接器,然后单击 Next 。
对于 名称,输入
Event Streams
。在 连接详细信息部分中,填写以下字段:
- Kafka 服务器主机名: 从您在 任务 1中创建的文本文件中粘贴引导服务器值。
- 安全连接: 选择 SASL_SSL。
- 用户主体名称: 在文本文件中粘贴 服务凭证 中的 user 值。 此值通常为
token
。 - 密码: 从文本文件中的 服务凭证 粘贴 password 值。
单击 测试连接。
测试成功后,单击 创建。 如果测试不成功,请验证您从文本文件中复制并粘贴的信息,然后重试。 如果提示您确认在不设置位置和主权的情况下创建连接,请再次单击 创建 。
单击 所有资产 以查看新连接。
检查您的进度
下图显示了样本项目中的 "资产" 选项卡,其中显示了新的 Event Streams 连接资产。 现在,您已准备好使 Data Replication 服务与此项目相关联。
任务 4: 将 Data Replication 服务与项目相关联
To preview this task, watch the video beginning at 06:32.
要在项目中使用 Data Replication 服务,需要将服务实例与项目相关联。 执行以下步骤以将 Event Streams 服务与数据集成项目相关联:
在 数据集成 项目中,单击 管理 选项卡。
单击 服务和集成 页面。
单击 关联服务。
选中 Data Replication 服务实例旁边的框。
单击 关联。
单击 取消 以返回到 " 服务和集成 " 页面。
检查您的进度
下图显示了列出了 Data Replication 服务的 " 服务和集成 " 页面。 现在,您已准备好设置数据复制。
任务 5: 设置数据复制
To preview this task, watch the video beginning at 06:53.
现在,您可以创建 Data Replication 资产,以在 Db2 on Cloud 源与 Event Streams 目标之间启动连续数据复制。 遵循以下步骤来设置数据复制:
单击项目中的 资产 选项卡。
单击 新建资产> 复制数据。
对于 名称,输入
CreditScoreReplication
。单击 源选项。
在 " 源选项 " 页面上,从连接列表中选择 Data Fabric Trial- Db2 on Cloud -Source 。
单击 选择数据。
在 " 选择数据 " 页面上,选择 BANKING 模式> CREDIT_SCORE 表。
单击 目标选项。
在 " 目标选项 " 页面上,从连接列表中选择 事件流 。
在 缺省主题 字段中,粘贴在 任务 1
golden-bank-mortgage
中创建的主题名称。接受其余字段的缺省值,然后单击 复审。
复审摘要,然后单击 创建。
检查您的进度
下图显示了ReplicateCreditScoreData屏幕显示复制已停止。 现在,您已准备好运行数据复制。
任务 6: 运行数据复制
To preview this task, watch the video beginning at 07:54.
创建 Data Replication 资产后,可以运行数据复制并查看有关复制状态的信息。 执行以下步骤以运行数据复制:
在CreditScoreReplication屏幕上,单击运行图标 "启动复制过程。
如果这是您首次运行 Data Replication 资产,那么可能会提示您提供 API 密钥。 数据复制资产使用您的个人 IBM Cloud API 密钥来安全地执行复制操作,而不会造成中断。 如果要使用特定的 API 密钥,请单击 "设置"图标 "。
- 如果您有现有 API 密钥,请单击 使用现有 API 密钥,粘贴 API 密钥,然后单击 保存。
- 如果没有现有 API 密钥,请单击 生成新的 API 密钥,然后单击 生成。 保存 API 密钥以供将来使用,然后单击 关闭。
在事件日志部分,单击刷新图标 "查看任何新信息。
几分钟后,消息
Completed initial synchronization for table "BANKING"."CREDIT_SCORE"
将显示在 事件日志 部分中。
从此时开始,将自动检测对 Db2 on Cloud 实例中 BANKING.CREDIT_SCORE 表的任何更改并将其复制到目标。
检查您的进度
下图显示了CreditScoreReplication屏幕上显示复制正在运行且事件日志中有消息。 现在,您已准备好通过监视复制资产的状态,事件和度量,并验证是否正在复制数据来监视复制。
任务 7: 验证数据复制
To preview this task, watch the video beginning at 09:03.
您可以使用 Python 代码来验证信用评分数据是否已复制到 Golden Bank 的 Event Streams 中心。 示例项目包括一个包含Python示例代码的Jupyter笔记本。 执行以下步骤以编辑和运行 Notebook 中的代码:
单击导航路径中的数据集成项目名称返回项目。
单击“资产”选项卡。
单击 所有资产。
单击监控数据复制笔记本行尾的溢出菜单 ",然后选择 "编辑"。
运行第一个代码单元以安装 Kafka-python 库。
使用您从 任务 1保存到文本文件的信息来编辑第二个单元格。
topic: 粘贴主题名称。 此值为
golden-bank-mortgage
。bootstrap_servers: 从文本文件中粘贴引导服务器值,该值应该类似于以下值:
broker-5-pqny71x0b9vh7nwh.kafka.svc11.us-south.eventstreams.cloud.ibm.com:9093, broker-0-pqny71x0b9vh7nwh.kafka.svc11.us-south.eventstreams.cloud.ibm.com:9093, broker-2-pqny71x0b9vh7nwh.kafka.svc11.us-south.eventstreams.cloud.ibm.com:9093, broker-1-pqny71x0b9vh7nwh.kafka.svc11.us-south.eventstreams.cloud.ibm.com:9093, broker-3-pqny71x0b9vh7nwh.kafka.svc11.us-south.eventstreams.cloud.ibm.com:9093, broker-4-pqny71x0b9vh7nwh.kafka.svc11.us-south.eventstreams.cloud.ibm.com:9093
sasl_plain_username: 在文本文件中粘贴 服务凭证 中的 user 值。 此值通常为
token
。security_protocol: 从文本文件粘贴 security.protocol 值。 此值通常为
SASL_SSL
。sasl_机芯: 粘贴文本文件中的 sasl.mechanism 值。 此值通常为
PLAIN
。sasl_plain_password: 在文本文件中粘贴 服务凭证 中的 password 值。
完成所有值后,运行第二个单元中的代码以提供 Event Streams 实例的连接信息。
运行第三个单元中的代码以使用 Event Streams 主题中的记录。
运行第四个单元中的代码以打印捕获到使用者对象中的消息。
查看输出,其中显示了复制到 Event Streams 主题中的消息内容。 将其与您在 任务 2中查看的 CREDIT_SCORE 数据资产进行比较。
单击 "文件">"保存",用存储的凭据保存Jupyter笔记本。
检查您的进度
下图显示了成功运行代码后的 " 监视数据复制 " 配置页。
作为 Golden Bank 的数据工程师,您可以通过在 Db2 on Cloud 源数据库中的 CREDIT_SCORE 表与 Event Streams中的主题之间配置数据复制来设置对贷款申请人最新信用评分的持续访问。 如果对申请人的信用评分进行了更改,那么 Golden Bank 的抵押贷款核准人将能够近乎实时地访问这些更改。
清除(可选)
如果要重新学习数据集成用例中的教程,请删除以下工件。
工件 | 如何删除 |
---|---|
Data Replication 和 Event Streams 服务实例 | 1.从导航菜单",选择服务 > 服务实例。 2. 单击服务名称旁边的 操作 菜单,然后选择 删除。 |
数据集成样本项目 | 删除项目 |
后续步骤
尝试其他教程:
注册另一个 数据光纤网用例。
了解更多信息
父主题: 用例教程