0 / 0
Go back to the English version of the documentation
Data Science 和 MLOps 用例
Last updated: 2024年11月22日
Data Science 和 MLOps 用例

要实施数据分析和模型创建,您的企业需要集成系统和流程。 Cloud Pak for Data as a Service 提供了支持企业开发和部署机器学习模型和其他数据科学应用程序的流程和技术。

观看此视频以查看实施 Data Science and MLOps 解决方案的用例。

此视频提供了一种可视方法来学习本文档中的概念和任务。

挑戰

您可以通过实施 Data Science and MLOps 用例来解决企业面临的以下挑战:

访问高质量数据
组织需要为使用数据构建模型的数据科学团队提供对高质量受管数据的轻松访问。
操作模型构建和部署
组织需要实施可重复的流程,以快速高效地构建模型并将其部署到生产环境中。
监视和重新训练模型
组织需要根据生产反馈自动监视和重新训练模型。

示例: Golden Bank 的挑战

在实现数据科学和 MLOps 流程以通过为在线应用程序提供低利率抵押贷款续约来扩展其业务时,请关注 Golden Bank 的故事。 金银的数据科学家需要创建一个避免风险并公平对待所有申请人的抵押贷款审批模型。 他们还必须自动执行模型重新训练,以优化模型性能。

进程

要为您的企业实施数据科学和 MLOps ,您的组织可以遵循以下过程:

  1. 准备和共享数据
  2. 构建和训练模型
  3. 部署模型
  4. 监视已部署的模型
  5. 自动执行 AI 生命周期

Cloud Pak for Data as a Service中的 "watsonx.aiStudio、"watsonx.aiRuntime、"Watson OpenScale和 "IBM Knowledge Catalog"服务提供了贵组织实施数据科学和 MLOps 解决方案所需的工具和流程。

显示数据科学用例流程的图像

1. 准备和共享数据

数据研究员可以准备自己的数据集,并在目录中共享这些数据集。 该目录充当功能部件商店,您的数据研究员团队可以在该商店中找到具有所需功能部件的高质量数据资产。 他们可以将目录中的数据资产添加到项目中,并在该项目中协作准备,分析和建模数据。

您可以使用的内容 可以执行的操作 最佳使用时间
Data Refinery 访问和优化来自不同数据源连接的数据。

及时将生成的数据集具体化为快照,这些快照可以组合,连接或过滤数据,以供其他数据研究员进行分析和探索。

使生成的数据集在目录中可用。
当您想要对数据进行塑形或清理时,需要将其可视化。

您希望简化准备大量原始数据以进行分析的过程。
目录 使用IBM Knowledge Catalog中的目录作为功能存储来组织您的资产,以便在组织内的协作者之间共享。
'
利用人工智能驱动的语义搜索和推荐,帮助用户找到所需内容。
您的用户需要轻松了解,协作,丰富和访问高质量数据。

您希望提高数据的可视性以及业务用户之间的协作。

您需要用户查看,访问,处理和分析数据,而无需了解其物理格式或位置,也无需移动或复制数据。

您希望用户通过对资产进行评级和复审来增强资产。

示例: Golden Bank 的目录

监管团队负责人创建目录 "抵押贷款审批目录" ,并将数据管理员和数据研究员添加为目录合作者。 数据专员将其创建的数据资产发布到目录中。 数据研究员在目录中查找由数据管理员组织的数据资产,并将这些资产复制到项目中。 在他们的项目中,数据科学家可以优化数据,为训练模型做好准备。


2. 构建和训练模型

为了根据数据获取预测性洞察,数据科学家,业务分析人员和机器学习工程师可以构建和训练模型。 数据研究员使用 Cloud Pak for Data as a Service 服务来构建 AI 模型,确保使用正确的算法和优化来进行有助于解决业务问题的预测。

您可以使用的内容 可以执行的操作 最佳使用时间
AutoAI 使用watsonx.aiStudio 中的AutoAI自动选择算法、设计特征、生成候选管道并训练候选管道模型。
'
然后,评估排序管道,并将最佳管道保存为模型。

将训练好的模型部署到空间中,或者从AutoAI中导出您喜欢的模型训练管道到笔记本中,以便对其进行改进。
您需要一种高级的自动化方法来快速构建一组良好的训练管道和模型。

您希望能够导出生成的管道以进行优化。
笔记本和脚本 使用watsonx.aiStudio 中的笔记本和脚本,用Python或 R 编写自己的特征工程模型训练和评估代码。 使用项目中提供的训练数据集或与数据源 (例如数据库,数据湖或对象存储器) 的连接。

代码与您最喜欢的开放式源代码框架和库配合使用。
您希望使用 Python 或 R 编码技能来完全控制用于创建,训练和评估模型的代码。
SPSS Modeler 流程 在watsonx.aiStudio 中使用SPSS Modeler流程创建自己的模型训练、评估和评分流程。 使用项目中可用的训练数据集,或者与数据源 (例如数据库,数据湖或对象存储器) 的连接。 您需要一种简单的方法来浏览数据并定义模型训练,评估和评分流程。
RStudio 通过在 RStudio 中使用 R 来分析数据以及构建和测试模型。 您希望使用开发环境在 R 中工作。
Decision Optimization 使用watsonx.aiRuntime 准备数据、导入模型、解决问题和比较方案、可视化数据、查找解决方案、生成报告并保存模型以进行部署。 您需要评估数百万种可能性,以找到规范性分析问题的最佳解决方案。
Federated Learning 训练使用分布式数据的公共模型。 您需要训练模型,而无需移动,组合或共享分布在多个位置的数据。

示例: 金银的模型构建和培训

金银的数据科学家创建了一个模型 "抵押贷款审批模型" ,该模型可避免意外风险并公平对待所有申请人。 他们希望从一开始就跟踪模型的历史记录和性能,因此他们将模型用例添加到 "抵押贷款审批目录" 中。 他们运行一个笔记本来构建模型,并预测哪些申请人有资格获得抵押贷款。 模型训练的详细信息将自动捕获为模型用例中的元数据。


3. 部署模型

如果操作团队成员部署 AI 模型,那么这些模型可供应用程序用于评分和预测以帮助驱动操作。

您可以使用的内容 可以执行的操作 最佳使用时间
空间用户界面 使用空间 UI 将模型和其他资产从项目部署到空间。 您希望在协作工作空间中部署模型和查看部署信息。


示例: Golden Bank 的模型部署

金银的运营团队成员将 "抵押贷款审批模型" 从项目推广到部署空间,然后创建在线模型部署。


4. 监视已部署的模型

部署模型后,请务必对其进行监视,以确保其性能良好。 数据科学家必须关注模型性能和数据一致性问题。

您可以使用的内容 可以执行的操作 最佳使用时间
Watson OpenScale 监视跨多个功能部件的模型公平性问题。

随时间推移监视模型性能和数据一致性。

说明模型如何使用加权因子得出某些预测。

维护和报告整个组织中的模型监管和生命周期。
您具有受保护的功能或可能有助于预测公平性的功能。

您希望跟踪一段时间内的模型性能和数据一致性。

您希望了解模型提供特定预测的原因。

示例: Golden Bank 的模型监控

金银的数据研究员使用 Watson OpenScale 来监视已部署的 "抵押贷款审批模型" ,以确保其准确,并公平对待所有金银抵押贷款申请人。 他们运行笔记本以设置模型的监视器,然后使用 Watson OpenScale 用户界面调整配置。 通过使用 Watson OpenScale 质量监视器和公平性监视器中的度量,数据研究员可确定模型预测结果的方式以及是否产生任何有偏差的结果。 他们还会获得有关模型如何制定决策的洞察,以便可以向抵押贷款申请人解释这些决策。


5. 自动执行 AI 生命周期

您的团队可以使用 Orchestration Pipeline 自动执行和简化 MLOps 和 AI 生命周期。

您可以使用的内容 可以执行的操作 最佳使用时间
编排管道 使用管道来创建可重复和已调度的流,以自动执行 Notebook , Data Refinery和机器学习管道,从数据采集到模型训练,测试和部署。 您希望自动执行 MLOps 流程中的部分或全部步骤。

示例: Golden Bank 的自动化 ML 生命周期

Golden Bank 的数据科学家可以使用管道来自动执行其完整的 Data Science 和 MLOps 生命周期和流程,以简化模型再培训流程。


Data Science 和 MLOps 教程

教程 描述 教程的专业知识
通过模型监视编排 AI 管道 训练模型,将其提升到部署空间,然后部署模型。 运行 Notebook。
通过数据集成编排 AI 管道 创建用于准备数据和训练模型的端到端管道。 使用编排管道拖放界面来创建管道。

了解更多信息

父主题: 用例

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more