要实施数据分析和模型创建,您的企业需要集成系统和流程。 Cloud Pak for Data as a Service 提供了支持企业开发和部署机器学习模型和其他数据科学应用程序的流程和技术。
观看此视频以查看实施 Data Science and MLOps 解决方案的用例。
此视频提供了一种可视方法来学习本文档中的概念和任务。
挑戰
您可以通过实施 Data Science and MLOps 用例来解决企业面临的以下挑战:
- 访问高质量数据
- 组织需要为使用数据构建模型的数据科学团队提供对高质量受管数据的轻松访问。
- 操作模型构建和部署
- 组织需要实施可重复的流程,以快速高效地构建模型并将其部署到生产环境中。
- 监视和重新训练模型
- 组织需要根据生产反馈自动监视和重新训练模型。
示例: Golden Bank 的挑战
在实现数据科学和 MLOps 流程以通过为在线应用程序提供低利率抵押贷款续约来扩展其业务时,请关注 Golden Bank 的故事。 金银的数据科学家需要创建一个避免风险并公平对待所有申请人的抵押贷款审批模型。 他们还必须自动执行模型重新训练,以优化模型性能。
进程
要为您的企业实施数据科学和 MLOps ,您的组织可以遵循以下过程:
Cloud Pak for Data as a Service中的 "watsonx.aiStudio、"watsonx.aiRuntime、"Watson OpenScale和 "IBM Knowledge Catalog"服务提供了贵组织实施数据科学和 MLOps 解决方案所需的工具和流程。
2. 构建和训练模型
为了根据数据获取预测性洞察,数据科学家,业务分析人员和机器学习工程师可以构建和训练模型。 数据研究员使用 Cloud Pak for Data as a Service 服务来构建 AI 模型,确保使用正确的算法和优化来进行有助于解决业务问题的预测。
您可以使用的内容 | 可以执行的操作 | 最佳使用时间 |
---|---|---|
AutoAI | 使用watsonx.aiStudio 中的AutoAI自动选择算法、设计特征、生成候选管道并训练候选管道模型。 ' 然后,评估排序管道,并将最佳管道保存为模型。 将训练好的模型部署到空间中,或者从AutoAI中导出您喜欢的模型训练管道到笔记本中,以便对其进行改进。 |
您需要一种高级的自动化方法来快速构建一组良好的训练管道和模型。 您希望能够导出生成的管道以进行优化。 |
笔记本和脚本 | 使用watsonx.aiStudio 中的笔记本和脚本,用Python或 R 编写自己的特征工程模型训练和评估代码。 使用项目中提供的训练数据集或与数据源 (例如数据库,数据湖或对象存储器) 的连接。 代码与您最喜欢的开放式源代码框架和库配合使用。 |
您希望使用 Python 或 R 编码技能来完全控制用于创建,训练和评估模型的代码。 |
SPSS Modeler 流程 | 在watsonx.aiStudio 中使用SPSS Modeler流程创建自己的模型训练、评估和评分流程。 使用项目中可用的训练数据集,或者与数据源 (例如数据库,数据湖或对象存储器) 的连接。 | 您需要一种简单的方法来浏览数据并定义模型训练,评估和评分流程。 |
RStudio | 通过在 RStudio 中使用 R 来分析数据以及构建和测试模型。 | 您希望使用开发环境在 R 中工作。 |
Decision Optimization | 使用watsonx.aiRuntime 准备数据、导入模型、解决问题和比较方案、可视化数据、查找解决方案、生成报告并保存模型以进行部署。 | 您需要评估数百万种可能性,以找到规范性分析问题的最佳解决方案。 |
Federated Learning | 训练使用分布式数据的公共模型。 | 您需要训练模型,而无需移动,组合或共享分布在多个位置的数据。 |
示例: 金银的模型构建和培训
金银的数据科学家创建了一个模型 "抵押贷款审批模型" ,该模型可避免意外风险并公平对待所有申请人。 他们希望从一开始就跟踪模型的历史记录和性能,因此他们将模型用例添加到 "抵押贷款审批目录" 中。 他们运行一个笔记本来构建模型,并预测哪些申请人有资格获得抵押贷款。 模型训练的详细信息将自动捕获为模型用例中的元数据。
3. 部署模型
如果操作团队成员部署 AI 模型,那么这些模型可供应用程序用于评分和预测以帮助驱动操作。
您可以使用的内容 | 可以执行的操作 | 最佳使用时间 |
---|---|---|
空间用户界面 | 使用空间 UI 将模型和其他资产从项目部署到空间。 | 您希望在协作工作空间中部署模型和查看部署信息。 |
示例: Golden Bank 的模型部署
金银的运营团队成员将 "抵押贷款审批模型" 从项目推广到部署空间,然后创建在线模型部署。
4. 监视已部署的模型
部署模型后,请务必对其进行监视,以确保其性能良好。 数据科学家必须关注模型性能和数据一致性问题。
您可以使用的内容 | 可以执行的操作 | 最佳使用时间 |
---|---|---|
Watson OpenScale | 监视跨多个功能部件的模型公平性问题。 随时间推移监视模型性能和数据一致性。 说明模型如何使用加权因子得出某些预测。 维护和报告整个组织中的模型监管和生命周期。 |
您具有受保护的功能或可能有助于预测公平性的功能。 您希望跟踪一段时间内的模型性能和数据一致性。 您希望了解模型提供特定预测的原因。 |
示例: Golden Bank 的模型监控
金银的数据研究员使用 Watson OpenScale 来监视已部署的 "抵押贷款审批模型" ,以确保其准确,并公平对待所有金银抵押贷款申请人。 他们运行笔记本以设置模型的监视器,然后使用 Watson OpenScale 用户界面调整配置。 通过使用 Watson OpenScale 质量监视器和公平性监视器中的度量,数据研究员可确定模型预测结果的方式以及是否产生任何有偏差的结果。 他们还会获得有关模型如何制定决策的洞察,以便可以向抵押贷款申请人解释这些决策。
5. 自动执行 AI 生命周期
您的团队可以使用 Orchestration Pipeline 自动执行和简化 MLOps 和 AI 生命周期。
您可以使用的内容 | 可以执行的操作 | 最佳使用时间 |
---|---|---|
编排管道 | 使用管道来创建可重复和已调度的流,以自动执行 Notebook , Data Refinery和机器学习管道,从数据采集到模型训练,测试和部署。 | 您希望自动执行 MLOps 流程中的部分或全部步骤。 |
示例: Golden Bank 的自动化 ML 生命周期
Golden Bank 的数据科学家可以使用管道来自动执行其完整的 Data Science 和 MLOps 生命周期和流程,以简化模型再培训流程。
Data Science 和 MLOps 教程
教程 | 描述 | 教程的专业知识 |
---|---|---|
通过模型监视编排 AI 管道 | 训练模型,将其提升到部署空间,然后部署模型。 | 运行 Notebook。 |
通过数据集成编排 AI 管道 | 创建用于准备数据和训练模型的端到端管道。 | 使用编排管道拖放界面来创建管道。 |
了解更多信息
父主题: 用例