配置管道的节点以指定输入并在管道中创建输出。
指定工作空间作用域
缺省情况下,管道的作用域是包含该管道的项目。 您可以显式指定除缺省值以外的作用域,以查找管道中使用的资产。 作用域是包含该资产的项目,目录或空间。 在用户界面中,您可以浏览范围。
更改输入方式
配置节点时,可以通过各种方式指定包含数据和 Notebook 的任何资源。 例如,直接输入名称或标识,浏览资产或使用管道中先前节点的输出来填充字段。 要查看对字段可用的选项,请单击该字段的输入图标。 根据上下文,选项可能包括:
管道节点和参数
配置以下类型的管道节点:
复制节点
使用 "复制" 节点将资产添加到管道或导出管道资产。
将所选资产从项目或空间复制到非空空间。 您可以将以下资产复制到空间:
AutoAI 试验
代码包作业
连接
Data Refinery 流程
Data Refinery 作业
数据资产
DataStage 作业
部署作业
环境
函数
作业
模型
Notebook
Notebook 作业
管道作业
脚本
脚本作业
SPSS Modeler 作业
复制资产
输入参数
参数 | 描述 |
---|---|
源资产 | 浏览或搜索要添加到列表的源资产。 您还可以使用管道参数指定资产,其中包含另一个节点的输出,或者通过输入资产标识 |
目标 | 浏览或搜索目标空间 |
复制方式 | 选择如何处理流尝试复制资产且存在同名资产的案例。 可以是以下值之一:ignore 、fail 或 overwrite |
输出参数
参数 | 描述 |
---|---|
输出资产 | 复制的资产的列表 |
导出资产
从作用域中导出所选资产,例如,项目或部署空间。 缺省情况下,此操作将导出所有资产。 您可以通过构建要导出的资源列表来限制资产选择。
输入参数
参数 | 描述 |
---|---|
资产 | 选择 作用域 以导出所有可导出项,或者选择 列表 以创建要导出的特定项的列表 |
源项目或空间 | 包含要导出的资产的项目或空间的名称 |
已导出的文件 | 用于存储导出文件的文件位置 |
创建方式 (可选) | 选择如何处理流尝试创建资产且存在同名资产的案例。 可以是以下值之一:ignore 、fail 或 overwrite |
输出参数
参数 | 描述 |
---|---|
已导出的文件 | 导出文件的路径 |
注:
- 如果导出包含 Notebook 的项目资产,那么最新版本的 Notebook 将包含在导出文件中。 如果将具有 运行 Notebook 作业 节点的管道配置为使用除最新版本以外的其他 Notebook 版本,那么导入时将自动重新配置导出的管道以使用最新版本。 这可能会产生意外结果,或者需要在导入后进行一些重新配置。
- 如果资产在导出的项目中是自包含的,那么在导入新项目时将保留这些资产。 否则,在导入导出的资产之后可能需要某些配置。
导入资产
从包含已导出资产的 ZIP 文件导入资产。
输入参数
参数 | 描述 |
---|---|
用于导入目标的路径 | 浏览或搜索要导入的资产 |
要导入的归档文件 | 指定 ZIP 文件或归档的路径 |
注: 导入文件后,将按照以下规则更新所导入资产的路径和引用:
- 在导入后,将在新项目或空间中更新对导出的项目或空间中的资产的引用。
- 如果导出的项目中的资产引用了外部资产 (包括在其他项目中) ,那么在导入后将持久存储对外部资产的引用。
- 如果外部资产不再存在,那么该参数将替换为空值,您必须重新配置该字段以指向有效资产。
创建节点
配置节点以在管道中创建资产。
创建 AutoAI 试验
使用此节点可训练 AutoAI 分类或回归试验 并生成模型候选管道。
输入参数
参数 | 描述 |
---|---|
AutoAI 试验名称 | 新试验的名称 |
作用域 | 将在其中创建实验的项目或空间 |
预测类型 | 以下数据的模型类型: 二元,分类或回归 |
预测列(标签) | 预测列名 |
正类 (可选) | 为二元分类试验指定正类 |
训练数据分割比率 (可选) | 从训练保留且用于测试管道的数据的百分比(浮点型:0.0 - 1.0) |
要包含的算法 (可选) | 限制要使用的估计量列表 (该列表取决于学习类型) |
要使用的算法 | 指定要使用的估计量列表 (该列表取决于学习类型) |
优化度量 (可选) | 用于模型排名的指标 |
硬件规格(可选) | 指定试验的硬件规范 |
AutoAI 试验描述 | 实验的描述 |
AutoAI 实验标记 (可选) | 用于标识试验的标记 |
创建方式 (可选) | 选择如何处理管道尝试创建试验且存在相同名称之一的情况。 可以是以下值之一:ignore 、fail 或 overwrite |
输出参数
参数 | 描述 |
---|---|
AutoAI 试验 | 保存的模型的路径 |
创建 AutoAI 时间序列试验
使用此节点可训练 AutoAI 时间序列试验 并生成模型候选管道。
输入参数
参数 | 描述 |
---|---|
AutoAI 时间序列试验名称 | 新试验的名称 |
作用域 | 要创建管道的项目或空间 |
预测列 (标签) | 一个或多个预测列的名称 |
日期/时间列(可选) | 日期/时间列的名称 |
利用支持特征的未来值 | 选择 "True" 以启用支持 (外源) 特征以改进预测的注意事项。 例如,包含用于预测冰淇淋销售的温度功能。 |
支持功能部件 (可选) | 选择支持功能部件并添加到列表 |
插补方法 (可选) | 选择用于插补数据集中缺失值的方法 |
插补阈值 (可选) | 为要使用指定插补方法提供的缺失值百分比指定更高的阈值。 如果超过阈值,那么试验将失败。 例如,如果指定可以插补 10% 的值,并且数据集缺少 15% 的值,那么试验将失败。 |
填充类型 | 指定指定的插补方法如何填充空值。 选择提供所有值的平均值和所有值的中位数,或者指定填充值。 |
填充值 (可选) | 如果选择了指定值以替换空值,请在此字段中输入值。 |
最终训练数据集 | 选择是仅使用训练数据还是使用训练数据和保留数据来训练最终管道。 如果选择训练数据,那么生成的 Notebook 将包含用于检索保留数据的单元格 |
暂挂大小 (可选) | 如果要将训练数据分割为训练和暂挂数据,请指定要保留为暂挂数据的训练数据百分比,以用于验证管道。 保留数据不超过数据的三分之一。 |
回测次数 (可选) | 定制回测以交叉验证时间序列试验 |
间隔长度 (可选) | 为每个回测调整训练数据集与验证数据集之间的时间点数。 当参数值为非零时,间隔中的时间序列值不用于训练实验或评估当前回测。 |
回顾窗口 (可选) | 用于指示要使用多少个先前时间序列值来预测当前时间点的参数。 |
预测窗口 (可选) | 要根据回顾窗口中的数据进行预测的范围。 |
要包含的算法 (可选) | 限制要使用的估计量列表 (该列表取决于学习类型) |
要完成的管道 | (可选) 调整要创建的管道数。 更多的管道会增加训练时间和资源。 |
硬件规格(可选) | 指定试验的硬件规范 |
AutoAI 时间序列试验描述 (可选) | 实验的描述 |
AutoAI 实验标记 (可选) | 用于标识试验的标记 |
创建方式 (可选) | 选择如何处理管道尝试创建试验且存在相同名称之一的情况。 可以是以下值之一:ignore 、fail 或 overwrite |
输出参数
参数 | 描述 |
---|---|
AutoAI 时间序列试验 | 保存的模型的路径 |
创建批处理部署
使用此节点为机器学习模型创建批处理部署。
输入参数
参数 | 描述 |
---|---|
ML 资产 | 要部署的机器学习资产的名称或标识 |
新部署名称 (可选) | 新作业的名称以及可选描述和标记 |
创建方式 (可选) | 如何处理管道尝试创建作业且存在同名作业的情况。 可以是以下值之一:ignore 、fail 或 overwrite |
新的部署描述 (可选) | 部署的描述 |
新的部署标记 (可选) | 用于标识部署的标记 |
硬件规格(可选) | 指定作业的硬件规范 |
输出参数
参数 | 描述 |
---|---|
新部署 | 新创建的部署的路径 |
创建数据资产
使用此节点可创建数据资产。
输入参数
参数 | 描述 |
---|---|
文件 | 文件存储器中文件的路径 |
目标作用域 | 目标空间或项目的路径 |
名称(可选) | 具有可选描述,来源国和标记的数据源的名称 |
描述(可选) | 资产的描述 |
原籍国家或地区 (可选) | 数据法规的来源国 |
标记(可选) | 用于标识资产的标记 |
创建方式 | 如何处理管道尝试创建作业且存在同名作业的情况。 可以是以下值之一:ignore 、fail 或 overwrite |
输出参数
参数 | 描述 |
---|---|
数据资产 | 新创建的数据资产 |
创建部署空间
使用此节点可创建和配置可用于组织和创建部署的空间。
输入参数
参数 | 描述 |
---|---|
新空间名称 | 新空间的名称以及可选描述和标记 |
新空间标记 (可选) | 用于标识空间的标记 |
新空间 COS 实例 CRN | COS 服务实例的 CRN |
新建空间 WML 实例 CRN (可选) | watsonx.aiRuntime 服务实例的 CRN |
创建方式 (可选) | 如何处理管道尝试创建空间且存在相同名称的情况。 可以是以下值之一:ignore 、fail 或 overwrite |
空间描述 (可选) | 空间的描述 |
输出参数
参数 | 描述 |
---|---|
空间 | 新创建的空间的路径 |
创建联机部署
使用此节点可创建联机部署,您可以在其中将测试数据直接提交到 Web Service REST API 端点。
输入参数
参数 | 描述 |
---|---|
ML 资产 | 要部署的机器学习资产的名称或标识 |
新部署名称 (可选) | 新作业的名称以及可选描述和标记 |
创建方式 (可选) | 如何处理管道尝试创建作业且存在同名作业的情况。 可以是以下值之一:ignore 、fail 或 overwrite |
新的部署描述 (可选) | 部署的描述 |
新的部署标记 (可选) | 用于标识部署的标记 |
硬件规格(可选) | 指定作业的硬件规范 |
输出参数
参数 | 描述 |
---|---|
新部署 | 新创建的部署的路径 |
等待
使用节点暂停管道,直到在路径中指定的位置中有资产可用为止。
使用此节点来等待管道中先前节点的所有结果都可用,以便管道可以继续。
此节点不接受任何输入,也不会产生任何输出。 当结果全部可用时,管道会自动继续。
等待所有结果
使用此节点可等待管道中先前节点的任何结果可用,以便管道可以继续。 只要满足任何上游条件,就立即运行下游节点。
此节点不接受任何输入,也不会产生任何输出。 当任何结果可用时,管道将自动继续。
等待任何结果
等待在管道中较早的作业或进程的路径中指定的位置中创建或更新资产。 指定等待满足条件的超时长度。 如果 00:00:00 是指定的超时长度,那么流将无限期等待。
等待文件
输入参数
参数 | 描述 |
---|---|
文件位置 | 在资产浏览器中指定资产所在的位置。 使用 data_asset/filename 格式,其中路径是相对于根的。 该文件必须存在且位于您指定的位置,否则节点将因错误而失败。 |
等待方式 | 缺省情况下,该方式是显示文件。 您可以更改为等待文件消失 |
超时长度 (可选) | 指定在继续管道之前要等待的时间长度。 使用格式 hh:mm:ss |
错误策略 (可选) | 请参阅处理错误 |
输出参数
参数 | 描述 |
---|---|
返回值 | 从节点返回值 |
执行状态 | 返回值: "已完成" , "已完成但有警告" , "已完成但有错误" , "已失败" 或 "已取消" |
状态消息 | 与状态相关联的消息 |
控制节点
通过添加错误处理和逻辑来控制管道。
循环是管道中像编码循环一样运行的节点。
这两种类型的循环是并行的和顺序的。
当操作的迭代次数为动态时,可以使用循环。 例如,如果您不知道要处理的 Notebook 数量,或者要在运行时选择 Notebook 数量,那么可以使用循环来迭代 Notebook 列表。
您还可以使用循环来迭代节点输出或数据数组中的元素。
并行循环
向管道添加并行循环构造。 并行循环独立且可能同时运行迭代节点。
例如,要使用一组超参数来训练机器学习模型以找到最佳执行者,可以使用循环对超参数列表进行迭代以并行训练 Notebook 变体。 稍后可以在流中比较结果,以找到最佳的笔记本。 要查看可同时运行的循环数限制,请参阅 限制。
在以下示例中, 运行 Bash 脚本 节点搜索并检索与指定条件匹配的 Notebook。 运行 DataStage 作业 节点从 Git 存储库中检索数据。 当来自每个节点的输入可用时,循环过程将开始,运行通过搜索检索的每个 Notebook ,并处理从 Git 存储库检索的数据。
单击 展开以添加节点 或节点上的传出图标以查看完整循环过程。 当 Notebook 运行时,将在称为 质量差的情况下捕获 Notebook 中的任何错误。 此条件将触发 Bash 脚本以递增名为 增大错误计数的用户变量。 当 增大错误计数 变量的值满足指定的阈值时,将终止循环。
由于该流是针对每个 Notebook 并行执行的,因此返回结果的速度比顺序循环更快。
迭代 "列表" 类型时的输入参数
参数 | 描述 |
---|---|
列出输入 | List input 参数包含两个字段,即列表的数据类型和循环迭代的列表内容或管道输入或管道输出的标准链接。 |
并行性 | 要同时运行的最大任务数。 必须大于零 |
迭代字符串类型时的输入参数
参数 | 描述 |
---|---|
文本输入 | 循环从中读取的文本数据 |
分隔符 | 用于拆分文本的字符 |
并行性 (可选) | 要同时运行的最大任务数。 必须大于零 |
如果输入数组元素类型为 JSON 或表示为 JSON 的任何类型,那么此字段可能会将其分解为字典。 键是原始元素键,值是输出名称的别名。
输出参数
参数 | 描述 |
---|---|
控制断开节点 ID | 包含该节点所终止的终止节点的节点 ID,否则为空 |
执行状态 | 有关作业状态的信息:暂挂、正在启动、正在运行、已完成、已取消或因错误而失败 |
状态消息 | 有关作业状态的信息 |
按顺序循环
向管道添加顺序循环构造。 循环可以对数字范围,列表或带有定界符的文本进行迭代。
顺序循环的用例是要在确定操作是否失败之前尝试操作 3 时间。
输入参数
参数 | 描述 |
---|---|
列出输入 | List input 参数包含两个字段,即列表的数据类型和循环迭代的列表内容或管道输入或管道输出的标准链接。 |
文本输入 | 循环从中读取的文本数据。 指定用于拆分文本的字符。 |
范围 | 指定要迭代的范围的开始,结束和可选步骤。 缺省步骤为 1。 |
配置循环迭代范围后,请在循环中定义要运行的子管道流,直到循环完成为止。 例如,它可以针对每个迭代调用 Notebook ,脚本或其他流。
输出参数
参数 | 描述 |
---|---|
控制断开节点 ID | 包含该节点所终止的终止节点的节点 ID,否则为空 |
执行状态 | 有关作业状态的信息:暂挂、正在启动、正在运行、已完成、已取消或因错误而失败 |
状态消息 | 有关作业状态的信息 |
终止循环
在并行或顺序循环过程流中,您可以添加 终止管道 节点以随时结束循环过程。 您必须定制自己的终止条件。 在节点中,您可以将循环终止时的状态更改为 Complete 或 Failure 。 这可以确保您在完成循环后,仍能满足循环节点失败的条件,并选择继续执行管道或执行其他操作。
设置用户变量
使用键/值对配置用户变量,然后为此节点添加动态变量列表。
有关如何创建用户变量的更多信息,请参阅 配置全局对象。
输入参数
参数 | 描述 |
---|---|
名称 | 输入变量的名称或键 |
输入类型 | 选择 "表达式" 或 "管道" 参数作为输入类型。 |
- 对于表达式,请使用内置表达式构建器来创建从定制表达式生成的变量。
- 对于管道参数,指定管道参数并使用参数值作为用户变量的输入。
终止管道
您可以使用 "控制" 类别中的 "终止" 管道节点来启动和控制管道的终止。 当错误流运行时,您可以选择指定如何处理由管道中的节点启动的 Notebook 或训练作业。 必须指定是等待作业完成,取消作业然后停止管道,还是停止所有内容而不取消。 指定 "终止管道" 节点的选项。
输入参数
参数 | 描述 |
---|---|
终止程序方式 (可选) | 选择错误流的行为 |
终结器模式可以是:
- 终止管道运行和所有正在运行的作业:将停止所有作业和管道。
- 取消所有正在运行的作业,然后终止管道:将在停止管道之前取消所有正在运行的作业。
- 在运行作业完成后终止管道运行:等待正在运行的作业完成,然后停止管道。
- 终止在不停止作业的情况下运行的管道 将停止该管道,但允许正在运行的作业继续。
更新节点
使用更新节点来替换或更新资产以提高性能。 例如,如果要标准化标记,那么可以更新以将某个标记替换为新标记。
更新 AutoAI 试验的训练详细信息。
更新 AutoAI 试验
输入参数
参数 | 描述 |
---|---|
AutoAI 试验 | 试验所在项目或空间的路径 |
AutoAI 试验名称 (可选) | 要更新的试验的名称以及可选描述和标记 |
AutoAI 试验描述 (可选) | 实验的描述 |
AutoAI 实验标记 (可选) | 用于标识试验的标记 |
输出参数
参数 | 描述 |
---|---|
AutoAI 试验 | 已更新试验的路径 |
更新批处理部署
使用这些参数可更新批量部署。
输入参数
参数 | 描述 |
---|---|
部署 | 要更新的部署的路径 |
部署的新名称 (可选) | 要更新的部署的名称或标识 |
部署的新描述 (可选) | 部署的描述 |
部署的新标记 (可选) | 用于标识部署的标记 |
ML 资产 | 要部署的机器学习资产的名称或标识 |
硬件规范 | 更新作业的硬件规范 |
输出参数
参数 | 描述 |
---|---|
部署 | 已更新部署的路径 |
更新部署空间
更新空间的详细信息。
输入参数
参数 | 描述 |
---|---|
空间 | 现有空间的路径 |
空间名称 (可选) | 更新空间名称 |
空间描述 (可选) | 空间的描述 |
空间标记 (可选) | 用于标识空间的标记 |
WML 实例 (可选) | 指定新的 Machine Learning 实例 |
WML instance | 指定新的 Machine Learning 实例。 注:即使在 UI 中为实例分配不同的名称,系统名称仍为 Machine Learning 实例。 使用实例 CRN 区分不同实例 |
输出参数
参数 | 描述 |
---|---|
空间 | 已更新空间的路径 |
更新联机部署
使用这些参数来更新联机部署 (Web Service)。
输入参数
参数 | 描述 |
---|---|
部署 | 现有部署的路径 |
部署名称 (可选) | 更新部署名称 |
部署描述 (可选) | 部署的描述 |
部署标记 (可选) | 用于标识部署的标记 |
资产 (可选) | 要重新部署的 Machine learning 资产(或版本) |
输出参数
参数 | 描述 |
---|---|
部署 | 已更新部署的路径 |
删除节点
配置删除操作的参数。
删除
您可以删除:
- AutoAI 试验
- 批量部署
- 部署空间
- 联机部署
对于每个项,选择要删除的资产。
运行节点
使用这些节点来训练试验、执行脚本或运行数据流。
运行 AutoAI 试验
训练和存储 AutoAI 试验 管道和模型。
输入参数
参数 | 描述 |
---|---|
AutoAI 试验 | 浏览“ML 管道”资产、从管道参数获取试验或从先前节点获取输出。 |
训练数据资产 | 浏览或搜索要用于训练试验的数据。 请注意,您可以使用管道参数在运行时提供数据 |
保留数据资产 (可选) | (可选) 选择单独的文件用于保留数据以实现测试模型性能 |
模型计数 (可选) | 指定表现最佳的管道所节省的模型数。 限制为 3 个模型 |
运行名称 (可选) | 试验的名称以及可选描述和标记 |
模型名称前缀 (可选) | 用于命名已训练模型的前缀。 Defaults to <(experiment name)> |
运行描述 (可选) | 新训练运行的描述 |
运行标记 (可选) | 新训练运行的标记 |
创建方式 (可选) | 选择如何处理管道流尝试创建资产且存在同名资产的案例。 可以是以下值之一:ignore 、fail 或 overwrite |
错误策略 (可选) | (可选) 覆盖节点的缺省错误策略 |
输出参数
参数 | 描述 |
---|---|
模型 | 已训练和持久存储的最高 N 模型的路径列表 (按所选评估度量排序) |
最佳模型 | 获胜模型的路径(基于选中的评估指标) |
模型指标 | 已训练模型度量的列表 (每个项都是具有度量的嵌套对象,例如 :holdout_precision , holdout_average_precision ...) |
获胜模型指标 | 获胜模型的所选评估指标 |
优化度量 | 用于调整模型的指标 |
执行状态 | 有关作业状态的信息:暂挂、正在启动、正在运行、已完成、已取消或因错误而失败 |
状态消息 | 有关作业状态的信息 |
运行 Bash 脚本
运行内联 Bash 脚本以自动执行管道的功能或流程。 您可以手动输入 Bash 脚本代码,也可以从资源,管道参数或其他节点的输出导入 Bash 脚本。
您还可以使用 Bash 脚本来处理大型输出文件。 例如,您可以生成以逗号分隔的大列表,然后可以使用循环进行迭代。
在以下示例中,用户手动输入内联脚本代码。 此脚本使用 cpdctl
工具来搜索具有集合变量标记的所有 Notebook ,并将结果聚集到 JSON 列表中。 然后,可以在另一个节点中使用该列表,例如运行从搜索返回的 Notebook。
输入参数
参数 | 描述 |
---|---|
内联脚本代码 | 在内联代码编辑器中输入 Bash 脚本。 可选: 或者,您可以选择资源,分配管道参数或从其他节点进行选择。 |
环境变量(可选) | 指定变量名(键)和数据类型,并添加到要在脚本中使用的变量列表。 |
运行时类型 (可选) | 选择使用独立运行时 (缺省值) 或共享运行时。 将共享运行时用于需要在共享 pod 中运行的任务。 |
错误策略 (可选) | (可选) 覆盖节点的缺省错误策略 |
输出参数
参数 | 描述 |
---|---|
输出变量 | 为每个定制变量配置键/值对,然后单击 "添加" 按钮以填充节点的动态变量列表 |
返回值 | 从节点返回值 |
标准输出 | 来自脚本的标准输出 |
标准误差 | 来自脚本的标准错误消息 |
执行状态 | 有关作业状态的信息:暂挂、正在启动、正在运行、已完成、已取消或因错误而失败 |
状态消息 | 与状态相关联的消息 |
Bash 脚本输出的规则
Bash 脚本的输出通常是计算表达式的结果,并且可能很大。 当您查看具有有效大输出的脚本的属性时,可以在查看器中预览或下载输出。
这些规则用于管理有效的大型输出类型。
list_expression
的输出是计算表达式,因此它是有效的大输出。- 字符串输出被视为字面值而不是计算的表达式,因此它必须遵循控制内联表达式的大小限制。 例如,当字面值超过 1 KB ,并且值 2 KB 和更高的值会导致错误时,将向您发出警告。
- 您可以在标准输出 (
standard_output
) 中包含标准错误消息并查看这些消息,例如使用GetCommandOutput
函数。
在 Bash 脚本中引用变量
在脚本中引用变量的方式取决于该变量是创建为输入变量还是创建为输出变量。 输出变量作为文件创建,并且需要引用中的文件路径。 具体来说:
- 输入变量可以使用分配的名称
- 输出变量名称要求将
_PATH
附加到变量名称,以指示必须将值写入{output_name}_PATH
变量所指向的输出文件。
运行批处理部署
配置此节点以运行所选部署作业。
输入参数
参数 | 描述 |
---|---|
部署 | 浏览或搜索部署作业 |
输入数据资产 | 指定用于批处理作业的数据 |
输出资产 | 批处理作业结果的输出文件的名称。 您可以选择 文件名 并输入定制文件名,也可以选择 数据资产 并选择空间中的现有资产。 |
硬件规格(可选) | 浏览以查找要申请作业的硬件规范 |
错误策略 (可选) | (可选) 覆盖节点的缺省错误策略 |
输出参数
参数 | 描述 |
---|---|
作业 | 包含部署作业结果的文件的路径 |
作业运行 | 作业的标识 |
执行状态 | 有关作业状态的信息:暂挂、正在启动、正在运行、已完成、已取消或因错误而失败 |
状态消息 | 有关作业状态的信息 |
IBM DataStage 是一个数据集成工具,用于设计、开发和运行将移动和变换数据的作业。 运行 DataStage 作业并在稍后的节点中使用输出。
例如,以下流程显示用于从 Git 存储库检索数据的 运行 DataStage 节点。 如果作业成功完成,那么管道将执行下一个节点并创建部署空间。 如果作业失败,那么将触发通知电子邮件,并终止循环。
参数 | 描述 |
---|---|
DataStage 作业 | DataStage 作业的路径 |
局部参数的值 (可选) | 编辑缺省作业参数。 仅当作业中有本地参数时,此选项才可用。 |
参数集中的值 (可选) | 编辑此作业使用的参数集。 您可以选择使用缺省情况下定义的参数,或者使用来自其他管道的参数的值集。 |
环境 | 查找并选择用于运行 DataStage 作业的环境。 注意: 保留环境字段不变以使用缺省 DataStage XS 运行时。 如果选择覆盖,请指定用于运行作业的备用环境。 请确保指定的任何环境都与硬件配置兼容,以避免发生运行时错误。
|
环境变量(可选) | 指定变量名 (键) 和数据类型,并添加到要在作业中使用的变量列表 |
作业参数 (可选) | 要在作业运行时传递给该作业的其他参数。 指定键/值对并添加到列表中。 注: 如果使用本地参数
DSJobInvocationId ,那么该值将作为作业详细信息仪表板中的作业名传递。 |
错误策略 (可选) | (可选) 覆盖节点的缺省错误策略 |
输出参数
参数 | 描述 |
---|---|
作业 | DataStage 作业结果的路径 |
作业运行 | 有关作业运行的信息 |
作业名 | 作业名称 |
执行状态 | 有关作业状态的信息:暂挂、正在启动、正在运行、已完成、已取消或因错误而失败 |
状态消息 | 有关作业状态的信息 |
运行 Data Refinery 作业
此节点运行指定的 Data Refinery 作业。
输入参数
参数 | 描述 |
---|---|
Data Refinery 作业 | Data Refinery 作业的路径。 |
环境 | 用于运行作业的环境的路径 注意: 保留 "环境" 字段不变以使用缺省运行时。 如果选择覆盖,请指定用于运行作业的备用环境。 确保指定的任何环境都与组件语言和硬件配置兼容,以避免运行时错误。
|
错误策略 (可选) | (可选) 覆盖节点的缺省错误策略 |
输出参数
参数 | 描述 |
---|---|
作业 | Data Refinery 作业结果的路径 |
作业运行 | 有关作业运行的信息 |
作业名 | 作业名称 |
执行状态 | 有关流程状态的信息:暂挂、正在启动、正在运行、已完成、已取消或因错误而失败 |
状态消息 | 有关流程状态的信息 |
运行 notebook 作业
使用这些配置选项来指定如何在管道中运行 Jupyter Notebook 。
输入参数
参数 | 描述 |
---|---|
Notebook 作业 | 笔记本作业的路径。 |
环境 | 用于运行 Notebook 的环境的路径。 注意: 保留 "环境" 字段不变以使用缺省环境。 如果选择覆盖,请指定用于运行作业的备用环境。 请确保指定的任何环境都与 Notebook 语言和硬件配置兼容,以避免运行时错误。
|
环境变量(可选) | 用于运行 Notebook 作业的环境变量的列表 |
错误策略 (可选) | (可选) 覆盖节点的缺省错误策略 |
注:
- 在管道中定义的环境变量不能用于在编排管道外部运行的 Notebook 作业。
- 您可以从常规包中的代码包运行 Notebook。
输出参数
参数 | 描述 |
---|---|
作业 | 来自 Notebook 作业的结果的路径 |
作业运行 | 有关作业运行的信息 |
作业名 | 作业名称 |
输出变量 | 为每个定制变量配置键/值对,然后单击 添加 以填充节点的动态变量列表 |
执行状态 | 有关运行状态的信息:暂挂、正在启动、正在运行、已完成、已取消或因错误而失败 |
状态消息 | 有关 Notebook 运行状态的信息 |
运行管道组件
运行使用 Python 脚本创建的可复用管道组件。 有关更多信息,请参阅 创建定制组件。
- 如果管道组件可用,那么配置节点将显示可用组件的列表。
- 您选择的组件指定节点的输入和输出。
- 将组件分配给节点后,就无法删除或更改该组件。 必须删除节点并创建新的节点。
“运行管道”作业
添加管道以作为包含管道的一部分运行嵌套管道作业。 这是一种将可复用进程添加到多个管道的方法。 您可以使用作为包含管道中节点的输入运行的嵌套管道的输出。
输入参数
参数 | 描述 |
---|---|
管道作业 | 选择或输入现有管道作业的路径。 |
环境(可选) | 选择要在其中运行管道作业的环境,并分配环境资源。 注意: 保留 "环境" 字段不变以使用缺省运行时。 如果选择覆盖,请指定用于运行作业的备用环境。 确保指定的任何环境都与组件语言和硬件配置兼容,以避免运行时错误。
|
作业运行名称(可选) | 除非通过指定定制作业运行名称来覆盖缺省作业运行名称,否则将使用缺省作业运行名称。 您可以在 " 作业详细信息 " 仪表板中查看作业运行名称。 |
局部参数的值 (可选) | 编辑缺省作业参数。 仅当作业中有本地参数时,此选项才可用。 |
参数集中的值 (可选) | 编辑此作业使用的参数集。 您可以选择使用缺省情况下定义的参数,或者使用来自其他管道的参数的值集。 |
错误策略 (可选) | (可选) 覆盖节点的缺省错误策略 |
输出参数
参数 | 描述 |
---|---|
作业 | 来自管道作业的结果的路径 |
作业运行 | 有关作业运行的信息 |
作业名 | 作业名称 |
执行状态 | 返回值: "已完成" , "已完成但有警告" , "已完成但有错误" , "已失败" 或 "已取消" |
状态消息 | 与状态相关联的消息 |
运行嵌套管道作业的注意事项
如果创建具有嵌套管道的管道并从顶级运行管道作业,那么这些管道将命名并保存为使用此约定的项目资产:
- 顶级管道作业名为 "Trial job- pipeline guid"。
- 所有后续作业都命名为 "pipeline_ pipeline guid"。
运行 SPSS Modeler 作业
使用这些配置选项来指定如何在管道中运行 SPSS Modeler 。
输入参数
参数 | 描述 |
---|---|
SPSS Modeler 作业 | 选择或输入现有 SPSS Modeler 作业的路径。 |
环境(可选) | 选择要在其中运行 SPSS Modeler 作业的环境,并分配环境资源。 注意: 保留 "环境" 字段不变以使用缺省 SPSS Modeler 运行时。 如果选择覆盖,请指定用于运行作业的备用环境。 请确保指定的任何环境都与硬件配置兼容,以避免发生运行时错误。
|
本地参数的值 | 编辑缺省作业参数。 仅当作业中有本地参数时,此选项才可用。 |
错误策略 (可选) | (可选) 覆盖节点的缺省错误策略 |
输出参数
参数 | 描述 |
---|---|
作业 | 来自管道作业的结果的路径 |
作业运行 | 有关作业运行的信息 |
作业名 | 作业名称 |
执行状态 | 返回值: "已完成" , "已完成但有警告" , "已完成但有错误" , "已失败" 或 "已取消" |
状态消息 | 与状态相关联的消息 |
了解更多信息
父主题: 创建管道