本词汇表提供了 Cloud Pak for Data as a Service的术语和定义。
a|b | c | d | e|f|g|h|i|j | k|l|m|n | o | p | r|s|t | u|v|w
A
加速键
在高性能计算中,专用电路用于分担 CPU 的部分计算负荷,从而提高系统效率。 例如,在深度学习中,通常采用 GPU 加速计算,将部分计算工作量卸载到 GPU 上,而主要应用则在 CPU 上运行。 另请参阅图形处理单元。
可计帐性
期望组织或个人根据其角色和适用的监管框架,确保其设计,开发,操作或部署的 AI 系统在其整个生命周期中正常运行。 这包括确定谁应对 AI 错误负责,这可能需要法律专家逐个确定责任。
激活函数
在一组来自其他神经元的输入激活条件下,定义神经单元输出的函数
主动学习
一种用于机器学习的模型,其中系统仅在需要时请求更多标记的数据。
活动元数据
根据机器学习过程的分析自动更新的元数据。 例如,概要分析和数据质量分析会自动更新数据资产的元数据。
作用中執行時期
运行环境的实例,为运行代码的资产提供计算资源。
代理
一种算法或程序,它与环境互动,学习最佳行动或决策,通常使用强化学习,以实现特定目标。
AI
人工智能加速器
专用硅硬件旨在高效执行人工智能相关任务,如深度学习、机器学习和神经网络,以实现更快、更节能的计算。 它可以是内核中的一个专用单元,也可以是多模块芯片上的一个独立芯片组或一个单独的卡。
AI 伦理
一个多学科领域,研究如何优化 AI 的有益影响,同时降低风险和不利结果。 AI 道德问题的示例包括数据责任和隐私,公平性,可解释性,稳健性,透明度,环境可持续性,包容性,道德机构,价值一致性,问责制,信任和技术滥用。
AI 治理
组织通过其公司指令,管理员工,流程和系统,在整个 AI 生命周期中指导,评估,监控和采取纠正行动,以保证 AI 系统按照组织的意图,按照其利益相关方的期望以及相关法规的要求运行。
AI 安全
该研究领域旨在确保人工智能系统以有益于人类且不会在不经意间造成伤害的方式运行,解决诸如可靠性,公平性,透明度以及 AI 系统与人类价值观的一致性等问题。
AI 系统
算法
应用于数据以确定解决分析问题的最佳方法的公式。
分析
对数据进行研究的学科,以便在数据中找到有意义的模式,并根据这些模式得出结论。
人工智能 (AI)
以模型形式获取、处理、创建和应用知识,以做出预测、建议或决策的能力。
人工智能系统 (AI system)
一种系统,可进行影响物理或虚拟环境的预测,建议或决策,其输出或行为不一定由其开发者或用户预先确定。 AI 系统通常使用大量结构化或非结构化数据进行训练,并且可能设计为具有不同程度的自主性或无自主性,以实现人类定义的目标。
资产
项目或目录中的一个项,它包含有关数据或数据分析的元数据。
属性构成规则
决定如何从成员记录中选择主数据实体属性值的一系列规则之一。 另见规则。
AutoAI 试验
这是一个自动训练过程,它考虑一系列训练定义和参数,以创建一组已排名的管道作为模型候选者。
B
批量部署
一种部署模型的方法,用于处理来自存储区中的文件,数据连接或已连接数据的输入数据,然后将输出写入所选目标。
偏差
故意或不故意设计的 AI 系统中的系统错误,可能产生不公平的决策。 在 AI 系统以及用于对其进行训练和测试的数据中都可能存在偏差。 AI 偏见可能由于文化期望,技术限制或意外部署上下文而在 AI 系统中出现。 另请参阅 公平性 (fairness)。
偏差检测
在 AI 模型基于特定属性交付不公平结果时计算要检测的度量值公平性的过程。
偏差缓解
通过整理训练数据和应用公平技术,减少人工智能模型的偏差。
二元分类
具有两个类的分类模型。 预测是两个类之一的二元选择。
业务术语
以标准方式定义企业的业务概念的单词或短语。 可以使用术语来增加数据资产的元数据以及定义数据保护规则的条件。
业务词汇表
用于描述和丰富数据资产的一组监管工件,例如业务术语和数据类。
C
目录
这是组织共享的资产的存储库。 目录中的资产可以由数据保护规则来管理,并由其他监管工件(例如,分类、数据类和业务术语)丰富。 目录可以存储结构化数据和非结构化数据、对外部数据源中的数据的引用以及其他分析资产(例如,机器学习模型)。
类别
对于数据治理,这是一个用于组织和管理治理工件的协作工作空间。
分类
对于数据治理而言,是指描述数据资产中数据敏感度级别的治理工件。
資料清理
确保数据集中的所有值都一致且被正确记录下来。
合作者
正在互相协作以实现共同目标的一组用户的成员。
組合問題
由于需要做出涉及太多可能选项组合的多个决策,因此难以求解的问题。 某些示例将查找对象的分组、排序或分配。
計算資源
由环境定义来定义的用于运行分析资产的硬件和软件资源。
混淆矩阵
一种性能度量,用于确定模型的正和负预测结果与正和负实际结果之间的准确性。
已连接的数据
通过与外部数据源的连接访问的数据集。
连接
连接到数据库所需要的信息。 所需的实际信息因 DBMS 和连接方法而异。
约束
在 Decision Optimization中,必须由问题的解满足的条件。
持续学习
这是指自动完成下列任务:监控模型性能、使用新数据重新训练以及重新部署以确保预测质量。
核心 ML 部署 (Core ML deployment)
这是指以核心 ML 格式下载部署,以用于 iOS 应用程序的过程。
正文
用于训练机器学习模型的源文档的集合。
CPLEX 模型
由 CPLEX 引擎求解的Decision Optimization模型。
CPO 模式
由Decision OptimizationCP 优化器 (CPO) 引擎求解的约束编程模型。
组织
- 选择、收集、保留和维护与特定主题相关的内容。 管理可建立和维护数据并使数据增值;它将数据转换为可信的信息和知识。
- 用于创建数据资产,并准备将其发布在目录中。 内容管理可以包括:通过分配监管工件(例如,业务术语、分类和数据类)来强化数据资产,以及分析数据资产中的数据的质量。
D
数据资产
指向数据(例如,已上载的文件)的资产。 连接和所连接的数据资产也被视为数据资产。
数据类
一个监管工件,它根据数据的类型以及如何使用数据来对关系数据集中的列进行分类。
数据监管
跟踪和控制数据以保持数据质量、数据安全和合规性的过程。
数据集成
技术和业务流程的组合,用于将来自不同来源的数据组合到有意义且有价值的信息中。
数据湖
在平面体系结构中以任何格式存储原始数据的大规模数据存储库。 数据湖包含结构化和非结构化数据以及二进制数据,用于处理和分析。
数据湖
统一的数据存储和处理架构,将数据湖的灵活性与数据仓库的结构化查询和性能优化相结合,支持针对 AI 和分析应用程序进行可扩展且高效的数据分析。
数据挖掘
从数据源收集关键业务信息,并将该信息与潜在的关联、模式和趋势关联起来的过程。 另请参阅 预测性分析 (predictive analytics)。
数据模型
数据元素,其关系及其属性的可视化。
数据管道
一系列数据处理和转换步骤。
数据隐私
保护数据免遭未经授权的访问和不当使用。
数据产品
经过优化的数据或与数据相关的资产的集合,打包以通过受控访问进行复用和分发。 数据产品包含数据以及模型,仪表板和其他计算资产类型。 与监管目录中的数据资产不同,数据产品作为具有多种用途的产品进行管理,以提供业务价值。
数据保护规则
一个监管工件,它指定要控制哪些数据以及如何控制。 数据保护规则包含条件和操作。 另见规则。
数据质量分析 (data quality analysis)
对照质量维度准确性,完整性,一致性,及时性,唯一性和有效性对数据进行分析。
数据质量定义
数据质量定义描述数据质量规则的规则评估或条件。
数据质量规则
在数据质量分析期间,数据质量规则用于评估是否满足特定条件的数据,并将不满足条件的记录标识为规则违例。 另见规则。
Data Refinery 流程
这是指数据源、一个用于优化和定制该数据源的一个或多个操作组成的链以及数据要移动到的目标。
数据科学
分析和可视化结构和非结构化数据以发现洞察和知识。
数据集
这是数据集合,通常采用行(记录)和列(字段)的形式,包含在文件或数据库表中。
数据源
用于读取数据(如数据库)的存储库、队列或馈送。
DataStage 流程
基于一系列有序步骤提取、转换和加载数据的资产。
数据表
这是数据集合,通常采用行(记录)和列(字段)的形式,包含在表中。
数据仓库
从各种来源收集的大型集中式数据存储库,用于报告和数据分析。 它主要存储结构化和半结构化数据,使企业能够做出明智的决策。
Decision Optimization 试验
包含一组方案的资产,这些方案代表与要求解的同一问题相关的不同模型构成或数据集。
决策优化模型
可以通过优化求解的规范模型,为 Decision Optimization 问题提供最佳解决方案。
决策变量
一组表示要制定的决策的变量之一,其值由优化引擎确定,同时确保满足所有约束且优化目标。
深度学习
一种计算模型,使用多层相互连接的节点,这些节点被组织成分层,通过一系列计算转换输入数据(第一层),从而产生输出(最后一层)。 深度学习的灵感来源于人类大脑的结构和功能。
深度学习试验
基于神经网络中连接的一个或多个模型训练定义的逻辑分组的模型训练过程。
深度神经网络
具有多个隐藏层的神经网络,可对数据进行更复杂的表述。
部署
可供使用的模型或应用程序包。
部署空间
部署模型和管理部署的工作空间。
DOcplex
用于对 Decision Optimization 问题进行建模和求解的 Python API。
E
端点 URL
这是用于标识资源(例如,服务和对象)的网络目标地址。 例如,当用户将有效内容数据发送到部署时,端点 URL 用来标识模型或函数部署的位置。
环境
用于运行作业的计算资源。
環境執行時期
运行资产的环境模板实例。
环境模板
指定硬件和软件资源以将环境运行时实例化的定义。
可解释性
- 人类用户跟踪、审计和理解使用 AI 系统的应用程序中所做预测的能力。
- AI 系统提供洞察的能力,人类可以使用这些洞察来了解系统预测的原因。
F
公平性
在 AI 系统中,公平对待个人或群体。 选择 AI 系统的特定公平概念取决于其使用环境。 另请参阅 偏差 (bias)。
功能
数据集中项的属性或特征,例如,电子表格中的列。 在某些情况下,将特征设计为数据集中其他特征的组合。
特征工程
从原始数据中选择,转换和创建新功能的过程,以提高机器学习模型的性能和预测能力。
功能选择
确定最能支持机器学习模型中准确预测或评分的数据列。
功能部件存储
集中式存储库或系统,用于管理和组织功能部件,提供在机器学习管道和应用程序之间存储,检索和共享功能部件数据的可扩展且高效的方法。
特性轉換
在 AutoAI 中,管道创建的一个阶段,此阶段会应用算法来变换和优化训练数据,以获得模型类型的最佳结果。
联合学习
使用未移动,连接或共享的多个数据源的公共机器学习模型的训练。 通过这种方式,可训练出更好的模型,且不会损害数据安全。
流
定义一组步骤以处理数据或训练模型的节点集合。
基础模型
可适应各种下游任务的人工智能模型。 基础模型通常是大规模生成模型,通过自我监督在无标记数据上进行训练。 作为大型模型,地基模型可包含数十亿个参数。
G
甘特图
项目时间线和持续时间的图形表示法,其中调度数据将显示为时间刻度的水平条。
生成式 AI
参见生成式人工智能。
生成式人工智能
一类人工智能算法,可生成各种类型的内容,包括文本、源代码、图像、音频和合成数据。
监管工件
增加或控制数据资产的监管项目。 监管工件包含业务术语、分类、数据类、策略、规则和参考数据集。
监管规则
这是一个监管工件,它对用于确定数据资产是否符合业务目标的条件提供自然语言描述。 另见规则。
控管工作流程
这是基于任务的流程,用于控制监管工件的创建、修改和删除。
管理的目录
已强制启用数据保护规则的目录。
GPU
图形构建器
通过可视化编码创建流程资产的工具。 画布是一个区域,用于放置可连接以创建流程的对象或节点。
图形处理单元 (GPU)
一种专用处理器,旨在快速操作和改变内存,以加速在用于输出到显示器的帧缓冲区中创建图像。 由于其并行处理能力, GPU 在机器学习中被大量使用。 另请参见加速器。
接地
为大型语言模型提供信息,以提高结果的准确性。
H
HAP 检测(HAP 检测)
- 能够检测和过滤用户提交的提示和人工智能模型生成的回复中的仇恨、辱骂和亵渎内容。
HAP 检测器(HAP 检测器)
- 句子分类器可从基础模型输出和输入中删除潜在的有害内容,如仇恨言论、辱骂和亵渎。
暂挂集
这是一组有意从训练集和验证集中保留的标记数据,用于对最终模型在不可见数据上的性能进行不偏不倚的评估。
人的监督
人类参与审查 AI 系统做出的决策,从而实现人类自主和负责任的决策。
超參數
在机器学习中,指的是在训练之前设置其值的参数,以提高模型准确性。
I
图像
包含一组库的软件包。
推理
通过训练有素的人工智能模型运行实时数据,以进行预测或解决任务的过程。
提取
- 将数据提供给系统以创建知识库。
- 不断向数据库中添加大量的实时数据。
洞察
准确或深刻地理解事物。 洞察是使用认知分析得出的,可提供客户行为和态度的最新快照和预测。
意向
客户对聊天机器人的输入所表达的目的或目标,例如回答问题或处理帐单支付。
J
作业
可单独执行的工作单元。
K
知识库
见语料库。
L
标签数据
分配了标签以添加上下文或含义的原始数据,以便可用于训练机器学习模型。 例如,数字值可以标记为邮政编码或年龄,以提供模型输入和输出的上下文。
大语言模型
具有大量参数的语言模型,对大量文本进行训练。
世系
- 通过资产的数据流的历史记录。
- 对资产执行的事件的历史记录。
LLM
参见大型语言模型。
逻辑模型
与业务域相关的数据对象的逻辑表示。
M
机器学习 (machine learning, ML)
人工智能 (AI) 和计算机科学的一个分支,专注于使用数据和算法来模仿人类学习的方式,逐渐提高 AI 模型的准确性。
机器学习框架 (machine learning framework)
用于训练和部署模型的库和运行时。
机器学习模型 (machine learning model)
一种基于一组数据训练的 AI 模型,用于开发可用于分析和学习新数据的算法。
掩码
替换数据集的列中的敏感数据值。 屏蔽方法在数据实用程序和隐私方面有所不同,从提供保留引用完整性的类似格式的替换值到为整个列提供相同的替换值。
屏蔽流
生成永久屏蔽的数据副本的流。
主数据
- 对于模型训练,对于同一模型上的多个作业,参考数据保持不变,但可以根据需要进行更改。
- 在 Match 360中,这是来自不同源的数据的合并视图。
主数据实体
经匹配算法确定代表同一现实世界实体(如个人或组织)的记录组合。 每个实体包括一个或多个成员记录,匹配算法将这些记录连接在一起。
数学规划 (mathematical programming, MP)
数学或运筹学的一个领域,用于对 Decision Optimization 问题建模和求解。 这包含线性、整数、混合整数和非线程规划。
元数据导入
一种导入与数据资产关联的元数据的方法,包括描述数据资产沿袭的流程元数据和描述数据资产结构的技术元数据。
不一致
AI 系统优化以实现的目标或行为与其人类用户或设计人员的真实 (通常是复杂的) 目标之间的差异
ML
请参阅 Machine Learning。
MLOps
- 数据科学家与运营专业人员之间协作的实践,帮助管理生产机器学习 (或深度学习) 生命周期。 MLOps 旨在提高自动化水平,提高生产 ML 的质量,同时关注业务和法规要求。 它涉及模型开发,培训,验证,部署,监视和管理,并使用 CI/CD 等方法。
- 一种将机器学习模型从开发到生产的方法。
模型
- 在机器学习环境中,这是一组函数和算法,已针对数据集进行训练和测试,以提供预测或决策。
- 在 Decision Optimization 中,可通过 CPLEX 优化引擎使用不同数据集进行求解的问题的数学公式。
模型规划
在 Decision Optimization 中,模型的数学构成,表示为决策变量列表、一个或多个要最大化或最小化的目标函数以及要满足的某些约束。
ModelOps
一种用于管理 AI 模型完整生命周期的方法,包括训练、部署、评分、评估、重新训练和更新。
MP
N
自然语言
组合自然人类语言(英语)以构成模型的建模语法。
自然语言处理 (natural language processing, NLP)
人工智能和语言学的一个领域,研究自然语言的处理和操作过程中固有的问题,旨在提高计算机理解人类语言的能力。
自然语言处理库
为语法分析提供基本自然语言处理功能的库,以及为各种文本处理任务提供现成的预训练模型。
神经网络
一种数学模型,它使用能够模拟脑细胞的抽象版本的复杂数学方案来预测案例或者将案例分类。 通过向神经网络提供大量观察到的案例(一次提供一个案例)并使它反复更新自身,直到它学习该任务为止,这样来训练神经网络。
NLP
节点
流或流程中的数据操作的图形表示。 不同类型的节点具有不同的形状,以指示它们执行的操作的类型。
Notebook
一个交互式文档,它包含可执行代码、该代码的描述性文本以及运行的任何代码的结果。
Notebook 内核
笔记本编辑器中执行代码并返回计算结果的部分。
O
加密
用与原始格式相匹配的类似格式化值替换列中的数据。 掩饰形式之一。
目标函数
决策优化和运筹学中的一种表达式,可以在满足问题的其他约束条件的同时实现优化(即最小化或最大化)。
对象存储器
一种数据存储方法,通常在云中使用此方法,其中,数据以离散单元或对象的形式存储在不使用文件层次结构,而是将所有对象存储在同一级别的存储池或存储库中。
線上部署
通过 API 端点作为 Web Service 访问模型或 Python 代码部署以实时在线生成预测的方法。
本体
某个相关领域中可能存在的对象、概念和其他实体及其之间关系的一种明确正式的表示。
操作资产 (operational asset)
在工具或作业中运行代码的资产。
OPL 模型
以 OPL 建模语言表示的模型构成。
最佳解决方案
在运筹学中,针对某一问题的解,该解优化目标函数(无论是线性还是二次)并且满足问题的所有其他约束。
优化
在尊重所施加的约束和限制的同时,为精确定义的问题找到最合适的解决方案的过程。 例如,确定如何分配资源或如何从大量替代方法中找到最佳元素或组合。
统筹
创建端到端流程的过程,该流程可以训练,运行,部署,测试和评估机器学习模型,并使用自动化来协调系统,通常使用微服务。
P
对复审
数据管理员用户比较记录以确定它们是否匹配的过程。 配对审查结果可训练匹配算法,以决定将哪些记录匹配到主数据实体中。
参数
模型内部的可配置部分,其值是从数据中估计或学习的。 参数是在训练过程中调整的模型的各个方面,以帮助模型准确预测输出。 模型的性能和预测能力在很大程度上取决于这些参数的值。
单位
在 Federated Learning 中,提供用于训练公共模型的数据的实体。 不会移动或合并数据,但每个参与方都将从联合训练中获益。
有效内容
传递到部署以返回分数,预测或解决方案的数据。
有效内容日志记录
捕获有效内容数据和部署输出以监视业务应用程序中 AI 的持续运行状况。
物理模型
数据的物理结构和关系的定义。
pipeline
- 在Watson Pipelines 中,资产从创建到部署的端到端流程。
- 在 "AutoAI,中,有一个候选模型。
管線排行榜
在 "AutoAI,中,有一个表格,显示自动生成的候选模型列表,作为管道,根据指定的标准进行排序。
占位符
要替换为值的字段或变量。
策略
- 代理程序遵循的策略或规则,用于根据当前状态确定下一个操作。
- 通过控制对数据资产的访问或匿名化数据资产中的敏感数据来保护数据的一组规则。
- 由一个或多个数据保护和监管规则组成的监管工件。
预测性分析
与预测将来的可能性和趋势有关的业务流程和一组相关技术。 预测性分析将概率,统计,机器学习和人工智能等多种学科应用于业务问题,以找到针对特定情境的最佳行动。 另请参阅 数据挖掘 (data Mining)。
预训练模型
先前在大型数据集上训练以完成特定任务的 AI 模型。 将使用预先训练的模型,而不是从头开始构建模型。
主类别
对于数据治理,指包含治理工件的类别。 类别类似于对用户的监管工件进行组织的文件夹或目录。
隐私条约
保证有关个人的信息不受未经授权的访问和不当使用的保护。
概要文件
所生成的有关数据文本内容的元数据和统计信息。
项目
用于处理数据和其他资产的合作工作空间。
修剪
简化、缩小或修剪决策树或神经网络的过程。 具体做法是删除不太重要的节点或层,降低复杂性,以防止过度拟合,提高模型的泛化能力,同时保持其预测能力。
发布
这是指将资产复制到目录中。
Python
用于数据科学和 AI 的编程语言。
Python DOcplex 模型 (Python DOcplex model)
以 Python 表示的模型构成。
Python 函数
包含 Python 代码的函数,用于支持生产中的模型。
Q
品質規則
数据记录满足质量标准所需的一个或多个条件。 在数据质量分析期间,将根据这些条件检查数据记录。 另见规则。
量化
一种压缩基础模型权重的方法,可加快推理速度并减少 GPU 内存需求。
R
R
在数据科学和 AI 中使用的可扩展脚本语言,提供各种分析,统计和图形功能和技术。
读取
这是指将数据复制到应用程序中,以进行处理或分析。
編寫
将列中的所有数据值替换为同一字符串,以隐藏敏感值,数据格式以及值之间的任何关系。 屏蔽的一种形式。。
参考数据集 (reference data set)
定义特定类型的列的值的监管工件。
精簡
这是指清理数据和定制数据。
强化学习
一种机器学习技术,在该技术中,代理程序学习在环境中进行顺序决策以最大化奖励信号。 在试用和错误学习的启发下,代理程序与环境进行交互,接收反馈,并调整其操作以实现最佳策略。
奖励
用于指导代理(通常是强化学习代理)的信号,它能提供有关决策好坏的反馈信息
规则
包含用于分析或保护数据的信息、标准或逻辑的人工制品。 另请参阅数据保护规则、数据质量规则、治理规则、质量规则、属性组成规则。
运行时环境
用于运行工具或作业 (例如 Notebook) 的预定义或定制硬件和软件配置。
S
评分
- 在机器学习中,这是指测量预测结果的置信度的过程。
- 这是指计算传入身份的属性与现有实体的属性之间匹配程度的过程。
脚本
包含 Python 或 R 脚本的文件,用于支持生产中的模型。
次要種類
这是引用监管工件的可选类别。
自我关注
一种关注机制,它使用来自输入数据本身的信息来确定在生成输出时要关注的输入部分。
自我监督学习
一种机器学习训练方法,在该方法中,模型通过屏蔽输入序列中的标记,然后尝试预测这些标记,从而从未标记的数据中学习。 一个例子是 "我喜欢 ________ 芽"。
语义搜索
包含语言和上下文分析的关键词搜索。 在语义搜索中,查询的意图是通过一个或多个说明符来指定的。 例如,可以指定一个人的名字为 "布什",这样查询就不会返回花园中灌木种类的结果,而只会返回名叫布什的人的结果。
敏感数据
包含应防止未经授权访问或披露的信息的数据。 敏感数据的类别可以是受保护的健康信息、个人身份信息、商业秘密或财务结果。
观点分析
检查文本中表达的情感或情绪,例如确定一篇影评是正面的还是负面的。
形状
这是指通过过滤、排序和移除列来定制数据;连接表;执行诸如计算、数据分组和分层等操作。
小数据
可供人类访问和理解的数据。 另请参阅 结构化数据 (structured data)。
SQL 回送
在 SPSS Modeler 中,这是指通过 SQL 代码直接在数据库中执行许多数据准备和挖掘操作的过程。
结构化数据
位于记录或文件内固定字段中的数据。 例如,关系数据库和电子表格都属于结构化数据。 另请参阅 非结构化数据 (unstructured data), 小数据 (small data)。
结构信息
存储在结构化资源中的项,例如搜索引擎索引,数据库或知识库。
替换
用与原始格式不匹配但保留引用完整性的值替换列中的数据。
超节点
SPSS Modeler 节点,其通过将多个节点封装为一个节点来缩短数据流。
监督学习
一种机器学习训练方法,其中在标记数据集上训练模型以对新数据进行预测。
T
文字分類
自动识别文本并将其分类为指定类别的模型。
时间序列
变量在周期性时间点的一组值。
经过训练的模型
使用实际数据训练的模型,可随时进行部署,以在提供新数据时预测结果。
训练
模型构建的初始阶段,涉及到源数据的子集。 该模型通过示例从已知数据中学习。 然后可以针对更多已经知道结果的不同子集来测试模型。
训练数据
用于训练机器学习模型的数据集合。
训练集
一组带标签的数据,用于通过将机器学习模型公开到示例及其相应的标签来训练该模型,从而使该模型能够学习模式并进行预测。
迁移学习
一种机器学习策略,其中将经过训练的模型应用于全新的问题。
变换器
利用位置编码和自我注意机制来预测标记序列中下一个标记的神经网络架构。
幻灯片
与利益相关方共享有关如何设计和开发 AI 系统的适当信息。 这些信息的示例包括收集哪些数据,如何使用和存储这些数据,以及谁可以访问这些数据; 以及测试结果的准确性,鲁棒性和偏差。
图灵测试
由艾伦-图灵 (英语 :Alan Turing) 于 1950 年提出,是对机器表现出相当于或无法与人类的智能行为的能力的测试。
U
無界限問題
Decision Optimization 问题,其中存在无限数量的解,并且目标可获取无穷多的值。 无界问题通常是由模型阐述中缺少约束所导致的。
非结构化的数据
以非结构化格式而不是固定字段存储的任何数据。 例如,字处理文档中的数据就是非结构化数据。 另请参阅 结构化数据 (structured data)。
非结构化信息
未包含在固定位置 (例如,自然语言文本文档) 中的数据。
不受监督的学习
一种机器学习训练方法,其中模型未提供带标签的数据,并且必须自行在数据中找到模式或结构。
V
验证集合
一组单独的标记数据,用于在训练过程中评估机器学习模型的性能和泛化能力,帮助进行超参数调整和模型选择。
可视化
使用图形、图表、散点图、表、地图或者任何其他可视化表示形式来表示数据。
W
重量
在网络层中变换输入数据的节点的系数。 权重是 AI 模型通过训练学习的参数,用于调整其值以减少模型预测中的错误。