この用語集には、 Cloud Pak for Data as a Serviceの用語と定義が記載されています。
A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | R | S | T | U | V | W
A
アクセラレーター
ハイパフォーマンス・コンピューティングにおいて、CPUからの計算負荷を軽減し、システムの効率を高めるために使用される特殊な回路。 例えば、ディープラーニングでは、GPUアクセラレーテッド・コンピューティングがしばしば採用され、メインアプリケーションがCPUから実行される間に、計算ワークロードの一部をGPUにオフロードする。 グラフィック・プロセッシング・ユニットも参照。
責任追跡性
組織または個人が、それぞれの役割および適用される規制フレームワークに従って、設計、開発、運用、またはデプロイする AI システムの適切な機能をライフサイクルを通じて保証することを期待する。 これには、法的専門家がケース・バイ・ケースで責任を決定することを必要とする可能性がある AI のミスの責任者を判別することが含まれます。
アクティブ化関数
ニューラル・ユニットの出力を定義する関数
アクティブ・ラーニング
システムが必要とする場合にのみより多くのラベル付きデータを要求する、機械学習のモデル。
アクティブなメタデータ
機械学習プロセスによる分析に基づいて自動的に更新されるメタデータ。 例えば、プロファイル作成とデータ品質分析により、データ資産のメタデータが自動的に更新されます。
アクティブ・ランタイム (active runtime)
コードを実行するアセットに計算リソースを提供するために実行される環境のインスタンス。
エージェント
特定の目標を達成するために、環境と相互作用して最適な行動や決定を学習するアルゴリズムやプログラム。
AI
人工知能 (AI)を参照。
AI アクセラレーター
ディープラーニング、機械学習、ニューラルネットワークなどのAI関連タスクを効率的に実行し、より高速でエネルギー効率の高いコンピューティングを実現するために設計された専用シリコンハードウェア。 コア内の専用ユニット、マルチモジュールチップ上の独立したチップレット、あるいは独立したカードである。
AI倫理
リスクと悪影響を軽減しながら AI の有益な影響を最適化する方法を研究する多領域の分野です。 AI 倫理の問題の例としては、データの責任とプライバシー、公平性、説明可能性、頑強性、透明性、環境維持性、包含性、道徳機関、価値の調整、説明責任、信頼性、テクノロジーの誤用が挙げられます。
AIガバナンス
組織が、組織の指示、スタッフ、プロセス、およびシステムを使用して、AI ライフサイクル全体にわたって指示、評価、モニター、および修正アクションを実行することにより、組織が意図するとおり、利害関係者が期待するとおり、および関連する規制によって要求されるとおりに、AI システムが運用されることを保証する行為。
AI の安全性
AI システムの信頼性、公平性、透明性、人間の価値観との整合性などの課題に対処し、人工知能システムが人間にとって有益であり、不用意に害を及ぼさないように運用されることを目的とした研究分野。
AI システム
「 人工知能システム (人工知能 system)」を参照。
アルゴリズム
分析上の問題を解決する最適な方法を決定するためにデータに適用される式。
アナリティクス
データから意味のあるパターンを探し出し、それらのパターンから色々な結論を導き出すために行うデータ調査のこと。
人工知能 (AI)
予測、推奨、決定を行うために、知識を獲得し、処理し、モデルの形で作成し、適用する能力。
人工知能システム (AI システム)
物理環境または仮想環境に影響を与える予測、推奨、または決定を行うことができ、その出力または動作が必ずしも開発者またはユーザーによって事前に決定されているとは限らないシステム。 AI システムは通常、大量の構造化データまたは非構造化データを使用してトレーニングされます。また、人間が定義した目標を達成するために、さまざまなレベルの自律性で動作するように設計されている場合もあれば、まったく動作しないように設計されている場合もあります。
資産
データまたはデータ分析に関するメタデータが含まれた、プロジェクトまたはカタログ内の項目。
属性構成規則
マスター・データ・エンティティの属性値が、そのメンバ・レコードからどのように選択されるかを決定する一連のルールの1つ。 ルールも参照のこと。
AutoAI エクスペリメント
一連の学習定義およびパラメーターを評価することでランク付けされた一連のパイプラインをモデル候補として作成する、自動化された学習プロセス。
B
バッチ・デプロイメント
ストレージ・バケット内のファイル、データ接続、または接続されたデータからの入力データを処理し、選択した宛先に出力を書き込むモデルをデプロイする方式。
バイアス
不公平な意思決定を行う可能性のある方法で、意図的に設計されたかどうかにかかわらず、AI システムにおける体系的なエラー。 バイアスは、AI システムと、それをトレーニングおよびテストするために使用されるデータの両方に存在する可能性があります。 AI バイアスは、文化的な期待、技術的な制限、または予期しないデプロイメント・コンテキストの結果として、AI システム内で発生する可能性があります。 「 公平性 (公平性)」も参照。
バイアス検出
特定の属性に基づいて、AI モデルが不公平な結果を導き出しているときにそれを検出するために、メトリックに対する公平性を計算するプロセス。
バイアス緩和
学習データを管理し、公正な技術を適用することで、AIモデルの偏りを減らす。
2 項分類
2 つのクラスを持つ分類モデル。 予測は、2 つのクラスのいずれかのバイナリー選択です。
ビジネス用語
特定の企業において、標準的な方法でビジネス概念を定義する単語または語句。 用語は、データ・アセットのメタデータの質の向上、データ保護ルールの基準定義に使用可能。
ビジネス語彙
データ資産を記述および強化するガバナンス成果物のセット (ビジネス用語やデータ・クラスなど)。
C
カタログ
組織共有のアセットのリポジトリー。 カタログ内のアセットは、データ保護ルールによって管理でき、分類、データ・クラス、ビジネス用語などの他のガバナンス成果物による質の向上が可能。 カタログには、構造化データと非構造化データ、外部データ・ソース内のデータへの参照、および機械学習モデルなどの他の分析アセットを格納できる。
カテゴリー
データガバナンスでは、ガバナンスの成果物を整理・管理するための共同ワークスペース。
分類
データガバナンスでは、データ資産内のデータの機密レベルを記述するガバナンスの成果物。
浄化
データ・セットのすべての値が整合していること、および正しく記録されていることを確認すること。
コラボレーター
共通の目標に向けて共同で作業している人間のグループのメンバー。
組み合わせ問題 (combinatorial problem)
複数の決定を行う必要があり、関係している可能な選択肢の組み合わせが多すぎるために、解決することが困難な問題。 例えば、グループ化の決定、順序付け、オブジェクトの割り当てなど。
コンピュート・リソース
環境定義で定義され、分析アセットを実行するためのハードウェア・リソースおよびソフトウェア・リソース。
混同行列
モデルの肯定的な予測結果と否定的な予測結果の間の精度を、肯定的な実際の結果と否定的な実際の結果と比較して決定するパフォーマンス測定。
接続データ
外部データ・ソースへの接続を介してアクセスされるデータ・セット。
接続
データベースへの接続に必要な情報。 必要な実際の情報は、DBMS および接続方式によって異なります。
制約
Decision Optimizationで、問題の解によって満たされる必要がある条件。
継続的学習
モデルのパフォーマンスのモニター、新規データを使用した再学習、および予測品質を確保するための再デプロイで構成されるタスクの自動化。
コア ML のデプロイメント (Core ML deployment)
iOS アプリでの使用を目的として、デプロイメントをコア ML 形式でダウンロードするプロセス。
コーパス
機械学習モデルのトレーニングに使用されるソース文書の集合。
CPLEXモデル
CPLEXエンジンで解くために定式化されたDecision Optimizationモデル。
CPOモデル
Decision OptimizationCPオプティマイザ(CPO)エンジンで解くために定式化された制約プログラミングモデル。
キュレート
- 特定のトピックに関連するコンテンツを選択、収集、保存、および保守すること。 整理は、データを信頼できる情報およびナレッジに変換し、データの価値を高める。
- データ・アセットを作成してカタログでの公開に向けて準備すること。 キュレーションには、ビジネス用語、分類、データ・クラスなどのガバナンス成果物の割り当てやデータ・アセット内のデータの品質の分析による、データ・アセットの質の向上が含まれる場合がある。
D
データ資産
アップロードされたファイルなどのデータを指すアセット。 接続や接続済みデータ・アセットも、データ・アセットと見なされる。
データ・クラス
データ型およびデータの使用方法に従ってリレーショナル・データ・セット内の列をカテゴリー化するガバナンス成果物。
データ・ガバナンス
データ品質、データセキュリティ、コンプライアンスを維持するためにデータを追跡・管理するプロセス。
データ統合
さまざまなソースからのデータを意味のある価値ある情報に結合するために使用される、技術プロセスとビジネス・プロセスの組み合わせ。
データレイク
フラット・アーキテクチャーの任意の形式で生データを保管する大規模なデータ・ストレージ・リポジトリー。 データレイクは、処理および分析の目的で、構造化データ、非構造化データ、およびバイナリー・データを保持します。
データ・レイクハウス
データレイクの柔軟性と、データウェアハウスの構造化された照会およびパフォーマンスの最適化を組み合わせた、統合されたデータ・ストレージおよび処理アーキテクチャーにより、AI および分析アプリケーションのスケーラブルで効率的なデータ分析が可能になります。
データ・マイニング
データ・ソースから重要なビジネス情報を収集し、これらの情報を相互に関連付けて、関連性、パターン、および傾向を発見するプロセス。 「 予測分析 (predictive analytics)」も参照。
データ・モデル
データ要素、それらの関係、およびそれらの属性を視覚化したもの。
データ・パイプライン
一連のデータ処理と変換ステップ。
データ・プライバシー
不正アクセスや不適切な使用からデータを保護すること。
データ製品
アクセスが制御された状態で再利用および配布のためにパッケージ化された、最適化されたデータまたはデータ関連資産の集合。 データ製品には、データのほか、モデル、ダッシュボード、およびその他の計算資産タイプが含まれます。 ガバナンス・カタログ内のデータ資産とは異なり、データ製品は、ビジネス価値を提供するために複数の目的を持つ製品として管理されます。
データ保護ルール
制御対象のデータとデータの制御方法を指定するガバナンス成果物。 データ保護ルールには、基準とアクションが含まれる。 ルールも参照のこと。
データ品質分析 (data quality analysis)
品質ディメンションの正確度、完全性、一貫性、適時性、固有性、および妥当性に対するデータの分析。
データ品質定義
データ品質定義は、データ品質ルールのルール評価または条件を記述します。
データ品質ルール
データ品質分析時に、特定の条件が満たされているかどうかについてデータを評価し、条件を満たさないレコードをルール違反として識別するデータ品質ルール。 ルールも参照のこと。
Data Refinery フロー
データ・ソース、そのデータ・ソースの精製およびシェーピングを行う 1 つ以上の操作のチェーン、およびデータの移動先である対象。
データ・サイエンス
洞察および知識をディスカバーするための構造化データおよび非構造化データの分析および視覚化。
データ・セット
データのコレクション。通常は、行 (レコード) と列 (フィールド) の形式でファイルまたはデータベース表に含まれる。
データ・ソース
データベースなどのデータを読み込むためのリポジトリ、キュー、フィード。
DataStage フロー
データを抽出し、変換し、ロードする一連の順序付けられたステップに基づく資産。
データ・テーブル
データのコレクション。通常は、行 (レコード) と列 (フィールド) の形式で表に含まれる。
データウェアハウス
レポート作成およびデータ分析に使用される、さまざまなソースから収集されるデータの大規模で一元化されたリポジトリー。 主に構造化データと半構造化データを保管し、企業が情報に基づいて意思決定を行えるようにします。
意思決定最適化のエクスペリメント
シナリオのグループ (解決する対象の問題に関連する、さまざまなモデルの定式またはデータ・セットを表す) を含んでいるアセット。
Decision Optimization モデル (Decision Optimization model)
Decision Optimization 問題の最適解を提供するために、最適化によって解決できる規範的なモデル。
決定変数
行われる決定を表す一連の変数のうちの 1 つ。変数の値は、すべての制約が満たされ、目的が最適化されるように、最適化エンジンによって決定される。
ディープ・ラーニング
入力データ(第1層)を一連の計算によって変換し、出力(最終層)を生成するために、相互に接続されたノードを階層化した複数の層を使用する計算モデル。 ディープラーニングは、人間の脳の構造と機能に着想を得ている。
ディープ・ラーニング実験 (deep learning experiment)
ニューラルネットワークで接続された1つまたは複数のモデルトレーニング定義の論理的なグループ化に基づくモデルトレーニングプロセス。
ディープニューラルネットワーク
複数の隠れ層を持つニューラルネットワークで、データのより複雑な表現を可能にする。
展開
使用可能なモデルまたはアプリケーション・パッケージ。
デプロイメント・スペース
モデルがデプロイされ、デプロイメントが管理されるワークスペース。
DOcplex
Decision Optimization の問題をモデル化して解決するための Python API。
E
エンドポイント URL (endpoint URL)
サービスやオブジェクトなどのリソースを識別するネットワーク宛先アドレス。 例えば、ユーザーがデプロイメントにペイロード・データを送信するときに、モデルまたは関数のデプロイメントの場所を識別するために、エンドポイント URL が使用される。
環境
ジョブを実行するための計算リソース。
環境ランタイム (environment runtime)
アセットを実行するための環境テンプレートのインスタンス化。
環境テンプレート
環境ランタイムをインスタンス化するためのハードウェア・リソースおよびソフトウェア・リソースを指定する定義。
説明可能性
- AI システムを使用するアプリケーションで行われた予測を、人間のユーザーがトレース、監査、および理解する能力。
- 人間がシステムの予測の原因を理解するために使用できる洞察を提供する AI システムの機能。
F
フェアネス
AI システムにおいて、個人または個人のグループを公平に扱うこと。 AI システムに対する特定の公平性の概念の選択は、それが使用されるコンテキストによって異なります。 「 バイアス (bias)」も参照。
フィーチャー
データ・セット内の項目のプロパティーまたは特性。例えば、スプレッドシート内の列など。 場合によっては、フィーチャーはデータ・セット内の他のフィーチャーの組み合わせとして設計されます。
フィーチャー・エンジニアリング
機械学習モデルのパフォーマンスと予測能力を向上させるために、生データから新機能を選択、変換、および作成するプロセス。
機能の選択
機械学習モデルにおける正確な予測またはスコアを最も適切にサポートするデータの列を識別する。
フィーチャー・ストア
機能を管理および編成する中央リポジトリーまたはシステム。これにより、機械学習パイプラインおよびアプリケーション間で機能データを保管、取得、および共有するためのスケーラブルで効率的な方法が提供されます。
特徴量の変換 (feature transformation)
AutoAI で、モデル・タイプに最適な結果を得るために、アルゴリズムを適用して学習データを変換および最適化するパイプライン作成のフェーズ。
統合学習 (federated learning)
移動、結合、または共有されない複数のデータ・ソースを使用する共通機械学習モデルのトレーニング。 その結果、データのセキュリティーを損なうことなく、より適切にトレーニングされたモデルができる。
フロー
データの処理またはモデルのトレーニングのための一連のステップを定義するノードのコレクション。
基盤モデル
幅広い下流タスクに適応できるAIモデル。 基盤モデルは通常、自己監視を使用してラベル付けされていないデータでトレーニングされる大規模な生成モデルです。 大規模なモデルとして、基盤モデルには数十億個のパラメーターを含めることができます。
G
ガント・チャート
タイム・スケールに沿ってスケジュール・データが横棒として表示される、プロジェクトのタイムラインおよび期間のグラフィカル表現。
Gen AI
生成AIを参照。
ジェネレーティブAI
テキスト、ソースコード、画像、音声、合成データなど、さまざまな種類のコンテンツを作成できるAIアルゴリズムの一種。
ガバナンス成果物
データ・アセットの質の向上または制御のためのガバナンス項目。 ガバナンス成果物には、ビジネス用語、分類、データ・クラス、ポリシー、ルール、および参照データ・セットが含まれる。
ガバナンス・ルール
データ・アセットがビジネス目標に沿っているかどうかの判断に使用する基準を自然言語で記述した、ガバナンス成果物。 ルールも参照のこと。
ガバナンス・ワークフロー (governance workflow)
ガバナンス成果物の作成、変更、および削除を制御するためのタスク・ベースのプロセス。
管理対象カタログ
データ保護ルールの適用が有効になっているカタログ。
GPU
グラフィカル・ビルダー
視覚的にコーディングしてフロー資産を作成するツール。 キャンバスは、フローを作成するために接続できるオブジェクトまたはノードを配置する領域。
グラフィックス処理装置 (GPU)
ディスプレイへの出力を目的としたフレーム・バッファー内のイメージの作成を加速するために、メモリーを迅速に操作および変更するように設計された特殊なプロセッサー。 GPU は、並列処理機能により、機械学習で頻繁に使用されます。 アクセラレーターも参照のこと。
接地
結果の精度を向上させるための情報を大規模な言語モデルに提供する。
H
HAP検出(HAP検出)
- ユーザーによって投稿されたプロンプトとAIモデルによって生成された回答の両方において、憎悪、虐待、冒涜を検出し、フィルタリングする能力。
HAP検出器
- ヘイトスピーチ、罵詈雑言、冒涜など、有害な可能性のあるコンテンツを基礎モデルの出力と入力から除去する文分類器。
ホールドアウト・セット
トレーニング・セットと検証セットの両方から意図的に除外され、表示されていないデータに対する最終モデルのパフォーマンスのバイアスのない評価として機能する、ラベル付きデータのセット。
人間の監督
AI システムによって行われた意思決定のレビューに人間が関与することで、意思決定の自律性と説明責任を実現します。
ハイパーパラメーター
機械学習において、モデルの精度を向上させる方法として、学習前に値が設定されるパラメーター。
I
イメージ
一連のライブラリーが含まれるソフトウェア・パッケージ。
推論
予測やタスクの解決を行うために、学習させたAIモデルにライブデータを通すプロセス。
取り込む
- 知識のベースを作成する目的でデータをシステムにフィードすること。
- 大量のリアルタイム・データをデータベースに継続的に追加すること。
洞察
何かについての正確で深い理解。 コグニティブ分析を使用して洞察を引き出し、現在のスナップショットと顧客の行動や態度の予測を提供します。
インテント
質問への回答や請求書の支払いの処理など、チャットボットへのお客様の入力によって表現される目的または目標。
J
ジョブ
別個に実行可能な作業単位。
K
知識ベース
コーパスを参照。
L
ラベル付きデータ
機械学習モデルのトレーニングに使用できるように、コンテキストまたは意味を追加するためのラベルが割り当てられた生データ。 例えば、モデルの入力と出力のコンテキストを提供するために、数値に郵便番号または年齢のラベルを付けることができます。
大規模言語モデル(LLM)
大量のテキストを使用してトレーニングされた、多数のパラメーターを持つ言語モデル。
リネージュ
- 複数のアセットを通過するデータのフローの履歴。
- アセットに対して実行されたイベントの履歴。
LLM
大規模言語モデルを参照。
論理モデル (logical model)
ビジネス・ドメインに関連するデータ・オブジェクトの論理表現。
M
機械学習 (ML) (machine learning (ML))
人工知能 (AI) とコンピューター・サイエンスの分野の 1 つで、データとアルゴリズムを使用して人間の学習方法を模倣し、AI モデルの精度を徐々に向上させることに重点を置いています。
機械学習フレームワーク (machine learning framework)
モデルの学習およびデプロイのためのライブラリーおよびランタイム。
機械学習モデル (machine learning model)
新しいデータを分析し、そこから学習するために使用できるアルゴリズムを開発するために、一連のデータに基づいてトレーニングされる AI モデル。
マスク
データ・セットの列内の機密データ値を置き換えること。 マスキング方式は、データ・ユーティリティーおよびプライバシーにおいて、参照整合性を保持する類似のフォーマット済み置換値を提供することから、列全体に同じ置換値を提供することまで、さまざまです。
マスキング・フロー
永続的にマスクされたデータのコピーを生成するフロー。
マスター・データ
- モデルのトレーニングでは、同じモデル上の複数のジョブで同じままになっているが、必要に応じて変更できる参照データ。
- Match 360では、異種ソースからのデータの統合ビュー。
マスターデータ実体
人物や組織など、同じ実世界の実体を表すとマッチングアルゴリズムが判断したレコードの構成。 各エンティティには、マッチング・アルゴリズムがリンクした1つまたは複数のメンバー・レコードが含まれる。
数理計画法 (mathematical programming (MP))
Decision Optimization 問題のモデル化および解決のために使用される、数学またはオペレーションズ・リサーチの分野の 1 つ。 これには、線形計画法、整数計画法、混合整数計画法、および非線形計画法が含まれる。
メタデータのインポート
データ資産に関連付けられたメタデータ (データ資産のリネージュを記述するプロセス・メタデータ、およびデータ資産の構造を記述する技術メタデータを含む) をインポートする方式。
調整不良
AI システムが達成するために最適化されている目標または動作と、人間のユーザーまたは設計者の真の (多くの場合複雑な) 目標との間の矛盾
ML
MLOps
- 生産機械学習 (またはディープ・ラーニング) ライフサイクルの管理を支援する、データ・サイエンティストと運用専門家のコラボレーションのためのプラクティス。 MLOps は、自動化を強化し、生産 ML の品質を向上させると同時に、ビジネス要件や規制要件にも重点を置くことを目指しています。 これには、モデルの開発、トレーニング、検証、デプロイメント、モニター、および管理が含まれ、CI/CD などのメソッドを使用します。
- 機械学習モデルを開発から実動に移す方法論。
モデル
- 機械学習のコンテキストでは、予測または意思決定を提供するために特定のデータ・セットで学習およびテストが行われた、一連の関数およびアルゴリズム。
- Decision Optimization では、さまざまなデータ・セットを使用して CPLEX 最適化エンジンで解決できる問題の数学的定式化。
モデルの設計
Decision Optimization では、決定変数のリスト、最大化または最小化される 1 つ以上の目的関数、および満たす必要のあるいくつかの制約として表される、モデルの数学的定式化。
ModelOps
トレーニング、デプロイメント、スコアリング、評価、リトレーニング、更新など、AI モデルのライフサイクル全体を管理するための方法。
生産期間
N
自然言語
モデルを定式化するための (英語の) 自然人間言語に類似したモデル作成構文。
自然言語処理 (NLP) (natural language processing (NLP))
人間の言語に対するコンピューターの理解能力を向上させることを目的として自然言語の処理や操作に特有の問題を研究する、人工知能および言語学の 1 分野。
自然言語処理ライブラリー
構文分析のための基本的な自然言語処理機能、およびさまざまなテキスト処理タスクのためのすぐに使用可能な事前トレーニング済みモデルを提供するライブラリー。
ニューラル・ネットワーク
抽象化された脳細胞をシミュレートする複雑な数式を使用してケースを予測または分類するための数学モデル。 ニューラル・ネットワークの学習は、観測された多数のケースを一度に 1 つずつ提示し、ニューラル・ネットワークがタスクを学習するまで繰り返し自己更新できるようにすることで行われる。
NLP
ノード
ストリームまたはフロー内のデータ操作のグラフィカル表現。 ノードのタイプによって、ノードによって実行される操作のタイプを示す形状が異なる。
ノートブック
実行可能コード、そのコードの説明テキスト、および実行されるコードの結果が記載される対話式ドキュメント。
Notebook のカーネル
コードを実行し、計算結果を返すノートブック・エディターの一部。
O
難読化
列内のデータを、元の形式と一致する類似の形式の値で置き換えること。 マスキングの形式の 1 つ。
目的関数
Decision Optimization およびオペレーションズ・リサーチにおいて、問題の他の制約を満たしながら最適化 (つまり、最小化または最大化のいずれか) する式。
オブジェクト・ストレージ
クラウド内で一般的に使用されるデータ保管方法の 1 つであり、ファイル階層を使用せずに、すべてのオブジェクトを同じレベルに保管する、ストレージ・プールまたはリポジトリーにデータが個別ユニットまたはオブジェクトとして保管される。
オンライン・デプロイメント (online deployment)
リアルタイムでオンラインで予測を生成するために、Web サービスとして API エンドポイントを介してモデルまたは Python コード・デプロイメントにアクセスする方法。
オントロジー
関心のある領域に存在し得るオブジェクト、概念、およびその他のエンティティーと、それらの間の関係を表現するための明示的な形式の仕様。
運用アセット (operational asset)
ツールまたはジョブ内でコードを実行する資産。
OPL モデル (OPL model)
OPL モデル作成言語で表されるモデルの定式。
最適解
オペレーションズ・リサーチにおいて、目的関数 (線形または 2 次のいずれか) を最適化し、問題の他のすべての制約を満たす問題の解。
最適化
課せられた制約と制限を尊重しながら、厳密に定義された問題に対する最も適切な解を見つけるプロセス。 例えば、リソースの割り振り方法を決定したり、多数の代替手段のセットから最適なエレメントまたは組み合わせを見つける方法を決定したりします。
オーケストレーション
機械学習モデルのトレーニング、実行、デプロイ、テスト、および評価を行うことができ、自動化を使用してシステムを調整する (多くの場合、マイクロサービスを使用する) エンドツーエンド・フローを作成するプロセス。
P
ペア・レビュー
データ・スチュワード・ユーザーがレコードを比較し、一致するかどうかを判断するプロセス。 ペア・レビューの結果は、どのレコードをマスター・データ・エンティティにマッチさせるかを決定するマッチング・アルゴリズムを訓練する。
パラメーター
モデルの内部にあり、値が推定されるかデータから学習される、モデルの構成可能部分。 パラメーターは、モデルが出力を正確に予測するのに役立つように、トレーニング・プロセス中に調整されるモデルの側面です。 モデルのパフォーマンスと予測精度は、これらのパラメーターの値に大きく依存します。
通話者
統合学習において、共通モデルのトレーニングのためにデータを提供するエンティティー。 データの移動や結合は行われないが、各パーティーは統合トレーニングのメリットを享受できる。
ペイロード (payload)
スコア、予測、または解決策を取得するためにデプロイメントに渡されるデータ。
ペイロード・ロギング
ビジネス・アプリケーションにおける AI の進行中の正常性をモニターするための、ペイロード・データとデプロイメント出力のキャプチャー。
物理モデル
データの物理的な構造と関係の定義。
pipeline
- Watson Pipelinesでは、アセットの作成から配備までのエンドツーエンドのフローを実現する。
- AutoAI,候補モデル。
パイプライン・リーダーボード (pipeline leaderboard)
AutoAI,では、パイプラインとして自動生成された候補モデルのリストを、指定された基準に従ってランク付けして表示する表。
プレースホルダー
値で置き換えられるフィールドまたは変数。
policy
- 現在の状態に基づいて次のアクションを決定するためにエージェントが従う戦略またはルール。
- データ・アセットへのアクセスを制御するか、データ・アセット内の機密データを匿名化することにより、データを保護する一連のルール。
- 1 つ以上のデータ保護ルールおよびガバナンス・ルールから成るガバナンス成果物。
予測分析
将来の可能性および傾向の予測に関係するビジネス・プロセスおよび関連する一連のテクノロジー。 予測分析では、確率、統計、機械学習、人工知能などの多様な分野をビジネス上の問題に適用して、特定の状況に最適なアクションを見つけます。 「 データ・マイニング (data Mining)」も参照。
事前トレーニングされたモデル
特定のタスクを実行するために、以前に大規模なデータ・セットについてトレーニングされた AI モデル。 モデルを最初から作成する代わりに、事前にトレーニングされたモデルが使用されます。
1 次カテゴリー
データガバナンスの場合、ガバナンス・アーティファクトを含むカテゴリー。 カテゴリーは、ユーザーのガバナンス成果物を整理するフォルダーやディレクトリーに類似する。
プライバシー
個人に関する情報が無許可アクセスや不適切な使用から保護されていることの保証。
プロファイル
データのテキスト・コンテンツに関して生成されるメタデータと統計。
プロジェクト
データおよびその他のアセットを処理するためのコラボレーション・ワークスペース。
プルーニング
決定木やニューラルネットワークを単純化、縮小、トリミングするプロセス。 これは、重要度の低いノードやレイヤーを削除し、複雑さを軽減することでオーバーフィッティングを防ぎ、予測力を維持しながらモデルの汎化を向上させる。
publish
カタログにアセットをコピーすること。
Python
データ・サイエンスと AI で使用されるプログラミング言語。
Python DOcplex モデル (Python DOcplex model)
Python で表されるモデルの定式。
Python 関数
実動のモデルをサポートする Python コードを含む関数。
Q
品質ルール (quality rule)
品質標準を満たすためにデータ・レコードに必要な 1 つ以上の条件。 データ品質分析中に、データ・レコードはこれらの条件に照らして検査されます。 ルールも参照のこと。
量子化
推論を高速化し、GPUメモリの必要量を削減するために、基礎モデルの重みを圧縮する方法。
R
R
さまざまな分析、統計、およびグラフィカルの機能と技法を提供する、データ・サイエンスおよび AI で使用される拡張可能なスクリプト言語。
読み取り
データを操作または分析するために、データをアプリケーションにコピーすること。
編集
列内のすべてのデータ値を同じストリングで置き換えて、機密性の高い値、データ形式、および値の間の関係を非表示にします。 マスキングの一種。
参照データ・セット (reference data set)
特定のタイプの列の値を定義するガバナンス成果物。
精製
データのクレンジングおよびシェーピングを行うこと。
リインフォースメント・ラーニング
報酬信号を最大化するために環境内で順次意思決定を行うことをエージェントが学習する機械学習技法。 試行錯誤学習に触発され、担当者は環境と対話し、フィードバックを受け取り、最適なポリシーを達成するためにアクションを調整します。
報酬
エージェント(通常は強化学習エージェント)を導くために使用される信号で、意思決定の良し悪しに関するフィードバックを提供する
ルール
データを分析または保護するための情報、基準、またはロジックを含む成果物。 データ保護規則、データ品質規則、ガバナンス規則、品質規則、属性構成規則も参照のこと。
ランタイム環境
ノートブックなどのツールまたはジョブを実行するために使用される、事前定義またはカスタムのハードウェアおよびソフトウェア構成。
S
スコアリング
- 機械学習では、予測される結果の信頼度を測定するプロセス。
- 入力 ID の属性が既存のエンティティーの属性とどの程度一致しているかを計算するプロセス。
スクリプト
実動のモデルをサポートする Python または R スクリプトを含むファイル。
2 次カテゴリー (secondary category)
ガバナンス成果物を参照するオプションのカテゴリー。
自己注意
入力データ自体からの情報を使用して、出力の生成時に入力のどの部分にフォーカスするかを決定するアテンション・メカニズム。
自己管理学習
入力シーケンス内のトークンをマスキングしてからそれらを予測しようとすることにより、ラベルなしデータからモデルが学習する機械学習トレーニング方式。 例えば、「I like ________ sprouts」などです。
セマンティック検索
言語分析と文脈分析を組み込んだキーワード検索。 セマンティック検索では、クエリの意図は1つ以上の指定子を用いて指定される。 例えば、"Bush "という人物を指定することが可能であり、そのようなクエリは、庭に生えている茂みの種類に関する結果を返すのではなく、Bushという人物に関する結果だけを返すことになる。
重要データ
不正なアクセスや開示から保護されるべき情報を含むデータ。 機微(センシティブ)データのカテゴリーには、保護された健康情報、個人を特定できる情報、企業秘密、財務結果などがある。
センチメント分析
映画の批評が肯定的か否定的かを判断するなど、テキストに表現された感情や情緒を調べること。
形状
列のフィルタリング、ソート、削除、表の結合、および計算、データ・グループ化、階層化などの操作の実行により、データをカスタマイズすること。
スモールデータ
人間がアクセスでき、理解できるデータ。 「 構造化データ (structured data)」も参照。
SQL プッシュ バック
SPSS Modeler で、 SQL コードを使用してデータベースで直接さまざまなデータ準備操作やマイニング操作を実行するプロセス。
構造化データ
レコードまたはファイル内の固定フィールドにあるデータ。 構造化データの例としては、リレーショナル・データベースやスプレッドシートなどがある。 「 非構造化データ (unstructured data)」、「 小規模データ (small data)」も参照。
構造化情報
構造化リソース (検索エンジン索引、データベース、知識ベースなど) に保管されている項目。
置換文字
列内のデータを、元の形式と一致しないが、参照の整合性を保持する値で置き換えること。
スーパーノード
複数のノードを 1 つにカプセル化することでデータ・ストリームを縮小させる SPSS Modeler ノード。
教師あり学習
新規データの予測を行うために、ラベル付きデータ・セットでモデルがトレーニングされる機械学習トレーニング方式。
T
テキスト分類
テキストを自動的に識別し、指定されたカテゴリーに分類するモデル。
時系列
定期的なポイント・イン・タイムにおける変数の値のセット。
学習済みモデル (trained model)
実際のデータを使用してトレーニングされ、新しいデータが提示されたときに結果を予測するためにデプロイする準備ができているモデル。
トレーニング
ソース・データのサブセットが含まれる、モデル作成の初期段階。 モデルは、既知のデータから例を挙げて学習します。 これ以後、結果が既に分かっている別のサブセットと対照するモデル・テストが可能。
研修データ
機械学習モデルの学習に使用されるデータの集まり。
トレーニング・セット
機械学習モデルを例とそれに対応するラベルに公開することによって機械学習モデルをトレーニングするために使用されるラベル付きデータのセット。これにより、モデルはパターンを学習し、予測を行うことができます。
転移学習
トレーニングされたモデルがまったく新しい問題に適用される機械学習戦略。
変圧器
位置エンコーディングと自己注意メカニズムを使用して、一連のトークンの次のトークンを予測するニューラルネットワークアーキテクチャ。
透明
AI システムがどのように設計および開発されたかについて、利害関係者と適切な情報を共有する。 この情報の例としては、どのようなデータが収集され、どのように使用および保管され、誰がアクセスできるか、正確度、頑強性、およびバイアスについてのテスト結果などがあります。
チューリング・テスト
アラン・チューリング (Alan Turing) が 1950 年に提唱した、人間と同等または区別できない知的行動を示す機械の能力のテスト。
U
無制限問題 (unbounded problem)
存在する解の数が無限であり、目的関数が無限大までの値をとることができる Decision Optimization 問題。 無制限問題は、多くの場合、モデルの定式化で制約が欠落していることが原因で発生します。
非構造化データ
固定のフィールドにではなく、構造化されていない形式で保管されるデータ。 ワード・プロセッシング文書のデータは、非構造化データの一例である。 「 構造化データ (structured data)」も参照。
非構造化情報
自然言語テキスト文書など、固定された場所に含まれていないデータ。
教師なし学習
モデルにラベル付きデータが提供されず、データ内のパターンまたは構造を単独で検出する必要がある機械学習トレーニング方式。
V
検証セット
トレーニング・プロセス中に機械学習モデルのパフォーマンスと汎化能力を評価するために使用されるラベル付きデータの別個のセットで、ハイパーパラメーター・チューニングおよびモデル選択を支援します。
視覚化
グラフ、図表、プロット、表、マップ、またはその他のデータ・ビジュアル表示。
W
ウェイト
ネットワークの層の中で入力データを変換するノードの係数。 重みは、AI モデルがトレーニングを通じて学習するパラメーターであり、モデルの予測の誤差を減らすために値を調整します。