データ資産間のキー関係を識別したり、列内の重複データまたは冗長データを識別したりするには、関係分析を実行します。
関係とは、関連情報を含むデータ資産間の関係です。 このような関係を作成するには、1 つのデータ資産のキー値が 1 つ以上の他のデータ資産のキー値に対応することを指定します。 これらの接続を識別することにより、データがどのように適合するかを調べることができます。
キー関係分析は、リレーショナル・データベース内の 2 つのデータ資産間に 1 対多の関係がある主キーと外部キーのペアを識別します。 主キーは、データ資産内の各レコードを一意的に識別する列または列のセットです。 外部キーは、別のデータ資産内の主キー列を参照する、1 つのデータ資産内の列または列セットです。 関係情報を使用して、データ資産を結合する方法を決定できます。
重複 とは、コンテンツが複数のソースから使用可能な場合です。 オーバーラップ分析は、1 つのデータ資産内または複数のデータ資産間で列値を比較することにより、データ資産内の同一または類似した構造を検索します。 したがって、オーバーラップ分析は、データが固有であるか類似しているか、およびデータがどの程度オーバーラップしている可能性があるかを判別するのに役立ちます。
関係分析の結果は累積されます。 分析を実行するたびに、分析によって新しい関係が追加されるか、以前の分析実行で識別された関係が更新されます。
前提条件
関係分析を実行するには、 DataStage サービスをデプロイする必要があります。
メタデータ・エンリッチメントの一部として実行されるすべての操作には、セキュアな許可のための資格情報が必要です。 通常、ユーザーの API キーは、このような長期実行操作を中断することなく実行するために使用されます。 キー関係分析またはオーバーラップ分析を実行しようとしたときに資格情報が使用できない場合は、API キーの作成を求めるプロンプトが出されます。 その後、その API キーがタスク資格情報として保存されます。 ユーザー API キーの管理を参照してください。
データ・ソースへの接続のいずれかがロックされている場合は、個人の資格情報を入力するように求められます。 この一回限りのステップでは、接続が永続的にアンロックされます。
最初にアセット・プロファイルを作成することなく、詳細な関係分析を実行できます。 ディープ・キーまたはオーバーラップ関係分析は、列値の頻度分布などのプロファイル情報に依存しません。 代わりに、列データが直接分析されます。
キー関係分析の実行
キー関係分析を実行して、単一列のキー関係または複合キー関係を識別します。 分析により、潜在的な関係候補が判別され、潜在的な関係ごとの信頼性に基づいてデータ資産間の最適な関係が提案されます。 関係の信頼性を計算するために、以下の情報が考慮されます。
- 外部キーに存在する主キーからの値の数
- 外部キー内の孤児値の数
- 主キーと外部キーとの間の列の名前の類似性
- データ資産内での列の位置。
以下のように、異なるデータ・タイプの列の間の関係を検出できます。
- データ・タイプ BIGINT および SMALLINT
- データ・タイプ BIGINT および DECIMAL
- データ・タイプ BIGINT および CHAR
- データ・タイプ BIGINT および VARCHAR
- データ・タイプ DECIMAL および VARCHAR
- データ・タイプ CHAR および VARCHAR
- データ・タイプ VARCHAR および LONG VARCHAR
定義された提案しきい値を超える信頼性を持つペアは、アセットの候補関係としてリストされます。 関係の自動割り当てを有効にすることもできます。 閾値の詳細については、以下を参照してください。重要な関係。
このタイプの関係分析では、列名とプロファイル・データの類似性について、選択されたデータ資産内の単一の列が検査されます。 詳細な分析を実行しない場合は、デフォルトのエンリッチメント設定で設定されたしきい値が適用されます。
詳細な分析を実行することを選択した場合は、主キーと外部キーを識別するために実際の列データが検査されます。 複合キー関係を識別するか、データ資産全体ではなくデータのサンプルに対して分析を実行するかを選択することもできます。 詳細な分析の場合、エンリッチメント設定で定義されたしきい値は有効になりません。 代わりに、個々の分析実行ごとにしきい値を設定できます。
詳細な分析は、デフォルトのキー関係分析よりも完了までに時間がかかります。 複合キーの識別も選択すると、処理時間が大幅に増加します。 分析は数日以上実行される可能性があります。 隣接する列のみが検査されます。 隣接する とは、列のデータ・タイプによってキー分析が許可されている場合、またはその間の列がキー分析が許可されていないためにその間の列がスキップされた場合に、その列のデータ・タイプが相互に隣接していることを意味します。
1 つ以上の資産に対してキー関係分析を実行するには、以下のようにします。
メタデータ・エンリッチ資産を開きます。
「アセット」 タブで、必要に応じてアセットを選択します。
ツールバーから 「エンリッチ」>「関係の識別」 を選択します。 デフォルトの分析タイプは 「キー」です。
このタイプの関係分析は、通常、選択したデータ資産内の複数の列に対して実行します。 デフォルトでは、複合キーの長さは 2 に設定されています。
詳細なキー関係分析では、実際の列データがチェックされるため、時間のかかるプロセスです。 データ資産全体ではなく、データのサンプルに対して分析を実行することもできます。
キー関係のデフォルトのエンリッチメント設定は有効になりません。 詳細な関係分析には、提案と自動割り当ての異なるデフォルト設定が適用されます。
- デフォルトの提案しきい値は 25% です。
- 関係の自動割り当てが有効になっています。 デフォルトの割り当てしきい値は 90% です。
個々の分析実行ごとにこれらのデフォルト設定を上書きできます。
データ資産内の単一列に対して浅いキー関係分析を実行するには、 「関係の設定」 エンリッチメント・オプションを使用できます。
「実行 (Run)」 をクリックします。
キー関係の割り当て、割り当て解除、または削除
キー関係分析が完了すると、ここで関係を表示および管理できます。
資産の詳細パネルの 「キー」 タブに、候補の関係が検出された場合はプラス・アイコンが表示されます。 プラス・アイコンをクリックし、このアセットの推奨される関係を確認して、最適な関係を割り当てます。 この資産の関係を割り当て解除または削除することもできます。
エンリッチメント領域の 「キー関係の表示 (View key relationships)」 リンクがアクティブになります。 リンクをクリックすると、 「キー」 タブで検出されたすべてのキー関係のリストが表示されます。 推奨された関係を確認して割り当てるか、関係を割り当て解除してください。 推奨された関係および割り当てられた関係を削除することもできます。
割り当てられた 1 次キーとの関係のみを表示するには、 「1 次キー」でリストをフィルタリングします。
キー関係テーブルから、各キーの関係のグラフィカル・ビューを開いて、関係を確認および管理することもできます。 キーのオーバーフロー・メニューから 「ダイアグラムを開く」を選択するか、 「詳細の表示」 を選択して、サイド・パネルの 「ダイアグラムの表示」 をクリックします。
関係を割り当て解除すると、その状況は 「推奨」にリセットされます。 関係を削除すると、完全に削除されます。 分析を再実行すると、削除された関係が再度提案される場合があります。
オーバーラップ分析の実行
オーバーラップ分析を実行して、1 つ以上のデータ資産の列の重複データまたは潜在的に冗長なデータを識別します。
1 つ以上の資産に対してキー関係分析を実行するには、以下のようにします。
メタデータ・エンリッチ資産を開きます。
「アセット」 タブで、必要に応じてアセットを選択します。
ツールバーから 「エンリッチ」>「関係の識別」 を選択します。
分析タイプとして 「オーバーラップ」 を選択します。 オプションで、サンプリング設定を調整できます。 デフォルトでは、データ資産のすべてのレコードが分析されるため、時間がかかる可能性があります。 チェック・マークを付けるデータの割合を低くすることをお勧めします。 サンプル・サイズを小さくすると、サンプルに含まれるレコードがランダムに抽出されます。
デフォルトのエンリッチメント設定は有効になりません。 重複分析には、提案と自動割り当ての異なるデフォルト設定が適用されます。
- デフォルトの提案しきい値は 25% です。
- 関係の自動割り当てが有効になっています。 デフォルトの割り当てしきい値は 90% です。
個々の分析実行ごとにこれらのデフォルト設定を上書きできます。
オーバーラップ分析結果の検査
分析結果を表示して、列データがどのように関連しているかを判別します。
オーバーラップ関係を確認および管理するには、以下の手順を
エンリッチメント領域で 「キー関係の表示 (View key relationships)」 リンクをクリックします。 「オーバーラップ」 タブには、検出された関係ごとに以下の情報が表示されます。
- 基本資産と対応のある資産
- 関係の状況
- 個別値の最大数
- 共通列値の合計数とパーセンテージ
項目を展開すると、詳細情報が表示されます。
オーバーラップするデータを示す基本列とペアの列の名前
基本列と対になっている列のオーバーラップ・タイプ:
- 同じ
- 基本列とペア列の値は同じです。 両方のパーセンテージは 100% と 100% です。
- サブセット
- この列のすべての値はもう一方の列にありますが、もう一方の列にはさらに多くの値が含まれています。 最初の列のパーセンテージは 100% ですが、もう一方の列のパーセンテージは 100% 未満です。
- スーパーセット
- 他の列のすべての値はこの列にありますが、この列のすべての値が他の列にあるわけではありません。 もう一方の列のパーセンテージは 100% ですが、最初の列のパーセンテージは 100% 未満です。
- オーバーラップ
- 列内の一部の値がオーバーラップしていますが、いずれかの列のすべての値が共通しているわけではありません。 両方の割合が 100% を下回っています。
基本列の個別値の合計数、およびペアになっている列に共通する値の数とパーセンテージ
ペアになっている列の特殊値の合計数、および基本列に共通する値の数とパーセンテージ
必要に応じて関係を割り当てます。
ジョブ実行の詳細へのアクセス
サイド・パネルから一般的なメタデータ・エンリッチのジョブ詳細にアクセスできますが、関係分析ジョブを表示するには、プロジェクトの 「ジョブ」 タブに移動する必要があります。 ジョブのタイプは 「メタデータ・エンリッチメント資産のキー分析」です。 ジョブ名は、 metadata_enrichment_name (Relationship Detection) というパターンに従います。
もっと見る
親トピック: データ資産の強化