アセット・プロファイルには、アセット・コンテンツに関する生成されたメタデータと統計が含まれており、データ品質を向上させるために実行すべきアクションを理解するのに役立ちます。 プロファイルは、アセットの 「プロファイル」 ページで確認できます。
リレーショナル・データまたは構造化データを含むデータ資産のプロファイルを作成できます。
要件と制約事項
以下の状況では、アセットのプロファイルを表示できます。
個の必要なサービス
プロファイルを作成するには、 IBM Knowledge Catalog サービスが必要です。
必要な権限
役割によって、プロファイルとの対話方法が決まります。
- このページを表示するには、プロジェクトまたはカタログ内で任意の役割を持つことができます。
- プロファイルを作成または更新したり、プロジェクトでメタデータ・エンリッチメントを実行したりするには、プロジェクト内で 管理者 または 編集者 の役割を持っている必要があります。
- カタログ内でプロファイルを作成または更新するには、カタログ内で 管理者 役割を持っているか、 編集者 役割を持っていて、資産所有者または資産メンバーでなければなりません。
ワークスペース
アセット・プロファイルは、以下のワークスペースで表示できます。
- プロジェクト
- カタログ
資産タイプ
以下のタイプのアセットにはプロファイルがあります。
リレーショナル・データベースまたは非リレーショナル・データベースからデータ・ソースへの接続からのデータ資産 ( Cloudant を除く)
区分データ・セットからのデータ資産。区分データ・セットは複数のファイルで構成され、ローカル・ファイル・システムからアップロードされた単一のフォルダー、またはデータ・ソースへのファイル・ベースの接続によって表されます。
ローカル・ファイル・システムからアップロードされたファイルのデータ資産、またはデータ・ソースへのファイル・ベースの接続のデータ資産。形式は以下のとおりです:
- CSV
- XLS、XLSM、XLSX (ワークブックの最初のシートのみがプロファイルされます。)
- TSV
- Avro
- Parquet
ただし、以下のような状況などで、データ資産が構造化データ・ファイルを明示的に参照しない場合は、構造化データ・ファイルのプロファイルは作成されません。
- ファイルは、接続されたフォルダー資産内にあります。 接続されたフォルダー資産からアクセス可能なファイルは、資産として扱われず、プロファイルも作成されません。
- これらのファイルは、例えば .zip ファイルなどのアーカイブ・ファイル内にあります。 データ資産はアーカイブ・ファイルを参照します。圧縮ファイルのプロファイルは作成されません。
制限
Data Virtualization化とwatsonx.dataview 資産については、値の分布が誤って公開されるのを防ぐため、すべてのユーザーがプロファイリング結果へのアクセスを拒否されます。
プロファイルを作成する方法
アセット・プロファイルは、以下のようにさまざまな方法で作成できます。
管理対象カタログでは、データ資産がカタログに追加されると、個々のデータ資産のプロファイルが自動的に作成されます。ただし、以下の例外があります。
- カタログの自動プロファイル作成を無効にしました。
- 資産は、個人の資格情報を使用するように構成された接続から取得されます。
- アセットは、公開される前にメタデータ・エンリッチによってプロファイルが作成されました。 そのような資産には、資産とともにカタログに追加されたプロファイルが既にあります。
データ保護ルールが適用されていないプロジェクトおよびカタログでは、個々のデータ資産の プロファイルを手動で作成 できます。 資産のプロファイルが以前に作成されていない場合は、管理対象カタログでプロファイルを手動で作成することもできます。
プロジェクトでは、メタデータ・エンリッチ資産を作成して実行し、大規模なデータ資産セットのプロファイルを一度に作成することができます。 これらのアセット・プロファイルはプロジェクトで使用可能です。 エンリッチされた資産とそのプロファイルを任意のタイプのカタログに公開できます。 『メタデータ・エンリッチの管理』を参照してください。
1 つのアカウント内で、プロジェクトからカタログに資産を公開するとき、またはカタログからプロジェクトに資産を追加するときに、データ資産とともにプロファイル結果がコピーされます。 ただし、カタログとプロジェクトが異なるアカウントに属している場合、使用可能なデータ・クラスのセットが異なる可能性があるため、プロファイルはコピーされません。
プロジェクトまたはカタログの資産の 「プロファイル」 ページから、個々の資産プロファイルを更新できます。 メタデータ・エンリッチに含まれるデータ資産のプロファイルを手動で更新すると、プロファイルと分析の情報もそれぞれのエンリッチメント結果に反映されます。 新しいエンリッチ結果が公開されると、プロファイルも更新されます。
既存のプロファイルを更新するときに、プロファイルに含めるデータ・クラスを変更できます。 以前に列に割り当てられたデータ・クラスを除外すると、別のデータ・クラスが割り当てられていない限り、更新されたプロファイルには、それぞれの列について クラスが除外された (プロファイルから) が表示されます。 また、割り当てられたデータ・クラスにアクセスできない列には、 「クラスが除外されました (プロファイルから) (Class excluded (from profile))」 と表示されます。
プロファイル作成中に何が分析されますか?
プロジェクトまたはカタログの 「プロファイル」 ページからアセット・プロファイルを作成または更新すると、列が分析されます。
プロジェクトまたはカタログで単一の資産のプロファイルが作成される場合、デフォルトでは、最初の 5,000 行のデータに基づいてプロファイルが作成されます。 データ資産に 250 を超える列がある場合、プロファイルはデータの最初の 1,000 行に基づいて作成されます。 プロファイルがメタデータ・エンリッチによって作成される場合、サンプリングはメタデータ・エンリッチ設定によって決定されます。
データの構造と内容を識別して分類するために、分析には以下のタスクが含まれます。
- 各分析対象列のデータに関する統計を計算します。
- 列のデータ・タイプと、データ・タイプの分布を計算します。
- 列のデータ・フォーマットと、フォーマットの分布を計算します。
- データを分類し、列のデータ・クラス候補を計算します。
- 度数分布をキャプチャーします。
プロファイル情報
データ資産のプロファイルには、データ資産内の各列に関する情報が表示されます。
「プロファイル」 タブには、いくつかの一般情報と、分析結果の概要が表示されます。
プロファイルが作成された日時または最後に更新された日時。
分析された列と行の数。
各列の推定データ・クラスと、そのデータ・クラスが列全体に適用される信頼度。 手動で割り当てられたデータクラスについては、信頼度は表示されない。
データ・クラス は、列内のデータの内容 (例えば、市区町村、アカウント番号、クレジット・カード番号など) を記述します。 データ・クラスは、 データをマスク したり、データ保護ルールを使用して データ資産へのアクセスを制限 したりするために使用できます。 データクラスは、カタログのアセットの概要ページと、カタログまたはプロジェクトのプロファイルページに、列ごとに表示されます。
一致、不一致、欠落データの詳細については、データ品質ページまたは列プロファイルの情報を確認してください。
列で識別されたすべての値の度数分布。
各列のデータに関する統計 (個別値の数、固有値のパーセンテージ、最小値、最大値、平均値、および場合によってはその列の標準偏差など)。 distinct 値の数は、列のサンプル・データに存在する異なる値の数を示します。 固有 値のパーセンテージは、列に 1 回だけ出現する個別値のパーセンテージを示します。
列のデータ・フォーマットに応じて、統計は若干異なります。 例えば、整数データ・タイプの列の統計には最小値、最大値、平均値、および標準偏差の値があり、ストリング・データ・タイプの列の統計には最小長、最大長、および平均長の値があります。
列名をクリックすると、列データに関する詳細情報が表示されます。 「 詳細なプロファイル作成結果」を参照してください。
データ・ソース内の元のデータが一時的または永続的に使用できない場合でも、データ資産がカタログまたはプロジェクトに存在する間、最新の資産プロファイルが保持されて表示されます。 プロファイル情報を削除するには、以下のオプションがあります。
- 「プロファイル」 ページでプロファイルを手動で削除できます。 資産がいずれかのデータ保護ルールに従っている場合、このオプションは使用できません。
- プロジェクトまたはカタログからデータ資産を手動で削除できます。
- メタデータのインポートによって資産が追加された場合は、適切な 「再インポート時に削除」 オプション・セットを使用してメタデータのインポートを再実行できます。
もっと見る
親トピック: アセット・タイプおよびプロパティー