データ資産のプロファイル
アセット・プロファイルには、アセット・コンテンツに関する生成されたメタデータと統計が含まれており、データ品質を向上させるために実行すべきアクションを理解するのに役立ちます。 プロファイルは、アセットの 「プロファイル」 ページで確認できます。
リレーショナル・データまたは構造化データを含むデータ資産のプロファイルを作成できます。
要件と制約事項
以下の状況では、アセットのプロファイルを表示できます。
- 必須のサービス
- Watson Knowledge Catalog サービス。
- 必要な権限
- このページを表示するには、プロジェクトまたはカタログで任意の役割を持つことができます。
- プロファイルを作成または更新したり、メタデータ・エンリッチを実行したりするには、プロジェクトまたはカタログ内で Admin 役割または Editor 役割を持っている必要があります。
- ワークスペース
- アセット・プロファイルは、以下のワークスペースで表示できます。
- Projects
- カタログ
- アセットのタイプ
- 以下のタイプのアセットにはプロファイルがあります。
リレーショナル・データベースまたは非リレーショナル・データベースからデータ・ソースへの接続からのデータ資産 ( Cloudant を除く)
区分データ・セットからのデータ資産。区分データ・セットは複数のファイルで構成され、ローカル・ファイル・システムからアップロードされた単一のフォルダー、またはデータ・ソースへのファイル・ベースの接続によって表されます。
ローカル・ファイル・システムからアップロードされたファイルのデータ資産、またはデータ・ソースへのファイル・ベースの接続のデータ資産。形式は以下のとおりです:
- CSV
- XLS、XLSM、XLSX (ワークブックの最初のシートのみがプロファイルされます。)
- TSV
- Avro
- Parquet
ただし、以下のような状況などで、データ資産が構造化データ・ファイルを明示的に参照しない場合は、構造化データ・ファイルのプロファイルは作成されません。
- ファイルは、接続されたフォルダー資産内にあります。 接続されたフォルダー資産からアクセス可能なファイルは、資産として扱われず、プロファイルも作成されません。
- ファイルがアーカイブ・ファイル内にある。 データ資産はアーカイブ・ファイルを参照します。圧縮ファイルのプロファイルは作成されません。
非構造化データを含む文書を含むデータ資産。 最大 100 MB のサイズの文書のプロファイルを作成できます。 これより大きい文書のプロファイルは作成されません。 以下のタイプの文書のプロファイルを作成できます。
- 以下の MIME タイプの Microsoft Word 文書:
- application/msword
- application/vnd.openxmlformats-officedocument.wordprocessingml.document
- MIME タイプが application/pdf の PDF 文書
- MIME タイプが text/plain のプレーン・テキスト文書
- MIME タイプが text/html の HTML 文書
- 以下の MIME タイプの Microsoft Word 文書:
プロファイルを作成する方法
リレーショナル・データと構造化データを持つデータ資産のプロファイルと、非構造化データを持つデータ資産のプロファイルは、異なる方法で作成されます。
リレーショナル・データおよび構造化データ
構造化データまたはリレーショナル・データを含むデータ資産のプロファイルは、以下のようにさまざまな方法で作成できます。
管理対象カタログでは、データ資産がカタログに追加されると、個々のデータ資産のプロファイルが自動的に作成されます。ただし、以下の例外があります。
- カタログの自動プロファイル作成を無効にしました。
- 資産は、個人の資格情報を使用するように構成された接続から取得されます。
- アセットは、公開される前にメタデータ・エンリッチによってプロファイルが作成されました。 そのような資産には、資産とともにカタログに追加されたプロファイルが既にあります。
データ保護ルールが適用されていないプロジェクトおよびカタログでは、個々のデータ資産の プロファイルを手動で作成 できます。 資産のプロファイルが以前に作成されていない場合は、管理対象カタログでプロファイルを手動で作成することもできます。
プロジェクトでは、メタデータ・エンリッチ資産を作成して実行し、大規模なデータ資産セットのプロファイルを一度に作成することができます。 これらのアセット・プロファイルはプロジェクトで使用可能です。 エンリッチされた資産とそのプロファイルを任意のタイプのカタログに公開できます。 『メタデータ・エンリッチの管理』を参照してください。
1 つのアカウント内で、プロジェクトからカタログに資産を公開するとき、またはカタログからプロジェクトに資産を追加するときに、データ資産とともにプロファイル結果がコピーされます。 ただし、カタログとプロジェクトが異なるアカウントに属している場合、使用可能なデータ・クラスのセットが異なる可能性があるため、プロファイルはコピーされません。
プロジェクトまたはカタログの資産の 「プロファイル」 ページから、個々の資産プロファイルを更新できます。 メタデータ・エンリッチに含まれるデータ資産のプロファイルを手動で更新すると、プロファイルと分析の情報もそれぞれのエンリッチメント結果に反映されます。 新しいエンリッチ結果が公開されると、プロファイルも更新されます。
既存のプロファイルを更新するときに、プロファイルに含めるデータ・クラスを変更できます。 以前に列に割り当てられたデータ・クラスを除外すると、別のデータ・クラスが割り当てられていない限り、更新されたプロファイルには、それぞれの列について クラスが除外された (プロファイルから) が表示されます。 また、割り当てられたデータ・クラスにアクセスできない列には、 「クラスが除外されました (プロファイルから) (Class excluded (from profile))」 と表示されます。
非構造化データ
非構造化データ資産のプロファイルは、常に自動的に作成されます。 ただし、データ資産をプロジェクトまたはカタログに直接アップロードする必要があります。 接続された資産として追加された非構造化文書のプロファイルは作成されません。
プロファイル作成中に何が分析されますか?
リレーショナル・データと構造化データを含むデータ資産の分析と、非構造化データを含むデータ資産のプロファイルの分析は、異なる方法で行われます。
リレーショナル・データおよび構造化データ
プロジェクトまたはカタログの 「プロファイル」 ページから、構造化データまたはリレーショナル・データを含むデータ資産のプロファイルを作成または更新すると、列とデータ品質が分析されます。
プロジェクトまたはカタログで単一の資産のプロファイルが作成される場合、デフォルトでは、最初の 5,000 行のデータに基づいてプロファイルが作成されます。 データ資産に 250 を超える列がある場合、プロファイルはデータの最初の 1,000 行に基づいて作成されます。 プロファイルがメタデータ・エンリッチによって作成される場合、サンプリングはメタデータ・エンリッチ設定によって決定されます。
データの構造と内容を識別して分類するために、分析には以下のタスクが含まれます。
- 各分析対象列のデータに関する統計を計算します。
- 列のデータ・タイプと、データ・タイプの分布を計算します。
- 列のデータ・フォーマットと、フォーマットの分布を計算します。
- データを分類し、列のデータ・クラス候補を計算します。
- 度数分布をキャプチャーします。
不整合と異常を検出し、データの全体的な品質を評価するために、分析には以下のタスクが含まれます。
データ資産に対してメタデータ・エンリッチを実行する場合、エンリッチ・オプション 「プロファイル・データ」 にはデータ品質分析は含まれません。 メタデータ・エンリッチの目的に関する情報を参照してください。
非構造化データ
非構造化データ資産のプロファイルを作成する際には、プレーン・テキストが文書から抽出され、抽出されたテキストの最初の 5 MB が分析されます。 プロファイル作成時に、特定のタイプの情報を識別するために、抽出された文書コンテンツにいくつかのパターンが適用されます。 このような情報を検出するために、情報の構造、近隣のコンテキスト、抽出されたコンテンツ全体、および文書が記述されている言語が考慮されます。 その後、結果は事前定義データ・クラスにマップされます。 例えば、銀行口座番号が検出されると、データ・クラス IBAN が文書に割り当てられます。 あるいは、文書に都市名が含まれている場合は、データ・クラス「都市」が割り当てられます。
ただし、非構造化データに適用されるどの検出ロジックも 100% 正確であるとは期待できないため、誤った分類になる可能性があることを常に念頭においてください。
割り当てられたデータ・クラスを使用して、ポリシーによって非構造化データ資産内のデータへのアクセスをブロックしたり、データをマスクしたりすることはできません。
プロファイル情報
プロファイルの内容は、データ資産にリレーショナル・データ、構造化データ、非構造化データのいずれが含まれているかによって異なります。
リレーショナル・データおよび構造化データ
リレーショナル・データか構造化データが含まれるデータ資産のプロファイルには、データ・セット内の各列に関する情報が表示されます。
「プロファイル」 タブには、いくつかの一般情報と、分析結果の概要が表示されます。
プロファイルが作成された日時または最後に更新された日時。
分析された列と行の数。
データ資産の全体的な品質スコアと、各列の個別の品質スコア。 データ資産内の個々の列の データ品質スコア は、 品質ディメンションに基づいて計算されます。 データ資産全体の全体的な品質スコアは、すべての列のスコアの平均です。 データ品質分析を行わずにメタデータ・エンリッチによって生成されたプロファイルには、ダッシュ (-) が表示されます。
品質上の問題が複数あるレコードによってデータ品質スコアが必要以上に低下しないように、複数の問題が特定された値が、問題が 1 つだけの値よりも品質スコアの計算時に重視されることはありません。
各列の推論されたデータ・クラス、およびそのデータ・クラスの信頼性。 データ・クラス は、列内のデータの内容 (例えば、市区町村、アカウント番号、クレジット・カード番号など) を記述します。 データ・クラスは、 データをマスク したり、データ保護ルールを使用して データ資産へのアクセスを制限 したりするために使用できます。 データ・クラスは、資産の「概要」ページおよび「プロファイル」ページの各列に表示されます。
データ・クラスの信頼性とは、そのデータ・クラスと一致する null 以外の値の割合です。
列レベルで検出されて割り当てられる、より汎用的な ID であるデータ・クラスがあります。 このようなデータ・クラスは、より具体的なデータ・クラスを値レベルで識別できない場合に割り当てられます。 汎用 ID の信頼性は常に 100% であり、これには、コード、日付、ID、標識、品質、およびテキストの各データ・クラスがあります。
各列のマッチング、不一致、または欠落データのパーセンテージ。
列で識別されたすべての値の度数分布。
各列のデータに関する統計 (個別値の数、固有値のパーセンテージ、最小値、最大値、平均値、および場合によってはその列の標準偏差など)。 distinct 値の数は、列のサンプル・データに存在する異なる値の数を示します。 固有 値のパーセンテージは、列に 1 回だけ出現する個別値のパーセンテージを示します。
列のデータ・フォーマットに応じて、統計は若干異なります。 例えば、整数データ・タイプの列の統計には最小値、最大値、平均値、および標準偏差の値があり、ストリング・データ・タイプの列の統計には最小長、最大長、および平均長の値があります。
列名をクリックすると、列データに関する詳細情報が表示されます。 「 詳細なプロファイル作成結果」を参照してください。
非構造化データ
非構造化データが含まれている文書が入っているデータ資産のプロファイルでは、割り当てられたデータ・クラス、値の統計、およびメタデータ (言語、ファイル・サイズ、ワード数など) といった、リスクについて文書コンテンツを大まかに評価できる情報が示されます。
もっと見る
親トピック: アセット・タイプおよびプロパティー