資産のプロファイル
データ資産のプロファイルには、その内容に関して生成されたメタデータと統計情報が含まれています。 プロファイルは、カタログ内またはプロジェクト内の資産の プロファイル ページで確認できます。 すべてのカタログ・メンバーまたはプロジェクト・メンバーは、データ資産のプロファイルを表示できます。
データ資産を表示するときにプロファイルを表示するには、Watson Knowledge Catalog が必要です。
プロファイルの内容は、以下のように、データのタイプに応じて異なります。
1 つのアカウント内で、プロジェクトからカタログに資産を公開するとき、またはカタログからプロジェクトに資産を追加するときに、プロファイル結果がデータ資産とともにコピーされます。 ただし、カタログとプロジェクトが異なるアカウントに属している場合、使用可能なデータ・クラスのセットが異なる可能性があるため、構造化データ資産のプロファイルはコピーされません。 構造化データ資産を管理対象カタログに公開すると、新規プロファイルが自動的に作成されます。 構造化データ資産を管理対象外のカタログに公開する場合は、新規プロファイルを手動で作成する必要があります。
リレーショナル・データおよび構造化データ
リレーショナル・データか構造化データが含まれるデータ資産のプロファイルには、データ・セット内の各列に関する情報が表示されます。 プロジェクトまたはカタログで単一の資産のプロファイルが作成される場合、デフォルトでは、最初の 5,000 行のデータに基づいてプロファイルが作成されます。 データ資産に 250 を超える列がある場合、プロファイルはデータの最初の 1,000 行に基づいて作成されます。 プロファイルがメタデータ・エンリッチによって作成される場合、サンプリングはメタデータ・エンリッチ設定によって決定されます。 プロファイル作成時に、列およびデータ品質が分析されます。
プロファイルでは、以下の情報が示されます。
データ資産の全体的な品質スコアと、各列の個別の品質スコア。 データ資産内の個々の列のデータ品質スコアは、品質ディメンションに基づいて計算されます。 データ資産全体の全体的な品質スコアは、すべての列のスコアの平均です。 データ品質分析を行わずにメタデータ・エンリッチによって生成されたプロファイルには、ダッシュ (-) が表示されます。
各列の推論されたデータ・クラス、およびそのデータ・クラスの信頼性。 データ・クラスは、列のデータの内容 (市町村、アカウント番号、クレジット・カード番号など) を記述します。 データ・クラスは、 データをマスク したり、データ保護ルールを使用して データ資産へのアクセスを制限 したりするために使用できます。 データ・クラスは、資産の 概要 ページおよび プロファイル ページの各列に表示されます。
データ・クラスの信頼性とは、そのデータ・クラスと一致する null 以外の値の割合です。
列レベルで検出されて割り当てられる、より汎用的な ID であるデータ・クラスがあります。 このようなデータ・クラスは、より具体的なデータ・クラスを値レベルで識別できない場合に割り当てられます。 汎用 ID の信頼性は常に 100% であり、これには、コード、日付、ID、標識、品質、およびテキストの各データ・クラスがあります。
一致、不一致、または欠落データのパーセンテージ。
列で識別されたすべての値の度数分布。
各列のデータに関する統計 (個別値の数、固有値のパーセンテージ、最小値、最大値、平均値、および場合によってはその列の標準偏差など)。 distinct 値の数は、列のサンプル・データに存在する異なる値の数を示します。 固有 値のパーセンテージは、列に 1 回だけ出現する個別値のパーセンテージを示します。
列のデータ・フォーマットに応じて、統計は若干異なります。 例えば、整数データ・タイプの列の統計には最小値、最大値、平均値、および標準偏差の値があり、ストリング・データ・タイプの列の統計には最小長、最大長、および平均長の値があります。
以下のタイプのリレーショナル・データと構造化データは、列ごとにプロファイルが作成されます。
- リレーショナル・データベースまたは非リレーショナル・データベースからのデータ資産 ( Cloudantを除く)。
- 区分データ・セットからのデータ資産では、区分データ・セットは複数のファイルで構成され、ローカル・ファイル・システムからアップロードされた単一のフォルダー、またはデータ・ソースへのファイル・ベースの接続からアップロードされた単一のフォルダーによって表されます。
ローカル・ファイル・システムからアップロードされたファイル、または以下の形式のデータ・ソースへのファイル・ベース接続からのデータ資産
- CSV
- XLS、XLSM、XLSX (ワークブックの最初のシートのみがプロファイルされます。)
- TSV
- Avro
- Parquet
ただし、以下のような状況などで、データ資産が構造化データ・ファイルを明示的に参照しない場合は、構造化データ・ファイルのプロファイルは作成されません。
- ファイルは、接続されたフォルダー資産内にあります。 接続されたフォルダー資産からアクセス可能なファイルは、資産として扱われず、プロファイルも作成されません。
- ファイルがアーカイブ・ファイル内にある。 データ資産はアーカイブ・ファイルを参照します。圧縮ファイルのプロファイルは作成されません。
ポリシーが適用されたカタログでは、データ資産がメタデータ・エンリッチから公開されない限り、データ資産がカタログに追加されるときに、構造化データ資産のプロファイルが自動的に作成されます。 そのような資産には、資産とともにカタログに追加されたプロファイルが既にあります。 また、個人の資格情報を使用するように構成されている接続からの資産は、自動的にはプロファイル作成されません。
データ保護ルールが適用されていないプロジェクトおよびカタログでは、個々の構造化データ資産に対して手動でプロファイルの作成を実行できます。
大量のデータ資産のプロファイルを一度に作成するには、メタデータ・エンリッチ資産を作成して実行します。 『メタデータ・エンリッチの管理』を参照してください。
非構造化データ
非構造化データが含まれている文書が入っているデータ資産のプロファイルでは、割り当てられたデータ・クラス、値の統計、およびメタデータ (言語、ファイル・サイズ、ワード数など) といった、リスクについて文書コンテンツを大まかに評価できる情報が示されます。
非構造化データ資産のプロファイルを作成する際には、プレーン・テキストが文書から抽出され、抽出されたテキストの最初の 5 MB が分析されます。 プロファイル作成時に、特定のタイプの情報を識別するために、抽出された文書コンテンツにいくつかのパターンが適用されます。 このような情報を検出するために、情報の構造、近隣のコンテキスト、抽出されたコンテンツ全体、および文書が記述されている言語が考慮されます。 その後、結果は事前定義されたデータ・クラスにマップされます。 例えば、銀行口座番号が検出されると、データ・クラス IBAN が文書に割り当てられます。 あるいは、文書に都市名が含まれている場合は、データ・クラス「都市」が割り当てられます。
ただし、非構造化データに適用されるどの検出ロジックも 100% 正確であるとは期待できないため、誤った分類になる可能性があることを常に念頭においてください。
割り当てられたデータ・クラスを使用して、ポリシーによって非構造化データ資産内のデータへのアクセスをブロックしたり、データをマスクしたりすることはできません。
最大 100 MB のサイズの文書のプロファイルを作成できます。 これより大きい文書のプロファイルは作成されません。
以下のタイプの文書のプロファイルを作成できます。
- 以下の MIME タイプの Microsoft Word 文書:
- application/msword
- application/vnd.openxmlformats-officedocument.wordprocessingml.document
- MIME タイプが application/pdf の PDF 文書
- MIME タイプが text/plain のプレーン・テキスト文書
- MIME タイプが text/html の HTML 文書
非構造化データ資産のプロファイルは、常に自動的に作成されます。 ただし、データ資産をプロジェクトまたはカタログに直接アップロードする必要があります。 接続された資産として追加された非構造化文書のプロファイルは作成されません。
もっと見る
親トピック: カタログ内の資産の検索および表示