アセット・プロファイルには、アセット・コンテンツについて生成された情報と統計が含まれます。 プロファイルは、アセットの 「プロファイル」 ページで確認できます。
要件および制約事項
以下の状況では、アセットのプロファイルを表示できます。
必要な権限
データ資産の 「プロファイル」 ページを表示するには、プロジェクト内で任意の役割を持つことができます。
プロファイルを作成または更新するには、プロジェクト内で 管理者 役割または 編集者 役割を持っている必要があります。
ワークスペース
プロジェクト内の資産プロファイルを表示できます。
資産タイプ
以下のタイプの資産にはプロファイルがあります。
リレーショナル・データベースまたは非リレーショナル・データベースからデータ・ソースへの接続からのデータ資産 ( Cloudant を除く)
区分データ・セットからのデータ資産。区分データ・セットは複数のファイルで構成され、ローカル・ファイル・システムからアップロードされた単一のフォルダー、またはデータ・ソースへのファイル・ベースの接続によって表されます。
ローカル・ファイル・システムからアップロードされたファイルのデータ資産、またはデータ・ソースへのファイル・ベースの接続のデータ資産。形式は以下のとおりです:
- CSV
- XLS、XLSM、XLSX (ワークブックの最初のシートのみがプロファイルされます。)
- TSV
- Avro
- Parquet
ただし、以下のような状況などで、データ資産が構造化データ・ファイルを明示的に参照しない場合は、構造化データ・ファイルのプロファイルは作成されません。
- ファイルは、接続されたフォルダー資産内にあります。 接続されたフォルダー資産からアクセス可能なファイルは、資産として扱われず、プロファイルも作成されません。
- ファイルがアーカイブ・ファイル内にある。 データ資産はアーカイブ・ファイルを参照します。圧縮ファイルのプロファイルは作成されません。
プロファイルの作成
プロジェクトでは、 「プロファイルの作成」をクリックして、データ資産のプロファイルを作成できます。 データの変更時に既存のプロファイルを更新できます。
プロファイル結果
アセット・プロファイルを作成または更新すると、データ・アセット内の列が分析されます。 デフォルトでは、プロファイルは最初の 5,000 行のデータに基づいて作成されます。 データ資産に 250 を超える列がある場合、プロファイルはデータの最初の 1,000 行に基づいて作成されます。
データ資産のプロファイルには、データ・セット内の各列に関する情報が表示されます。
- プロファイルが作成された日時または最後に更新された日時。
- 分析された列と行の数。
- 列のデータ・タイプとデータ・タイプの分布。
- 列およびフォーマット分布のデータ・フォーマット。
- 各列のマッチング、不一致、または欠落データのパーセンテージ。
- 列で識別されたすべての値の度数分布。
- 各列のデータに関する統計:
- distinct 値の数は、列のサンプル・データに存在する異なる値の数を示します。
- 固有 値のパーセンテージは、列に 1 回だけ出現する個別値のパーセンテージを示します。
- その列の最小、最大、または平均、および場合によっては標準偏差。 列のデータ・フォーマットに応じて、統計は若干異なります。 例えば、整数データ・タイプの列の統計には最小値、最大値、平均値、および標準偏差の値があり、ストリング・データ・タイプの列の統計には最小長、最大長、および平均長の値があります。
親トピック: アセット・タイプおよびプロパティー