メタデータ・インポートの管理

組織内のデータ資産に関連付けられた テクニカル メタデータをプロジェクトまたはカタログにインポートして、これらの資産をインベントリー、評価、およびカタログすることができます。

テクニカル・メタデータは、データ・オブジェクトの構造を記述します。 このメタデータを使用して、ユーザーは、データが手元のタスクに適しているかどうか、データを信頼できるかどうか、およびデータを処理する方法を判別できます。

インポートしたメタデータは、後で他の情報を追加して強化できます。これにより、ユーザーが迅速にデータを検索できるとともに、信頼して使用できます。 このような情報には、データの意味を定義する用語、所有権を文書化したり品質基準を決定したりする規則、レビューなどが含まれます。

メタデータをインポートする際に、データ資産をプロジェクトまたはカタログに追加します。 資産をプロジェクトにインポートした場合、それらの資産は、公開されるまではカタログに表示されません。 資産をカタログに共有すると、他のカタログ・ユーザーがこれらの資産を処理できます。

必要な許可 メタデータ・インポートを作成して実行するには、プロジェクト内で 管理者 役割または 編集者 役割を持っている必要があります。 メタデータをカタログにインポートするには、インポートしたいカタログで 管理者 役割または 編集者 役割も持っている必要があります。

メタデータのインポートの概要

{: #metadata-import-overview}メタデータをインポートするには、以下のプロセスを行います。

  • インポート元のデータ・ソースを識別します。 このデータ・ソースへの接続が既に定義されている場合があります。 それ以外の場合は、このデータ・ソースに接続するための資格情報があることを確認してください。 サポートされた接続のリストについては、メタデータ・インポート資産の追加手順の ステップ 4 を参照してください。
  • プロジェクトで、メタデータ・インポート資産を作成して、インポートのスコープとターゲット、インポート・ジョブのスケジュールなど、インポートの詳細を構成します。
  • 資産をプロジェクトまたはカタログにインポートします。 インポートしたデータ資産にアクセスすると、データがデータ・ソースから動的に取得されます。
  • インポートしたメタデータを分析およびプレビューします。メタデータをプロジェクトにインポートした場合は、そのメタデータをカタログに共有します。 各アセットの プロファイル タブから、個々のアセットのプロファイルを一度に 1 つずつ作成できます。 また、複数のデータ資産のプロファイルを並行して作成し、 メタデータ・エンリッチ資産を作成して実行することで、それらのデータ資産にビジネス・コンテキストを追加することもできます。

この短いビデオを閲覧して、外部ソースから Watson Studio プロジェクトに資産メタデータをインポートする方法を確認してください。

このビデオでは、本書に記載されている手順に従う代わりの方法として、視覚方式を提供します。

メタデータ・インポート資産の作成およびメタデータのインポート

{: #create-metadata-import-job} メタデータ・インポート資産、およびメタデータをプロジェクトまたはカタログにインポートするためのジョブを作成するには:

  1. プロジェクトを開き、 「新規アセット」>「メタデータのインポート」をクリックしてください。 この方法で最初のメタデータ・インポートを作成した後、プロジェクトの 資産 ページから新しいメタデータ・インポート資産を追加できます。
  2. メタデータ・インポートの名前を指定します。 オプションで、説明を指定することもできます。

  3. オプションで、メタデータ・インポート資産に割り当てるタグを選択して、検索を簡素化します。 新規タグを作成するには、タグ名を入力して Enter キーを押します。

  4. データのソースとして既存の接続資産を選択するか、または 新規接続の作成 および 接続資産の作成をクリックしてください。

    表 1にリストされているデータ・ソースからメタデータをインポートできます。

  5. インポート・ターゲットを選択します。 作業中のプロジェクトまたはカタログにメタデータをインポートすることができます。 カタログへのインポートを選択する場合は、使用可能なすべてのカタログから 1 つを選択できます。

    他のユーザーが作業できるようにカタログに共有する対象の資産を決定する前に、メタデータをプロジェクトにインポートして分析します。 データ資産の内容を十分に理解している場合は、そのメタデータをカタログに直接インポートしても構いません。

  6. 「次へ」をクリックする。

  7. メタデータ・インポートのスコープを定義します。 データ・ソースのサイズと内容によっては、すべての資産をインポートする必要がなく、サブセットを選択してインポートしたい場合があります。 完全なスキーマまたはフォルダーを含めることも、個々の表やファイルにドリルダウンすることもできます。 スキーマまたはフォルダーを選択すると、そのスキーマまたはフォルダーに含まれる項目の数を即時に確認できます。 このようにして、セット全体を含めるのか、またはサブセットのみの方が目的に適しているのかを判別できます。

    1. インポートに含めたいアイテムを選択してください。 完了したら、 選択をクリックしてくださ。
    2. 選択したスコープを確認します。 データ・スコープから資産を直接削除することも、 データ・スコープの編集をクリックしてスコープ全体を再作業することもできます。
    3. データ・スコープの詳細化が完了したら、 次へをクリックしてください。
  8. スケジュールされたインポート・ジョブを実行するかどうかを定義します。 スケジュールを設定しない場合は、メタデータ・インポート資産の保存時にインポートを実行します。 インポートは、いつでも手動で再実行できます。

    特定のスケジュールでインポートの実行を選択する場合は、ジョブを実行する日時を定義します。 単一の実行をスケジュールすることも、繰り返し実行をスケジュールすることもできます。 単一の実行をスケジュールすると、ジョブは指定された日時に正確に 1 回実行されます。 繰り返し実行をスケジュールすると、ジョブは 繰り返し セクションに示されているタイム・スタンプで初めて実行されます。

    オプションで、インポート・ジョブの名前を変更します。 デフォルト名は metadata_import_name ジョブです。

    作成したインポート・ジョブには、メタデータ・インポート資産内から、またはプロジェクトの ジョブ ページから後でアクセスできます。 ジョブを参照してください。

  9. メタデータ・インポート構成を確認します。 変更するには、タイル上の編集 (編集アイコン) アイコンをクリックし、設定を更新します。

  10. 「作成」をクリックします。 メタデータ・インポート資産がプロジェクトに追加され、メタデータ・インポート・ジョブが作成されます。 スケジュールを構成しなかった場合、インポートは即時に実行されます。 スケジュールを構成した場合、インポートは定義されたスケジュールで実行されます。

    重要: 別のメタデータ・インポートによって既にインポートされている同じ接続の資産は、新たにインポートされることはありませんが、更新されます。 これらの資産は、初期メタデータ・インポートに表示されなくなります。 最後に実行されたメタデータ・インポートにのみ、資産が含まれています。

インポートされた資産のプロファイル作成、分析、およびビジネス・コンテキストの提供を行うには、メタデータ・エンリッチ資産を作成し、メタデータ・インポート資産をデータ・スコープに含めます。

表 1. 接続のインポート

IBM サード・パーティー
Analytics Engine HDFS
Cloud Object Storage
Compose for MySQL
Data Virtualization Manager for z/OS¹
Databases for MongoDB
Databases for PostgreSQL
Db2
Db2 Big SQL
Db2 for i
Db2 for z/OS
Db2 Hosted
Db2 on Cloud
Db2 Warehouse
Informix
Netezza Performance Server
SQL Query







Amazon RDS for MySQL
Amazon RDS for PostgreSQL
Amazon S3²
Apache HDFS
Apache Cassandra
Apache Hive
Box
Cloudera Impala
Generic S3
Google BigQuery²
Greenplum
MariaDB
Microsoft Azure Data Lake Store
Microsoft Azure SQL Database
Microsoft SQL Server
MongoDB
MySQL
Oracle
PostgreSQL
Salesforce.com
SAP ASE
SAP IQ
Snowflake
Teradata

{: caption="メタデータ・インポートでサポートされた接続" caption-side="top"}{: #import-conns}

注:

¹ Data Virtualization Manager for z/OS では、データ資産および COBOL コピーブック資産をメインフレーム・システムから IBM Cloud Pak for Data のカタログに追加します。 コピーブックは、COBOL プログラムのデータ構造を記述するファイルです。 Data Virtualization Manager for z/OS は、COBOL コピーブック・マップから仮想表および仮想ビューを作成するのに役立ちます。 その後、これらの仮想表および仮想ビューを使用して、メインフレームのメインフレーム・データをデータ資産および COBOL コピーブック資産の形式で IBM Cloud Pak for Data にインポートし、カタログに登録することができます。

次のマップ・タイプはインポートされません: ACI、カタログ、Natural

制約事項: 1 MB より大きい COBOL コピーブックはインポートできません。

インポートが完了したら、カタログに移動して、インポートされた資産 (COBOL コピーブック・マップ、仮想表、仮想ビューなど) を確認できます。 これらの資産は、Cloud Pak for Data の他の資産と同じ方法で使用できます。

詳しくは、 COBOL コピーブック資産の追加を参照してください。

² このタイプの接続は、プロジェクト・レベルで作成され、メタデータ・インポートの作成時に既存の接続のリストから選択される必要があります。 メタデータ・インポート内からそのような接続を作成することはできません。

メタデータのインポートの表示

{: #view-metadata-import} メタデータ・インポート資産は、 資産 ページの メタデータのインポート セクションにリストされます。 資産を表示するには、資産の名前をクリックするか、または資産のアクション・メニューから 表示 を選択してください。

メタデータ・インポート資産を表示すると、関連するインポート・ジョブの実行でインポートされた資産のリストが表示されます。 これらの資産を操作したり、メタデータ・インポートを編集したり、インポートを再実行したりすることができます。

各インポートされた資産に対して、以下の情報が閲覧されます:

  • データ・タイプ ( text/csvなど)。
  • 資産コンテキスト (例:親やファイル・パスなど)。
  • 資産が最後にインポートされた日付と時刻。
  • インポート・ステータスは、インポートに成功した場合は Imported 、インポートに失敗した場合は In progress、または Removed となります。 インポートの再実行を参照してください。

資産の追加情報を閲覧したり、資産をカタログに公開したり、資産を削除したりすることができます。 インポートされた資産のリストから資産を削除すると、その資産はインポート先のプロジェクトまたはカタログから削除されますが、メタデータ・インポート・スコープからは削除されません。

資産を再インポートすると、資産が更新されます。 既存の資産が更新されます。つまり、コンテンツの変更はすべてマージされます。 定義されたスコープに応じて、データ・ソース内の新規資産が追加される場合があります。 メタデータ・インポート資産、プロジェクト、またはカタログから資産を削除した場合、スコープから削除しない限り、問題の資産は再度インポートされます。 データ・スコープから削除された資産、または前回のインポート後にデータ・ソースから削除された資産は、再インポートできず、ステータスが Removedになります。

インポートされたデータ資産は、接続済みデータ資産と完全に同じ方法で処理できます。 インポートされたアセットには、該当する場合、アセットの親を反映したタグが自動的に割り当てられます。

メタデータ・インポート資産の詳細を表示するには、情報アイコンをクリックします。 メタデータ・インポート資産を編集するには、 メタデータ・インポートの編集をクリックしてください。 以下の構成設定を変更できます:

  • 資産の詳細 (資産名、説明、タグなど)です。 資産名を変更しても、関連付けられたインポート・ジョブの名前は変更されないので注意してください。 接続またはインポート・ターゲットを変更することはできません。
  • データ・スコープ。
  • スケジュール。

インポートの再実行

{: #rerun-metadata-import}スケジュールを構成していない場合は、以下のいくつかの方法で、いつでもメタデータのインポートを手動で再実行できます。

  • メタデータ・インポート資産を開き、 資産の再インポートを選択してください。
  • メタデータ・インポート資産を開き、資産名の下にあるジョブ名をクリックします。これにより、ジョブ・ページが表示されます。 このページで実行アイコンをクリックします。
  • プロジェクトの ジョブ ページに移動し、そこからインポート・ジョブを実行します。

再インポートすると、資産情報が更新されます。 既存の資産が更新されます。つまり、コンテンツの変更はすべてマージされます。 定義されたスコープに応じて、データ・ソース内の新規資産が追加される場合があります。 メタデータ・インポート資産、プロジェクト、またはカタログから資産を削除した場合、スコープから削除しない限り、問題の資産は再度インポートされます。 前回のインポート後にデータ・スコープから削除された資産は、再インポートできず、ステータスが Outdatedになります。 前回のインポート後にデータ・ソースから削除された資産も再インポートできず、状況が Removedになります。

メタデータ・インポート資産の削除

プロジェクトからメタデータ・インポート資産を削除できます。 プロジェクトの 資産 ページで、資産の横にあるアクション・メニューから 削除 オプションを選択してください。 メタデータ・インポート構成とそれに関連付けられたメタデータ・インポート・ジョブが削除されます。 このメタデータ・インポート資産を使用してインポートされたプロジェクトまたはカタログ内の資産は影響を受けません。

詳細情報

次のステップ

親トピック: データ・キュレーション