クイック・スタート: データのキュレート
データ・ソース内の選択したデータ・セットの情報をインポートし、その結果のデータ資産をカタログに公開することで、データを素早くキュレートできます。 データ・キュレーションについて読み、ビデオを見て、データキュ・レーションの知識があるユーザーに適した、コーディングを必要としないチュートリアルを受けることができます。
必要な役割 プロジェクトでは 管理者 役割または 編集者 役割を持ち、またターゲット・カタログでは 管理者 役割または 編集者 役割を持っている必要があります。
基本的なワークフローには、以下のタスクが含まれます:
- プロジェクトを作成する プロジェクトの作成を参照してください。
- 外部データ・ソースへの接続を作成します。 プロジェクトへの接続の追加を参照してください。
- メタデータ・インポート資産を作成して、インポートの詳細を構成し、インポート・ジョブを実行し、資産をカタログに公開します。
データ・キュレーションについて読む
組織内のデータ資産に関連付けられたメタデータをプロジェクトまたはカタログにインポートして、これらの資産の在庫管理、評価、およびカタログを行うことができます。 このメタデータを使用して、ユーザーは、データが手元のタスクに適しているかどうか、データを信頼できるかどうか、およびデータを処理する方法を判別できます。
インポートしたメタデータは、後で他の情報を追加して強化できます。これにより、ユーザーが迅速にデータを検索できるとともに、信頼して使用できます。 このような情報には、データの意味を定義する用語、所有権を文書化したり品質基準を決定したりする規則、レビューなどが含まれます。
メタデータをインポートする際に、データ資産をプロジェクトまたはカタログに追加します。 資産をプロジェクトにインポートした場合、それらの資産は、公開されるまではカタログに表示されません。 資産をカタログに共有すると、他のカタログ・ユーザーがこれらの資産を処理できます。
アセット・メタデータのインポートに関するビデオを見る
このビデオを見て、外部データ・ソースから資産メタデータをインポートする方法を確認してください。
このビデオでは、本書に記載されている手順に従う代わりの方法として、視覚方式を提供します。
アセット・メタデータをインポートするためにチュートリアルを試す
既存のプロジェクトにメタデータ・インポート資産を作成し、ジョブを実行してから、選択した資産をカタログに追加します。
前提条件
- 以前に作成されたカタログまたは カタログの作成へのアクセス。
-
Cloud Object Storage インスタンスの資格情報。
- Cloud Pak for Data メニューで、 「サービス」>「サービス・インスタンス」をクリックしてください。
- Cloud Object Storage インスタンスの横にあるアイコンをクリックし、必要に応じて IBM Cloudにログインします。
- Cloud Object Storage サービス・インスタンス・ページで、 サービス資格情報 パネルを選択して資格情報を表示します。 複数の資格情報セットがリストされている場合は、
cos_hmac_keys
を含む資格情報を選択してください。 これらの資格情報は、後でこのチュートリアルで提供する必要があります。 - エンドポイント パネルを選択してください。
- ロケーション (例: us-geo) を選択してください。
- 公開ログイン URL (例: https://s3.us.cloud-object-storage.appdomain.cloud) をコピーします。
-
Cloud Object Storage インスタンスにロードされたデータ・セットを含むサンプル・プロジェクトです。
- 保険価格設定最適化プロジェクトにアクセスします。
- 「Create Project」をクリックします。
- 名前、説明、およびストレージが自動的に入力されます。 「作成」をクリックします。
- インポート・サマリーの表示をクリックしてください。 プロジェクトの 資産 タブにあるデータ・ファイルが Cloud Object Storage インスタンスに追加されました。
このチュートリアルでは、以下を行います。
- プロジェクトを作成する
- メタデータをプロジェクトにインポートします。
- インポートの結果を表示し、カタログに資産を公開します。
このチュートリアルを完了するための所要時間は約 20 分です。
ステップ 1: プロジェクトを作成する
{: #step1}インポート・メタデータ資産およびディスカバーされた資産を保存するためのプロジェクトが必要です。
- 前提条件として作成したサンプル・プロジェクト以外の既存のプロジェクトがある場合は、そのプロジェクトを開きます。 既存のプロジェクトが他にない場合は、ホーム・ページで プロジェクトの作成 をクリックするか、または プロジェクト ページで 新規プロジェクト をクリックしてください。
- 「空のプロジェクトの作成」を選択します。
- プロジェクトの作成 画面で、プロジェクトの名前と説明 (オプション) を追加してください。
- 既存のものを選択するか、または新規に作成します。
- 「作成」をクリックします。
詳細について、またはビデオを見るには、 プロジェクトの作成 {: new_window}を参照してください。
Cloud Object Storageについて詳しくは、 オブジェクト・ストレージ {: new_window}を参照してください。
ステップ 2: プロジェクトへメタデータをインポートする
{: #step2} メタデータ・インポート資産を作成し、インポート用の接続を指定します。
- プロジェクトで、 「プロジェクトに追加」>「メタデータのインポート」をクリックしてください。
- インポートの名前を提供します。 この説明はオプションです。
- 接続 ドロップダウンで、 新規接続の作成を選択してください。
- リストされたデータ・ソースからメタデータをインポートできます。 このチュートリアルでは、 Cloud Object Storageを選択し、 選択をクリックしてください。
- IBM Cloudにある Cloud Object Storage インスタンスの資格情報を使用して、名前、説明、および接続の詳細を提供します。
- 「作成」をクリックして接続を作成します。 この新規接続は、 ソースとターゲットの接続の定義 ドロップダウン・ボックスにリストされます。
- メタデータをプロジェクトにインポートするか、カタログにインポートするかを選択できます。 このチュートリアルでは、まずメタデータをプロジェクトにインポートし、カタログに公開する特定の資産を選択します。
- 次へ をクリックして、データ・スコープに進みます。
ステップ 3: データ・スコープを定義する
{: #step3} 接続からインポートする資産を定義します。
- データ・スコープの設定をクリックしてください。
- すべてのスキーマを選択することも、インポートするスキーマまたは表を選択することもできます。 insurancepricingoptimization フォルダーを選択すると、そのフォルダーに含まれている項目の数を確認できます。
- insurancepricingoptimization フォルダーの横にあるチェック・ボックスを選択して、そのフォルダー内のすべての資産としてスコープを定義します。
- 選択 をクリックして、メタデータ・インポート資産の定義を続行します。
- 次へ をクリックしてスケジュールに進みます。
ステップ 4: インポートをスケジュールして完了する
{: #step4}インポートを今すぐ実行するか、後で実行するようにスケジュールするかを指定します。
- (オプション) デフォルトのジョブ名を変更します。
- (オプション)「スケジュール・オフ」トグルを選択して、開始と繰り返しの詳細を指定します。
- 次へ をクリックしてレビューを続行します。
- インポートのまとめを確認し、 作成をクリックしてください。
- メタデータ・インポート・ジョブが開始されるか、またはスケジュールされた時刻に実行されます。
ステップ 5: インポートの結果を表示し、カタログに資産を公開する
{: #step5}ジョブ実行が完了すると、インポートされた資産のリストが表示されます。
- リストから 1 つ以上の csv ファイルを選択し、 公開をクリックしてください。
- 対象 カタログを選択し、説明とタグを指定して、 公開をクリックしてください。
- カタログにナビゲートして、先ほど追加したデータ資産を Recently added タブで確認します。
次のステップ
これで、データを使用する準備ができました。 例えば、ユーザーまたは他のユーザーは、以下のいずれかのタスクを実行できます:
その他のリソース
- Watson Knowledge Catalogのビデオをもっと見る。
- ギャラリーでデータを詳細化する実践的な経験を得るためのサンプル・データ・セットを見つけます。
- Watson Knowledge Catalog を実際に体験できるこの追加チュートリアルをお試しください: Watson Knowledge Catalogによるデータを検索、準備、および理解する
親トピック: データのキュレートと管理の入門