プロジェクトを作成した後、次のステップでは、データ資産をプロジェクトに追加して、データを処理できるようにします。 プロジェクトのすべてのコラボレーターは自動的にプロジェクト内のデータへのアクセスを許可されます。
異なる資産タイプに重複する名前を付けることができます。 ただし、同じ名前の資産タイプを複数回追加することはできません。
以下の方法を使用して、データ資産をプロジェクトに追加できます。
方法 | 使用タイミング |
---|---|
ローカル・ファイルの追加 | ローカル・システム上に CSV ファイルまたは類似ファイルのデータがあります。 |
リソース・ハブ・データ・セットの追加 | サンプル・データ・セットを使用する。 |
データベース接続の追加 | リモート・データ・ソースに接続する必要があります。 |
接続からのデータを追加する | リモート・データ・ソースからの 1 つ以上の表またはファイルが必要です。 |
動的ビューの追加 | リモート・データ・ソース内の 1 つ以上の表のデータのサブセットを含むビューが必要です。 |
接続からのメタデータのインポート | リモート・データ・ソースからの多くの表またはファイルが必要です。 インポート・プロセスをスケジュールして再実行します。 |
IBM Cloud Object Storageからの接続フォルダー資産の追加 | IBM Cloud Object Storage 内に、ニュース・フィードなどのファイルの動的セットを含むフォルダーが必要です。 |
カタログ資産の追加 | カタログから 1 つ以上の資産が必要です。 |
プロジェクト・ストレージ内のファイルを資産に変換 | プロジェクトで作成したファイルをデータ資産に変換する必要があります。 |
ローカル・ファイルの追加
ローカル・システムのファイルをプロジェクトのデータ資産として追加できます。
- 必要な権限
プロジェクト内で 編集者 役割または 管理者 役割を持っている必要があります。
- 制約事項
- ファイルを空にすることはできません。
- ファイル名は 255 文字を超えることはできません。
- UI を使用してロードできるファイルの最大サイズは 5 GB です。 これよりも大きなファイルをロードするには API を使用できます。
データ・ファイルをプロジェクトに追加するには、次のようにします。
プロジェクトの 「資産」 ページで、 「プロジェクトへの資産のアップロード」 アイコン をクリックします。 ノートブックまたはキャンバス内から同じアイコン をクリックすることもできます。
開いたペインで、ファイルを参照するか、ファイルをペインにドラッグします。 ロードが完了するまでそのページに留まる必要があります。
ファイルは、プロジェクトに関連付けられているオブジェクト・ストレージに保存され、プロジェクトの 資産 ページにデータ資産としてリストされます。
データ資産名をクリックすると、ファイルからのデータ資産に関する以下の情報を確認できます。
- 資産の名前と説明
- 資産のタグ
- 資産を作成したユーザーの名前
- データのサイズ
- 資産がプロジェクトに追加された日付
- 資産の最終変更日
- CSV、Avro、Parquet、TSV、Microsoft Excel、PDF、テキスト、JSON、およびイメージ・ファイル用のデータの プレビューです
- CSV、Avro、Parquet、TSV、および Microsoft Excel の各ファイルのデータの プロファイル
ファイルからデータ資産の内容を更新するには、同じ名前と形式のファイルをプロジェクトに追加してから、既存のデータ資産を置き換えることを選択してください。
データ資産を削除するには、資産名の横にあるアクション・メニューから 「削除」 オプションを選択します。 「データの準備 (Prepare Data)」 オプションを選択して、 Data Refineryでデータを精製します。
リソース・ハブ・データ・セットの追加
リソース・ハブからプロジェクトにデータ・セットを追加できます。
- リソース・ハブで、追加するデータ・セットのカードを見つけます。
- アクション・バーから プロジェクトに追加 アイコンをクリックし、プロジェクトを選択して、 追加をクリックしてください。
この短いビデオを閲覧して、公開データ・セットをロードおよび分析する方法を確認してください。
このビデオは、本書の概念とタスクを学習するためのビジュアル・メソッドを提供します。
動画のトランスクリプト 時刻 トランスクリプト 00:00 このビデオでは、 Cloud Pak for Data as a Service ギャラリーでパブリック・データ・セットにアクセスする方法を示します。 00:06 リソース・ハブで開始し、フィルターを使用してデータ・セットのみを表示します。 00:13 ここには、分析に使用できるリッチ・データ・セットがいくつかあります。 00:17 例えば、「エコノミー」、「人口」、「天気」、「仕事」などを検索できます。 00:28 これは、興味深いデータ・セットのように見えます。 00:30 それを開き、データをプレビューします。 00:34 ここから、ソーシャル・メディア上でデータ・セットを共有したり、データ・セットへの直接リンクを取得したり、データ・セットをダウンロードしたりできます。 00:45 データ・セットを特定のプロジェクトにコピーすることもできます。 00:52 では、そのプロジェクトにナビゲートします。 00:55 「資産」タブで、データ資産セクションにデータ・セットが追加されたことが分かります。 01:01 では、新しいノートブックを追加します。 01:05 このノートブックのタイトルは「失業率」になります。 01:09 ランタイム環境と言語を選択してください。 01:14 準備ができたら、ノートブックを作成してください。 01:20 ノートブックがロードされたら、データ・ソースにアクセスし、失業ファイルを見つけます。 01:27 「コードに挿入」をクリックし、データの挿入方法を選択してください。 01:33 このドロップダウン・ボックスの選択項目は、このノートブックで使用される言語に依存します。 01:38 挿入されたコードには、 Object Storage インスタンスからデータ・ファイルを読み取るために必要な資格情報が含まれていることに注意してください。 01:45 コードを実行すると、最初の 5 行が表示されます。 01:50 これで、Resource Hub 内の任意のリッチ・データ・セットの分析を開始する準備ができました。 01:56 Cloud Pak for Data as a Service の資料には他にもビデオがあります。
プロジェクト・ストレージ内のファイルを資産に変換
プロジェクトのストレージには、プロジェクトにアップロードしたデータ資産が含まれますが、他のファイルを含めることもできます。 例えば、プロジェクト環境ストレージのノートブックに DataFrame を保存することができます。 プロジェクト・ストレージ内のファイルをアセットに変換できます。
プロジェクト・ストレージのファイルを資産に変換するには、以下のようにします。
- プロジェクトの 「資産」 タブで、 「資産のインポート」をクリックします。
- 「プロジェクト・ファイル」を選択します。
- data_asset フォルダーを選択します。
- 資産を選択し、 「インポート」をクリックします。
次のステップ
もっと見る
親トピック: データの準備