Cloud Pak for Data as a Service のコア・サービスには、データの準備、分析、およびモデル化のあらゆる経験レベル (初心者から専門家まで) のユーザー向けに、さまざまなツールが用意されています。 適切なツールは、所有しているデータのタイプ、実行する予定のタスク、および必要な自動化の量によって異なります。
プロジェクトで使用するツールと、それらのツールが必要とするサービスを確認するには、ツールとサービス・マップを開きます。
適切なツールを選択するには、以下の要素について検討します。
所有しているデータのタイプ
- 区切り文字で区切られたファイルの表データか、リモート・データ・ソースのリレーショナル・データ
- イメージ・ファイル
- 文書内のテキスト (非構造化) データ
実行する必要があるタスクのタイプ
- データの準備: データをクレンジング、シェーピング、視覚化、編成、および検証する。
- データの分析: データのパターンと関係を特定し、洞察を表示する。
- モデルの作成: モデルを作成、トレーニング、テスト、およびデプロイして、予測を行ったり、意思決定を最適化したりします。
必要な自動化の量
- コード・エディター・ツール: Python または R でコードを作成するために使用します。すべて Spark でも使用できます。
- グラフィカル・ビルダー・ツール: ビルダーでメニューおよびドラッグ・アンド・ドロップ機能を使用して、視覚的にプログラムを作成します。
- 自動化ビルダー・ツール: 限定されたユーザー入力を必要とする自動化タスクを構成するために使用します。
以下から適切なツールを見つけます。
表データまたはリレーショナル・データ用のツール
表データまたはリレーショナル・データ用のツールをタスク別に以下に示します。
ツール | ツール・タイプ | データの準備 | データの分析 | モデルの構築 |
---|---|---|---|---|
Jupyter ノートブック・エディター | コード・エディター | ✓ | ✓ | ✓ |
統合学習 | コード・エディター | ✓ | ||
RStudio | コード・エディター | ✓ | ✓ | ✓ |
Data Refinery | グラフィカル・ビルダー | ✓ | ✓ | |
マスキング・フロー | 自動化ビルダー | ✓ | ||
Data Virtualization | グラフィカル・ビルダー | ✓ | ||
DataStage | グラフィカル・ビルダー | ✓ | ||
Data Replication | グラフィカル・ビルダー | ✓ | ||
SPSS Modeler | グラフィカル・ビルダー | ✓ | ✓ | ✓ |
Decision Optimization モデル・ビルダー | グラフィカル・ビルダーおよびコード・エディター | ✓ | ✓ | |
AutoAI | 自動化ビルダー | ✓ | ✓ | |
Metadata import | 自動化ビルダー | ✓ | ||
メタデータのエンリッチメント | 自動化ビルダー | ✓ | ✓ | |
データ品質ルール | 自動化ビルダーおよびコード・エディター | ✓ | ||
IBM Match 360 with Watson (ベータ版) | 自動化ビルダー | ✓ | ||
オーケストレーション・パイプライン | グラフィカル・ビルダー | ✓ | ✓ | ✓ |
テキスト・データ用のツール
テキスト・データを処理するモデルを作成するためのツール:
ツール | コード・エディター | グラフィカル・ビルダー | 自動化ビルダー |
---|---|---|---|
Jupyter ノートブック・エディター | ✓ | ||
RStudio | ✓ | ||
SPSS Modeler | ✓ | ||
オーケストレーション・パイプライン | ✓ |
イメージ・データ用のツール
イメージを分類するモデルを作成するためのツールを以下に示します。
ツール | コード・エディター | グラフィカル・ビルダー | 自動化ビルダー |
---|---|---|---|
Jupyter ノートブック・エディター | ✓ | ||
RStudio | ✓ | ||
オーケストレーション・パイプライン | ✓ |
ツールへのアクセス
ツールを使用するには、そのツールに固有の資産を作成するか、そのツールの既存の資産を開く必要があります。 アセットを作成するには、 「新規アセット」 または 「アセットのインポート」 をクリックし、目的のアセット・タイプを選択します。 以下の表に、各ツールに選択すべき資産タイプを示します。
使用するツール | 選択すべき資産タイプ |
---|---|
Jupyter ノートブック・エディター | Jupyter ノートブック・エディター |
Data Refinery | Data Refinery フロー |
マスキング・フロー | マスキング・フロー |
DataStage | DataStage フロー |
SPSS Modeler | モデラー・フロー |
Decision Optimization モデル・ビルダー | Decision Optimization |
AutoAI | AutoAI エクスペリメント |
統合学習 | 統合学習エクスペリメント |
Metadata import | Metadata import |
メタデータのエンリッチメント | メタデータのエンリッチメント |
データ品質ルール | データ品質ルール |
IBM Match 360 with Watson (ベータ版) | マスター・データ構成 |
RStudioでノートブックを編集するには、 Launch IDE > RStudioをクリックします。
Jupyter ノートブック・エディター
Jupyter ノートブック・エディターを使用すると、データを準備、視覚化、および分析するため、またはモデルを作成、トレーニングするためのコードを実行するノートブックを作成できます。
- 必須のサービス
- watsonx.aiスタジオ
- データ・フォーマット
- 任意
- データ・サイズ
- 任意
- データの準備、データの分析、またはモデルの作成を行う方法
- すべて Spark を使用して、 Python または R でコードを作成します。
- コードにリッチ・テキストとメディアを含めます。
- 任意の種類のデータを任意の方法で処理します。
- プリインストールされているものを使用するか、他のオープン・ソースおよび IBM のライブラリーとパッケージをインストールします。
- コードの実行をスケジュールする
- ノートブックをファイル、URL、またはリソース・ハブからインポートします。
- ノートブックの読み取り専用コピーを外部で共有します。
- 開始する
- ノートブックを作成するには、新しい資産 > データとモデルの操作PythonまたはRノートブック。
- 詳細はこちら
- ノートブックに関する資料
- ノートブックに関するビデオ
- サンプル・ノートブック
Jupyterノートブックの基本を学ぶビデオを見る
このビデオは、このドキュメントのコンセプトとタスクを学ぶための視覚的な方法を提供します。
Data Refinery
Data Refinery を使用すると、グラフィック・フロー・エディターで表データを準備して視覚化できます。 データに対して順序付けられた操作のセットとして Data Refinery フローを作成し、実行します。
- 必須のサービス
- watsonx.aiStudio またはIBM Knowledge Catalog
- データ・フォーマット
- 表形式: Avro、CSV、JSON、Microsoft Excel (xls および xlsx 形式)。 最初のシートのみ (接続および接続されたデータ資産を除く)。 Parquet、「sas7bdat」拡張子 (読み取り専用)、TSV (読み取り専用)、または区切り文字で区切られているテキスト・データ資産を持つ SAS
- リレーショナル形式: リレーショナル・データ・ソース内のテーブル
- データ・サイズ
- 任意
- データの準備方法
- 60 を超える操作でデータをクレンジング、シェーピング、編成します。
- 詳細化されたデータを新規データ・セットとして保存するか、または元のデータを更新します。
- データのプロファイルを作成して検証します。
- 対話式テンプレートを使用して、コード操作、関数、および論理演算子でデータを操作します。
- データに対する繰り返し操作をスケジュールします。
- データの分析方法
- 複数の視覚化グラフでデータ内のパターン、接続、および関係を識別します。
- 開始する
- Data Refinery フローを作成するには、 「新規資産」>「データの準備と視覚化」をクリックします。
- 詳細はこちら
- Data Refinery に関する資料
- Data Refinery に関するビデオ
データを絞り込む方法をビデオで見る
このビデオは、このドキュメントのコンセプトとタスクを学ぶための視覚的な方法を提供します。
Data Replication
Data Replication を使用して、データを統合および同期化します。 Data Replication は、ソースへの影響を最小限に抑えながら、ほぼリアルタイムのデータ配信を提供します。
- 必要なサービス
Data Replication
- 関連サービス
IBM Knowledge Catalog
- データ形式
Data Replicationは、特定のタイプのデータ・ソースやデータ・フォーマットとの接続で機能する。 詳細については、サポートされるData Replication接続を参照してください。
- 資格情報
Data Replicationは、IBM Cloudの認証情報を使用してサービスに接続します。
- 開始する
プロジェクトでデータのレプリケーションを開始するには、[New asset] > [Replicate data]をクリックします。
- 詳細はこちら
データの複製方法をビデオで見る
このビデオは、このドキュメントのコンセプトとタスクを学ぶための視覚的な方法を提供します。
Data Virtualization
Data Virtualizationを使用して、複数のデータ・ソースを、データ・ソースまたはデータベースの単一の自己バランス・コレクションに接続します。
- データ・フォーマット
- リレーショナル形式: リレーショナル・データ・ソース内のテーブル
- データ・サイズ
- 任意
- データの準備方法
- 複数のデータ・ソースに接続します。
- 仮想表を作成します。
- 開始する
- 仮想テーブルを作成するには、[Data] > [Data virtualizationをクリックします。 サービス・メニューから、 仮想化 (Virtualization ) > 仮想化 (Virtualize) > 表 (Tables)をクリックします。
- 詳細はこちら
- Data Virtualizationに関する文書
- Data Virtualizationに関するビデオ
データを仮想化する方法をビデオで見る
このビデオは、このドキュメントのコンセプトとタスクを学ぶための視覚的な方法を提供します。
DataStage
DataStage を使用すると、グラフィック・フロー・エディターで表データを準備して視覚化できます。 データに対して順序付けられた操作のセットとして DataStage フローを作成し、実行します。
- 必要なサービス
- DataStage
- データ・フォーマット
- 表形式: Avro ファイル、CSV ファイル、JSON ファイル、Parquet ファイル、TSV (読み取り専用)ファイル、または区切り文字で区切られているテキスト・ファイル
- リレーショナル形式: リレーショナル・データ・ソース内のテーブル
- データ・サイズ
- 任意
- データの準備方法
- パフォーマンスの高い DataStage パラレル・エンジンで実行される Orchestrate コードを生成するグラフィカル・データ統合フローを設計します。
- 結合、ファンネル、チェックサム、マージ、変更、重複の削除、ソートなどの操作を実行します。
- 開始する
- 作成するにはDataStage流れ、クリック新しい資産 > データの変換と統合。 のDataStageタイルはグラフィカルビルダーセクション。
- 詳細はこちら
- DataStageに関するドキュメント
- DataStageに関するビデオ
データの変換方法をビデオで見る
このビデオは、このドキュメントのコンセプトとタスクを学ぶための視覚的な方法を提供します。
SPSS Modeler
SPSS Modeler を使用して、グラフィカル・ビルダーでフロー・エディターを使用してデータを準備し、モデルを作成およびトレーニングするためのフローを作成します。
- 必須のサービス
- watsonx.aiスタジオ
- データ形式
- リレーショナル形式: リレーショナル・データ・ソース内のテーブル
- 表形式: Excel ファイル (.xls または .xlsx)、CSV ファイル、または SPSS Statistics ファイル (.sav)
- テキスト形式: サポート対象のリレーショナル・テーブルまたはリレーショナル・ファイル内
- データ・サイズ
- 任意
- データの準備方法
- 自動データ準備機能を使用します。
- データを操作するための SQL ステートメントを書き込みます。
- データをクレンジング、シェーピング、サンプリング、ソート、および導出します。
- データの分析方法
- 40 を超えるグラフを使用してデータを視覚化します。
- テキスト・フィールドの自然言語を識別します。
- モデルの作成方法
- 予測モデルを構築します。
- 40 種類以上のモデリング・アルゴリズムから選択できます。
- 自動モデリング機能を使用します。
- 時系列または地理空間データをモデル化にします。
- テキスト・データを分類します。
- テキスト・データ内の概念間の関係を識別します。
- 開始する
- 作成するにはSPSS Modeler流れ、クリック新しいアセット > 視覚的なフローとしてモデルを構築。
- 詳細はこちら
- SPSS Modeler に関する資料
- SPSS Modelerに関するビデオ
SPSS Modelerでモデルを構築する方法をビデオでご覧ください
このビデオは、このドキュメントのコンセプトとタスクを学ぶための視覚的な方法を提供します。
Decision Optimization モデル・ビルダー
Decision Optimization を使用すると、Decision Optimization モデラーまたは Jupyter ノートブックで最適化モデルを作成し、実行できます。
- 必須のサービス
- watsonx.aiスタジオ
- データ形式
- 表形式: CSV ファイル
- データ・サイズ
- 任意
- データの準備方法
- 関連データをシナリオにインポートし、編集します。
- モデルの作成方法
- 規範的な Decision Optimization モデルを作成します。
- Python DOcplex、OPL、または自然言語の式を使用して、モデルの作成、インポート、編集を行います。
- ノートブックでモデルの作成、インポート、および編集を行います。
- モデルの解決方法
- CPLEX エンジンを使用して、Decision Optimization モデルを実行して解決します。
- 複数のシナリオのソリューションを調べて比較します。
- 表、グラフ、およびメモを作成して、1 つ以上のシナリオのデータとソリューションを視覚化します。
- 開始する
- 作成するにはDecision Optimizationモデル、クリック新しい資産 > 最適化問題を解決する、またはノートブックの場合はクリック新しい資産 > データとモデルの操作PythonまたはRノートブック。
- 詳細はこちら
- Decision Optimization に関する資料
- Decision Optimizationに関するビデオ
Decision Optimization実験の構築方法をビデオでご覧ください
このビデオは、このドキュメントのコンセプトとタスクを学ぶための視覚的な方法を提供します。
AutoAI ツール
AutoAI ツールを使用すると、表データを自動的に分析し、予測モデリングの問題に応じてカスタマイズされた候補モデル・パイプラインを生成できます。
- 必須のサービス
- watsonx.aiランタイム
- watsonx.aiスタジオ
- データ・フォーマット
- 表形式: CSV ファイル
- データ・サイズ
- モデル・タイプによって異なります。 詳しくは、 AutoAI の概要 を参照してください。
- データの準備方法
- 欠損値を代入したり、テキストをスカラー値に変換したりするなど、データを自動的に変換します。
- モデルの作成方法
- 二項分類、多クラス分類、または回帰モデルをトレーニングします。
- AutoAI トレーニング・ステージのシーケンスを示すツリー・インフォグラフィックを表示します。
- 交差検証スコアでランク付けされたモデル・パイプラインのリーダーボードを生成します。
- パイプラインをモデルとして保存します。
- 開始する
- 作成するにはAutoAI実験、クリック新しいアセット > 機械学習モデルを自動的に構築。
- 詳細はこちら
- AutoAI に関する資料
- AutoAIについてのビデオ
ビデオでAutoAIの実験方法を見る
このビデオは、このドキュメントのコンセプトとタスクを学ぶための視覚的な方法を提供します。
統合学習
統合学習ツールを使用して、分散データを使用する共通モデルをトレーニングします。 データが結合または共有されることはなく、データ保全性は維持されます。また、すべての参加パーティーに集約データに基づくモデルを提供します。
- 必須のサービス
- watsonx.aiスタジオ
- watsonx.aiランタイム
- データ・フォーマット
- 任意
- データ・サイズ
- 任意のサイズ
- モデルの作成方法
- トレーニング・フレームワークを選択します。
- 共通モデルを構成します。
- 共通モデルをトレーニングするためのファイルを構成します。
- リモート・パーティーがデータをトレーニングします。
- 共通モデルをデプロイします。
- 開始する
- 実験を作成するには、新しいアセット > 分散データでモデルをトレーニングする。
- 詳細はこちら
- 統合学習に関する資料
- Federated Learningに関するビデオ
Federated Learning実験の構築方法をビデオでご覧ください
このビデオは、このドキュメントのコンセプトとタスクを学ぶための視覚的な方法を提供します。
Metadata import
メタデータのインポート・ツールを使用して、データ資産のテクニカル・メタデータおよびプロセス・メタデータを自動的にディスカバーし、プロジェクトまたはカタログにインポートします。
- 必要なサービス
- IBM Knowledge Catalog
- データ・フォーマット
- 任意
- データ・サイズ
- 任意のサイズ
- データの準備方法
- 接続からデータ・ソースにデータ資産をインポートします。
- 開始する
- メタデータをインポートするには、新しいアセット > データアセットのメタデータをインポート。
- 詳細はこちら
- メタデータのインポートに関する資料
- IBM Knowledge Catalogに関するビデオ
アセットのメタデータをインポートする方法をビデオでご覧ください
このビデオは、このドキュメントのコンセプトとタスクを学ぶための視覚的な方法を提供します。
メタデータのエンリッチメント
メタデータ・エンリッチ・ツールを使用して、プロジェクト内のデータ資産のプロファイルを自動的に作成し、データ品質を分析します。
- 必要なサービス
- IBM Knowledge Catalog
- データ・フォーマット
- リレーショナル・データ・ソースと構造化データ・ソース: リレーショナル・データ・ソースと非リレーショナル・データ・ソースの表とファイル
- 表形式: Avro、CSV、または Parquet ファイル
- データ・サイズ
- 任意のサイズ
- データの準備と分析の方法
- プロジェクト内のデータ資産の選択セットのプロファイルを作成して分析します。
- 開始する
- データを充実させるには、新しい資産 > メタデータでデータ資産を充実させる。
- 詳細はこちら
- メタデータ・エンリッチに関する資料
- IBM Knowledge Catalogに関するビデオ
ビデオでデータ資産の強化方法を見る
このビデオは、このドキュメントのコンセプトとタスクを学ぶための視覚的な方法を提供します。
データ品質ルール
データ品質ツールを使用して、プロジェクト内のデータ品質を分析するルールを作成します。
- 必要なサービス
- IBM Knowledge Catalog
- データ・フォーマット
- リレーショナル・データ・ソースと構造化データ・ソース: リレーショナル・データ・ソースと非リレーショナル・データ・ソースの表とファイル
- 表形式: Avro、CSV、または Parquet ファイル
- データ・サイズ
- 任意のサイズ
- データの準備と分析の方法
- プロジェクト内の選択されたデータ資産セットの品質を分析します。
- 開始する
- データ品質ルールを作成するには、新しい資産 > データ品質の測定と監視。
- 詳細はこちら
- データ品質ルールに関する資料
IBM Match 360 with Watson
IBM Match 360 with Watson を使用して、顧客のデジタル・ツインを表すマスター・データ・エンティティーを作成します。 データをモデル化にしてマップしてから、マッチング・アルゴリズムを実行してマスター・データ・エンティティーを作成します。 組織の要件に合わせてマッチング・アルゴリズムをカスタマイズおよび調整します。
- 必須のサービス
- IBM Match 360 with Watson IBM Knowledge Catalog
- データ・サイズ
- 最大 1,000,000 レコード (ベータ・ライト・プランの場合)
- データの準備方法
- 組織全体のソースからのデータをモデル化してマップします。
- カスタマイズ可能なマッチング・アルゴリズムを実行して、マスター・データ・エンティティーを作成します。
- マスター・データ・エンティティーとその関連なレコードを表示および編集します。
- 開始する
- 作成するにはIBMMatch 360構成アセット、クリック新しいアセット > データを360度ビューに統合。
- 詳細はこちら
- IBM Match 360 with Watson に関する資料
- IBM Match 360についてのビデオ
IBM Match 360の使用方法をビデオでご覧ください
このビデオは、このドキュメントのコンセプトとタスクを学ぶための視覚的な方法を提供します。
RStudio IDE
RStudio IDE を使用すると、R コードを作成してデータを分析したり、Shiny アプリケーションを作成したりできます。
- 必要なサービス
- watsonx.aiスタジオ
- データ・フォーマット
- 任意
- データ・サイズ
- 任意のサイズ
- データの準備、データの分析、およびモデルの作成を行う方法
- R でコードを作成します。
- Shiny アプリを作成します。
- オープン・ソースのライブラリーとパッケージを使用します。
- コードにリッチ・テキストとメディアを含めます。
- データを準備します。
- データを視覚化にします。
- データから洞察を発見します。
- オープン・ソース・ライブラリーを使用してモデルを作成し、トレーニングします。
- Git リポジトリーで Shiny アプリを共有します。
- 開始する
- RStudio を使用するには、 「IDE の起動」 > 「RStudio」をクリックします。
- 詳細はこちら
- RStudio に関する資料
- RStudio に関するビデオ
RStudio IDE の概要をビデオでご覧ください
このビデオは、このドキュメントのコンセプトとタスクを学ぶための視覚的な方法を提供します。
マスキング・フロー
マスキング・フロー・ツールを使用して、カタログからマスクされたデータのコピーまたはマスクされたデータのサブセットを準備します。 データは、データ保護ルールで拡張マスキング・オプションを使用して識別解除されます。
- 必要なサービス
- IBM Knowledge Catalog
- データ・フォーマット
- リレーショナル形式: リレーショナル・データ・ソース内のテーブル
- データ・サイズ
- 任意のサイズ
- データの準備、データの分析、またはモデルの作成を行う方法
- 管理対象カタログからプロジェクトにデータ資産をインポートします。
- マスキング・フロー・ジョブ定義を作成して、データ保護ルールを使用してマスクするデータを指定します。
- オプションで、コピーされたデータのサイズを削減するためにデータをサブセット化にします。
- マスク・フロー・ジョブを実行して、マスクされたコピーをターゲット・データベース接続にロードします。
- 開始する
- IBM Knowledge Catalog の前提条件ステップが完了していることを確認してください。 データを非公開するには、以下のいずれかのタスクを実行します:
- クリック新しいアセット > データのコピーとマスク。
- 個々のデータ資産のメニュー・オプションをクリックして、その資産を直接マスクします。
マスキング・フローの作り方をビデオで見る
このビデオは、このドキュメントのコンセプトとタスクを学ぶための視覚的な方法を提供します。
オーケストレーション・パイプライン
パイプライン・キャンバス・エディターを使用して、データを準備、視覚化、および分析するフローを作成したり、モデルを作成してトレーニングしたりします。
- データ・フォーマット
- 任意
- データ・サイズ
- 任意
- データの準備、データの分析、またはモデルの作成を行う方法
- それぞれに独自のログが含まれているさまざまなノードを使用します。
- ノートブックをフローに取り込んで、任意の Python または R コードを実行します。
- 任意の種類のデータを任意の方法で処理します。
- フローの実行をスケジュールします。
- マウントした PVC、プロジェクトからデータをインポートするか、Github からデータを取り込みます。
- Python コードを使用してカスタム・コンポーネントを作成します。
- 必要に応じて、データ品質をモニターするためにパイプラインを条件付けします。
- Web フックを使用して E メールまたはメッセージを送信し、フローの状況を最新の状態に維持します。
- 開始する
- 新しいパイプラインを作成するには、新しいアセット > モデルのライフサイクルを自動化。
- 詳細はこちら
- オーケストレーション・パイプラインに関するドキュメント
- オーケストレーション・パイプラインに関する動画
ビデオでパイプラインの作り方を見る
このビデオは、このドキュメントのコンセプトとタスクを学ぶための視覚的な方法を提供します。
データ視覚化
データ可視化を使用して、データから洞察を発見します。 視覚化を使用してさまざまな観点からデータを探索することにより、そのデータ内のパターン、接続、および関係を識別し、大量の情報を素早く理解することができます。
- データ・フォーマット
- 表形式: Avro、CSV、JSON、Parquet、TSV、SAV、Microsoft Excel .xls および .xlsx ファイル、SAS、区切り文字で区切られているテキスト・ファイル、および接続されているデータ。 サポートされるデータ・ソースについて詳しくは、 コネクターを参照してください。
- データ・サイズ
- 無制限
- 開始する
- 視覚化を作成するには、プロジェクト内の資産タイプのリストで 「データ資産」 をクリックし、データ資産を選択します。 ビジュアライゼーション・タブをクリックし、チャート・タイプを選択する。
- 詳細はこちら
- データの可視化
親トピック: プロジェクト