ツールの選択 | IBM Cloud Pak for Data as a Service

資料の英語版に戻る

ツールの選択

Cloud Pak for Data as a Service のコア・サービスには、データの準備、分析、およびモデル化のあらゆる経験レベル (初心者から専門家まで) のユーザー向けに、さまざまなツールが用意されています。適切なツールは、所有しているデータのタイプ、実行する予定のタスク、および必要な自動化の量によって異なります。

プロジェクトで使用するツールと、それらのツールが必要とするサービスを確認するには、ツールとサービス・マップを開きます。

適切なツールを選択するには、以下の要素について検討します。

所有しているデータのタイプ

区切り文字で区切られたファイルの表データか、リモート・データ・ソースのリレーショナル・データ
イメージ・ファイル
文書内のテキスト (非構造化) データ

実行する必要があるタスクのタイプ

データの準備: データをクレンジング、シェーピング、視覚化、編成、および検証する。
データの分析: データのパターンと関係を特定し、洞察を表示する。
モデルの作成: モデルを作成、トレーニング、テスト、およびデプロイして、予測を行ったり、意思決定を最適化したりします。

必要な自動化の量

コード・エディター・ツール: Python または R でコードを作成するために使用します。すべて Spark でも使用できます。
グラフィカル・ビルダー・ツール: ビルダーでメニューおよびドラッグ・アンド・ドロップ機能を使用して、視覚的にプログラムを作成します。
自動化ビルダー・ツール: 限定されたユーザー入力を必要とする自動化タスクを構成するために使用します。

以下から適切なツールを見つけます。

表データまたはリレーショナル・データ用のツール
テキスト・データ用のツール
イメージ・データ用のツール
ツールへのアクセス

表データまたはリレーショナル・データ用のツール

表データまたはリレーショナル・データ用のツールをタスク別に以下に示します。

表データまたはリレーショナル・データ用のツール
ツール	ツール・タイプ	データの準備	データの分析	モデルの構築
Jupyter ノートブック・エディター	コード・エディター	✓	✓	✓
統合学習	コード・エディター			✓
RStudio	コード・エディター	✓	✓	✓
Data Refinery	グラフィカル・ビルダー	✓	✓
マスキング・フロー	自動化ビルダー	✓
Watson Query	グラフィカル・ビルダー	✓
DataStage	グラフィカル・ビルダー	✓
SPSS Modeler	グラフィカル・ビルダー	✓	✓	✓
Decision Optimization モデル・ビルダー	グラフィカル・ビルダーおよびコード・エディター	✓		✓
AutoAI	自動化ビルダー	✓		✓
Metadata import	自動化ビルダー	✓
メタデータのエンリッチメント	自動化ビルダー	✓	✓
データ品質ルール	自動化ビルダーおよびコード・エディター		✓
IBM Match 360 with Watson (ベータ版)	自動化ビルダー	✓
Watson Pipelines	グラフィカル・ビルダー	✓	✓	✓

テキスト・データ用のツール

テキスト・データを処理するモデルを作成するためのツール:

テキスト・データ用のツール
ツール	コード・エディター	グラフィカル・ビルダー
Jupyter ノートブック・エディター	✓
RStudio	✓
SPSS Modeler		✓
Watson Pipelines		✓

イメージ・データ用のツール

イメージを分類するモデルを作成するためのツールを以下に示します。

イメージ・データ用のツール
ツール	コード・エディター	グラフィカル・ビルダー
Jupyter ノートブック・エディター	✓
RStudio	✓
Watson Pipelines		✓

ツールへのアクセス

ツールを使用するには、そのツールに固有の資産を作成するか、そのツールの既存の資産を開く必要があります。アセットを作成するには、 「新規アセット」 または 「アセットのインポート」 をクリックし、目的のアセット・タイプを選択します。以下の表に、各ツールに選択すべき資産タイプを示します。

ツールと資産タイプのマッピング
使用するツール	選択すべき資産タイプ
Jupyter ノートブック・エディター	Jupyter ノートブック・エディター
Data Refinery	Data Refinery フロー
マスキング・フロー	マスキング・フロー
DataStage	DataStage フロー
SPSS Modeler	モデラー・フロー
Decision Optimization モデル・ビルダー	Decision Optimization
AutoAI	AutoAI エクスペリメント
統合学習	統合学習エクスペリメント
Metadata import	Metadata import
メタデータのエンリッチメント	メタデータのエンリッチメント
データ品質ルール	データ品質ルール
IBM Match 360 with Watson (ベータ版)	マスター・データ構成

RStudioでノートブックを編集するには、 Launch IDE > RStudioをクリックします。

Jupyter ノートブック・エディター

Jupyter ノートブック・エディターを使用すると、データを準備、視覚化、および分析するため、またはモデルを作成、トレーニングするためのコードを実行するノートブックを作成できます。

必須のサービス: Watson Studio
データ・フォーマット: 任意
データ・サイズ: 任意
データの準備、データの分析、またはモデルの作成を行う方法: すべて Spark を使用して、 Python または R でコードを作成します。; コードにリッチ・テキストとメディアを含めます。; 任意の種類のデータを任意の方法で処理します。; プリインストールされているものを使用するか、他のオープン・ソースおよび IBM のライブラリーとパッケージをインストールします。; コードの実行をスケジュールする; ノートブックをファイル、 URL、またはリソース・ハブからインポートします。; ノートブックの読み取り専用コピーを外部で共有します。
開始する: ノートブックを作成するには、 「新規資産」>「Jupyter ノートブック・エディター」をクリックします。
詳細情報: ビデオ: 公開データ・セットのロードおよび分析; ノートブックに関するビデオ; サンプル・ノートブック; ノートブックに関する資料

Data Refinery

Data Refinery を使用すると、グラフィック・フロー・エディターで表データを準備して視覚化できます。データに対して順序付けられた操作のセットとして Data Refinery フローを作成し、実行します。

必須のサービス: Watson Studio または IBM Knowledge Catalog
データ・フォーマット: 表形式: Avro、CSV、JSON、Microsoft Excel (xls および xlsx 形式)。最初のシートのみ (接続および接続されたデータ資産を除く)。 Parquet、「sas7bdat」拡張子 (読み取り専用)、TSV (読み取り専用)、または区切り文字で区切られているテキスト・データ資産を持つ SAS; リレーショナル形式: リレーショナル・データ・ソース内のテーブル
データ・サイズ: 任意
データの準備方法: 60 を超える操作でデータをクレンジング、シェーピング、編成します。; 詳細化されたデータを新規データ・セットとして保存するか、または元のデータを更新します。; データのプロファイルを作成して検証します。; 対話式テンプレートを使用して、コード操作、関数、および論理演算子でデータを操作します。; データに対する繰り返し操作をスケジュールします。
データの分析方法: 複数の視覚化グラフでデータ内のパターン、接続、および関係を識別します。
開始する: Data Refinery フローを作成するには、 「新規資産」> Data Refineryをクリックします。 Data Refinery タイルは、 「グラフィカル・ビルダー」 セクションにあります。
詳細情報: Data Refinery に関する資料; Data Refinery に関するビデオ; ビデオ: データのシェーピング

Watson Query

Watson Query を使用して、複数のデータ・ソースを、データ・ソースまたはデータベースの単一の自己バランス・コレクションに接続します。

データ・フォーマット: リレーショナル形式: リレーショナル・データ・ソース内のテーブル
データ・サイズ: 任意
データの準備方法: 複数のデータ・ソースに接続します。; 仮想表を作成します。
開始する: 仮想表を作成するには、 「データ」 > Data virtualizationをクリックします。サービス・メニューから、 仮想化 (Virtualization ) > 仮想化 (Virtualize) > 表 (Tables)をクリックします。
詳細情報: Watson 照会の資料

DataStage

DataStage を使用すると、グラフィック・フロー・エディターで表データを準備して視覚化できます。データに対して順序付けられた操作のセットとして DataStage フローを作成し、実行します。

必要なサービス: DataStage
データ・フォーマット: 表形式: Avro ファイル、CSV ファイル、JSON ファイル、Parquet ファイル、TSV (読み取り専用)ファイル、または区切り文字で区切られているテキスト・ファイル; リレーショナル形式: リレーショナル・データ・ソース内のテーブル
データ・サイズ: 任意
データの準備方法: パフォーマンスの高い DataStage パラレル・エンジンで実行される Orchestrate コードを生成するグラフィカル・データ統合フローを設計します。; 結合、ファンネル、チェックサム、マージ、変更、重複の削除、ソートなどの操作を実行します。
開始する: DataStage フローを作成するには、 「新規資産」> DataStageをクリックします。 DataStage タイルは、 「グラフィカル・ビルダー」 セクションにあります。
詳細情報: DataStage 資料

SPSS Modeler

SPSS Modeler を使用して、グラフィカル・ビルダーでフロー・エディターを使用してデータを準備し、モデルを作成およびトレーニングするためのフローを作成します。

必須のサービス: Watson Studio
データ形式: リレーショナル形式: リレーショナル・データ・ソース内のテーブル; 表形式: Excel ファイル (.xls または .xlsx)、CSV ファイル、または SPSS Statistics ファイル (.sav); テキスト形式: サポート対象のリレーショナル・テーブルまたはリレーショナル・ファイル内
データ・サイズ: 任意
データの準備方法: 自動データ準備機能を使用します。; データを操作するための SQL ステートメントを書き込みます。; データをクレンジング、シェーピング、サンプリング、ソート、および導出します。
データの分析方法: 40 を超えるグラフを使用してデータを視覚化します。; テキスト・フィールドの自然言語を識別します。
モデルの作成方法: 予測モデルを構築します。; 40 種類以上のモデリング・アルゴリズムから選択できます。; 自動モデリング機能を使用します。; 時系列または地理空間データをモデル化にします。; テキスト・データを分類します。; テキスト・データ内の概念間の関係を識別します。
開始する: SPSS Modeler フローを作成するには、 「新規資産」> SPSS Modelerをクリックします。
詳細情報: ビデオ: SPSS Modeler - エンタープライズ・データ・サイエンス組織向けに新しくなった UI; SPSS Modeler に関する資料

Decision Optimization モデル・ビルダー

Decision Optimization を使用すると、Decision Optimization モデラーまたは Jupyter ノートブックで最適化モデルを作成し、実行できます。

必須のサービス: Watson Studio
データ形式: 表形式: CSV ファイル
データ・サイズ: 任意
データの準備方法: 関連データをシナリオにインポートし、編集します。
モデルの作成方法: 規範的な Decision Optimization モデルを作成します。; Python DOcplex、OPL、または自然言語の式を使用して、モデルの作成、インポート、編集を行います。; ノートブックでモデルの作成、インポート、および編集を行います。
モデルの解決方法: CPLEX エンジンを使用して、Decision Optimization モデルを実行して解決します。; 複数のシナリオのソリューションを調べて比較します。; 表、グラフ、およびメモを作成して、1 つ以上のシナリオのデータとソリューションを視覚化します。
開始する: Decision Optimization モデルを作成するには、 「新規資産」> Decision Optimizationをクリックするか、ノートブックの場合は 「新規資産」>「Jupyter ノートブック・エディター」をクリックします。
詳細情報: Decision Optimizationに関するビデオ; Decision Optimization に関する資料

AutoAI ツール

AutoAI ツールを使用すると、表データを自動的に分析し、予測モデリングの問題に応じてカスタマイズされた候補モデル・パイプラインを生成できます。

必須のサービス: Watson Machine Learning; Watson Studio
データ・フォーマット: 表形式: CSV ファイル
データ・サイズ: モデル・タイプによって異なります。詳しくは、 AutoAI の概要を参照してください。
データの準備方法: 欠損値を代入したり、テキストをスカラー値に変換したりするなど、データを自動的に変換します。
モデルの作成方法: 二項分類、多クラス分類、または回帰モデルをトレーニングします。; AutoAI トレーニング・ステージのシーケンスを示すツリー・インフォグラフィックを表示します。; 交差検証スコアでランク付けされたモデル・パイプラインのリーダーボードを生成します。; パイプラインをモデルとして保存します。
開始する: AutoAI エクスペリメントを作成するには、 「新規資産」> AutoAIをクリックします。
詳細情報: AutoAI に関する資料

統合学習

統合学習ツールを使用して、分散データを使用する共通モデルをトレーニングします。データが結合または共有されることはなく、データ保全性は維持されます。また、すべての参加パーティーに集約データに基づくモデルを提供します。

必須のサービス: Watson Studio; Watson Machine Learning
データ・フォーマット: 任意
データ・サイズ: 任意のサイズ
モデルの作成方法: トレーニング・フレームワークを選択します。; 共通モデルを構成します。; 共通モデルをトレーニングするためのファイルを構成します。; リモート・パーティーがデータをトレーニングします。; 共通モデルをデプロイします。
開始する: エクスペリメントを作成するには、 「新規資産」>「統合学習」をクリックします。
詳細情報: 統合学習に関する資料

Metadata import

メタデータのインポート・ツールを使用して、データ資産のテクニカル・メタデータおよびプロセス・メタデータを自動的にディスカバーし、プロジェクトまたはカタログにインポートします。

必要なサービス: IBM Knowledge Catalog
データ・フォーマット: 任意
データ・サイズ: 任意のサイズ
データの準備方法: 接続からデータ・ソースにデータ資産をインポートします。
開始する: メタデータをインポートするには、 「新規資産」> Metadata importをクリックします。
詳細情報: メタデータのインポートに関する資料; IBM Knowledge Catalogに関するビデオ

メタデータのエンリッチメント

メタデータ・エンリッチ・ツールを使用して、プロジェクト内のデータ資産のプロファイルを自動的に作成し、データ品質を分析します。

必要なサービス: IBM Knowledge Catalog
データ・フォーマット: リレーショナル・データ・ソースと構造化データ・ソース: リレーショナル・データ・ソースと非リレーショナル・データ・ソースの表とファイル; 表形式: Avro、CSV、または Parquet ファイル
データ・サイズ: 任意のサイズ
データの準備と分析の方法: プロジェクト内のデータ資産の選択セットのプロファイルを作成して分析します。
開始する: データをエンリッチするには、 「新規資産」>「メタデータ・エンリッチメント」をクリックします。
詳細情報: メタデータ・エンリッチに関する資料

データ品質ルール

データ品質ツールを使用して、プロジェクト内のデータ品質を分析するルールを作成します。

必要なサービス: IBM Knowledge Catalog
データ・フォーマット: リレーショナル・データ・ソースと構造化データ・ソース: リレーショナル・データ・ソースと非リレーショナル・データ・ソースの表とファイル; 表形式: Avro、CSV、または Parquet ファイル
データ・サイズ: 任意のサイズ
データの準備と分析の方法: プロジェクト内の選択されたデータ資産セットの品質を分析します。
開始する: データ品質ルールを作成するには、 「新規資産」>「データ品質ルール」をクリックします。
詳細情報: データ品質ルールに関する資料

IBM Match 360 with Watson

IBM Match 360 with Watson を使用して、顧客のデジタル・ツインを表すマスター・データ・エンティティーを作成します。データをモデル化にしてマップしてから、マッチング・アルゴリズムを実行してマスター・データ・エンティティーを作成します。組織の要件に合わせてマッチング・アルゴリズムをカスタマイズおよび調整します。

必須のサービス: IBM Match 360 with Watson IBM Knowledge Catalog
データ・サイズ: 最大 1,000,000 レコード (ベータ・ライト・プランの場合)
データの準備方法: 組織全体のソースからのデータをモデル化してマップします。; カスタマイズ可能なマッチング・アルゴリズムを実行して、マスター・データ・エンティティーを作成します。; マスター・データ・エンティティーとその関連なレコードを表示および編集します。
開始する: IBM Match 360 構成資産を作成するには、 「新規資産」>「マスター・データ構成」をクリックします。
詳細情報: IBM Match 360 with Watson に関する資料

RStudio IDE

RStudio IDE を使用すると、R コードを作成してデータを分析したり、Shiny アプリケーションを作成したりできます。

必要なサービス: Watson Studio
データ・フォーマット: 任意
データ・サイズ: 任意のサイズ
データの準備、データの分析、およびモデルの作成を行う方法: R でコードを作成します。; Shiny アプリを作成します。; オープン・ソースのライブラリーとパッケージを使用します。; コードにリッチ・テキストとメディアを含めます。; データを準備します。; データを視覚化にします。; データから洞察を発見します。; オープン・ソース・ライブラリーを使用してモデルを作成し、トレーニングします。; Git リポジトリーで Shiny アプリを共有します。
開始する: RStudioを使用するには、 「IDE の起動」 > RStudioをクリックします。
詳細情報: RStudio に関する資料; ビデオ: RStudio IDE の概要; RStudio に関するビデオ

マスキング・フロー

マスキング・フロー・ツールを使用して、カタログからマスクされたデータのコピーまたはマスクされたデータのサブセットを準備します。データは、データ保護ルールで拡張マスキング・オプションを使用して識別解除されます。

必要なサービス: IBM Knowledge Catalog
データ・フォーマット: リレーショナル形式: リレーショナル・データ・ソース内のテーブル
データ・サイズ: 任意のサイズ
データの準備、データの分析、またはモデルの作成を行う方法: 管理対象カタログからプロジェクトにデータ資産をインポートします。; マスキング・フロー・ジョブ定義を作成して、データ保護ルールを使用してマスクするデータを指定します。; オプションで、コピーされたデータのサイズを削減するためにデータをサブセット化にします。; マスク・フロー・ジョブを実行して、マスクされたコピーをターゲット・データベース接続にロードします。
開始する: IBM Knowledge Catalog が完了していることを確認してください。データを非公開するには、以下のいずれかのタスクを実行します：

新規資産 > マスキング・フローをクリックします。
個々のデータ資産のメニュー・オプションをクリックして、その資産を直接マスクします。

詳細情報: マスキング・データに関する資料

Watson Pipelines

パイプライン・キャンバス・エディターを使用して、データを準備、視覚化、および分析するフローを作成したり、モデルを作成してトレーニングしたりします。

データ・フォーマット: 任意
データ・サイズ: 任意
データの準備、データの分析、またはモデルの作成を行う方法: それぞれに独自のログが含まれているさまざまなノードを使用します。; ノートブックをフローに取り込んで、任意の Python または R コードを実行します。; 任意の種類のデータを任意の方法で処理します。; フローの実行をスケジュールします。; マウントした PVC、プロジェクトからデータをインポートするか、Github からデータを取り込みます。; Python コードを使用してカスタム・コンポーネントを作成します。; 必要に応じて、データ品質をモニターするためにパイプラインを条件付けします。; Web フックを使用して E メールまたはメッセージを送信し、フローの状況を最新の状態に維持します。
開始する: 新規パイプラインを作成するには、 「新規資産」>「パイプライン」をクリックします。

データ視覚化

データ可視化を使用して、データから洞察を発見します。視覚化を使用してさまざまな観点からデータを探索することにより、そのデータ内のパターン、接続、および関係を識別し、大量の情報を素早く理解することができます。

データ・フォーマット: 表形式: Avro、CSV、JSON、Parquet、TSV、SAV、Microsoft Excel .xls および .xlsx ファイル、SAS、区切り文字で区切られているテキスト・ファイル、および接続されているデータ。サポートされるデータ・ソースについて詳しくは、コネクターを参照してください。
データ・サイズ: 無制限
開始する: 視覚化を作成するには、プロジェクト内の資産タイプのリストで 「データ資産」 をクリックし、データ資産を選択します。 「視覚化」 タブをクリックし、グラフ・タイプを選択します。
詳細情報: データの視覚化

親トピック: プロジェクト