ツールの選択
Cloud Pak for Data as a Service のコア・サービスには、データの準備、分析、およびモデル化のあらゆる経験レベル (初心者から専門家まで) のユーザー向けに、さまざまなツールが用意されています。 適切なツールは、所有しているデータのタイプ、実行する予定のタスク、および必要な自動化の量によって異なります。
適切なツールを選択するには、以下の要素について検討します。
所有しているデータのタイプ
- 区切り文字で区切られたファイルの表データか、リモート・データ・ソースのリレーショナル・データ
- イメージ・ファイル
- 文書内のテキスト・データ
実行する必要があるタスクのタイプ
- データの準備: データをクレンジング、シェーピング、視覚化、編成、および検証する。
- データの分析: データのパターンと関係を特定し、洞察を表示する。
- モデルの作成: モデルを作成、トレーニング、テスト、およびデプロイして、予測を行ったり、意思決定を最適化したりします。
必要な自動化の量
- コード・エディター・ツール: Python、R、または Scala でコードを作成する場合に使用します。
-
グラフィカル・ビルダー・ツール: ビルダーでメニューおよびドラッグ・アンド・ドロップ機能を使用して、視覚的にプログラムを作成します。
-
自動化ビルダー・ツール: 限定されたユーザー入力を必要とする自動化タスクを構成するために使用します。
以下から適切なツールを見つけます。
表データまたはリレーショナル・データ用のツール
{: #tab}表データまたはリレーショナル・データ用のツールをタスク別に以下に示します。
ツール | ツール・タイプ | データの準備 | データの分析 | モデルの構築 |
---|---|---|---|---|
Jupyter ノートブック・エディター | コード・エディター | ✓ | ✓ | ✓ |
統合学習 | コード・エディター | ✓ | ||
RStudio | コード・エディター | ✓ | ✓ | ✓ |
Data Refinery | グラフィカル・ビルダー | ✓ | ✓ | |
フローのマスキング | 自動化ビルダー | ✓ | ||
Watson の照会 | グラフィカル・ビルダー | ✓ | ||
DataStage | グラフィカル・ビルダー | ✓ | ||
ダッシュボード・エディター | グラフィカル・ビルダー | ✓ | ||
SPSS Modeler | グラフィカル・ビルダー | ✓ | ✓ | ✓ |
Decision Optimization モデル・ビルダー | グラフィカル・ビルダーおよびコード・エディター | ✓ | ✓ | |
AutoAI | 自動化ビルダー | ✓ | ✓ | |
メタデータのインポート | 自動化ビルダー | ✓ | ||
メタデータのエンリッチメント | 自動化ビルダー | ✓ | ✓ | |
IBM Match 360 with Watson (ベータ版) | 自動化ビルダー | ✓ |
テキスト・データ用のツール
{: #text}テキスト・データを分類するモデルを作成するためのツールを以下に示します。
ツール | コード・エディター | グラフィカル・ビルダー | 自動化ビルダー |
---|---|---|---|
Jupyter ノートブック・エディター | ✓ | ||
RStudio | ✓ | ||
SPSS Modeler | ✓ |
イメージ・データ用のツール
{: #image}イメージを分類するモデルを作成するためのツールを以下に示します。
ツール | コード・エディター | グラフィカル・ビルダー | 自動化ビルダー |
---|---|---|---|
Jupyter ノートブック・エディター | ✓ | ||
RStudio | ✓ |
ツールへのアクセス
{: #access}ツールを使用するには、そのツールに固有の資産を作成するか、そのツールの既存の資産を開く必要があります。 アセットを作成するには、 新規資産 をクリックして、必要なアセット・タイプを選択します。 以下の表に、各ツールに選択すべき資産タイプを示します。
使用するツール | 選択すべき資産タイプ |
---|---|
Jupyter ノートブック・エディター | Jupyter ノートブック |
Data Refinery | Data Refinery フロー |
フローのマスキング | フローのマスキング |
DataStage | DataStage フロー |
ダッシュボード・エディター | Dashboard |
SPSS Modeler | モデラー・フロー |
Decision Optimization モデル・ビルダー | Decision Optimization |
AutoAI | AutoAI 実験 |
統合学習 | 連合学習テスト |
メタデータのインポート | メタデータのインポート |
メタデータのエンリッチメント | メタデータのエンリッチメント |
IBM Match 360 with Watson (ベータ版) | マスター・データ構成 |
RStudioでノートブックを編集するには、 Launch IDE > RStudioをクリックします。
Jupyter ノートブック・エディター
{: #jn}Jupyter ノートブック・エディターを使用すると、データを準備、視覚化、および分析するため、またはモデルを作成、トレーニングするためのコードを実行するノートブックを作成できます。
必須サービス Watson Studio
データ形式 任意
データ・サイズ 任意
データの準備、データの分析、またはモデルの作成を行う方法 Python、R、または Scala でコードを作成します。 コードにリッチ・テキストとメディアを含めます。 任意の種類のデータを任意の方法で処理します。 プリインストールされているものを使用するか、他のオープン・ソースおよび IBM のライブラリーとパッケージをインストールします。 コードの実行をスケジュールすることは ファイル、URL、またはギャラリーからノートブックをインポートします。 ノートブックの読み取り専用コピーを外部で共有します。
使用を開始する (Get started) ノートブックを作成するには、 新規資産 (New asset) > ノートブック (Notebook)をクリックします。
詳細はこちら 公開データ・セットビデオをのロードして分析する ノートブックに関するビデオ サンプル・ノートブック ノートブックに関する資料
Data Refinery
{: #dr}Data Refinery を使用すると、グラフィック・フロー・エディターで表データを準備して視覚化できます。 データに対して順序付けられた操作のセットとして Data Refinery フローを作成し、実行します。
必要なサービス Watson Studio または Watson Knowledge Catalog
データ形式 表形式: Avro、CSV、JSON、Parquet、SAS (拡張子「sas7bdat」(読み取り専用)、TSV (読み取り専用)、または区切り文字で区切られているテキスト・ファイル リレーショナル: リレーショナル・データ・ソース内のテーブル
データ・サイズ 任意
データを準備する方法 60 個を超える操作方法でデータをクリーンアップ、シェーピング、編成します。 詳細化されたデータを新規データ・セットとして保存するか、または元のデータを更新します。 データのプロファイルを作成して検証します。 対話式テンプレートを使用して、コード操作、関数、および論理演算子でデータを操作します。 データに対する繰り返し操作をスケジュールします。
データの分析方法 複数の視覚化グラフで、データ内のパターン、接続、および関係を識別します。
使用を開始する Data Refinery フローを作成するには、 新規資産 > Data Refinery フローをクリックします。
詳細はこちら Data Refinery に関するビデオ シェイプ・データ・ビデオ Data Refinery に関する資料
Watson 照会
{: #dv} Watson Query を使用して、複数のデータ・ソースを、データ・ソースまたはデータベースの単一のセルフバランスのコレクションに接続します。
データ形式 リレーショナル: リレーショナル・データ・ソース内のテーブル
データ・サイズ 任意
データを準備する方法 複数のデータ・ソースに接続します。 仮想表を作成します。
使用を開始する 仮想表を作成するには、 データ (Data) > データ仮想化 (Data virtualization)をクリックします。 サービス・メニューから、 仮想化 (Virtualization ) > 仮想化 (Virtualize) > 表 (Tables)をクリックします。
詳細はこちら Watson 照会の資料
DataStage
{: #ds}DataStage を使用すると、グラフィック・フロー・エディターで表データを準備して視覚化できます。 データに対して順序付けられた操作のセットとして DataStage フローを作成し、実行します。
データ形式 表形式: Avro、CSV、JSON、Parquet、TSV (読み取り専用)、または区切り文字で区切られているテキスト・ファイル リレーショナル: リレーショナル・データ・ソース内のテーブル
データ・サイズ 任意
データを準備する方法 パフォーマンスの高い DataStage パラレル・エンジンで実行する Orchestrate コードを生成するグラフィカル・データ統合フローを設計します。 Join、Funnel、Checksum、Merge、Modify、Remove Duplicates、および Sort などの操作を実行します。
使用を開始する DataStage フローを作成するには、 新規資産 (New asset) > DataStage フローをクリックします。
詳細はこちら DataStage 資料
ダッシュボード・エディター
{: #dash} ダッシュボード・エディターを使用して、グラフィカル・ビルダーで分析結果の一連の視覚化を作成します。
必須サービス Cognos Dashboard Embedded
データ形式 表形式: CSV ファイル リレーショナル: 一部のリレーショナル・データ・ソースのテーブルです
データ・サイズ 任意のサイズ
データの分析方法 コーディングなしでグラフを作成します。 テキスト、メディア、web ページ、イメージ、および形状をダッシュボードに含めます。 対話式ダッシュボードを外部で共有します。
使用を開始する ダッシュボードを作成するには、 新規資産 (New asset) > ダッシュボード (Dashboard)をクリックします。
詳細情報
SPSS Modeler
{: #spss} SPSS Modeler を使用してフローを作成し、グラフィカル・ビルダー上のフロー・エディターでデータを準備し、モデルを作成してトレーニングします。
必要なサービス Watson Studio
データ形式 リレーショナル: リレーショナル・データ・ソース内のテーブル 表形式: Excel ファイル (.xls または .xlsx)、CSV ファイル、または SPSS Statistics ファイル (.sav) テキスト: サポートされたリレーショナル・テーブルまたはファイルの中です
データ・サイズ 任意
データを準備する方法 自動データ準備機能を使用します。 データを操作するための SQL ステートメントを書き込みます。 データをクレンジング、シェーピング、サンプリング、ソート、および導出します。
データの分析方法 40 個以上のグラフを使用してデータを視覚化にします。 テキスト・フィールドの自然言語を識別します。
モデルの作成方法 予測モデルを作成します。
40 種類以上のモデリング・アルゴリズムから選択できます。
自動モデリング機能を使用します。
時系列または地理空間データをモデル化にします。
テキスト・データを分類します。
テキスト・データ内の概念間の関係を識別します。
使用を開始する SPSS Modele フローを作成するには、 新規資産 (New asset)> Modeler フロー をクリックし、 IBM SPSS Modeleを選択します。
詳細はこちら SPSS Modeler -エンタープライズ・データ・サイエンスのパワーハウス・ビデオの UI をリフレッシュしました SPSS Modeler に関する資料
Decision Optimization モデル・ビルダー
{: #do}Decision Optimization を使用すると、Decision Optimization モデラーまたは Jupyter ノートブックで最適化モデルを作成し、実行できます。
必要なサービス Watson Studio
データ形式 表形式: CSV ファイル
データ・サイズ 任意
データを準備する方法関連データをシナリオにインポートして編集します。
モデルの作成方法対策決定最適化モデルを作成します。 Python DOcplex、OPL、または自然言語の式を使用して、モデルの作成、インポート、編集を行います。 ノートブックでモデルの作成、インポート、および編集を行います。
モデルを解決する方法 CPLEX エンジンを使用して決定最適化モデルを実行および解決します。 複数のシナリオのソリューションを調べて比較します。 表、グラフ、およびメモを作成して、1 つ以上のシナリオのデータとソリューションを視覚化します。
使用を開始する Decision Optimization モデルを作成するには、 New asset > Decision Optimizationをクリックするか、またはノートブックの場合は New asset > Notebookをクリックします。
詳細はこちら Decision Optimization に関するビデオ Decision Optimization に関する資料
AutoAI ツール
{: #auto}AutoAI ツールを使用すると、表データを自動的に分析し、予測モデリングの問題に応じてカスタマイズされた候補モデル・パイプラインを生成できます。
必須サービス Watson Machine Learning
データ形式 表形式: CSV ファイル
データ・サイズ 1 GB より小さい
データを準備する方法 欠損値を代入するなど、データを自動的に変換します。
モデルの作成方法 二項分類、多項分類、または回帰モデルをトレーニングします。 AutoAI トレーニング・ステージのシーケンスを示すツリー・インフォグラフィックを表示します。 交差検証スコアでランク付けされたモデル・パイプラインのリーダーボードを生成します。 パイプラインをモデルとして保存します。
使用を開始する AutoAI エクスペリメントを作成するには、 New asset > AutoAI 実験をクリックします。
詳細はこちら AutoAI に関する資料
統合学習
{: #fl} 統合学習ツールを使用して、分散データを使用する共通モデルをトリアージします。 データが結合または共有されることはなく、すべての参加パーティーに集約データに基づくモデルを提供する一方で、データ保全性が保持されます。
必須サービス Watson Machine Learning
データ形式 任意
データ・サイズ 任意のサイズ
モデルの作成方法 トレーニング・フレームワークを選択します。 共通モデルを構成します。 共通モデルをトレーニングするためのファイルを構成します。 リモート・パーティーがデータをトレーニングします。 共通モデルをデプロイします。
使用を開始するエクスペリメントを作成するには、 新規資産 (New asset) > 統合学習エクスペリメントをクリックします。
詳細はこちら 統合学習に関する資料
メタデータのインポート
{: #metadata}メタデータのインポート・ツールを使用して、データ資産のテクニカル・メタデータおよびプロセス・メタデータを自動的にディスカバーし、プロジェクトまたはカタログにインポートします。
必須サービス Watson Knowledge Catalog
データ形式 任意
データ・サイズ 任意のサイズ
データを準備する方法 データ資産を接続からデータ・ソースにインポートします。
使用を開始する メタデータをインポートするには、 新規資産 >メタデータ・インポートをクリックします。
詳細はこちら メタデータのインポートに関する資料 Watson Knowledge Catalog に関するビデオ
メタデータのエンリッチメント
{: #mde} メタデータ・エンリッチ・ツールを使用して、プロジェクト内のデータ資産のプロファイルを自動的に作成し、データ品質を分析します。
必須サービス Watson Knowledge Catalog
データ形式 リレーショナル・データ・ソースと構造化データ・ソース: リレーショナル・データ・ソースと非リレーショナル・データ・ソースの表とファイル 表形式: Avro ファイル、CSV ファイル、または Parquet ファイル
データ・サイズ 任意のサイズ
データを準備して分析する方法 プロジェクト内の選択した一連のデータ資産のプロファイル作成と分析を行います。
使用を開始する データをエンリッチするには、 新規資産> メタデータ・エンリッチメントをクリックします。
詳細はこちら メタデータ・エンリッチに関する資料
IBM Match 360 with Watson
{: #match360} IBM Match 360 with Watson を使用して、顧客のデジタル・ツインを表すマスター・データ・エンティティーを作成します。 データをモデル化にしてマップしてから、マッチング・アルゴリズムを実行してマスター・データ・エンティティーを作成します。 組織の要件に合わせてマッチング・アルゴリズムをカスタマイズおよび調整します。
Required services IBM Match 360 with Watson IBM Watson Knowledge Catalog
データ・サイズ 最大 1,000,000 レコードになる (ベータ・ライト・プランの場合)
データを準備する方法 組織全体のソースからのデータをモデル化してマップします。 カスタマイズ可能なマッチング・アルゴリズムを実行して、マスター・データ・エンティティーを作成します。 マスター・データ・エンティティーとその関連なレコードを表示および編集します。
使用を開始する IBM Match 360 構成資産を作成するには、 新規資産 > マスター・データ構成をクリックします。
詳細はこちら IBM Match 360 with Watson に関する資料
RStudio IDE
{: #rs}RStudio IDE を使用すると、R コードを作成してデータを分析したり、Shiny アプリケーションを作成したりできます。 RStudio は、プロジェクトに関連付ける必要がある Git リポジトリーと統合できます。
必須サービス Watson Studio
データ形式 任意
データ・サイズ 任意のサイズ
データの準備、データの分析、およびモデルの作成する方法 R でコードを作成します。 Shiny アプリを作成します。 オープン・ソースのライブラリーとパッケージを使用します。 コードにリッチ・テキストとメディアを含めます。 データを準備します。 データを視覚化にします。 データから洞察を発見します。 オープン・ソース・ライブラリーを使用してモデルを作成し、トレーニングします。 Git リポジトリーで Shiny アプリを共有します。
使用を開始する RStudio を使用するには、 Launch IDE > RStudio (R)をクリックします。
詳細はこちらRStudio IDE ビデオの概要 RStudio に関するビデオ RStudio に関する資料
フローのマスキング
{: #dp} マスキング・フロー・ツールを使用して、カタログからのデータのマスクされたコピーまたはマスクされたサブセットを準備します。 データは、データ保護ルールで拡張マスキング・オプションを使用して識別解除されます。
必須サービス Watson Knowledge Catalog
データ形式 リレーショナル: リレーショナル・データ・ソース内のテーブルです
データ・サイズ 任意のサイズ
データの準備、データの分析、またはモデルの作成する方法 管理対象カタログからプロジェクトにデータ資産をインポートします。 マスキング・フロー・ジョブ定義を作成して、データ保護ルールを使用してマスクするデータを指定します。 オプションで、コピーされたデータのサイズを削減するためにデータをサブセット化にします。 マスク・フロー・ジョブを実行して、マスクされたコピーをターゲット・データベース接続にロードします。
使用を開始する Watson Knowledge Catalog の前提条件ステップが完了していることを確認します。 データを非公開するには、以下のいずれかのタスクを実行します:
- 新規資産 > マスキング・フローをクリックします。
- 個々のデータ資産のメニュー・オプションをクリックして、その資産を直接マスクします。
詳細はこちら マスキング・データに関する資料
親トピック: プロジェクト