ツールの選択

Cloud Pak for Data as a Service のコア・サービスには、データの準備、分析、およびモデル化のあらゆる経験レベル (初心者から専門家まで) のユーザー向けに、さまざまなツールが用意されています。 適切なツールは、所有しているデータのタイプ、実行する予定のタスク、および必要な自動化の量によって異なります。

適切なツールを選択するには、以下の要素について検討します。

所有しているデータのタイプ

  • 区切り文字で区切られたファイルの表データか、リモート・データ・ソースのリレーショナル・データ
  • イメージ・ファイル
  • 文書内のテキスト・データ

実行する必要があるタスクのタイプ

  • データの準備: データをクレンジング、シェーピング、視覚化、編成、および検証する。
  • データの分析: データのパターンと関係を特定し、洞察を表示する。
  • モデルの作成: モデルを作成、トレーニング、テスト、およびデプロイして、予測を行ったり、意思決定を最適化したりします。

必要な自動化の量

  • コード・エディター・ツール: Python、R、または Scala でコードを作成する場合に使用します。
  • グラフィカル・ビルダー・ツール: ビルダーでメニューおよびドラッグ・アンド・ドロップ機能を使用して、視覚的にプログラムを作成します。

  • 自動化ビルダー・ツール: 限定されたユーザー入力を必要とする自動化タスクを構成するために使用します。

以下から適切なツールを見つけます。

表データまたはリレーショナル・データ用のツール

{: #tab}表データまたはリレーショナル・データ用のツールをタスク別に以下に示します。

ツール ツール・タイプ データの準備 データの分析 モデルの構築
Jupyter ノートブック・エディター コード・エディター
統合学習 コード・エディター
RStudio コード・エディター
Data Refinery グラフィカル・ビルダー
フローのマスキング 自動化ビルダー
Watson の照会 グラフィカル・ビルダー
DataStage グラフィカル・ビルダー
ダッシュボード・エディター グラフィカル・ビルダー
SPSS Modeler グラフィカル・ビルダー
Decision Optimization モデル・ビルダー グラフィカル・ビルダーおよびコード・エディター
AutoAI 自動化ビルダー
メタデータのインポート 自動化ビルダー
メタデータのエンリッチメント 自動化ビルダー
IBM Match 360 with Watson (ベータ版) 自動化ビルダー

テキスト・データ用のツール

{: #text}テキスト・データを分類するモデルを作成するためのツールを以下に示します。

ツール コード・エディター グラフィカル・ビルダー 自動化ビルダー
Jupyter ノートブック・エディター
RStudio
SPSS Modeler

イメージ・データ用のツール

{: #image}イメージを分類するモデルを作成するためのツールを以下に示します。

ツール コード・エディター グラフィカル・ビルダー 自動化ビルダー
Jupyter ノートブック・エディター
RStudio

ツールへのアクセス

{: #access}ツールを使用するには、そのツールに固有の資産を作成するか、そのツールの既存の資産を開く必要があります。 アセットを作成するには、 新規資産 をクリックして、必要なアセット・タイプを選択します。 以下の表に、各ツールに選択すべき資産タイプを示します。

使用するツール 選択すべき資産タイプ
Jupyter ノートブック・エディター Jupyter ノートブック
Data Refinery Data Refinery フロー
フローのマスキング フローのマスキング
DataStage DataStage フロー
ダッシュボード・エディター Dashboard
SPSS Modeler モデラー・フロー
Decision Optimization モデル・ビルダー Decision Optimization
AutoAI AutoAI 実験
統合学習 連合学習テスト
メタデータのインポート メタデータのインポート
メタデータのエンリッチメント メタデータのエンリッチメント
IBM Match 360 with Watson (ベータ版) マスター・データ構成

RStudioでノートブックを編集するには、 Launch IDE > RStudioをクリックします。

Jupyter ノートブック・エディター

{: #jn}Jupyter ノートブック・エディターを使用すると、データを準備、視覚化、および分析するため、またはモデルを作成、トレーニングするためのコードを実行するノートブックを作成できます。

必須サービス Watson Studio

データ形式 任意

データ・サイズ 任意

データの準備、データの分析、またはモデルの作成を行う方法 Python、R、または Scala でコードを作成します。 コードにリッチ・テキストとメディアを含めます。 任意の種類のデータを任意の方法で処理します。 プリインストールされているものを使用するか、他のオープン・ソースおよび IBM のライブラリーとパッケージをインストールします。 コードの実行をスケジュールすることは ファイル、URL、またはギャラリーからノートブックをインポートします。 ノートブックの読み取り専用コピーを外部で共有します。

使用を開始する (Get started) ノートブックを作成するには、 新規資産 (New asset) > ノートブック (Notebook)をクリックします。

詳細はこちら 公開データ・セットビデオをのロードして分析する ノートブックに関するビデオ サンプル・ノートブック ノートブックに関する資料

Data Refinery

{: #dr}Data Refinery を使用すると、グラフィック・フロー・エディターで表データを準備して視覚化できます。 データに対して順序付けられた操作のセットとして Data Refinery フローを作成し、実行します。

必要なサービス Watson Studio または Watson Knowledge Catalog

データ形式 表形式: Avro、CSV、JSON、Parquet、SAS (拡張子「sas7bdat」(読み取り専用)、TSV (読み取り専用)、または区切り文字で区切られているテキスト・ファイル リレーショナル: リレーショナル・データ・ソース内のテーブル

データ・サイズ 任意

データを準備する方法 60 個を超える操作方法でデータをクリーンアップ、シェーピング、編成します。 詳細化されたデータを新規データ・セットとして保存するか、または元のデータを更新します。 データのプロファイルを作成して検証します。 対話式テンプレートを使用して、コード操作、関数、および論理演算子でデータを操作します。 データに対する繰り返し操作をスケジュールします。

データの分析方法 複数の視覚化グラフで、データ内のパターン、接続、および関係を識別します。

使用を開始する Data Refinery フローを作成するには、 新規資産 > Data Refinery フローをクリックします。

詳細はこちら Data Refinery に関するビデオ シェイプ・データ・ビデオ Data Refinery に関する資料

Watson 照会

{: #dv} Watson Query を使用して、複数のデータ・ソースを、データ・ソースまたはデータベースの単一のセルフバランスのコレクションに接続します。

データ形式 リレーショナル: リレーショナル・データ・ソース内のテーブル

データ・サイズ 任意

データを準備する方法 複数のデータ・ソースに接続します。 仮想表を作成します。

使用を開始する 仮想表を作成するには、 データ (Data) > データ仮想化 (Data virtualization)をクリックします。 サービス・メニューから、 仮想化 (Virtualization ) > 仮想化 (Virtualize) > 表 (Tables)をクリックします。

詳細はこちら Watson 照会の資料

DataStage

{: #ds}DataStage を使用すると、グラフィック・フロー・エディターで表データを準備して視覚化できます。 データに対して順序付けられた操作のセットとして DataStage フローを作成し、実行します。

データ形式 表形式: Avro、CSV、JSON、Parquet、TSV (読み取り専用)、または区切り文字で区切られているテキスト・ファイル リレーショナル: リレーショナル・データ・ソース内のテーブル

データ・サイズ 任意

データを準備する方法 パフォーマンスの高い DataStage パラレル・エンジンで実行する Orchestrate コードを生成するグラフィカル・データ統合フローを設計します。 Join、Funnel、Checksum、Merge、Modify、Remove Duplicates、および Sort などの操作を実行します。

使用を開始する DataStage フローを作成するには、 新規資産 (New asset) > DataStage フローをクリックします。

詳細はこちら DataStage 資料

ダッシュボード・エディター

{: #dash} ダッシュボード・エディターを使用して、グラフィカル・ビルダーで分析結果の一連の視覚化を作成します。

必須サービス Cognos Dashboard Embedded

データ形式 表形式: CSV ファイル リレーショナル: 一部のリレーショナル・データ・ソースのテーブルです

データ・サイズ 任意のサイズ

データの分析方法 コーディングなしでグラフを作成します。 テキスト、メディア、web ページ、イメージ、および形状をダッシュボードに含めます。 対話式ダッシュボードを外部で共有します。

使用を開始する ダッシュボードを作成するには、 新規資産 (New asset) > ダッシュボード (Dashboard)をクリックします。

詳細情報

ダッシュボードに関するビデオ ダッシュボードに関する資料

SPSS Modeler

{: #spss} SPSS Modeler を使用してフローを作成し、グラフィカル・ビルダー上のフロー・エディターでデータを準備し、モデルを作成してトレーニングします。

必要なサービス Watson Studio

データ形式 リレーショナル: リレーショナル・データ・ソース内のテーブル 表形式: Excel ファイル (.xls または .xlsx)、CSV ファイル、または SPSS Statistics ファイル (.sav) テキスト: サポートされたリレーショナル・テーブルまたはファイルの中です

データ・サイズ 任意

データを準備する方法 自動データ準備機能を使用します。 データを操作するための SQL ステートメントを書き込みます。 データをクレンジング、シェーピング、サンプリング、ソート、および導出します。

データの分析方法 40 個以上のグラフを使用してデータを視覚化にします。 テキスト・フィールドの自然言語を識別します。

モデルの作成方法 予測モデルを作成します。 40 種類以上のモデリング・アルゴリズムから選択できます。 自動モデリング機能を使用します。 時系列または地理空間データをモデル化にします。
テキスト・データを分類します。 テキスト・データ内の概念間の関係を識別します。

使用を開始する SPSS Modele フローを作成するには、 新規資産 (New asset)> Modeler フロー をクリックし、 IBM SPSS Modeleを選択します。

詳細はこちら SPSS Modeler -エンタープライズ・データ・サイエンスのパワーハウス・ビデオの UI をリフレッシュしました SPSS Modeler に関する資料

Decision Optimization モデル・ビルダー

{: #do}Decision Optimization を使用すると、Decision Optimization モデラーまたは Jupyter ノートブックで最適化モデルを作成し、実行できます。

必要なサービス Watson Studio

データ形式 表形式: CSV ファイル

データ・サイズ 任意

データを準備する方法関連データをシナリオにインポートして編集します。

モデルの作成方法対策決定最適化モデルを作成します。 Python DOcplex、OPL、または自然言語の式を使用して、モデルの作成、インポート、編集を行います。 ノートブックでモデルの作成、インポート、および編集を行います。

モデルを解決する方法 CPLEX エンジンを使用して決定最適化モデルを実行および解決します。 複数のシナリオのソリューションを調べて比較します。 表、グラフ、およびメモを作成して、1 つ以上のシナリオのデータとソリューションを視覚化します。

使用を開始する Decision Optimization モデルを作成するには、 New asset > Decision Optimizationをクリックするか、またはノートブックの場合は New asset > Notebookをクリックします。

詳細はこちら Decision Optimization に関するビデオ Decision Optimization に関する資料

AutoAI ツール

{: #auto}AutoAI ツールを使用すると、表データを自動的に分析し、予測モデリングの問題に応じてカスタマイズされた候補モデル・パイプラインを生成できます。

必須サービス Watson Machine Learning

データ形式 表形式: CSV ファイル

データ・サイズ 1 GB より小さい

データを準備する方法 欠損値を代入するなど、データを自動的に変換します。

モデルの作成方法 二項分類、多項分類、または回帰モデルをトレーニングします。 AutoAI トレーニング・ステージのシーケンスを示すツリー・インフォグラフィックを表示します。 交差検証スコアでランク付けされたモデル・パイプラインのリーダーボードを生成します。 パイプラインをモデルとして保存します。

使用を開始する AutoAI エクスペリメントを作成するには、 New asset > AutoAI 実験をクリックします。

詳細はこちら AutoAI に関する資料

統合学習

{: #fl} 統合学習ツールを使用して、分散データを使用する共通モデルをトリアージします。 データが結合または共有されることはなく、すべての参加パーティーに集約データに基づくモデルを提供する一方で、データ保全性が保持されます。

必須サービス Watson Machine Learning

データ形式 任意

データ・サイズ 任意のサイズ

モデルの作成方法 トレーニング・フレームワークを選択します。 共通モデルを構成します。 共通モデルをトレーニングするためのファイルを構成します。 リモート・パーティーがデータをトレーニングします。 共通モデルをデプロイします。

使用を開始するエクスペリメントを作成するには、 新規資産 (New asset) > 統合学習エクスペリメントをクリックします。

詳細はこちら 統合学習に関する資料

メタデータのインポート

{: #metadata}メタデータのインポート・ツールを使用して、データ資産のテクニカル・メタデータおよびプロセス・メタデータを自動的にディスカバーし、プロジェクトまたはカタログにインポートします。

必須サービス Watson Knowledge Catalog

データ形式 任意

データ・サイズ 任意のサイズ

データを準備する方法 データ資産を接続からデータ・ソースにインポートします。

使用を開始する メタデータをインポートするには、 新規資産 >メタデータ・インポートをクリックします。

詳細はこちら メタデータのインポートに関する資料 Watson Knowledge Catalog に関するビデオ

メタデータのエンリッチメント

{: #mde} メタデータ・エンリッチ・ツールを使用して、プロジェクト内のデータ資産のプロファイルを自動的に作成し、データ品質を分析します。

必須サービス Watson Knowledge Catalog

データ形式 リレーショナル・データ・ソースと構造化データ・ソース: リレーショナル・データ・ソースと非リレーショナル・データ・ソースの表とファイル 表形式: Avro ファイル、CSV ファイル、または Parquet ファイル

データ・サイズ 任意のサイズ

データを準備して分析する方法 プロジェクト内の選択した一連のデータ資産のプロファイル作成と分析を行います。

使用を開始する データをエンリッチするには、 新規資産> メタデータ・エンリッチメントをクリックします。

詳細はこちら メタデータ・エンリッチに関する資料

IBM Match 360 with Watson

{: #match360} IBM Match 360 with Watson を使用して、顧客のデジタル・ツインを表すマスター・データ・エンティティーを作成します。 データをモデル化にしてマップしてから、マッチング・アルゴリズムを実行してマスター・データ・エンティティーを作成します。 組織の要件に合わせてマッチング・アルゴリズムをカスタマイズおよび調整します。

Required services IBM Match 360 with Watson IBM Watson Knowledge Catalog

データ・サイズ 最大 1,000,000 レコードになる (ベータ・ライト・プランの場合)

データを準備する方法 組織全体のソースからのデータをモデル化してマップします。 カスタマイズ可能なマッチング・アルゴリズムを実行して、マスター・データ・エンティティーを作成します。 マスター・データ・エンティティーとその関連なレコードを表示および編集します。

使用を開始する IBM Match 360 構成資産を作成するには、 新規資産 > マスター・データ構成をクリックします。

詳細はこちら IBM Match 360 with Watson に関する資料

RStudio IDE

{: #rs}RStudio IDE を使用すると、R コードを作成してデータを分析したり、Shiny アプリケーションを作成したりできます。 RStudio は、プロジェクトに関連付ける必要がある Git リポジトリーと統合できます。

必須サービス Watson Studio

データ形式 任意

データ・サイズ 任意のサイズ

データの準備、データの分析、およびモデルの作成する方法 R でコードを作成します。 Shiny アプリを作成します。 オープン・ソースのライブラリーとパッケージを使用します。 コードにリッチ・テキストとメディアを含めます。 データを準備します。 データを視覚化にします。 データから洞察を発見します。 オープン・ソース・ライブラリーを使用してモデルを作成し、トレーニングします。 Git リポジトリーで Shiny アプリを共有します。

使用を開始する RStudio を使用するには、 Launch IDE > RStudio (R)をクリックします。

詳細はこちらRStudio IDE ビデオの概要 RStudio に関するビデオ RStudio に関する資料

フローのマスキング

{: #dp} マスキング・フロー・ツールを使用して、カタログからのデータのマスクされたコピーまたはマスクされたサブセットを準備します。 データは、データ保護ルールで拡張マスキング・オプションを使用して識別解除されます。

必須サービス Watson Knowledge Catalog

データ形式 リレーショナル: リレーショナル・データ・ソース内のテーブルです

データ・サイズ 任意のサイズ

データの準備、データの分析、またはモデルの作成する方法 管理対象カタログからプロジェクトにデータ資産をインポートします。 マスキング・フロー・ジョブ定義を作成して、データ保護ルールを使用してマスクするデータを指定します。 オプションで、コピーされたデータのサイズを削減するためにデータをサブセット化にします。 マスク・フロー・ジョブを実行して、マスクされたコピーをターゲット・データベース接続にロードします。

使用を開始する Watson Knowledge Catalog の前提条件ステップが完了していることを確認します。 データを非公開するには、以下のいずれかのタスクを実行します:

  • 新規資産 > マスキング・フローをクリックします。
  • 個々のデータ資産のメニュー・オプションをクリックして、その資産を直接マスクします。

詳細はこちら マスキング・データに関する資料

親トピック: プロジェクト