0 / 0
資料の 英語版 に戻る
データの理解と準備
最終更新: 2024年12月20日
データの理解と準備

SPSS Modelerでデータのマイニングやモデルの構築を開始する前に、データを準備する必要があります。 データの準備とは、時間をかけてデータを理解し、データマイニングで使用するために最適化されるように処理することです。

データの質はモデルの質を左右する。 データを準備することで、データがクリーンな状態になり、分析の準備が整います。

SPSS Modelerは、データマイニングのための業界横断標準プロセス(CRISP-DM)手法に基づいて構築されています。 これは次のような段階を踏む。

  1. ビジネスの理解
  2. データの理解
  3. データの準備
  4. モデリング
  5. 評価
  6. デプロイメント

最初の3つの段階は、データの収集、評価、準備である。 この作業の一部は SPSS Modelerで行うことができますが、これらの段階の作業の一部は、 SPSS Modelerで作業する前にも行われます。

ビジネスの理解

SPSS Modelerを使い始める前に、データマイニングのビジネス目標についてできるだけ多くの洞察を得ることが重要です。 例えば、ビジネスの視点を理解し、ペインポイント、プロジェクト要件、データマイニングのビジネス目標、ビジネス上の問題を解決するためにデータマイニングがどのように有用な情報を提供できるかを判断する。

データ収集と準備のこの段階は、 SPSS Modelerの外部で行われます。 しかし、この作業によって、どのようなデータを収集する必要があるのか、どのようなデータに注目する価値があるのかを判断することができる。

データの理解

データを理解するには、データを評価し、データの質を見極めるためにデータを探索する必要がある。 データの可視化、要約統計、相関分析などのテクニックを使って、データの構造、関係、パターンを理解するのに時間をかける。 このステップは、データ準備中の予期せぬ問題を避けるために非常に重要である。

SPSS Modelerには Audit ノードがあり、データの包括的な初見に使用できます。 要約統計、ヒストグラム、箱ひげ図、棒グラフ、円グラフなどの情報を生成することができます。 この情報は、データの予備的な理解を得るのに役立つ。 また、外れ値、極値、欠損値に関する情報を生成することもできる。

Cloud Pak for Dataの他のサービスにアクセスできる場合、これらのサービスも便利です;

Data Refinery
Data Refinery を使ってデータを理解し、視覚化することができます。
MANTA Automated Data Lineage
MANTA Automated Data Lineageを使用して、データの出所を追跡・検索することができます。
RStudio®
RStudio は、Rでコマンドを実行してデータを調べるのに役立つ。

データの準備

データの準備は、データマイニングの最も重要な部分の1つであり、プロジェクト全体に必要な作業のかなりの部分を占めることもある。 初期のビジネス理解とデータ理解のフェーズに労力を割くことで、この作業を最小限に抑えることができるが、それでもマイニングのためにデータを準備し、パッケージ化する労力は必要である。

データを準備するために、以下の活動に取り組んでください。 このような活動は、データが十分に準備され、清潔で、分析の準備が整っていることを保証するために必要である。

データ・クリーニング
欠落値の処理、重複の削除、書式の問題の修正が不可欠です。
デジタル・トランスフォーメーション
データを標準化・正規化して一貫性を確保し、ノイズを減らす。 これらのステップには、スケーリング、zスコア正規化、またはワンホットエンコーディングが含まれる。
データ削減
最も関連性の高い特徴を選択することで、データの次元を減らします。 主成分分析(PCA)、線形判別分析(LDA)、t分布確率的近傍埋め込み(t-SNE)などの手法を使用することができます。
データ統合
異なるソースからのデータをマージして、より包括的なデータビューを作成します。 テーブルを結合したり、データセットをマージしたり、データ・フュージョンのテクニックを使ったりする必要があるかもしれない。
データの検証
データが正確で信頼できるものであることを確認するために、データを検証する。 外れ値をチェックしたり、ばらつきを評価したり、データを外部ソースと比較したりすることができる。
データ・ストレージ
安全で、アクセス可能で、再現可能な方法でデータを保存する。 データの保存には、データベース、データウェアハウス、クラウド・ストレージ・ソリューションを使用することができる。

SPSS Modelerには、これらのデータ準備作業に使用できるノードがいくつかあります。 レコード操作ノードとフィールド操作ノードを組み合わせて、データを準備するフローを作成できます。

以下のサービスにアクセスできる場合は、それらを使用してデータを準備することもできます。

Data Refinery
Data Refinery 、プログラミングのスキルを必要とせずにデータのクリーニングや変換を行うことができる。
DataStage
DataStage 、データ統合や、データを処理・変換するフローの開発に使用できる。
IBM® Knowledge Catalog
IBM Knowledge Catalog 、データの分析および品質向上に使用できます。また、データ資産に分類、データクラス、ビジネス用語を割り当てるためにも使用できます
RStudio
RStudio を使って R でコマンドを実行し、データを調べることができる。

たとえデータが自分のものでなくても、ユーザーはそのデータを理解するために同じ活動をしなければならない。

生成 AI の検索と回答
これらの回答は、製品資料の内容に基づいて、 watsonx.ai のラージ言語モデルによって生成されます。 詳細