分析用にデータを準備することは、どのようなプロジェクトにおいても最も重要な段階の 1 つですが、従来は最も時間がかかる段階の 1 つでもありました。 データの自動準備 (ADP) は、データ分析および修正の特定、問題となる、または有用でないと考えられるフィールドの除外、必要に応じた新しい属性の取得、高度なスクリーニング手法を用いたパフォーマンスの改善を行い、タスクを処理します。 完全に自動化された方法でアルゴリズムを使用し、そのアルゴリズムによって修正を選択したり適用することができます。または、インタラクティブな方法でそのアルゴリズムを使用して適用前の変更内容をプレビューし、必要に応じてその変更内容を承認するか拒否するかを選択することもできます。
ADP を使用すると、実行する統計の概念の事前情報を必要とせず、モデルを迅速かつ用意に作成できるよう、データを準備することができます。 通常、モデルの作成とスコアの評価は迅速に行うことができます。
例。 世帯主の保険請求を調査するためのリソースが制限されている保険会社が、不正請求の疑いのある請求を区別するためのモデルを作成したいと考えています。 モデルを作成する前に、データの自動準備を使用して、モデル作成のためのデータを準備します。 変換が適用される前に提案される変換を確認できる必要があるため、データの自動準備をインタラクティブ・モードで使用します。
自動車産業グループは、さまざまな個人用自動車の売り上げを記録します。 採算ベースを上回るモデルおよび下回るモデルを特定できるように、自動車の売り上げと自動車の特性との関係を確立したいと考えます。 データの自動準備を使用して分析用のデータを準備し、準備「前」および準備「後」のデータを使用してモデルを作成し、結果がどのように異なるかを確認します。
達成目標は何ですか ? 自動データ準備では、ほかのアルゴリズムがモデルを構築し、それらのモデルの予測精度を改善できる速度に影響を与えるような、データ準備の手順を推奨します。 これには、フィールドの変換、構築、および選択が含まれます。 対象を変換することもできます。 データ準備プロセスで重点を置く必要があるモデル作成の優先度を指定できます。
- 速度と精度のバランス: このオプションでは、モデル作成アルゴリズムによるデータ処理の速度と、予測精度の両方を同等に優先するように、データを準備します。
- 速度の最適化: このオプションでは、モデル作成アルゴリズムによるデータ処理の速度を優先するよう、データを準備します。 非常に大きいデータ・セットを処理する場合、または迅速な回答を求めている場合は、このオプションを選択します。
- 精度の最適化: このオプションでは、モデル作成アルゴリズムによって生成される予測の精度を優先するよう、データを準備します。
- カスタム分析: 「設定」タブでアルゴリズムを手動で修正する場合、このオプションを選択します。 これ以降に「設定値」タブで行うオプションの変更がその他の目的のいずれかと矛盾する場合、この設定が自動的に選択されることに注意してください。
ノードの学習
ADP ノードはプロセス・ノードとして実装され、データ型ノードと同じように機能します。ADP ノードの学習は、データ型ノードのインスタンス化に対応しています。 分析が実行された後、アップストリーム・データ・モデルが変更されない限り、指定された変換が追加の分析なしでデータに適用されます。 データ型ノードやフィルター・ノードと同様に、ADP ノードの接続が解除されても、データ・モデルと変換は記憶されるため、再接続された場合に再度学習する必要がありません。このため、ADP ノードで一般データのサブセットのデータ・モデルについての学習を実行し、必要に応じてそのノードを実データに使用するためにコピーまたは展開することができます。