分類または回帰テストの構成

最終更新: 2025年2月14日

分類または回帰テストの構成

AutoAI には、分類または回帰の実験を構成およびカスタマイズするために使用できる実験設定が用意されています。

エクスペリメント設定の概要

エクスペリメント・データをアップロードし、エクスペリメント・タイプと予測対象を選択すると、 AutoAI によってエクスペリメントのデフォルトの構成とメトリックが設定されます。これらのデフォルトを受け入れてエクスペリメントを続行するか、 「エクスペリメント設定」 をクリックして構成をカスタマイズできます。構成をカスタマイズすることで、エクスペリメントで候補モデル・パイプラインを作成する方法を正確に制御できます。

以下の表をガイドとして使用して、分類および回帰テストの設定を試してください。時系列エクスペリメントの構成について詳しくは、時系列エクスペリメントの作成を参照してください。

予測設定

ほとんどの予測設定は、メインの 「一般」 ページにあります。以下の設定を確認または更新します。

設定	説明
予測タイプ	予測タイプは変更またはオーバーライドできます。例えば、 AutoAI が 2 つのデータ・クラスのみを検出し、2 項分類エクスペリメントを構成したが、3 つのデータ・クラスがあることが分かっている場合は、タイプを multiclassに変更できます。
ポジティブ・クラス	Precision、 Average Precision、 Recall、または F1用に最適化された二項分類実験の場合、正のクラスが必要です。陽性分類が正しいことを確認してください。正しくない場合は、実験によって不正確な結果が生成される可能性があります。
最適化メトリック	モデル候補パイプラインを最適化およびランク付けするためのメトリックを変更します。
最適化されたアルゴリズムの選択	AutoAI がモデル候補パイプラインの生成に使用するアルゴリズムを選択する方法を選択します。最高のスコアを持つアルゴリズムを最適化することも、最短の実行時間で最高のスコアを持つアルゴリズムを最適化することもできます。
含めるアルゴリズム	エクスペリメントの実行時に評価する使用可能なアルゴリズムを選択します。アルゴリズムのリストは、選択した予測タイプに基づきます。
使用するアルゴリズム	AutoAI は、指定されたアルゴリズムをテストし、最良のパフォーマーを使用してモデル・パイプラインを作成します。適用する最適なアルゴリズムの数を選択します。各アルゴリズムは 4 個から 5 個のパイプラインを生成します。つまり、使用する 3 個のアルゴリズムを選択すると、12 個から 15 個のランクのパイプラインがエクスペリメント結果に含まれます。アルゴリズムが多いほど、エクスペリメントのランタイムが増加します。

データの公平性の設定

「公平性」 タブをクリックして、予測結果の公平性についてエクスペリメントを評価します。公平性検出の構成について詳しくは、 AutoAI エクスペリメントへの公平性テストの適用を参照してください。

データ・ソース設定

データ・ソース設定の 「一般」 タブには、エクスペリメントがトレーニングのためにデータを取り込んで処理し、エクスペリメントを評価する方法を構成するためのオプションが用意されています。

設定	説明
順序付きデータ	行索引に従って、トレーニング・データを順次に配列するかどうかを指定します。入力データが順次データである場合、モデル・パフォーマンスはランダム・サンプリングではなく最新レコードで評価され、ホールドアウト・データは n 個のランダム・レコードではなく、セットの最後の n 個のレコードを使用します。時系列実験には順次データが必要ですが、分類および回帰実験にはオプションです。
重複行	トレーニングを加速するために、トレーニング・データ内の重複行をスキップすることを選択できます。
パイプライン選択のサブサンプル方式	大規模なデータ・セットの場合は、データのサブセットを使用してエクスペリメントをトレーニングします。このオプションは結果を高速化しますが、精度に影響する可能性があります。
特徴量の詳細化	モデルに影響を与えずに特徴量を処理する方法を指定します。選択項目は、常に特徴量を削除するか、モデルの品質を向上させるときにそれらを削除するか、または削除しないかです。特徴量有意性の計算方法について詳しくは、 AutoAI 実装の詳細を参照してください。
データ代入	データ・ソース内の欠損値を補間します。データ代入の管理について詳しくは、 AutoAI エクスペリメントでのデータ代入を参照してください。
日付/時刻処理を使用する	デフォルトで有効になっており、日付カラムを検出し、異なる日付/時刻フォーマットの集計用に新しいカラムを追加します。日付/時刻の列を日付/時刻の値としてではなくIDとして使用したい場合は、このオプションを無効にします。
テキスト特徴量エンジニアリング	有効にすると、テキストとして検出された列がベクトルに変換され、ストリング間のセマンティックの類似性がより適切に分析されます。この設定を有効にすると、ランタイムが増加する可能性があります。詳しくは、テキスト分析エクスペリメントの作成を参照してください。
最終トレーニング・データ・セット	最終パイプラインのトレーニングに使用するデータを選択します。トレーニング・データのみを含めることを選択した場合、生成されるノートブックには、各パイプラインの評価に使用されるホールドアウト・データを取得するためのセルが含まれます。
外れ値の処理	トレーニングの正確度を向上させるために、 AutoAI がターゲット列から外れ値を除外するかどうかを選択します。有効になっている場合、 AutoAI は 4 分位範囲 (IQR) 方式を使用して、トレーニング・データのみの場合でも、トレーニング・データとホールドアウト・データの場合でも、最終トレーニング・データから外れ値を検出して除外します。
トレーニング・アンド・ホールドアウト方式	トレーニング・データはモデルのトレーニングに使用され、ホールドアウト・データはモデルをトレーニングすることなく、モデルのパフォーマンスを測定するために使用されます。分類および回帰モデルの場合、単一のデータソースをトレーニング用データとテスト（保留）用データに分割するか、テスト用データ専用の2番目のデータファイルを使用することができます。トレーニング・データを分割する場合は、トレーニング・データとホールドアウト・データに使用するパーセンテージを指定します。保留データは、訓練データの3分の1を超えてはならない。また、デフォルトの 3 つの群から最大 10 までの群の数を指定することもできます。交差検証は、モデルのパフォーマンスをテストするためにトレーニング・データをフォールド (グループ) に分割します。
含める特微量の選択	予測列をサポートするデータを含む列をデータ・ソースから選択します。余分な列を除外すると、実行時間が改善される可能性があります。