AutoAI の概要
AutoAI グラフィック・ツールは、データを分析し、データ・アルゴリズム、変換、およびパラメーター設定を使用して最適な予測モデルを作成します。 AutoAI は、さまざまな潜在的なモデルをモデル候補パイプラインとして表示し、選択できるようにリーダーボード上でランク付けします。
- 必要なサービス
- watsonx.aiランタイム
- watsonx.aiスタジオ
- 必要な資格
- タスク認証
- データ・フォーマット
- 表形式: CSV ファイル (すべてのタイプの AutoAI エクスペリメントでコンマ (,) 区切り文字を使用)。
- IBM Cloud Object Storageからの接続データ。
- データ・サイズ
- 1 GB まで、または 20 GB まで。 詳しくは、 AutoAI データの使用を参照してください。
AutoAI データの使用
トレーニング・データおよびモデル入力データは、表形式です。 表内の列名は固有でなければなりません。 列名が重複していると、エラーになります。
これらの制限は、8 CPU と 32 GB のデフォルトの計算構成に基づいています。
AutoAI 分類および回帰の実験:
- AutoAI エクスペリメント用に最大 1 GB のファイルをアップロードできます。
- 1 GB を超えるデータ・ソースに接続すると、最初の 1 GB のレコードのみが使用されます。
AutoAI 時系列実験:
データ・ソースにタイム・スタンプ列が含まれている場合、 AutoAI は均一な頻度でデータをサンプリングします。 例えば、データは 1 分、1 時間、または 1 日単位で増分することができます。 指定されたタイム・スタンプは、モデルの正確度を向上させるために遡及ウィンドウを決定するために使用されます。
注:ファイル・サイズが 1 GB より大きい場合、 AutoAi はデータを 降順 の時間順にソートし、エクスペリメントのトレーニングには最初の 1 GB のみが使用されます。
データ・ソースにタイム・スタンプ列が含まれていない場合は、 AutoAI が一定の間隔でデータをサンプリングし、 昇順 の時間順でデータをソートするようにしてください。 昇順のソート順は、最初の行の値が最も古く、最後の行の値が最新であることを意味します。
注: ファイル・サイズが 1 GB より大きい場合は、1 GB より小さくなるようにファイル・サイズを切り捨てます。
データとユース・ケースに適したツールの選択について詳しくは、 ツールの選択を参照してください。
AutoAI プロセス
AutoAI を使用すると、高度なトレーニング機能によって機械学習モデルを構築およびデプロイすることができます。コーディングは不要です。 このツールによって、ほとんどの作業が実行されます。
特定のエクスペリメントを作成したコードを表示したり、エクスペリメントとプログラマチックに対話したりするために、 ノートブックとして実験を保存を実行できます。
AutoAI は自動的に以下のタスクを実行して、候補のモデル・パイプラインを作成し、評価します。
AutoAI プロセスの理解
関連する研究論文へのリンクや、モデル・パイプラインを作成するために適用されるアルゴリズムの説明など、これらの各フェーズの詳細については、 AutoAI 実装の詳細を参照してください。
データの前処理
ほとんどのデータ・セットには異なるデータ形式と欠損値が含まれていますが、標準的な機械学習アルゴリズムは数値のみを処理し、欠損値は処理しません。 そのため、 AutoAI はさまざまなアルゴリズムまたは推定法を適用して、機械学習用の生データを分析、クリーンアップ、および準備します。 この手法では、データ型 (カテゴリーまたは数値) などの特徴量に基づいて値が自動的に検出され、分類されます。 カテゴリー化に応じて、 AutoAI は ハイパーパラメーター最適化 を使用して、欠損値の代入、特徴量のエンコード、およびデータの特徴量スケーリングのための戦略の最適な組み合わせを決定します。
自動モデル選択
AutoAI は、自動化されたモデル選択を使用して、データに最適なモデルを識別します。 この新しいアプローチでは、データの小さなサブセットに対して潜在的なモデルをテストし、正確度に基づいてそれらをランク付けします。 次に、 AutoAI は最も有望なモデルを選択し、最も一致するモデルが特定されるまでデータ・サブセットのサイズを増やします。 この方法では、精度に基づいて潜在的なモデルを徐々に絞り込むことで、時間を節約し、パフォーマンスを向上させます。
自動生成されたパイプラインを処理して最適なモデルを選択する方法については、 AutoAI モデルの選択を参照してください。
自動特徴量エンジニアリング
特徴量エンジニアリングは、生データを問題を最もよく表す特徴量の組み合わせに変換することにより、最も正確なモデルを識別します。 この独自のアプローチでは、強化学習を使用して段階的にモデルの精度を最大化しながら、構造化された非包括的な方法でさまざまな特徴量の構築の選択肢を検討します。 この手法により、モデル選択ステップのアルゴリズムに最も適合するデータの変換シーケンスが最適化されます。
ハイパーパラメーターの最適化
ハイパーパラメーターの最適化により、パフォーマンスが最も高いモデルが詳細化されます。 AutoAI は、機械学習で典型的な特定の関数評価 (モデルのトレーニングやスコアリングなど) に、新しいハイパーパラメーター最適化アルゴリズムを使用します。 このアプローチは、反復ごとに評価時間が長いにもかかわらず、最適なモデルを素早く識別します。
次のステップ
Quick start: Build and deploy a machine learning model with AutoAI チュートリアルをお試しください。
親トピック: データの分析とモデルの作成