AutoAI'sのテキスト分析機能を使って、実験のテキスト分析を行う。 例えば、基本的なセンチメント分析を実行して、テキスト・コメントに基づいて結果を予測します。
テキスト分析の概要
テキスト分析機能を使用するエクスペリメントを作成する場合、AutoAI プロセスは word2vec
アルゴリズムを使用してテキストをベクトルに変換してから、ベクトルを比較して予測列への影響を確立します。
word2vec
アルゴリズムは、テキストのコーパスを入力として取り、一連のベクトルを出力します。 テキストを数値表現に変換することで、類似した単語を検出して比較することができます。 word2vec
は、十分なデータを使用してトレーニングされると、単語の意味や他の単語との関係について正確な予測を行うことができます。 予測を使用して、テキストを分析し、センチメント分析アプリケーションの意味を推測することができます。
エクスペリメント・トレーニングの特徴量エンジニアリング・フェーズでは、 word2vec
アルゴリズムを使用して、テキスト列に対して 20 個の特徴量が生成されます。 テキスト機能の自動検出は、列内の固有値の数とレコード内のトークンの数 (最小数 = 3) を分析することに基づいています。 固有値の数が、すべての値を 5 で除算した数より少ない場合、列はテキストとして扱われません。
エクスペリメントが完了したら、パイプラインの詳細ページからフィーチャー・エンジニアリングの結果を確認できます。 パイプラインをノートブックとして保存することもできます。ここで変換を確認し、変換の視覚化も確認できます。
例: 顧客コメントの分析
この例では、架空のレンタカー会社のコメントを使用して、新しいコメントが入力されたときに満足度を予測するモデルをトレーニングします。
この短いビデオを見てこの例を確認し、ビデオの下のテキスト・フィーチャーに関する詳細をお読みください。
このビデオは、本書の概念とタスクを学習するためのビジュアル・メソッドを提供します。
動画のトランスクリプト 時刻 トランスクリプト 00:00 このビデオでは、テキスト・ファイルでセンチメント分析を実行するための AutoAI エクスペリメントを作成する方法について紹介します。 00:09 テキスト・フィーチャー・エンジニアリングを使用して、エクスペリメントでテキスト分析を実行できます。 00:15 例えば、基本的なセンチメント分析を実行して、テキスト・コメントに基づいて結果を予測します。 00:22 プロジェクトを開始し、そのプロジェクトに新しい AutoAI エクスペリメント資産を追加します。 00:29 名前と説明を提供し、機械学習サービスを選択してから、エクスペリメントを作成します。 00:38 AutoAI エクスペリメント・ビルダーが表示されたら、データ・セットを追加できます。 00:43 この場合、データ・セットは既にデータ資産としてプロジェクトに保存されています。 00:48 テストに追加する資産を選択します。 00:53 続行する前に、データをプレビューしてください。 00:56 このデータ・セットには 2 つの列があります。 00:59 最初の項目には顧客のコメントが含まれ、2 番目の項目には 0 (「不満足」の場合) または 1 (「満足」の場合) のいずれかが含まれます。 01:08 これは時系列予測ではないため、このオプションには「いいえ」を選択してください。 01:13 次に、予測する「満足度」の列を選択してください。 01:19 AutoAI は、満足度列に 2 つの可能な値が含まれていると判断し、二項分類モデルに適しています。 01:28 「満足度」の場合、肯定的なクラスは 1 です。 01:32 エクスペリメントをカスタマイズする場合は、エクスペリメント設定を開きます。 01:36 データ・ソース・パネルに、テキスト特徴量エンジニアリングのいくつかのオプションが表示されます。 01:41 テキスト列を自動的に選択することも、テキスト特徴量エンジニアリングの列を手動で指定することによってさらに制御を行うこともできます。 01:52 また、テキスト特徴量エンジニアリング中に各列に対して作成するベクトルの数を選択することもできます。 01:58 数値が小さいほど速く、数値が大きいほど正確だが遅いです。 02:03 エクスペリメントを実行して、変換と進行状況を表示します。 02:09 テキスト分析機能を使用するエクスペリメントを作成する場合、AutoAI プロセスは word2vec アルゴリズムを使用してテキストをベクトルに変換してから、ベクトルを比較して予測列への影響を確立します。 02:23 エクスペリメント・トレーニングの特徴量エンジニアリング・フェーズでは、 word2vec アルゴリズムを使用して、テキスト列に対して 20 個の特徴量が生成されます。 02:33 エクスペリメントが完了したら、パイプラインの詳細ページからフィーチャー・エンジニアリングの結果を確認できます。 02:40 「フィーチャーの要約」パネルで、テキスト変換を確認できます。 02:45 アルゴリズム関数を列要素に適用することにより、AutoAI がいくつかのテキスト特徴量を作成したことを確認できます。また、予測出力に最も寄与する特徴量を示す重要度も確認できます。 02:59 このパイプラインは、モデルまたはノートブックとして保存できます。 03:03 ノートブックには、変換とそれらの変換の視覚化を確認するためのコードが含まれています。 03:09 この場合は、モデルを作成します。 03:13 モデルを表示するには、このリンクを使用してください。 03:16 ここで、モデルをデプロイメント・スペースにプロモートします。 03:23 ここにモデルの詳細があり、ここからモデルをデプロイできます。 03:28 この場合、オンライン・デプロイメントになります。 03:36 それが完了したら、デプロイメントを開いてください。 03:39 テスト・アプリケーションでは、分析する 1 つ以上のコメントを指定できます。 03:46 次に、「予測」をクリックしてください。 03:49 最初の顧客は、サービスに満足していないことが予測されます。 03:54 2 番目の顧客は、このサービスに満足していると予測されます。 @ 03:59 Cloud Pak for Data as a Service の資料には他にもビデオがあります。
レンタル体験 (Customer_service) のレビュー・コメントの列を含むデータ・セットと、バイナリー満足度評価 (Satisfaction) を含む列 (0 は否定的なコメントを表し、1 は肯定的なコメントを表す) を含むデータ・セットがあるとすると、新しいフィードバックが入力されたときに満足度を予測するようにエクスペリメントがトレーニングされます。
テキスト変換実験のトレーニング
データ・セットをロードして予測列 (満足度) を指定すると、 「エクスペリメント設定」 で 「テキスト特徴量エンジニアリングを使用」 オプションが選択されます。
テキスト分析エクスペリメントを調整するためのいくつかの詳細事項に注意してください:
- テキスト列を自動的に選択するというデフォルトの選択を受け入れることも、テキスト特徴量エンジニアリングの列を手動で指定することによってさらに制御を行うこともできます。
- テストの実行時に、
word2vec
アルゴリズムを使用して、テキスト列に対してデフォルトの 20 個のフィーチャーが生成されます。 その値を編集して、フィーチャーの数を増減できます。 生成するベクトルの数が多いほど、モデルの精度は高くなりますが、トレーニングの時間は長くなります。 - 残りのオプションはすべてのタイプのエクスペリメントに適用されるため、最終的なトレーニング・データの処理方法を微調整できます。
エクスペリメントを実行して、進行中の変換を表示します。
パイプラインの名前を選択し、 「特徴量の要約」 をクリックしてテキスト変換を確認します。
エクスペリメント・パイプラインをノートブックとして保存し、変換を視覚化として確認することもできます。
テキスト変換モデルのデプロイとスコアリング
このモデルをスコアリングするときに、新しいコメントを入力して、コメントの結果が肯定または否定の満足度になるかどうかを示す信頼性スコア付きの予測を取得します。
例えば、「車を手に入れるのに 3 時間近くかかった、 95% の信頼性スコアで満足度 0 を予測するという「不合理なこと」だった。
今後のステップ
親トピック: AutoAI モデルの作成