値のオプションの設定
データ型ノード設定の「値のモード」列には、事前に設定された値のドロップダウン・リストが表示されます。 このリストで「指定」オプションを選択して歯車アイコンをクリックすると、新しい画面が表示されます。この画面で、選択したフィールドの値の読み取り、入力、ラベル付け、操作を行うためのオプションを設定することができます。
コントロールの大半は、すべての種類のデータに共通しています。 ここでは、これらの共通のコントロールを説明していきます。
指標: 現在選択されている測定の尺度を表示します。 データ利用目的に応じて設定を変更することができます。 例えば、day_of_week
というフィールドに個別の曜日を表す数字が格納されている場合に、各カテゴリーを個別に調査する棒グラフ・ノードを作成するために、名義型データに変更することができます。
役割。 フィールドがマシン学習プロセスの「入力」(予測フィールド) または「対象」(予測されるフィールド) のどちらになるかをモデル作成ノードに指示するために使用します。 「両方」、「なし」、「データ区分」、「分割」、「頻度」、「レコード ID」など、その他の役割も使用することができます。
- 読み取り。 ノードの実行時に値を読み込む場合に選択します。
- 通過。 現在のフィールドのデータを読み込まない場合に選択します。
- 指定: このオプションは選択したフィールドの値とラベルを指定するために使用します。 このオプションは、値の検査とともに使用して、 現在のフィールドに対する知識に基づく値を指定します。 このオプションを選択すると、フィールドの種類に応じた独自のコントロールが有効になります。 測定の尺度が「データ型不明」であるフィールドの場合、値やラベルを指定することはできません。
- 拡張: 現在のデータに、ここで入力した値を追加する場合に選択します。 例えば、field_1
(0,10)
からの範囲を持ち、(8,16)
からの値の範囲を入力すると、元の最小値を削除せずに16
を追加することによって範囲が拡張されます。 新しい範囲は(0,16)
になります。 - 現在。 現在のデータ値を保持する場合に選択します。
値ラベル (ラベルの追加/編集)。 このセクションで、選択したフィールドの各値のカスタム・ラベルを入力することができます。
リストの最大長: 地理空間または集合のいずれかの尺度を持つデータのみに使用できます。 リストの最大長を設定するには、リストに入れることができる要素の数を指定します。
最大ストリング長: データ型が不明なデータの場合にのみ使用することができます。 テーブルを作成するための SQL を生成する場合に、このフィールドを使用します。 データの最大文字列の値を入力します。これにより、テーブルに生成される列が、その文字列に対して十分な大きさになります。 文字列長の値が使用不可の場合は、デフォルトの文字列サイズが使用されます。このサイズは、データに対して適切でない場合があります (例えば、値が小さすぎる場合は、テーブルにデータを書き込むときにエラーが発生する場合があります。また、値が大きすぎる場合は、パフォーマンスに悪影響が及ぶ場合があります)。
検査: 値が指定した連続型、フラグ型、または名義型の規則にしたがっているかどうかの検査方法を選択します。 このオプションは、メインのデータ型ノード設定の「確認」列に対応しています。ここで選択した項目により、メインの設定が上書きされます。 このオプションを、値とラベルを指定するためのオプションや、値を確認するためのオプションとともに使用すると、データ内の値を目的の値に一致させることができます。 例えば、値を 1,
0
と指定し、 「破棄」 を使用するとします。 ここでは、 1
または 0
以外の値を持つすべてのレコードを破棄できます。
- 欠損値: 特定の値 (「
99
」や「0
」など) をブランクとして定義する場合は、このフィールドを使用します。 この値は、フィールドのストレージ・タイプに適当なものでなければなりません。 - 範囲: 欠損値の範囲を指定する場合に、このフィールドを使用します (例えば年齢の範囲として、
1–17
や65
以上などを指定します)。 境界値がブランクの場合、範囲は無制限になります。 例えば、下限値を「100
」に設定して上限値を指定しなかった場合、100
以上の値はすべて欠損値として定義されます。 下限値と上限値は、包含的な値として処理されます。 例えば、下限値を「5
」、上限値を「10
」に設定した場合、「5
」と「10
」の両方が範囲の定義に含まれることになります。 日付/時刻や文字列など、任意のストレージ・タイプで欠損値の範囲を定義することができます (文字列の場合、アルファベットのソート順方式を使用して、特定の値が範囲内に収まっているかどうかが判断されます)。 - Null/空白文字。 システムのヌル値 (データ内では
$null$
と表示されます) と空白文字 (表示可能な文字を含まない文字列値) を空白として指定することもできます。 空の文字列は、空白文字とは異なる方法で内部的に保管され、特定の状況において空白文字とは異なる方法で処理されることがありますが、データ型ノードの場合、分析を行う目的で、空の文字列も空白文字として処理されます。
$null$
としてコーディングするには、置換ノードを使用します。