現在のフローに適用するプロパティーを指定できます。
フロー・プロパティーを設定するには、 「フロー・プロパティー」 アイコン をクリックします。
以下のプロパティーを構成できます。
オプション
- 一般
- データ プレビューに表示する最大行数(M)
- ノードのデータをプレビューするときに、表示する行数を指定することができます。
- 名義型フィールドのメンバー数を制限
- 名義型 (セット型) フィールドのデータ型は、メンバーの数が 「最大メンバー数」で設定したメンバーの最大数を超えると、 「データ型不明」 になります。 このオプションは、大きな名義型フィールドを処理する場合に便利です。 フィールドの尺度が 「データ型不明」に設定されている場合、その役割は自動的に 「なし」に設定されます。 「なし」 に設定されているフィールドは、モデル作成には使用できません。
- 日付/時刻
- 日付/時刻/タイム・スタンプを次としてインポート
- 日付と時刻のフィールドにデータを格納するために日付と時刻の形式を使用するか、文字列変数としてインポートするかを選択します。
- タイム・スタンプ・フィールドでマイクロ秒を使用
- マイクロ秒単位で測定されたタイム・スタンプ・データがある場合は、このオプションを有効にして、フローでより正確なデータを使用することができます。 このオプションを有効にするには、このチェック・ボックスを選択し、 「日付/時刻/タイム・スタンプのインポート (Import date/time/timestamp as)」 設定の 「ストリング」 を選択します。注意: このオプションは、SQLプッシュバックをサポートするコネクタでのみ機能します。
- 日付の形式
- 日付ストレージ・フィールドで使用される日付形式、または CLEM 日付関数で文字列が日付として解釈された場合の日付形式を選択します。
- 時刻の形式
- 時刻ストレージ・フィールドで使用される時刻形式、または CLEM 時間関数で文字列が時刻として解釈された場合の時刻形式を選択します。
- 日/分をロールオーバー
- 時刻形式で、マイナスの時差を、前の日または時間を表すものとして解釈するかどうかを選択します。
- 基準日付 (1 月 1 日)
- CLEM の日付関数で単一の日付を扱う場合に使用する基準の年 (月日は常に 1 月 1 日) を選択します。
- 2 桁の日付の開始日
- 2 桁だけで年号を表す場合に、前の世紀の年号かどうかを判断するための、閾値とする年を指定します。 例えば、閾値の年として 1930 を指定すると 05/11/02 が 2002 年であると想定されます。 同じ設定で 30 以降の日付に 20 世紀を使用するため、05/11/73 は 1973 年であると想定されます。
- タイム・ゾーン
datetime_now
CLEM 式で使用する時間帯の選択方法を選択します。- 「サーバー」を選択すると、 SPSS Modeler ランタイムが実行されている場所からタイム・ゾーンが使用されます (この時刻が 「クライアント」 オプションと同じである場合もあります)。 あるいは、フローがデータベースからのデータを使用し、サポートされるデータベースが SQL プッシュバックを使用する場合、
datetime_now
式はデータベースの時刻を使用します。 - 「クライアント」を選択した場合は、SPSS Modeler がインストールされているマシンの時間帯が使用されます。
- 時間帯に任意の協定世界時の値を選択することもできます。
- 「サーバー」を選択すると、 SPSS Modeler ランタイムが実行されている場所からタイム・ゾーンが使用されます (この時刻が 「クライアント」 オプションと同じである場合もあります)。 あるいは、フローがデータベースからのデータを使用し、サポートされるデータベースが SQL プッシュバックを使用する場合、
- 数値の形式
- SPSS Modeler が実数を標準表示形式、科学表示形式、または通貨表示形式で表示するときに使用する小数点以下の桁数を指定できます。
- 最適化
- 以下の設定を使用して、フローのパフォーマンスを最適化できます。
- フローの書き換えを有効にする
- フローの書き換えは、フロー内のノードをバックグラウンドで並べ替え、フローの意味論を変更することなくフローをより効率的に操作できるようにする処理です。
- CLEM 式の最適化
- このオプションを使用すると、オプティマイザーは、フローの実行前に前処理できる CLEM 式を検索して、処理速度を向上させることができます。 例えば、
log(salary)
のような式がある場合、オプティマイザーは実際の給与値を計算し、それを処理のために渡します。 このオプションを使用すると、SQL プッシュバックと SPSS Modeler の両方のパフォーマンスを向上させることができます。 - シンタックス実行の最適化
- このフローの再書き込み方法により、 SPSS Statistics シンタックスを含む複数のノードを持つ操作の効率が向上します。 各操作それぞれを実行する代わりに、シンタックス・コマンドを 1 つの操作に結合することによって最適化が行われます。
- その他の実行の最適化
- この方法のフローの書き換えでは、データベースで処理できない操作を効率化します。 最適化は、フローのデータ量をできるだけ早く減らすことによって実現されます。 データ保全性を維持しながら、データ・ソースの近くに操作をプッシュするためにフローが再書き込みされます。 この変更により、コストのかかる操作 (結合など) の下流のデータが削減されます。
- 並行処理の有効化
- 複数のプロセッサーを持つコンピューター上で実行する場合、このオプションを使用すると、システムはそれらのプロセッサー間で負荷のバランスを取ることができるため、パフォーマンスが向上する可能性があります。 複数のノードを使用するか、個々のノードを使用すると、 C5.0、レコード結合 (キーによる)、ソート、ビン (ランクおよびタイルの方法)、およびレコード集計 (1 つ以上のキー・フィールドを使用) という並列処理の利点が得られます。
- SQL の生成
- このオプションは、SQL 処理をデータベースに戻します。 このオプションをオンまたはオフにすると、作成した新規フローのみが影響を受けます。 既存のフローの設定を切り替えることはできません。 フローでのこのオプションの使用について詳しくは、 SQL 最適化を参照してください。
- データベース・キャッシング (SQL のみ)。 SQL を生成するフローをデータベース内で実行するために、ファイル・システムでなくデータベース内の一時テーブルへ、データを途中でキャッシュできます。 このオプションを SQL 最適化と組み合わせると、パフォーマンスが大幅に向上する可能性があります。 例えば、データ・マイニング・ビューを作成するために複数のテーブルを併合するフローからの出力をキャッシュし、必要に応じて再使用できます。 データベース・キャッシングを有効にした状態で、フロー内の任意の非端末ノードの上にカーソルを移動し、オーバーフロー・メニュー をクリックして、 を選択します。 これで、このノードでデータがキャッシュに入れられ、次回のフローの実行時にデータベース内にキャッシュが自動的に直接作成されます。 これにより SQL が下流のノード用に生成されるようになり、パフォーマンスをさらに改善します。 代わりに、例えばポリシーまたは許可によってデータベースに書き込まれたデータが損なわれる場合、このオプションを必要に応じて無効にすることができます。 データベース・キャッシングまたは SQL 最適化が有効になっていない場合、キャッシュは代わりにファイル・システムに書き込まれます。
- 「緩和された変換を使用 (SQL のみ)」。 適切な形式で保存されている場合、文字列から数値、または数値から文字列へのデータの変換を可能にします。 例えば、データが文字列としてデータベースに保存されているが、実際に意味のある数値が含まれている場合、プッシュバックが発生したときに使用するようにデータを変換することができます。
- このオプションは、SQL 処理をデータベースに戻します。 このオプションをオンまたはオフにすると、作成した新規フローのみが影響を受けます。 既存のフローの設定を切り替えることはできません。 フローでのこのオプションの使用について詳しくは、 SQL 最適化を参照してください。
- ロギング
- 実行時に SQL をメッセージ・ログに表示
- フローの実行中に生成された SQL をメッセージ・ログに渡すかどうかを指定します。
- 準備中にメッセージ・ログに SQL 生成を表示する
- フローのプレビュー中に、生成される SQL のプレビューをメッセージ・ログに渡すかどうかを指定します。
- SQL 形式
- ログに表示される SQL に、ネイティブ SQL 関数を含めるか、 SPSS Modelerによって生成された形式
{fn FUNC(…)}
の標準 ODBC 関数を含めるかを指定します。 前者は、実装されていない可能性がある ODBC ドライバーの機能に依存しています。 - SQL を再フォーマットして読みやすくする
- ログに表示される SQL を読みやすいようにフォーマットするかどうかを指定します。
- レコードのステータスを表示
- レコードがターミナル・ノードに達したときに、そのレコードを報告する時期を指定します。 N レコードごとに状況を更新するために使用する番号を指定します。
パラメーター
パラメーターは、現在のフローまたは SuperNodeで保存されて永続化されるユーザー定義変数です。 パラメーターは、スクリプトの動作を制御するためにスクリプトでよく使用され、ユーザー・インターフェースからもアクセスできます。CLEM 式およびスクリプトで使用するパラメーターは定義できます。 フロー・プロパティーで定義されたパラメーターは、フロー内のすべてのノードで使用可能です。 SuperNode のパラメーター・セットは、 SuperNodeの外部では使用できません。 フローを保存すると、そのフローに設定されているパラメーターも保存されます。
パラメーターについて詳しくは、 フローおよび SuperNode のパラメーターを参照してください。
「値の追加」 をクリックして、新規パラメーターに関する以下の情報を入力します。
- 名前
- この名前は、式内でパラメーターがどのように参照されるかを示すものです。 例えば、最小温度のパラメーターを作成するには、 minvalueと入力します。
CLEM 式でパラメーターが使用される場合、それらのパラメーターは単一引用符で囲まれます (例:
'$P-minvalue'
)。$P-
接頭部は入力しないでください。 これは CLEM 式のパラメーターを示します。 - ラベル
- 作成した各パラメーターの記述名が表示されます。
- ストレージ
- ストレージで、データ値がパラメーター内にどのように格納されるかを示します。 例えば、値の先行ゼロを保持する場合 (
008
など)、ストレージ・タイプとして 「ストリング」 を選択します。 そうでない場合は、値からゼロが除去されます。 - 値
- 各パラメーターの現行値をリストします。これは必要に応じて変更できます。 日付パラメーターの値は、ISO 標準表記 (YYYY-MM-DD) で指定する必要があります。
- 測定
- パラメーターの特性を記述するために使用される測定の尺度を選択します。 この値を変更して、パラメーターの使用方法を反映させることができます。 例えば、 「データ型不明」 は、パラメーターがそのストレージと互換性のある任意の値を持つことができることを示します。
- プロンプト?
- ランタイムの開始時に、このパラメーターの値を入力するように求めるプロンプトをユーザーに表示する場合は、このオプションを選択します。 このオプションは、同じパラメーターに対して異なる値を異なる機会に入力する必要がある場合に使用できます。
グローバル
フロー・プロパティーの 「グローバル」 タブで、現在のフローに設定されているグローバル値を表示できます。 グローバル値は、 「グローバルの設定」 ノードを使用して作成され、選択したフィールドの平均、合計、標準偏差などの統計量を決定します。
「グローバルの設定」 ノードの実行後、これらの値はフロー操作でさまざまな用途に使用できるようになります。
ここのフロー・プロパティーのテーブルでグローバル値を編集することはできませんが、フローのすべてのグローバル値をクリアすることはできます。
アノテーション
組織内の他のユーザーにフローを説明する必要がある場合は、フロー、ノード、およびモデル・ナゲットに説明のコメントを付けることができます。 他のユーザーは、これらのコメントを画面に表示したり、コメントを含むフローのイメージを印刷したりすることもできます。
フロー・プロパティーの 「注釈」 タブを使用して、フローにテキスト注釈を追加します。 これらのメモは、フロー・アノテーションも画面上のコメントとして表示できることを除き、 「アノテーション」 タブが開いている場合にのみ表示されます。