DataStageにおける一般的なジョブ管理環境変数
これらの環境変数は、 DataStage® および QualityStage® パラレル・ジョブの実行に関する詳細情報に関係します。
DataStage の APT_CLOBBER_OUTPUT 環境変数
APT_CLOBBER_OUTPUT 環境変数は、既存のファイルまたはデータ・セットの上書きを制御します。
デフォルトでは、出力ファイルまたはデータ・セットが既に存在する場合、 DataStage はエラーを発行し、ファイルまたはデータ・セットが上書きされる前に停止して、名前の競合を通知します。 この変数を任意の値に設定すると、 DataStage は警告メッセージを出さずに既存のファイルまたはデータ・セットを上書きすることができます。
DataStage の APT_CONNECTION_PORT_RANGE 環境変数
APT_CONNECTION_PORT_RANGE は、プロセス間通信用に TCP ポートを選択する方法を変更します。 この環境変数を設定すると、パラレル・ジョブの開始時間を短縮できます。
デフォルトでは、プロセス・マネージャーは、ポートを順番に検索して、使用可能なポートを見つけようとします。 APT_CONNECTION_PORT_RANGE 環境変数が設定されている場合、コンダクターおよびプレイヤー・プロセスに対してランダムな TCP ポート番号が生成されます。
コンダクター・プロセスの場合、APT_PM_STARTUP_PORT 環境変数または APT_PM_STARTUP_PORT 環境変数と APT_CONNECTION_PORT_RANGE 環境変数で指定された範囲の間にランダムなポート番号が生成されます。 APT_PM_STARTUP_PORT 環境変数のデフォルト値は 10000 です。
プレイヤー・プロセスの場合、APT_PLAYER_CONNECTION_PORT 環境変数、または APT_PLAYER_CONNECTION_PORT 環境変数と APT_CONNECTION_PORT_RANGE 環境変数の間に指定された範囲で、ランダムなポート番号が生成されます。 APT_PLAYER_CONNECTION_PORT 環境変数のデフォルト値は 11000 です。
- ランダム・ポートが使用可能な場合、プロセスはそれを使用してバインドします。
- ランダム・ポートが使用できない場合、プロセスは範囲内の次のポートを試行します。
- ランダム・ポートが使用不可で、ポートの範囲内にあるが、バインディングに使用できない場合、システムは範囲の先頭に戻り、次に使用可能なポートにバインドしようとします。
- 範囲内のどのポートも使用できない場合、ジョブは失敗します。
- 環境変数がゼロまたは誤った値に設定されている場合、値は 65535 (開始点) にリセットされます。 例えば、範囲が 65535 から 10000 の場合、開始点は 55535 になります。 この変数をゼロに設定することは、システムが最大数のポートから選択するための最良の方法です。
DataStage の APT_CONFIG_FILE 環境変数
APT_CONFIG_FILE 環境変数は、構成ファイルのパス名を指定します。
ジョブの実行時に構成ファイルを指定できるように、この環境変数をジョブ・パラメーターとして組み込むことをお勧めします。
sh-4.4$ nano /px-storage/config/1node.apt
{
node "node1"
{
fastname "$conductor"
pools ""
resource disk "/opt/ibm/PXService/Server/Datasets" {pool ""}
resource disk "/opt/ibm/PXService/Server/pds_files/node1" {pool "" "export" "node1" "node1a"}
resource scratchdisk "/opt/ibm/PXService/Server/scratch" {pools ""}
}
}
{
node "node1"
{
fastname "$conductor"
pools "conductor"
resource disk "/px-storage/pds_files/node1" {pool "" "export" "node1"}
resource scratchdisk "/opt/ibm/PXService/Server/scratch" {pool ""}
}
node "node2"
{
fastname "$pod"
pools ""
resource disk "/px-storage/pds_files/node2" {pool "" "export" "node2"}
resource scratchdisk "/opt/ibm/PXService/Server/scratch" {pool ""}
}
node "node3"
{
fastname "$pod"
pools ""
resource disk "/px-storage/pds_files/node3" {pool "" "export" "node3"}
resource scratchdisk "/opt/ibm/PXService/Server/scratch" {pool ""}
}
}
{
node "node1"
{
fastname "$conductor"
pools "conductor"
resource disk "/px-storage/pds_files/node1" {pool "" "export" "node1"}
resource scratchdisk "/opt/ibm/PXService/Server/scratch" {pool ""}
}
node "node2"
{
fastname "$pod"
pools ""
resource disk "/px-storage/pds_files/node2" {pool "" "export" "node2"}
resource scratchdisk "/opt/ibm/PXService/Server/scratch" {pool ""}
}
node "node3"
{
fastname "$pod"
pools ""
resource disk "/px-storage/pds_files/node3" {pool "" "export" "node3"}
resource scratchdisk "/opt/ibm/PXService/Server/scratch" {pool ""}
}
node "node4"
{
fastname "$pod"
pools ""
resource disk "/px-storage/pds_files/node4" {pool "" "export" "node4"}
resource scratchdisk "/opt/ibm/PXService/Server/scratch" {pool ""}
}
node "node5"
{
fastname "$pod"
pools ""
resource disk "/px-storage/pds_files/node5" {pool "" "export" "node5"}
resource scratchdisk "/opt/ibm/PXService/Server/scratch" {pool ""}
}
}
DataStage の APT_DISABLE_COMBINATION 環境変数
APT_DISABLE_COMBINATION 環境変数は、オペレーター結合をグローバルに使用不可にします。
演算子結合は、DataStageのデフォルトの動作で、ステップ内の任意の数の演算子が可能な限り1つのプロセスに結合されます。
デバッグを容易にするために、結合を無効にする必要がある場合があります。 結合を使用不可にすると、より多くの UNIX プロセスが生成されるため、より多くのシステム・リソースおよびメモリーが必要になります。 また、ジョブの効率と実行時間の内部最適化も無効にします。
DataStage の APT_DONT_COMPRESS_BOUNDED_FIELDS 環境変数
コピー・オペレーターがデータ・セットに書き込むときに、制限された長さフィールドから可変長フィールドへの変換を抑止するには、APT_DONT_COMPRESS_BOUNDED_FIELDS 環境変数を設定します。
DataStage の APT_FILE_EXPORT_ADD_BOM 環境変数
APT_FILE_EXPORT_ADD_BOM 環境変数を設定して、指定されたタイプのバイト・オーダー・マークを出力ファイルの先頭に挿入するようにエクスポート・オペレーターに指示します。
- 無し
- utf8
- utf16be
- utf16le
- utf32be
- utf32le
DataStage の APT_IMPORT_FORCE_QUOTE_DELIM 環境変数
APT_IMPORT_FORCE_QUOTE_DELIM 環境変数を設定して、インポートが、フィールドの区切り文字が後に続く終了引用符文字のみを認識するようにします。
DataStage の APT_ORCHHOME 環境変数
すべての DataStage ユーザーが、パラレル・エンジン・インストールの最上位ディレクトリーを指すように、APT_ORCHHOME 環境変数を設定する必要があります。
DataStage の APT_RECORD_TIMEOUT 環境変数
APT_RECORD_TIMEOUT 環境変数を設定して、仮想データ・セットがレコードを処理しない場合に、パラレル・エンジン (PX) フレームワークがタイムアウトになるまで待機する秒数を定義します。
ゼロ以下の値を指定すると、タイムアウトが無効になります。
DataStage の APT_STARTUP_SCRIPT 環境変数
ジョブを実行する前に、すべての DataStage 処理ノードで起動シェル・スクリプトを実行するように APT_STARTUP_SCRIPT 環境変数を設定します。
ジョブの実行の一部として、 DataStage は、ジョブが実行されるすべての DataStage 処理ノード上にリモート・シェルを作成します。 デフォルトでは、リモート・シェルには、 DataStage が開始されるシェルと同じ環境が与えられます。 ただし、オプションの開始シェル・スクリプトを作成して、1 つ以上の処理ノードのシェル構成を変更することができます。 始動スクリプトが存在する場合、 DataStage は、ジョブを実行する前にリモート・シェルでそのスクリプトを実行します。
APT_STARTUP_SCRIPT 環境変数は、実行するスクリプトを指定します。 定義されていない場合、 DataStage は、 ./startup.apt, $APT_ORCHHOME/etc/startup.apt および $APT_ORCHHOME/etc/startupをこの順序で検索します。 APT_NO_STARTUP_SCRIPT 環境変数は、起動スクリプトの実行を無効にします。
DataStage の APT_NO_STARTUP_SCRIPT 環境変数
APT_NO_STARTUP_SCRIPT 環境変数は、 DataStage がジョブを実行する前に始動スクリプトを実行できないようにします。
デフォルトでは、APT_NO_STARTUP_SCRIPT 環境変数は設定されておらず、 DataStage は始動スクリプトを実行します。 この変数が設定されている場合、 DataStage は始動スクリプトを無視します。 この設定は、起動スクリプトをデバッグするときに役立つことがあります。 APT_STARTUP_SCRIPTも参照してください。
DataStage の APT_STARTUP_STATUS 環境変数
APT_STARTUP_STATUS 環境変数を設定して、パラレル・ジョブ始動がフェーズ間を移動するときにメッセージが生成されるようにします。
この設定は、パラレル・ジョブの開始が失敗した場合の診断として役立ちます。
DataStage の QSM_DISABLE_DISTRIBUTE_COMPONENT 環境変数
QSM_DISABLE_DISTRIBUTE_COMPONENT 環境変数を設定して、 QualityStage ジョブの制御ファイルがコンダクター・ノードから 1 つ以上の計算ノードにコピーされないようにします。
MPP またはグリッド環境では、コンダクター・ノードと計算ノードがプロジェクト・ディレクトリーを共有していない可能性があります。 プロジェクト・ディレクトリーが共有されていない場合、一部の QualityStage ジョブでは、コンダクター・ノードからコンピュート・ノードに制御ファイルをコピーする必要があります。
プロジェクト・ディレクトリーが共有されている場合、制御ファイルをコピーする必要はありません。 制御ファイルをコピーすると、ファイル・アクセスの問題が発生する可能性があります。 この環境変数を設定して、制御ファイルがコピーされないようにします。
DataStage ジョブを実行するようにグリッド環境を構成する場合、この環境変数はデフォルトで設定されます。
DataStage の OSH_JOB_START_TIMEOUT 環境変数
OSH_JOB_START_TIMEOUT 環境変数を設定して、 OshWrapper がジョブの開始を待機する秒数を指定します。この秒数を過ぎると、ジョブは終了します。
デフォルト値は 600 秒です。
DataStage の APT_JOB_MONITOR_TIMEOUT 環境変数
APT_JOB_MONITOR_TIMEOUT 環境変数を設定して、ジョブがランタイムによって強制終了されるまでのアイドル状態の分数を指定します。
デフォルト値は 120 分です。
0 以下の値は、ジョブのランタイム・モニターを使用不可にします。
DataStage の APT_CACHE_VAULT_SECRETS 環境変数
データ保管庫の秘密をランタイム・インスタンスにイン・メモリ・キャッシュし、後続の実行で使用できるようにします。
環境変数APT_CACHE_VAULT_SECRETS
を設定することで、ジョブ中に取得されるデータ保管庫の秘密のキャッシュを有効にすることができます。 秘密はデフォルトで1時間キャッシュされる。 このキャッシュは、cpdctl dsjob
clear-vault-cache
コマンドでdsjobを呼び出すことでクリアできます。
cpdctl dsjob clear-vault-cache
...
Cache cleared successfully
Status code = 0
DataStageのAPT_DISABLE_ROOT_FORKJOIN環境変数
DataStageの環境変数APT_OVERRIDE_SYSTEM_LC_ALL
この環境変数は、システムのLC_ALL設定を上書きする。 この変数はString型である。
DataStageの環境変数 APT_OVERRIDE_SYSTEM_LC_NUMERIC
この環境変数は、システムのLC_NUMERIC設定を上書きする。 この変数はString型である。
DataStageのAPT_MAX_MSG_SIZE環境変数
APT_MAX_MSG_SIZEは、プレイヤー間のメッセージ転送に許容される最大メッセージサイズを指定します。 この変数は APT_MAX_TRANSPORT_BLOCK_SIZE および APT_AUTO_TRANSPORT_BLOCK_SIZE と組み合わせて使用する場合にのみ意味を持つ。 デフォルト値は「131072」である。 この変数はNumber型である。
DataStageのAPT_MONITOR_MINTIME環境変数
APT_MONITOR_MINTIME は、行数に基づく内部モニタの各更新の間に経過すべき最小の時間間隔を秒単位で定義します。 デフォルト値は「10」。 この変数はNumber型である。
DataStageのAPT_MONITOR_SIZE環境変数
APT_MONITOR_SIZEは、ジョブ・モニタの更新間隔を行単位で定義します。 デフォルト値は「50000」。 この値はNumber型である。
DataStageのAPT_MONITOR_TIME環境変数
APT_MONITOR_TIMEは、ジョブ・モニタの更新間隔を秒単位で定義します。 デフォルト値は「10」。 この変数はNumber型である。
DataStageのAPT_NO_ONE_NODE_COMBINING_OPTIMIZATION環境変数
APT_NO_ONE_NODE_COMBINING_OPTIMIZATION は、PX Engine が 1 ノード構成で可能な限り多くのプロセスを結合するために、余分な最適化を実行するかどうかを制御します。 デフォルト値はTrue。 この変数はブール型である。
DataStageのAPT_NO_TRANSFER_BINDING環境変数
APT_NO_TRANSFER_BINDING は、転送ロジックのコピー除去最適化をオフにする。 デフォルト値はFalseである。 この変数はブール型である。
DataStageのAPT_PARAM_VALUE_FILE環境変数
APT_PARAM_VALUE_FILE は、リモート・エンジンがファイル・ベースのクレデンシャルをサポートするようにします。 この変数はString型である。
DataStageのAPT_SCRATCH_COMPRESSION_BLOCK_SIZE環境変数
APT_SCRATCH_COMPRESSION_BLOCK_SIZE は、 ソートデータをスクラッチファイルに書き込む際に、 個々のブロックとして圧縮・展開するデータのサイズを定義します。 バイト単位で定義され、デフォルトの最小値は1MB。 APT_TSORT_SCRATCH_COMPRESSION を定義することで、スクラッチ圧縮使用時のメモリ使用量の削減を支援します。 定義されていない場合、スクラッチファイル全体が一度に圧縮・解凍される。 この変数はNumber型である。
DataStageのAPT_TRANSFORM_STAGEVARS_ALWAYS_NULLABLE環境変数
この環境変数を設定すると、たとえ変数がNULLに設定されることがなくても、すべてのケースでステージ変数に対してNULLコード処理が生成されるようになる。
デフォルトでは、変数にNULLが含まれている可能性が検出されると、NULL処理コードが生成されるため、完全な正しさのためには必須である。
その時点までにその変数に対して生成されたすべてのコードには、NULLを処理するコードはない。 ステージ変数はレコードをまたいでも値を保持するため、ある変数がNULLを予期していないコードに格納され、不正な動作につながる可能性があることを意味する。 APT_TRANSFORM_STAGEVARS_ALWAYS_NULLABLEの動作は、生成されるコードに大きな変化を与える可能性があり、正しさを保証するのに十分なテストを構築するのが難しいため、デフォルトの動作として考慮されていません。
デフォルト値はFalseである。 この変数はブール型である。
DataStageのCC_JVM_OPTIONS環境変数
コネクターの実行時に渡されるJVMオプションをオーバーライドするには、この値を設定します。 この変数はString型である。