Investigate ステージ
「調査」ステージには、ソース・データの実際の状態が表示され、新しいシステムを破損する前にデータの問題を特定して修正するのに役立ちます。 データを理解することは、クレンジングを行うために必要な事前準備です。
調査は、フリー・フォームのフィールドを解析および分析し、固有値をカウントし、フィールド内の値の発生ごとに事業上の意味を分類または割り当てます。
調査は以下の目標を達成します。
- 傾向、潜在的な異常、メタデータの矛盾、および文書化されていない事業慣例を明らかにします。
- 無効値またはデフォルト値を示します。
- 一般的な用語を表示します。
- マッチング基準として提案されているフィールドの信頼性を検証します。
Investigate ステージでは、単一の入力を使用します。この入力は、IBM DataStage でサポートされているデータベース・コネクターからのリンク、フラット・ファイルまたはデータ・セット、または任意の処理ステージからのリンクになります。 Investigate ステージへの入力は、固定長または可変長にすることができます。 このステージには、指定する調査のタイプに応じて、1 つまたは 2 つの出力リンクを設定できます。
Word Investigation ステージは、フリー・フォームのデータ・フィールドを個別のトークンに解析し、それらを分析してパターンを作成します。 このステージでは、トークンの頻度カウントも提供します。 例えば、Word Investigation ステージでは、住所データにパターンを作成するために、個人名、事業名、住所を分類するためのルール・セットを使用します。 このステージでは、さまざまな国の名前と住所についてのパターンを調査するための事前に作成されたルール・セットを提供します。 例えば、米国の場合、ステージは以下のコンポーネントを構文解析します。
- USPREP
- データが以前にフォーマットされていない場合は、名前、アドレス、およびエリア。
- USNAME
- 個人名および組織名
- USADDR
- 番地と住所
- USAREA
- 市区町村、州、郵便番号、およびその他の関連データ
テスト・フィールドの、123 ストリート、バージニア・ストリートは、以下の方法で分析されます。
- フィールド構文解析では、住所を 123、ストリート、バージニア、ストリートの個々のトークンに分割します。
- 字句解析は、各トークンのビジネス上の重要性を判別します。
- 123 = 数
- St. = ストリート・タイプ
- バージニア = アルファ
- St. = 通りのタイプ
- コンテキスト分析によって、さまざまなデータ構造と内容が、123 ストリート、バージニア、ストリートとして識別されます。
- 123 = 部屋番号
- St. Virginia = 番地
- St. = 通りのタイプ
Character Investigation ステージは、単一ドメイン・フィールド (社会保障番号、電話番号、日付、または郵便番号などの 1 つのデータ・エレメントまたはトークンを含む) を解析し、データを分析して分類します。 Character Investigation ステージは、トークンの頻度分布およびパターン分析を提供します。
パターン・レポートは、すべてのタイプの調査のために準備され、カウント、このパターンに一致するデータのパーセンテージ、生成されたパターン、およびサンプルデータを表示します。 この出力は、標準のレポート作成ツールに準拠するために、広範囲のフォーマットで表示できます。
Investigate ステージ:「ステージ」タブ
ステージをダブルクリックし、「ステージ」タブで設定を更新すると、Investigate ステージの側面を指定できます。
「プロパティー」セクションでは、ステージの実行内容を指定できます。 「拡張」セクションでは、ステージを実行する方法を指定できます。
プロパティ-
- 代替ロケール
- オプション。 データを処理するためにサーバー上で使用する国際ロケールを指定できます。
この値を設定する必要があるのは、サーバーのデフォルト言語ではない言語のデータを処理している場合のみです。 例えば、サーバーのデフォルト言語はフランス語で、処理されるデータがイタリア語というケースです。
ロケールを変更すると、InfoSphere QualityStage は、該当する照合順序と、代替言語の小数点以下の区切り記号を使用します。 必要な値は、サーバーのタイプおよびサーバーの構成方法によって異なります。
UNIX サーバーを使用している場合は、以下のコマンドを入力して、ご使用のサーバーがサポートしているロケールのリストを取得します。
locale -a
Windows のワークステーションを使用している場合は、InfoSphere QualityStage サーバー・ディレクトリーとロケール・サブディレクトリーを選択します。 ローカル・サブディレクトリーには、サポートする言語をアルファベット順にリストしているフォルダーが含まれています。
検査
- 調査タイプ
文字。 文字の調査では、データを分析して分類し、単一のパターン・レポートに変換します。
- 列調査の選択肢
- 「編集」をクリックして列マスクを適用します。 カラムマスクを使用して、頻度カウントまたはパターン分析に含める文字と、パターンレポートのサンプルの一部として表示する文字を選択します。
- 頻度カットオフ
- この数より少ない頻度パターンは、パターン・レポートまたはトークン・レポートには表示されません。 必要に応じて、より高い数値を入力します。 例えば、4を入力すると、3 回以下のいずれかのパターンがレポートに表示されなくなります。
- サンプル数
- 必要に応じて、パターン・レポート内のパターンごとに表示されるサンプル数を増やします。 デフォルトは、1 です。
- 比較モード: 連結
- 関係を判別するために、複数の列の間の列間相関を実行します。 レコード内の任意の場所から 2 つの連続していない列を選択して、単一のデータ列として調査することができます。
拡張
- 実行モード
- このステージは、パラレル・モードまたは順次モードで実行できます。 パラレル・モードでは、入力データは、構成ファイルで指定された使用可能なノード、および「拡張」タブで指定されたノードの制約によって処理されます。 順次モードでは、データ・セット全体がコンダクター・ノードで処理されます。
- 結合可能モード
- これはデフォルトでは Auto であり、IBM® DataStage® は、このタイプのステージにとって賢明であれば、並列ステージの基礎となる演算子を組み合わせて、同じプロセスで実行することができます。
- パーティションの保持
- このデフォルトはプロパゲートです。 これは、「セット」または「クリア」を前のステージから採用します。 「セット」または「クリア」を明示的に選択できます。 「セット」を選択して、ジョブ内の次のステージがパーティションの維持を試みるように要求します。
Investigate ステージ:「入力」タブ
「入力」タブ を使用すると、受信データ・セットに関する詳細を指定できます。 Investigate ステージでは、1 つの入力データ・セットが必要です。
「列」 セクションは、受信データの列定義を指定します。 「拡張」セクションでは、入力リンクのデフォルトのバッファリング設定を変更することができます。
Investigate ステージ:「出力」タブ
出力 タブを使用すると Investigate ステージからのデータ出力に関する詳細を指定できます。
このステージには、指定する調査のタイプに応じて、1 つまたは 2 つの出力リンクを設定できます。 「列」セクションは、発信データの列定義を指定します。 「列」 セクションの下部にある「編集」をクリックして、マッピング情報を指定します。 マッピングは、Sample ステージに入力される列と出力列の間の関係を指定します。 「拡張」セクションでは、出力リンクのデフォルトのバッファリング設定を変更することができます。