Standardize ステージを使用して、ソース・データを内部的に一貫性のあるものにし、各データ・タイプが同じ種類のコンテンツとフォーマットを持つようにします。
Standardize ステージは、Investigate ステージでのデータの解釈に基づいて作成されます。 Standardize ステージは、データを再フォーマットし、会社の要件に応じて固定列および個別の列を使用し、一貫性のあるデータ表示を作成します。
Standardize ステージは、レコード・コンテキスト内のデータ内容と配置を使用して、各データ・エレメントの意味を判別します。 識別可能なデータ・エレメントの一般的な例として、名前、住所、市区町村、都道府県、および郵便番号があります。
各エレメントまたは値 (以前のトークン) を正しく構文解析して識別し、それらを出力ファイルの該当する列に配置するために、Standardize ステージは、標準または規則に準拠するように設計されたルール・セットを使用します。 例えば、特定の国の規則に準拠するために、データ名 (個人と事業) と住所を標準化することができます。 Standardize ステージが使用するルール・セットは、データを同化し、入力データから追加情報 (性別など) を付加することができます。 これらのルール・セットは、Investigate ステージで使用されるルール・セットと同じです。
標準化されたデータは、以下の理由により重要です。
- データを効果的に突き合わせるため
- 出力データが容易に一貫性のあるフォーマットになるため
Standardize ステージは、フリー・フォームの列と固定形式の列を単一ドメイン列に構文解析して、入力データの表現に一貫性を生み出します。
- フリー・フォームの列には、その列に定義されている最大列長以下であれば、任意の長さの英数字情報が含まれます。
- 固定形式の列には、数値、文字、英数字の情報のみなど、特定タイプの情報のみが含まれ、フォーマットも決まっています。
標準化ステージは単一の入力を取ります。これは、 DataStage®、フラット・ファイルまたはデータ・セット、または任意の処理ステージによってサポートされる任意のデータベース・コネクターからのリンクにすることができます。 データを固定長の列に制限する必要はありません。
Standardize ステージには出力リンクが 1 つしかありません。 このリンクは、標準化された出力と未加工の入力を他のステージに送信できます。
ステージの標準化: ファースト・パス
- StandardizeステージのプロパティパネルのStageタブに移動し、Standardization processesセクションを開きます。
- 「ルールの追加」 をクリックすると、標準化ルール・ページが開きます。
- ページの「領域」セクションを開き、領域を開き、ルール・セットを選択できるようになるまで、さらにサブノードを開きます。 管理をクリックして、ルールのプロパティとルックアップテーブルを編集します。 分類、パターン、オーバーライドの編集。
- ルール・セットを選択して「選択」をクリックします。
- 「標準化プロセス」セクションの「列名」で「名前の追加 +」をクリックします。
- 「標準化」列ページで、新しい列または行、またはその両方を追加します。 次に、「適用して返す」をクリックします。
- 保存 をクリックします。