0 / 0
Go back to the English version of the documentation

Etap standaryzacji

Last updated: 08 sie 2023
Standaryzacja etapu w DataStage

Za pomocą etapu Standardize, aby dane źródłowe były wewnętrznie spójne, każdy typ danych ma taki sam rodzaj treści i formatu.

Etap Standaryzacja opiera się na interpretacji danych w trakcie etapu Badania. Scena standaryzuje dane reformatów i tworzy spójną prezentację danych z kolumnami stałymi i dyskretnymi, zgodnie z wymaganiami firmy.

Etap standaryzowania wykorzystuje treść danych i umieszczenie w kontekście rekordu w celu określenia znaczenia każdego elementu danych. Typowym przykładem elementów danych, które mogą być zidentyfikowane, są: nazwa, adres, miasto, stan i kod pocztowy.

Aby poprawnie przeanalizować i zidentyfikować każdy element lub wartość (wcześniej nazywanych leksem) i umieścić je w odpowiedniej kolumnie w pliku wyjściowym, w etapie Standardize stosowane są zestawy reguł, które zostały zaprojektowane w celu spełnienia norm lub konwencji. Można na przykład standaryzować nazwy danych (jednostki i przedsiębiorstwa) oraz adresy zgodne z konwencjami konkretnego kraju. Zestawy reguł, które są używane przez etap Standardize, mogą asymilować dane i dopisać dodatkowe informacje z danych wejściowych, takich jak płeć. Te zestawy reguł są takie same, jak te używane w etapie dochodzenia.

Standaryzowane dane są ważne z następujących powodów:

  • Efektywnie dopasowuje dane
  • Ułatwia spójny format danych wyjściowych

Etap Standaryzacja analizuje wolnoformatowe i stałe kolumny w kolumnach jednodomenowych w celu utworzenia spójnej reprezentacji danych wejściowych.

  • Kolumny w formacie dowolnym mogą zawierać alfanumeryczne informacje o dowolnej długości, o ile jest ona mniejsza lub równa maksymalnej długości kolumny zdefiniowanej dla tej kolumny.
  • Kolumny w formacie stałym zawierają tylko jeden konkretny typ informacji, takie jak tylko informacje liczbowe, znakowe lub alfanumeryczne, a także mają określony format.

Etap standaryzowania obejmuje pojedyncze dane wejściowe, które mogą być odsyłaczem ze konektora bazy danych obsługiwanego przez produkt DataStage®, plik tekstowy lub zestaw danych lub dowolny etap przetwarzania. Ograniczenie danych do kolumn o stałej długości nie jest konieczne.

Etap standaryzowania ma tylko jeden odsyłacz wyjściowy. Ten odsyłacz może wysyłać standaryzowane dane wyjściowe i surowe dane wejściowe do dowolnego innego etapu.