Etapa Estandarizar
Utilice la etapa Estandarizar para que los datos de origen sean coherentes internamente, para que cada tipo de datos tenga el mismo tipo de contenido y formato.
La etapa Estandarizar se basa en la interpretación de los datos durante la etapa Investigar. La etapa Estandarizar reformatea los datos y crea una presentación de datos coherente con columnas fijas y discretas, de acuerdo con los requisitos de la empresa.
La etapa Estandarizar utiliza el contenido de los datos y la colocación dentro del contexto de registro para determinar el significado de cada elemento de datos. Algunos ejemplos comunes de elementos de datos que se pueden identificar son el nombre, la dirección, la ciudad, el estado y el código postal.
Para analizar e identificar correctamente cada elemento o valor (anteriormente denominado señal), y colocarlos en la columna apropiada del archivo de salida, la etapa Estandarizar utiliza conjuntos de reglas que están diseñados para cumplir estándares o convenios. Por ejemplo, puede estandarizar nombres de datos (personas y empresas) y direcciones para cumplir los convenios de un determinado país. Los conjuntos de reglas que utiliza la etapa Estandarizar pueden asimilar los datos y añadir información adicional de los datos de entrada como, por ejemplo, el género. Estos conjuntos de reglas son los mismos que los utilizados en la etapa Investigar.
Los datos estandarizados son importantes por las siguientes razones:
- Permiten buscar coincidencias de datos
- Facilitan un formato coherente para los datos de salida
La etapa Estandarizar analiza las columnas de formato libre y de formato fijo en columnas de un solo dominio para crear una representación coherente de los datos de entrada.
- Las columnas de formato libre contienen información alfanumérica de cualquier longitud, siempre que sea menor o igual que la longitud máxima de columna definida para dicha columna.
- Las columnas de formato fijo solo contienen un tipo específico de información como, por ejemplo, solo información numérica, de caracteres o alfanumérica, y tienen un formato específico.
La etapa Tipize toma una sola entrada, que puede ser un enlace desde cualquier conector de base de datos soportado por DataStage®, un archivo sin formato o conjunto de datos, o cualquier etapa de proceso. No es necesario restringir los datos a columnas de longitud fija.
La etapa Estandarizar solo tiene un enlace de salida. Este enlace puede enviar una salida estandarizada y la entrada sin formato a cualquier otra etapa.
Etapa Estandardizar: Vía de acceso rápida
- Vaya a la pestaña Etapa del panel de propiedades de la etapa Normalizar y, a continuación, abra la sección Procesos de normalización.
- Pulse Añadir regla para abrir la página de reglas de estandarización.
- Abra la sección Regiones de la página, abra una región y, a continuación, abra otros subnodos hasta que pueda seleccionar un conjunto de reglas. Haga clic en Gestionar para editar las propiedades de las reglas y las tablas de consulta. Editar clasificación, patrones y anulaciones.
- Seleccione un conjunto de reglas y pulse Seleccionar.
- En la sección Procesos de estandarización, en Nombre de columna, pulse Añadir nombres +.
- En la página Columnas de estandarización, añada nuevas columnas o literales, o ambos. A continuación, pulse Aplicar y volver.
- Pulse Guardar.