0 / 0
Volver a la versión inglesa de la documentación

etapa Investigate

Última actualización: 12 mar 2025
Etapa Investigar en DataStage

La etapa Investigar muestra la condición real de los datos de origen y ayuda a identificar y corregir problemas de datos antes de que dañen nuevos sistemas. Es necesario conocer sus datos antes de limpiarlos.

La investigación analiza y analiza los campos de formato libre, cuenta los valores exclusivos, y clasifica o asigna un significado empresarial a cada aparición de un valor dentro de un campo.

La investigación logra estos objetivos:

  • Descubre tendencias, posibles anomalías, discrepancias de metadatos y prácticas empresariales indocumentadas.
  • Identifica valores no válidos o predeterminados.
  • Revela la terminología común.
  • Verifica la fiabilidad de los campos que se proponen como criterios de coincidencia.

La etapa Investigar utiliza una única entrada, que puede ser un enlace desde cualquier conector de base de datos soportado por IBM DataStage, desde un archivo plano o un conjunto de datos, o desde cualquier etapa de proceso. Las entradas de la etapa Investigar pueden ser de longitud fija o variable. La etapa puede tener uno o dos enlaces de salida, en función del tipo de investigación que especifique.

La etapa Investigación de palabras analiza los campos de datos de formato libre en señales individuales y los examina para crear patrones. Esta etapa también proporciona recuentos de frecuencia de las señales. Por ejemplo, para crear patrones en los datos de dirección, la etapa Investigación de palabras utiliza un conjunto de reglas para clasificar los nombres de personas, los nombres de empresas y las direcciones. La etapa proporciona conjuntos de reglas predefinidas para investigar patrones de nombres y direcciones postales para varios países diferentes. Por ejemplo, para Estados Unidos, la etapa analiza los siguientes componentes:

USPREP
Nombre, dirección y área si los datos no se han formateado previamente
USNAME
Nombres de personas y organizaciones
USADDR
Dirección física y dirección postal
USAREA
Ciudad, estado, código postal y otros datos relacionados

El campo de prueba 123 St. Virginia St. se analiza de la siguiente manera:

  1. El análisis de campo divide la dirección en las señales individuales de 123, St., Virginia y St.
  2. El análisis léxico determina la importancia comercial de cada símbolo:
    1. 123 = número
    2. St. = tipo de calle
    3. Virginia = alpha
    4. St. = Tipo de calle
  3. El análisis de contexto identifica las distintas estructuras de datos y el contenido como 123 St. Virginia, St.
    1. 123 = Número de casa
    2. St. Virginia = Dirección física
    3. St. = Tipo de calle

La etapa Investigación de caracteres analiza un campo de dominio único (que contiene un elemento de datos o una señal, por ejemplo, el número de Seguridad Social, el número de teléfono, la fecha o el código postal) para analizar y clasificar los datos. La etapa Investigación de caracteres proporciona una distribución de frecuencia y un análisis de patrones de las señales.

Se prepara un informe de patrón para todos los tipos de investigaciones y se muestra el recuento, el porcentaje de datos que coincide con este patrón, el patrón generado y los datos de ejemplo. Esta salida puede presentarse en una amplia gama de formatos para ajustarse a las herramientas de informes estándar.

Etapa Investigar: Pestaña Etapa

Para especificar los distintos aspectos de la etapa Investigar, efectúe una doble pulsación en la etapa y actualice los valores en la pestaña Etapa.

La sección Propiedades permite especificar lo que hace la etapa. La sección Avanzado permite especificar cómo se ejecuta la etapa.

Propiedades

Utilice la sección Propiedades para definir lo que hace realmente la etapa.
Entorno local alternativo
Opcional. Permite especificar el entorno local internacional que desea utilizar en el servidor para procesar los datos.

Este valor solo debe establecerse si está procesando datos para un idioma distinto del idioma predeterminado del servidor. Por ejemplo, supongamos que el idioma predeterminado del servidor es el francés y que los datos que se van a procesar están en italiano.

Cuando cambia el entorno local, InfoSphere QualityStage utiliza la secuencia de recopilación adecuada y separadores decimales para el idioma alternativo. El valor necesario depende del tipo de servidor y de cómo se ha configurado.

Si utiliza un servidor UNIX, especifique el siguiente mandato para obtener una lista de los entornos locales soportados por el servidor:

locale -a

Si utiliza una estación de trabajo de Windows, seleccione el directorio del servidor de InfoSphere QualityStage y el subdirectorio del entorno local. El subdirectorio local contiene carpetas que se listan alfabéticamente por los idiomas que admiten.

Investigación

Tipo de investigación

Carácter . Una investigación de caracteres analiza y clasifica los datos, clasificándolos en un informe de un solo patrón.

Selección de investigación de columnas
Pulse Editar para aplicar una máscara de columna. Utiliza máscaras de columna para elegir qué caracteres se incluyen en el recuento de frecuencias o en el análisis de patrones y qué caracteres se muestran como parte de las muestras en el informe de patrones.
Límite de frecuencia
Los patrones con una frecuencia menor que este número no aparecerán en los informes de patrón o señal. Si lo desea, especifique un número más alto. Por ejemplo, si especifica 4, cualquier patrón que se produzca tres veces o menos no aparecerá en el informe.
Número de muestras
Si lo desea, aumente el número de muestras que aparecen para cada patrón en el informe de patrón. El valor predeterminado es 1.
Modalidad de comparación: concatenación
Realiza correlaciones entre varias columnas para determinar las relaciones. Puede elegir dos columnas no contiguas en cualquier lugar del registro para que se investiguen como una sola columna de datos.

Avanzado

Esta sección permite especificar lo siguiente:
Modalidad de ejecución
La etapa se puede ejecutar en modalidad paralela o en modalidad secuencial. En modalidad paralela, los datos de entrada se procesan en los nodos disponibles, tal como se especifica en el archivo de configuración, y según las restricciones de nodo especificadas en la pestaña Avanzado. En la modalidad secuencial, el nodo conductor procesa el conjunto de datos completo.
Modalidad de combinabilidad
Esto es Automático por defecto, lo que permite IBM® DataStage® combinar los operadores que subyacen a las etapas paralelas para que se ejecuten en el mismo proceso si es conveniente para este tipo de etapa.
Conservar particionamiento
Es Propagar de forma predeterminada. Adopta Establecer o Borrar de la etapa anterior. Puede seleccionar explícitamente Establecer o Borrar. Seleccione Establecer para solicitar que la siguiente etapa del trabajo intente mantener el particionamiento.

Etapa Investigar: Pestaña Entrada

La pestaña Entrada permite especificar detalles sobre los conjuntos de datos de entrada. La etapa Investigar espera un conjunto de datos de entrada.

La sección Columnas especifica las definiciones de columna de los datos de entrada. La sección Avanzado permite cambiar los valores de almacenamiento intermedio predeterminados para el enlace de entrada.

Etapa Investigar: Pestaña Salida

La pestaña Salida permite especificar detalles sobre la salida de datos de la etapa Investigar.

La etapa puede tener uno o dos enlaces de salida, en función del tipo de investigación que especifique. La sección Columnas especifica las definiciones de columna de los datos de salida. Pulse Editar en la parte inferior de la sección Columnas para especificar información de correlación. La correlación especifica la relación entre las columnas de entrada en la etapa Muestra y las columnas de salida. La sección Avanzado permite cambiar los valores de almacenamiento intermedio predeterminados de los enlaces de salida.