Conjunto de datos en DataStage
Puede leer o grabar datos en un conjunto de datos. Puede utilizar el conjunto de datos como origen o destino.
El conjunto de datos puede tener un único enlace de entrada o un único enlace de salida. Se puede configurar para ejecutarse en modalidad paralela o secuencial.
Los trabajos paralelos utilizan conjuntos de datos para gestionar datos dentro de un trabajo. Cada enlace de un trabajo transporta un conjunto de datos. El conjunto de datos le permite almacenar los datos que se utilizan en un formato persistente, que luego pueden utilizar otros trabajos de IBM® DataStage® . Los conjuntos de datos son archivos del sistema operativo, cada uno referenciado por un archivo de control, que por convenio tiene el sufijo .ds. Un uso inteligente de los conjuntos de datos es clave para garantizar un buen rendimiento en un conjunto de trabajos enlazados.
Pestaña Etapa
- Modalidad de ejecución. La etapa se puede ejecutar en modalidad paralela o en modalidad secuencial. En modalidad paralela, los nodos disponibles procesan el contenido del conjunto de datos, tal como se especifica en el archivo de configuración, según las restricciones de nodo especificadas en la pestaña Avanzado. En modalidad secuencial, el nodo conductor procesa todo el contenido del conjunto de datos.
- Modalidad de combinabilidad. Esto es Auto de forma predeterminada, lo que permite a DataStage combinar los operadores que subyacen a las etapas paralelas para que se ejecuten en el mismo proceso si es adecuado para este tipo de etapa.
- Conservar particionamiento. Puede seleccionar Propagar, Establecer o Borrar. Si selecciona Establecer, las operaciones de lectura de archivo solicitarán que la siguiente etapa conserve el particionamiento tal cual. La propagación utiliza el valor del distintivo de la etapa anterior.
Pestaña Entrada
La pestaña Entrada permite especificar detalles sobre cómo se escriben los datos en un conjunto de datos. El conjunto de datos solo puede tener un enlace de entrada. La categoría de destino para el conjunto de datos incluye las propiedades File y Update Policy. Mientras que el Archivo es el nombre del archivo de control del conjunto de datos, la Política de actualización especifica la acción realizada si el conjunto de datos que está escribiendo ya existe.A continuación, se muestra una descripción de cada propiedad en la pestaña Entrada:
- Archivo
- El nombre del archivo de control del conjunto de datos. Puede buscar el archivo o especificar un parámetro de trabajo. Por convenio, el archivo tiene el sufijo .ds.
- Actualizar política
- Especifica qué acción se realizará si el conjunto de datos que está escribiendo ya existe. Seleccionar:
- Anexar. Añada los datos nuevos a los datos existentes.
- Crear (Error si existe). DataStage informa de un error si el conjunto de datos ya existe.
- Sobrescribir. Sobrescribe los datos existentes con datos nuevos.
- Utilizar existente (Descartar registros). Mantiene los archivos existentes listados en un archivo descriptor (por ejemplo, datasetname.ds o filesetname.fs), pero descarta los registros antiguos. Recibirá un error si el conjunto de datos con el esquema diferente ya existe.
- Utilizar existente (Descartar registros y esquema). Mantiene los archivos existentes listados en un archivo descriptor (por ejemplo, datasetname.ds o filesetname.fs), pero descarta el esquema y los registros antiguos.
El valor predeterminado es Sobrescribir.
Pestaña Salida
En la página Salida, puede especificar detalles sobre cómo el conjunto de datos lee los datos. Puede cambiar los valores predeterminados del almacenamiento intermedio para el enlace de salida y ver las definiciones de columna.- Archivo
- El nombre del archivo de control del conjunto de datos. Puede buscar el archivo o especificar un parámetro de trabajo. Por convenio, el archivo tiene el sufijo .ds.
- Modalidad de columnas faltantes
- Utilice esta opción para especificar cómo se comporta la etapa si las columnas definidas en la etapa no están presentes en el conjunto de datos cuando se ejecuta el trabajo. Seleccione una de las siguientes opciones:
- Ignorar
- El trabajo falla. Si la propagación de columna de tiempo de ejecución está desactivada, el trabajo avisa en la etapa Conjunto de datos. El trabajo falla cuando esa columna se utiliza explícitamente en otra etapa.
- Error
- El trabajo falla en la etapa Conjunto de datos, independientemente de si la propagación de la columna de tiempo de ejecución está activada o desactivada.
- Sólo valores predeterminados con capacidad de nulos
- El trabajo establece las columnas que faltan que están marcadas como que admiten nulos en el valor nulo. Las columnas que faltan marcadas como que no admiten nulos harán que el trabajo falle.
- Sólo valores predeterminados sin capacidad de nulos
- El trabajo establece las columnas que faltan que están marcadas como que no admiten nulos en el valor predeterminado para ese tipo de datos (por ejemplo, una columna de entero toma el valor predeterminado 0). Las columnas que faltan marcadas como que admiten nulos harán que el trabajo falle.
- Todo valores predeterminados
- El trabajo establece valores para las columnas que faltan de la siguiente manera:
- Las columnas que admiten nulos se establecen en nulo.
- Las columnas que no admiten nulos se establecen en el valor predeterminado para ese tipo de datos (por ejemplo, una columna de entero toma el valor predeterminado 0).