0 / 0
Retourner à la version anglaise de la documentation

Étape de différence dans DataStage

Dernière mise à jour : 12 mars 2025
Étape Différence dans DataStage

L'étape Différence effectue une comparaison d'enregistrements par enregistrement de deux fichiers d'entrée, qui sont des versions différentes du même fichier désigné avant et après les ensembles de données.

L'étape Différence est une étape de traitement. Elle génère un ensemble de données unique qui représente la différence entre eux. Elle suppose que les jeux de données d'entrée ont été partitionnés dans des clés et triés par ordre croissant en fonction des colonnes de clé que vous spécifiez pour la comparaison. Pour ce faire, utilisez l'étape Trier ou les fonctions de tri et de partitionnement intégrées de l'étape Différence.

La comparaison est effectuée en fonction d'un ensemble de colonnes de clés de différence. Les deux enregistrements sont des copies l'un de l'autre s'ils possèdent des valeurs identiques pour toutes les clés de différence. Si vous le souhaitez, vous pouvez également spécifier des valeurs de changement. Si deux enregistrements possèdent des colonnes de clé identiques, vous pouvez comparer les colonnes de valeurs pour déterminer si l'une est une copie éditée de l'autre.

L'étape de la différence est similaire, mais pas identique, à l'étape de la capture du changement décrite dans L'étape de la capture du changement dans DataStage. L'étape Change Capture est destinée à être utilisée conjointement avec l'étape Change Apply ; elle génère un ensemble de données de changement qui contient les modifications à appliquer au fichier avant pour le transformer en fichier après . L'étape Différence génère les lignes avant et après vers le fichier de sortie, plus un code indiquant s'il existe des différences. Si les données avant et après ont les mêmes noms de colonne, un ensemble de données remplace effectivement l'autre ensemble de données et vous ne voyez qu'un seul ensemble de colonnes dans la sortie. Le fichier est contrôlé par les paramètres de la section Ordre de liaison de l'onglet Étape. Si vos ensembles de données Avant et Après ont des noms de colonne différents, les colonnes des deux fichiers sont disponibles pour être générées avec les options de mappage lorsque vous éditez des colonnes dans l'onglet Sortie. Toutes les colonnes désignées comme colonnes de clé ou de valeur dans les fichiers d'entrée doivent avoir les mêmes noms.

Lorsque vous cliquez deux fois sur l'étape Différence, le panneau de propriétés s'ouvre. Le panneau de propriétés comporte trois onglets :

  • Étape. Elle est toujours présente et sert à indiquer des informations générales sur l'étape.
  • Entrée. Il s'agit de l'emplacement où vous spécifiez des détails sur les données regroupées ou agrégées.
  • Sortie. C'est ici que vous spécifiez des détails sur les groupes en sortie de l'étape.

Onglet Entrée

L'onglet Colonnes indique les définitions de colonne des données entrantes. L'onglet Avancé vous permet de modifier les paramètres de mise en mémoire tampon par défaut pour le lien d'entrée.

Onglet Sortie

L'étape Différence ne peut avoir qu'un seul lien de sortie.

L'onglet Colonnes indique les définitions de colonne des données. Cliquez sur Éditer au bas de la section Colonnes pour spécifier la relation entre les colonnes d'entrée dans l'étape Différence et les colonnes de Sortie. La section Avancé vous permet de modifier les paramètres de mise en mémoire tampon par défaut pour le lien de sortie.