L'étape de l'agrégateur dans DataStage
L'étape Aggregator classe les lignes de données à partir d'un seul lien d'entrée en groupes et calcule les totaux ou d'autres fonctions d'agrégation pour chaque groupe. La somme des totaux pour chaque groupe est affichée depuis l'étape via un lien de sortie.
Lorsque vous cliquez deux fois sur l'étape Aggregator, le panneau des propriétés s'ouvre. Le panneau de propriétés comporte trois onglets :
- Étape. Elle est toujours présente et sert à indiquer des informations générales sur l'étape.
- Entrée. Il s'agit de l'emplacement où vous spécifiez des détails sur les données regroupées ou agrégées.
- Sortie. C'est ici que vous spécifiez des détails sur les groupes en sortie de l'étape.
Onglet Entrée
La section Colonnes indique les définitions de colonne des données entrantes. La section Avancé vous permet de modifier les paramètres de mise en mémoire tampon par défaut pour le lien d'entrée.
Onglet Sortie
L'étape Aggregator ne transfère pas les données d'entrée, mais l'étape génère de nouvelles colonnes. Les champs de sortie de l'étape Aggregator annulables par conséquent les colonnes qui reçoivent les données de sortie doivent être nullables.
La section Colonnes indique les définitions de colonne des données entrantes. Cliquez sur Éditer au bas de la section Colonnes pour spécifier les informations de mappage. Le mappage indique la relation entre les données traitées générées par l'étape Aggregator et les colonnes Sortie. La section Avancé vous permet de modifier les paramètres de mise en mémoire tampon par défaut pour le lien de sortie.
L'étape de l'agrégateur vous donne accès à des opérations de regroupement et de récapitulatif. L'une des façons les plus faciles d'exposer des modèles dans une collection d'enregistrements est de regrouper des enregistrements ayant des caractéristiques similaires, puis de calculer des statistiques sur tous les enregistrements du groupe. Vous pouvez ensuite utiliser ces statistiques pour comparer les propriétés des différents groupes. Par exemple, les enregistrements contenant des transactions de caisse peuvent être regroupés le jour de la semaine pour voir quel jour avait le plus grand nombre de transactions, le plus grand montant de revenus, etc.
Les enregistrements peuvent être regroupés par une ou plusieurs caractéristiques, où les caractéristiques d'enregistrement correspondent à des valeurs de colonne. En d'autres termes, un groupe est un ensemble d'enregistrements ayant la même valeur pour une ou plusieurs colonnes. Par exemple, les enregistrements de transaction peuvent être regroupés par jour de la semaine et par mois. Ces regroupements pourraient montrer que le jour le plus animée de la semaine varie selon la saison.
En plus de révéler des modèles dans vos données, le regroupement peut également réduire le volume de données en résumant les enregistrements de chaque groupe, ce qui facilite la gestion. Si vous groupez un grand volume de données sur la base d'une ou de plusieurs caractéristiques des données, le jeu de données obtenu est généralement beaucoup plus petit que l'original et est donc plus facile à analyser à l'aide d'outils standard.
Il est important de déterminer si vous devez utiliser des étapes de tri ou des étapes agrégées supplémentaires dans le travail lors de la création de la nouvelle étape.
Pour exécuter correctement un travail avec l'étape Aggregator, assurez-vous que chaque colonne d'entrée est mappée à une colonne de sortie du type approprié. Les colonnes d'entrée dont la valeur Nullable est Oui ou Non doivent être mappées à des colonnes de sortie ayant la même valeur.
Regardez la vidéo suivante pour voir un exemple d'utilisation de l'étape Aggregator DataStage® .
Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches de cette documentation.