0 / 0
Retourner à la version anglaise de la documentation

Étape de l'agrégateur : Onglet Étape (DataStage®)

Dernière mise à jour : 12 mars 2025
Étape Aggregator : Onglet Étape (DataStage)

L'onglet Étape Aggregator permet de contrôler les aspects de l'étape Aggregator.

Cliquez deux fois sur l'étape pour ouvrir le panneau de propriétés de l'étape. La section Propriétés vous permet de spécifier ce que fait l'étape. La section Avancé vous permet de spécifier le mode d'exécution de l'étape. Indiquez une description facultative de l'étape.

Section Propriétés

Utilisez la section Propriétés pour définir ce que fait réellement l'étape.

Le tableau suivant répertorie les propriétés et leurs attributs.

Tableau 1. Propriétés
Catégorie/Propriété Valeurs Par défaut Obligatoire ? Répétition ? Dépendant de
Clés / groupe de groupage Colonne d"entrée N/A Y Y N/A
Clés de regroupement / Sensible à la casse True/ False Oui N N Groupe
Agrégations / Type d'agrégation Calcul / Recalculation / Nombre de lignes Calcul Y N N/A
Agrégations / Colonne de calcul Colonne d"entrée N/A O (si Type d'agrégation = Calcul) Y N/A
Colonne de sortie d'agrégations/de comptage Colonne de sortie N/A O (si Type d'agrégation = Lignes de comptage) Y N/A
Agrégations / Colonne de synthèse pour le recalcul Colonne d"entrée N/A O (si Type d'agrégation = Recalcul) Y N/A
Agrégations / Valeur par défaut de la sortie décimale Précision, échelle 8,2 N N N/A
Agrégations / Somme corrigée des carrés Colonne de sortie N/A N N Colonne de calcul & Colonne de récapitulatif pour le recalcul
Agrégations / Valeur maximale Colonne de sortie N/A N N Colonne de calcul & Colonne de récapitulatif pour le recalcul
Agrégations / Valeur moyenne Colonne de sortie N/A N N Colonne de calcul & Colonne de récapitulatif pour le recalcul
Agrégations / Valeur minimale Colonne de sortie N/A N N Colonne de calcul & Colonne de récapitulatif pour le recalcul
Agrégations / Valeur manquante Colonne de sortie N/A N Y Colonne pour le calcul
Nombre d'agrégations / Nombre de valeurs manquantes Colonne de sortie N/A N N Colonne de calcul & Colonne de récapitulatif pour le recalcul
Nombre d'agrégations / Nombre de valeurs non manquantes Colonne de sortie N/A N N Colonne de calcul & Colonne de récapitulatif pour le recalcul
Agrégations / Pourcentage Coefficient de variation Colonne de sortie N/A N N Colonne de calcul & Colonne de récapitulatif pour le recalcul
Agrégations / Plage Colonne de sortie N/A N N Colonne de calcul & Colonne de récapitulatif pour le recalcul
Agrégations / Écart type Colonne de sortie N/A N N Colonne de calcul & Colonne de récapitulatif pour le recalcul
Agrégations / Erreur standard Colonne de sortie N/A N N Colonne de calcul & Colonne de récapitulatif pour le recalcul
Agrégations / Somme des poids Colonne de sortie N/A N N Colonne de calcul & Colonne de récapitulatif pour le recalcul
Agrégations / Somme Colonne de sortie N/A N N Colonne de calcul & Colonne de récapitulatif pour le recalcul
Agrégations / Récapitulatif Colonne de sortie N/A N N Colonne de calcul & Colonne de récapitulatif pour le recalcul
Agrégations / Somme non corrigée des carrés Colonne de sortie N/A N N Colonne de calcul & Colonne de récapitulatif pour le recalcul
Agrégations / écart Colonne de sortie N/A N N Colonne de calcul & Colonne de récapitulatif pour le recalcul
Agrégations / diviseur de variance Valeur par défaut / Nrecs Par défaut N N Ecart
Agrégations / Calcul et Recalcul Propriétés dépendantes Colonne d"entrée N/A N N Colonne pour le calcul ou la colonne de sortie de comptage
Agrégations / sorties décimales Précision, échelle 8,2 N N Méthode de calcul ou de recalcul
Options / Regroupement de clés Hachage/sort hachage Y Y N/A
Options / Autoriser les sorties nulles True/ False Faux Y N N/A

Clés de regroupement

Groupe

Répétez la propriété pour sélectionner plusieurs colonnes en tant que clés de groupe. Cliquez sur Éditer pour sélectionner plusieurs clés de groupe à la fois si nécessaire. Cette propriété possède une propriété dépendante :

  • Sensible à la casse

    Utilisez cette option pour indiquer si chaque clé de groupe est sensible à la casse ou non, cette valeur est définie sur True par défaut, c'est-à-dire que les valeurs "CASE" et "case" finiraient dans des groupes différents.

Catégorie d'agrégation

Type d'agrégation
Choisissez le calcul (valeur par défaut), le recalcul ou le nombre de lignes.
Colonne pour le calcul
Cliquez sur Éditer dans la section Agrégations pour sélectionner une colonne pour le calcul. Le type d'agrégat Calculer vous permet de récapituler le contenu d'une ou plusieurs colonnes de votre ensemble de données d'entrée en appliquant une ou plusieurs fonctions d'agrégation. Sélectionnez la colonne à regrouper, puis sélectionnez les propriétés dépendantes pour spécifier l'opération à effectuer sur elle, et la colonne de sortie pour l'exécution du résultat. Vous pouvez utiliser la boîte de dialogue Sélection de colonne pour sélectionner plusieurs colonnes à calculer à la fois si nécessaire).
Colonne de sortie pour le comptage
Le type d'agrégat Nombre de lignes de comptage effectue un comptage du nombre d'enregistrements dans chaque groupe. Indiquez la colonne sur laquelle le nombre est en sortie.
Colonne récapitulative pour le recalcul
Ce type d'agrégation vous permet d'appliquer des fonctions d'agrégation à une colonne qui a déjà été résumée. Il s'agit de calculer mais d'effectuer l'opération d'agrégation spécifiée sur un ensemble de données déjà récapitulées. Dans la pratique, cela signifie que vous devez avoir effectué une opération de calcul (ou de recalcul) dans une étape d'agrégateur précédente avec l'ensemble de propriétés Récapitulatif pour générer un sous-enregistrement contenant les données récapitulatives ensuite incluses avec le fichier. Sélectionnez la colonne à regrouper, puis sélectionnez les propriétés dépendantes pour spécifier l'opération à effectuer sur elle, et la colonne de sortie pour l'exécution du résultat. Vous pouvez utiliser la boîte de dialogue Sélection de colonne pour sélectionner plusieurs colonnes pour le recalcul à la fois si nécessaire).
Colonne de pondération
Configure l'étape pour incrémenter le nombre pour le groupe par le contenu de la colonne de pondération pour chaque enregistrement du groupe, au lieu de 1. Non disponible pour la colonne de récapitulatif pour le recalcul. La définition de cette option n'affecte que les options suivantes :
  • Pourcentage du coefficient de variation
  • Valeur moyenne
  • Somme
  • Somme pondérée
  • Somme des carrés non corrigée
Sortie décimale par défaut
Le type de sortie d'une colonne de calcul ou de recalcul est double. La définition de cette propriété entraîne la valeur par défaut de la valeur décimale. Vous pouvez indiquer que les colonnes individuelles ont une sortie décimale alors que d'autres conservent le type par défaut du double. Vous pouvez également définir une précision et une échelle par défaut.

Options

Méthode

Votre choix de mode dépend principalement du nombre de groupements dans le fichier d'entrée, en prenant en compte la quantité de mémoire disponible. Vous utilisez généralement le mode de hachage pour un nombre relativement petit de groupes ; en général, moins de 1000 groupes par mégaoctet de mémoire à utiliser.

Lorsque vous utilisez le mode de hachage, vous devez hacher la partition du fichier d'entrée par une ou plusieurs colonnes de clé de regroupement afin que tous les enregistrements du même groupe se trouvent dans la même partition. Cependant, le partitionnement par hachage n'est pas obligatoire, vous pouvez utiliser n'importe quelle méthode de partitionnement que vous choisissez si garder les groupes ensemble dans une seule partition n'est pas important. Par exemple, si vous additionnez des enregistrements dans chaque partition et que vous ajouterez ensuite les sommes dans toutes les partitions, vous n'avez pas besoin que tous les enregistrements d'un groupe soient dans la même partition pour le faire. Notez cependant qu'il y aura plusieurs enregistrements de sortie pour chaque groupe.

Si le nombre de groupes est important, ce qui peut se produire si vous spécifiez plusieurs clés de regroupement, ou si certaines clés de regroupement peuvent prendre plusieurs valeurs, vous devez normalement utiliser le mode de tri. Toutefois, le mode de tri requiert que les données d'entrée soient triées avec toutes les clés de regroupement spécifiées comme clés de hachage et de tri (cela se produit automatiquement si l'option automatique est définie dans l'onglet Partitionnement). Le tri nécessite une opération de préregroupement : après le tri, tous les enregistrements d'un groupe donné dans la même partition sont consécutifs.

La propriété de méthode est définie sur Hachage par défaut.

Il se peut que vous souhaitiez essayer les deux modes avec vos données et votre application spécifiques pour déterminer qui donne les meilleures performances. Il se peut que lors du calcul des statistiques sur un grand nombre de groupes, le mode de tri fonctionne mieux que le mode de hachage, en supposant que l'ensemble de données d'entrée puisse être trié efficacement avant qu'il ne soit transmis au groupe.

Autoriser les sorties nulles
Définissez cette valeur sur True pour indiquer que la valeur NULL est une valeur de sortie valide lors du calcul de la valeur minimale, de la valeur maximale, de la valeur moyenne, de l'écart-type, de l'erreur standard, de la somme, de la somme des pondérations et de l'écart. Si la valeur est False, la valeur NULL est remplacée par 0 lorsque toutes les valeurs d'entrée de la colonne de calcul sont nulles. Sa valeur est False par défaut.

Avancé

Spécifiez les propriétés avancées suivantes :
  • Mode d'exécution. L'étape peut s'exécuter en mode parallèle ou séquentiel. En mode parallèle, le fichier d'entrée est traité par les nœuds disponibles comme indiqué dans le fichier de configuration et par toutes les contraintes de nœud spécifiées dans la section Avancé. En mode séquentiel, l'ensemble des données est traité par le nœud de conducteur.
  • Mode de combinaison. Il s'agit de l'option Auto par défaut, qui permet à IBM DataStage de combiner les opérateurs sous-jacents aux étapes parallèles de sorte qu'ils s'exécutent dans le même processus s'il est judicieux pour ce type d'étape.
  • Préserver le partitionnement. Il s'agit de Défini par défaut. Vous pouvez sélectionner Définir ou Effacer. Si vous sélectionnez Définir, l'étape demande que l'étape suivante du travail tente de gérer le partitionnement.