Opérations d'interface graphique dans Data Refinery

Data Refinery prend en charge les catégories d'opérations d'interface graphique suivantes.

Cliquez sur Nouvelle étape pour sélectionner une opération d'interface graphique.

Un sous-ensemble des opérations est disponible à partir du menu déroulant dynamique de chaque colonne (Menu déroulant dynamique). Vous pouvez renommer une colonne en cliquant sur l'icône Editer dans l'en-tête de colonne.

NETTOYAGE

Convertir le type de colonne
Lorsque vous ouvrez un fichier dans Data Refinery, l'opération Convertir le type de colonne est automatiquement appliquée comme première étape si elle détecte des types de données non chaîne dans les données. Les types de données sont automatiquement convertis en types de données induits. Pour modifier la conversion automatique d'une colonne sélectionnée, cliquez sur le menu déroulant dynamique (Menu déroulant dynamique) pour l'étape et sélectionnez Éditer. Comme pour toute autre opération, vous pouvez annuler l'étape. L'opération Convertir le type de colonne est appliquée à chaque fois que vous ouvrez le fichier dans Data Refinery. La conversion automatique est appliquée si nécessaire pour les sources de données basées sur des fichiers uniquement. (Elle ne s'applique pas à une source de données provenant d'une connexion de base de données.)

Pour confirmer le type de données auquel les données de chaque colonne ont été converties, cliquez sur Éditer dans le menu déroulant dynamique (Menu déroulant dynamique) pour afficher les types de données. Les informations incluent le format des données de date ou d'horodatage.

Si les données sont converties en un type Entier ou Décimal, vous pouvez spécifier les caractères séparateur décimal et séparateur de milliers à utiliser dans toutes les colonnes concernées. Les chaînes converties en type Décimal utilisent le point comme séparateur décimal et la virgule comme séparateur de milliers (format anglo-saxon). Vous pouvez sinon opter pour la virgule comme séparateur décimal et le point ou un autre symbole ou caractère comme séparateur de milliers. Le symbole décimal et le séparateur de milliers ne peuvent pas être les mêmes.

Les données source sont lues de gauche à droite jusqu'à ce qu'un caractère de terminaison ou un caractère non reconnu soit rencontré. Par exemple, si vous convertissez les données de chaîne 12,834 en décimal et que vous ne spécifiez pas ce qu'il faut faire avec la virgule (,), les données seront tronquées à 12. De la même manière, si la donnée source contient plusieurs points (.) et que vous choisissez le point comme caractère séparateur décimal, le premier point dans la donnée sera interprété comme le séparateur décimal et la donnée sera tronquée à partir des chiffres suivant le second point. Une chaîne source de 1.834.230,000 est convertie en valeur 1.834.

L'opération Convertir le type de colonne convertit automatiquement ces formats de date et d'horodatage :

  • Date : ymd, ydm
  • Horodatage : ymdHMS, ymdHM, ydmHMS, ydmHM

Les chaînes de date et d'horodatage doivent utiliser quatre chiffres pour l'année.

Vous pouvez appliquer manuellement l'opération Convertir le type de colonne pour modifier le type de données d'une colonne à n'importe quel point du flux de Data Refinery. Vous pouvez créer une nouvelle colonne pour héberger le résultat de cette opération ou vous pouvez remplacer la colonne existante.

Astuce: Le type de données d'une colonne détermine les opérations que vous pouvez utiliser. Le fait de modifier le type de données peut avoir un impact sur les opérations qui sont pertinentes pour cette colonne.


  • Transcription vidéo
    1. L'opération Convertir le type de colonne convertit automatiquement la première colonne de Chaîne en Entier. Vous pouvez modifier les types de données des trois autres colonnes.
    2. Pour modifier le type de données de la colonne européenne de Chaîne en Décimale, sélectionnez la colonne, puis modifiez l'étape de l'opération Convertir le type de colonne.
    3. Pour modifier le type de données de la colonne européenne de Chaîne en Décimale, sélectionnez la colonne, puis modifiez l'étape de l'opération Convertir le type de colonne.
    4. Sélectionnez Décimale.
    5. La colonne utilise la virgule comme délimiteur ; sélectionnez donc Virgule (,) pour le symbole décimal.
    6. Sélectionnez la colonne suivante, DATETIME. Sélectionnez Horodatage et un format.
    7. Cliquez sur Appliquer.
    8. Les colonnes sont maintenant des types de données Entier, Décimale, Date et Horodatage. L'étape Convertir le type de colonne dans le panneau Etapes est mise à jour.

Convertir la valeur de colonne en manquante
Convertir les valeurs de la colonne sélectionnée en valeurs manquantes si elles correspondent à des valeurs dans la colonne spécifiée ou qu'elles correspondent à une valeur spécifiée.


  • Transcription vidéo
    1. L'opération Convertir une valeur de colonne en valeur manquante convertit les valeurs d'une colonne sélectionnée en valeurs manquantes si elles correspondent aux valeurs d'une colonne spécifiée ou si elles correspondent à une valeur spécifiée.
    2. Une valeur manquante équivaut à une valeur NULL SQL, qui est une zone sans valeur. Elle est différente d'une valeur zéro ou d'une valeur contenant des espaces.
    3. Vous pouvez utiliser la valeur de l'opération Convertir une valeur de colonne en valeur manquante lorsque vous pensez que les données seraient mieux représentées comme valeurs manquantes. Par exemple, lorsque vous souhaitez utiliser des valeurs manquantes dans une opération Remplacer les valeurs manquantes ou dans une opération Filtrer.
    4. Utilisez la valeur de l'opération Convertir une valeur de colonne en valeur manquante pour modifier les valeurs en valeurs manquantes en fonction d'une valeur correspondante.
    5. Il est noter que la colonne DESC comporte de nombreuses lignes dont la valeur est CANCELLED ORDER. Convertissez les chaînes CANCELLED ORDER en valeurs manquantes.
    6. L'opération Convertir une valeur de colonne en valeur manquante figure sons la catégorie CLEANSE.
    7. Entrez la chaîne à remplacer par des valeurs manquantes.
    8. Les valeurs qui étaient précédemment CANCELLED ORDER sont désormais des valeurs manquantes.

Extraire la valeur de date ou d'heure
Extraire une partie sélectionnée d'une valeur de date ou d'heure d'une colonne avec un type de données de date ou d'horodatage.


  • Transcription vidéo
    1. L'opération Extraire la valeur de date ou d'heure extrait la partie sélectionnée d'une valeur de date ou d'heure d'une colonne dont le type de données est date ou horodatage.
    2. La colonne DATE est un type de données Chaîne. Commencez par utiliser l'opération Convertir le type de colonne pour convertir le type de colonne en type de données Date.
    3. Sélectionnez l'opération Convertir le type de colonne dans le menu de la colonne DATE. Sélectionnez Date.
    4. Sélectionnez un format de date.
    5. La colonne DATE est désormais un type de données Date.
    6. Le format de date ISO est utilisé lorsque le type de données Chaîne a été converti en type de données Date. Par exemple, la chaîne 01/08/2018 a été convertie en 2018-01-08.
    7. A présent, vous pouvez extraire la partie année de la date dans une nouvelle colonne.
    8. L'opération Extraire la valeur de date ou d'heure figure sous la catégorie CLEANSE.
    9. Sélectionnez Année pour la partie de la date à extraire et entrez YEAR pour le nouveau nom de colonne.
    10. La partie année de la colonne DATE se trouve dans la nouvelle colonne, YEAR.
    11. Le panneau Etapes affiche l'opération Extraire la valeur d date ou d'heure.

Filtrer
Filtrer les lignes par les colonnes sélectionnées. Conservez les lignes avec les valeurs de colonne sélectionnées, filtrez toutes les autres lignes.

Pour ces opérateurs de chaîne Filtrer, ne mettez pas la valeur entre guillemets. Si la valeur contient des guillemets, mettez une barre oblique. Par exemple : \"text\"

  • Contient
  • Does not contain
  • Starts with
  • Does not start with
  • TERMINER AVEC
  • Does not end with

Ce qui suit est les opérateurs pour les colonnes numériques, de chaîne et booléennes (logiques), ainsi que pour les colonnes de date et d'horodatage :

Opérateur Numérique String Booléen Date et horodatage
Contient
Ne contient pas
Ne se termine pas avec
Ne commence pas par
Se termine par
Est compris entre deux nombres
Est vide
Est égal à
Est faux
Est supérieur à
est supérieur ou égal à
Est dans
Est inférieur à
Est inférieur ou égal à
N'est pas vide
N'est pas égal à
N'est pas dans
N'est pas nulle
Est null
Est vrai
Commence par

  • Transcription vidéo
    1. Utilisez l'opération Filtrer pour filtrer les lignes en fonction des colonnes sélectionnées. Vous pouvez appliquer plusieurs conditions en une seule opération Filtrer.
    2. Utilisez une expression régulière pour filtrer toutes les lignes, à l'exception de celles sur lesquelles la chaîne de la colonne Emp ID commence par 8.
    3. Filtrez les lignes en fonction de deux abréviations d'état.
    4. Cliquez sur Appliquer. Seules les lignes sur lesquelles ID Emp commence par 8 et dont l'état est AR ou TX figurent dans la table.
    5. Les lignes sont désormais filtrées par AR et PA. L'étape Filtrer dans le panneau Etapes est mise à jour.

Supprimer la colonne
Supprimer la colonne sélectionnée.


  • Transcription vidéo
    1. Utilisez l'opération Supprimer une colonne pour supprimer rapidement une colonne d'un actif de données.
    2. Le moyen le plus rapide de supprimer une colonne est à partir du menu de la colonne.
    3. Le nom de la colonne supprimée se trouve dans le panneau Etapes.
    4. Supprimez une autre colonne.
    5. Le nom de la colonne supprimée se trouve dans le panneau Etapes.

Supprimer les doublons
Retirer des lignes avec des valeurs de colonne en double.


  • Transcription vidéo
    1. L'opération Retirer les doublons supprime les lignes comportant des valeurs de colonne en double.
    2. L'ensemble de données comporte 43 lignes. De nombreuses lignes de la colonne APPLYCODE comportent des valeurs en double. Nous voulons réduire l'ensemble de données aux lignes sur lesquelles chaque valeur de la colonne APPLYCODE ne se produit qu'une seule fois.
    3. Sélectionnez l'opération Retirer les doublons dans le menu de la colonne APPLYCODE.
    4. L'opération Retirer les doublons a supprimé chaque occurrence d'une valeur en double à partir de la ligne supérieure. L'ensemble de données comporte désormais 4 lignes.

Supprimer les lignes vides
Retirer les lignes dont la valeur est vide ou manquante pour la colonne sélectionnée.


  • Transcription vidéo
    1. L'opération Retirer les lignes vides supprime les lignes comportant une valeur à blanc ou manquante pour la colonne sélectionnée.
    2. Une valeur manquante équivaut à une valeur NULL SQL, qui est une zone sans valeur. Elle est différente d'une valeur zéro ou d'une valeur contenant des espaces.
    3. L'ensemble de données comporte 43 lignes. De nombreuses lignes de la colonne TRACK comportent des valeurs manquantes. Nous voulons réduire l'ensemble de données aux lignes comportant une valeur dans la colonne TRACK.
    4. Sélectionnez l'opération Retirer les lignes vides dans le menu de la colonne TRACK.
    5. L'opération Retirer les lignes vides a supprimé chaque ligne comportant une valeur à blanc ou manquante dans la colonne TRACK. L'ensemble de données comporte désormais 21 lignes.

Remplacez les valeurs manquantes
Remplacez les valeurs manquantes dans la colonne par une valeur spécifiée ou avec la valeur d'une colonne spécifiée dans la même ligne.


  • Transcription vidéo
    1. L'opération Remplacer les valeurs manquantes remplace les valeurs manquantes dans une colonne par une valeur spécifiée ou par la valeur d'une colonne spécifiée sur cette même ligne.
    2. La colonne STATE contient de nombreuses lignes comportant des valeurs vides. Nous voulons remplacer ces valeurs vides par une chaîne.
    3. L'opération Remplacer les valeurs manquantes figure sons la catégorie CLEANSE.
    4. Pour la colonne Etat, remplacez les valeurs manquantes par la chaîne Incomplete.
    5. Les valeurs manquantes comportent maintenant la valeur Incomplete.
    6. Le panneau Etapes affiche l'opération Remplacer les valeurs manquantes.

Remplacez la sous-chaîne
Remplacez la sous-chaîne spécifiée par le texte spécifié.


  • Transcription vidéo
    1. L'opération Remplacer une sous-chaîne remplace une sous-chaîne par du texte que vous spécifiez.
    2. La colonne DECLINE comporte de nombreuses lignes incluant la chaîne BANC. Nous voulons remplacer cette chaîne par BANK.
    3. L'opération Remplacer une sous-chaîne figure sons la catégorie CLEANSE.
    4. Entrez la chaîne à remplacer et la chaîne de remplacement.
    5. Toutes les occurrences de la chaîne BANC ont été remplacées par BANK.
    6. Le panneau Etapes affiche l'opération Remplacer une sous-chaîne.

Substituer
Rendez illisible les informations sensibles de la vue en substituant une chaîne aléatoire de caractères pour les données réelles dans la colonne sélectionnée.


  • Transcription vidéo
    1. L'opération Substituer dissimule les informations sensibles en remplaçant les données par une chaîne de caractères aléatoire dans la colonne sélectionnée.
    2. Le moyen le plus rapide de remplacer les données dans une colonne est de sélectionner Substituer dans le menu de la colonne.
    3. L'opération Substituer s'affiche dans le panneau Etapes.
    4. Remplacez les valeurs d'une autre colonne.
    5. La seconde opération Substituer s'affiche dans le panneau Etapes.

Texte

Vous ne pouvez appliquer des opérations textuelles qu'à des colonnes contenant des chaînes. Vous pouvez créer une nouvelle colonne pour héberger le résultat d'une opération ou vous pouvez remplacer la colonne existante.

Texte > Réduire les espaces
Réduisez plusieurs espaces consécutifs dans le texte à un seul espace.

Texte > Chaîne de concaténation
Associez une chaîne quelconque au texte. Vous pouvez ajouter la chaîne au début du texte et/ou ajouter la chaîne au texte.

Texte > minuscule
Convertissez le texte en minuscules.

Texte > Nombre de caractères
Renvoyez le nombre de caractères dans le texte.

Texte > caractères de remplissage
Extrayez le texte avec la chaîne spécifiée. Indiquez si vous souhaitez remplir le texte à gauche, à droite ou à gauche et à droite.

Texte > Sous-chaîne
Créez des sous-chaînes à partir du texte qui commence à la position spécifiée et avec une longueur spécifiée.

Texte > Titre du titre
Convertissez le texte en dossier de titre.

Texte > Guillemets
Supprimez les guillemets simples ou doubles du texte.

Texte > espaces
Supprimez les espaces de début, de fin et d'appoint à partir du texte.

Texte > Majuscule
Convertissez le texte en majuscules.


  • Transcription vidéo
    1. Vous ne pouvez appliquer une opération Texte à des colonnes contenant des chaînes. Créez une colonne pour le résultat ou remplacez la colonne existante.
    2. Commencez par concaténer une chaîne aux valeurs de la colonne WORD.
    3. Opérations Texte disponibles.
    4. Concaténez la chaîne à droite, ajoutez un espace et tapez up.
    5. Les valeurs de la colonne WORD sont ajoutées avec un espace et le mot up.
    6. L'opération Texte s'affiche dans le panneau Etapes.
    7. Ensuite, remplissez les valeurs de la colonne ANIMAL à l'aide d'une chaîne.
    8. Remplissez les valeurs de la colonne ANIMAL à l'aide de perluètes (&) à droite pour un minimum de 7 caractères.
    9. Les valeurs de la colonne ANIMAL sont remplies à l'aide du symbole & de sorte que chaque chaîne contient au moins sept caractères.
    10. Il est à noter que les valeurs opossum, pangolin, platypus et hedgehog n'ont pas de caractère de remplissage car ces chaînes comportent déjà au moins sept caractères.
    11. Ensuite, utilisez Sous-chaîne pour supprimer le caractère t de la colonne ID.
    12. Sélectionnez Position 2 pour lancer la nouvelle chaîne à cette position. Sélectionnez Longueur 4 pour une chaîne de quatre caractères.
    13. Le caractère t initial dans la colonne ID est supprimé dans la colonne NEW-ID.

CALCULER

Calculer
Effectuez un calcul avec une autre colonne ou avec une valeur spécifiée. Les opérateurs sont les suivants :

  • Ajout
  • Département
  • Exponentiation
  • Is between two numbers
  • Est égal à
  • Is greater than
  • Is greater than or equal to
  • Est inférieur à
  • Is less than or equal to
  • N'est pas égal à
  • Modulus
  • Multiplication
  • Soustraction

  • Transcription vidéo
    1. L'opération Calculer effectue un calcul, tel que l'addition ou la soustraction, avec une autre colonne ou avec une valeur spécifiée.
    2. Sélectionnez la colonne pour commencer.
    3. Calculs disponibles
    4. A présent, sélectionnez la deuxième colonne pour le calcul Addition.
    5. Appliquez ensuite la modification.
    6. La colonne d'ID est mise à jour et le panneau Etapes affiche l'opération terminée.
    7. Vous pouvez également accéder aux opérations à partir du menu de la colonne.
    8. A présent, sélectionnez Is between two numbers. Définissez la plage et créez une nouvelle colonne pour les résultats.
    9. La nouvelle colonne s'affiche dans la table et la nouvelle opération de calcul s'affiche dans le panneau Etapes.
    10. A présent, sélectionnez Is equal to pour comparer deux colonnes, puis créez une colonne pour les résultats.
    11. La nouvelle colonne s'affiche dans la table et la nouvelle opération de calcul s'affiche dans le panneau Etapes.

Mathématiques

Vous pouvez appliquer des opérations mathématiques uniquement à des colonnes numériques. Vous pouvez créer une nouvelle colonne pour héberger le résultat d'une opération ou vous pouvez remplacer la colonne existante.

Mathématiques> Valeur absolue
Obtenez la valeur absolue d'un nombre.
Exemple : La valeur absolue de 4 et de -4 est 4.

Mathématiques > Arc cosinus
Récupérez l'arc cosinus d'un angle.

Mathématiques > plafond
Obtenir l'entier le plus proche de la valeur supérieure, également connu sous le nom de plafond du nombre.
Exemples : Le plafond de 2,31 est 3. Le plafond de -2,31 est -2.

Mathématiques > Exposant
Obtenez un nombre élevé à la puissance de la valeur de colonne.

Mathématiques > Plancher
Obtenez l'entier le plus proche de la valeur inférieure, également connu sous le nom de plancher du nombre.
Exemple : Le plancher de 2,31 est 2. Le plancher de -2,31 est -3.

Mathématiques > Cycle
Obtenez du nombre entier le plus proche de la valeur de la colonne. Si la valeur de colonne est un nombre entier, il est renvoyé.

Maths > Racine carrée
Récupérez la racine carrée de la valeur de la colonne.


  • Transcription vidéo
    1. Appliquez une opération mathématique aux valeurs d'une colonne. Créez une colonne pour les résultats ou remplacez la colonne existante.
    2. Opérations mathématiques disponibles
    3. Appliquer une valeur absolue aux valeurs de la colonne.
    4. Créez une colonne pour les résultats.
    5. La nouvelle colonne s'ajoute à la table et l'opération mathématique s'affiche dans le panneau Etapes.
    6. Vous pouvez également accéder à l'opération à partir du menu de la colonne.
    7. Appliquer un arrondi aux valeurs de la colonne ANGLE.
    8. Créez une colonne pour les résultats.
    9. La nouvelle colonne s'ajoute à la table et la nouvelle opération mathématique s'affiche dans le panneau Etapes.

ORGANISATION

Agrégat
Appliquer les calculs récapitulatifs aux valeurs d'une ou de plusieurs colonnes. Chaque agrégation crée une colonne. Vous pouvez également sélectionner les groupes par colonnes pour regrouper la nouvelle colonne par une autre colonne qui définit une caractéristique du groupe, par exemple un département ou un ID. Vous pouvez regrouper plusieurs colonnes. Vous pouvez combiner plusieurs agrégations en une seule opération.

Les opérations d'agrégation disponibles dépendent du type de données.

Données numériques :

  • Compter les valeurs uniques
  • Minimum
  • Maximum
  • Somme
  • Ecart type
  • Moyenne

Données de chaîne :

  • Combiner les valeurs de ligne
  • Compter les valeurs uniques

  • Transcription vidéo
    1. L'opération Agréger applique des calculs récapitulatifs aux valeurs d'une ou plusieurs colonnes. Chaque agrégation crée une colonne.
    2. Les agrégations disponibles varient selon si les données sont des données de type numérique ou chaîne.
    3. Les opérateurs disponibles sont fonction du type de données de la colonne. Opérateurs disponibles pour les données numériques.
    4. Lorsque la colonne de texte UniqueCarrier est sélectionnée, vous pouvez voir les opérateurs disponibles pour les données de type chaîne.
    5. Nous allons compter le nombre de valeurs uniques dans la colonne UniqueCarrier. Cette agrégation va afficher le nombre de compagnies aériennes dans l'ensemble de données.
    6. Nous avons 22 compagnies aériennes dans la nouvelle colonne des compagnies aériennes. Les autres colonnes sont supprimées.
    7. L'opération Agréger s'affiche dans le panneau Etapes.
    8. Recommençons l'opération pour montrer une agrégation sur les données numériques.
    9. Afficher la moyenne des retards à l'arrivée.
    10. La valeur moyenne de tous les retards à l'arrivée se trouve dans la nouvelle colonne MeanArrDelay. Les autres colonnes sont supprimées.
    11. Vous pouvez également regrouper la colonne agrégée avec une autre colonne qui définit une caractéristique du groupe.
    12. Modifiez l'étape Agréger en ajoutant un choix de regroupement, afin de voir la moyenne des retards à l'arrivée par ligne aérienne.
    13. Regroupez les résultats en fonction de la colonne UniqueCarrier.
    14. Les retards à l'arrivée moyens sont maintenant regroupés par compagnie aérienne.
    15. Le panneau Etapes affiche l'opération Agréger.

Concaténation
Concaténez les valeurs de deux colonnes ou plus.


  • Transcription vidéo
    1. L'opération Concaténer concatène les valeurs d'au moins deux colonnes.
    2. L'opération Concaténer se trouve sous la catégorie ORGANIZE.
    3. Sélectionnez les colonnes à concaténer.
    4. Sélectionnez un séparateur à utiliser entre les valeurs concaténées.
    5. Entrez un nom pour la colonne des valeurs concaténées.
    6. La nouvelle colonne DATE affiche les valeurs concaténées des trois autres colonnes avec un séparateur de point-virgule.
    7. L'opération Concaténer s'affiche dans le panneau Etapes.
    8. La colonne DATE est un type de données Chaîne. Utilisez l'opération Convertir le type de colonne pour convertir le type de colonne en type de données Date.
    9. Sélectionnez l'opération Convertir le type de colonne dans le menu de la colonne DATE. Sélectionnez Date.
    10. Sélectionnez un format de date et créez une colonne pour le résultat.
    11. La nouvelle colonne s'affiche avec le format de date converti.
    12. L'opération Convertir le type de colonne s'affiche dans le panneau Etapes.
    13. Le format de date ISO est utilisé lorsque le type de données Chaîne a été converti en type de données Date. Par exemple, la chaîne 2004;2;3 a été convertie en 2004-02-03.

Remplacer conditionnel
Remplacez les valeurs d'une colonne en fonction des conditions.


  • Transcription vidéo
    1. L'opération Remplacement conditionnel permet de remplacer les valeurs d'une colonne en fonction des conditions.
    2. Commencez par définir des conditions pour remplacer les données de la colonne de type chaîne CODE, puis créez une colonne pour les résultats.
    3. Opérateurs de condition disponibles pour les données de type chaîne.
    4. Ajoutez la première condition - CONDITION 1 : CODE est égal à la valeur C ; à remplacer par COMPLETE.
    5. Ajoutez une deuxième condition - CONDITION 2 : CODE est égal à la valeur I ; à remplacer par INCOMPLETE.
    6. Indiquez ce qu'il faut faire des valeurs qui ne remplissent pas les conditions. Ici, nous allons entrer deux guillemets pour indiquer une chaîne vide.
    7. Créez une colonne pour les résultats.
    8. La nouvelle colonne STATUS indique les remplacements conditionnels à partir de la colonne CODE.
    9. L'opération Remplacement conditionnel s'affiche dans le panneau Etapes.
    10. Ensuite, définissez des conditions pour remplacer les données de la colonne de type entier INPUT, puis créez une colonne pour les résultats.
    11. Opérateurs de condition disponibles pour les données numériques.
    12. Ajoutez la première condition - CONDITION 1 : INPUT est inférieur ou égal à la valeur 3 ; à remplacer par la valeur LOW.
    13. Ajoutez une deuxième condition - CONDITION 2 : INPUT est compris entre les valeurs 4, 5 et 6 ; à remplacer par la valeur MED.
    14. Ajoutez une troisième condition - CONDITION 3 : INPUT est supérieur ou égal à la valeur 7 ; à remplacer par la valeur HIGH.
    15. Indiquez ce qu'il faut faire des valeurs qui ne remplissent pas les conditions.
    16. Créez une colonne pour les résultats.
    17. La nouvelle colonne RATING indique les remplacements conditionnels à partir de la colonne INPUT.
    18. L'opération Remplacement conditionnel s'affiche dans le panneau Etapes.

Jointure
Combiner des données à partir de deux fichiers en fonction d'une comparaison des valeurs dans les colonnes de clé spécifiées. Indiquez le type de jointure à effectuer, sélectionnez les colonnes (clés de jointure) dans les deux jeux de données à comparer et sélectionnez les colonnes de votre choix dans le jeu de données généré.

Dans les deux jeux de données, les colonnes de clé de jointure doivent être de types de données compatibles. Si l'opération de jointure est la première étape que vous ajoutez, vérifiez si l'opération Convertir le type de colonne convertit automatiquement le type de données des colonnes de clé de jointure dans le premier fichier lorsque vous avez ouvert le fichier dans Data Refinery. En outre, selon l'emplacement de l'opération de Jointure dans le flux de Dara Refinery, vous pouvez utiliser l'opération Convertir le type de colonne pour vérifier que les types de données des colonnes de clé de jointure correspondent. Cliquez sur une étape précédente dans le panneau Étapes pour afficher la vue instantanée de l'étape.

Les types de jointure sont les suivants :

Type de jointure Description
Jointure gauche Renvoie toutes les lignes du jeu de données d'origine et renvoie uniquement les lignes correspondantes dans le jeu de données de jointure. Renvoie une ligne dans le jeu de données d'origine pour chaque ligne correspondante dans le jeu de données de jointure.
Jointure droite Renvoie toutes les lignes du jeu de données de jointure et renvoie uniquement les lignes correspondantes dans le jeu de données d'origine. Renvoie une ligne dans le jeu de données de jointure pour chaque ligne correspondante dans le jeu de données d'origine.
Jointure interne Renvoie uniquement les lignes de chaque jeu de données qui correspondent à des lignes dans l'autre jeu de données. Renvoie une ligne dans le jeu de données d'origine pour chaque ligne correspondante dans le jeu de données de jointure.
Jointure complète Renvoie toutes les lignes des deux jeux de données. Incorpore des lignes du jeu de données d'origine aux lignes correspondantes dans le jeu de données de jointure.
Semi-jointure Renvoie uniquement les lignes du jeu de données d'origine qui correspondent à des lignes dans le jeu de données de jointure. Renvoie une ligne dans le jeu de données d'origine pour toutes les lignes correspondantes dans le jeu de données de jointure.
Anti-jointure Renvoie uniquement les lignes du jeu de données d'origine qui ne correspondent pas à des lignes dans le jeu de données de jointure.

  • Transcription vidéo
    1. Le fichier customers.csv contient des informations sur les clients de votre société et le fichier sales.csv contient des informations sur les représentants commerciaux de votre société.
    2. Les fichiers partagent la colonne SALESREP_ID.
    3. Le fichier customers.csv est ouvert dans Data Refinery.
    4. L'opération Effectuer une jointure peut combiner les données de ces deux fichiers en fonction d'une comparaison des valeurs dans la colonne SALESREP_ID.
    5. Vous souhaitez effectuer une jointure interne pour renvoyer uniquement les lignes de chaque fichier qui correspondent à des lignes dans l'autre fichier.
    6. Vous pouvez ajouter un suffixe personnalisé pour ajouter des colonnes qui existent dans les deux fichiers pour afficher le fichier source de cette colonne.
    7. Sélectionnez le fichier sales.csv à joindre au fichier customers.csv.
    8. Pour la clé de jointure, commencez à taper le nom de la colonne pour afficher une liste filtrée. La colonne SALESREP_ID relie les deux fichiers.
    9. Sélectionnez ensuite les colonnes à inclure. Les colonnes en double affichent le suffixe ajouté.
    10. A présent, appliquez les modifications.
    11. L'opération Effectuer une jointure s'affiche dans le panneau Etapes.
    12. A présent, le fichier est enrichi à l'aide des colonnes des fichiers customers.csv et sales.csv.

Renommer la colonne
Renommez la colonne sélectionnée.


  • Transcription vidéo
    1. Utilisez l'opération Renommer la colonne pour renommer rapidement une colonne.
    2. Le moyen le plus rapide de renommer une colonne est de modifier le nom de la colonne dans la table.
    3. Modifiez le nom et appuyez sur Entrée sur votre clavier.
    4. L'étape Renommer la colonne affiche l'ancien nom et le nouveau nom.
    5. A présent, renommez une autre colonne.
    6. Le panneau Etapes indique que la colonne BANKS a été renommée en DOGS.
    7. A présent, renommez la dernière colonne.
    8. Le panneau Etapes indique que la colonne RATIOS a été renommée en BIRDS.

exemple
Générez un sous-ensemble de vos données en utilisant l'une des méthodes ci-après. Les étapes d'échantillonnage des opérations d'interface utilisateur ne s'appliquent que lorsque le flux est exécuté.

  • Echantillon aléatoire : la probabilité de chaque enregistrement de données du sous-ensemble d'être choisi est la même.
  • Exemple stratifié : Divisez les données en un ou plusieurs sous-groupes appelés Strates. Ensuite, générez un échantillon aléatoire qui contient des données de chaque sous-groupe.

  • Transcription vidéo
    1. L'opération Echantillon génère un sous-ensemble de vos données.
    2. Utilisez l'opération Echantillon lorsque vous avez une grande quantité de données et que vous souhaitez travailler sur un échantillon représentatif pour accélérer le prototypage.
    3. L'opération Echantillon se trouve dans la catégorie ORGANIZE.
    4. Choisissez l'une des deux méthodes pour créer un échantillon.
    5. Avec un échantillon aléatoire, chaque ligne a une probabilité égale d'être incluse dans les données de l'échantillon.
    6. Vous pouvez choisir un échantillon aléatoire par nombre de lignes ou par pourcentage de données.
    7. Un échantillon stratifié repose sur un échantillon aléatoire. Comme pour un échantillon aléatoire, vous spécifiez la quantité de données dans l'échantillon (lignes ou pourcentage).
    8. Avec un échantillon stratifié, vous divisez les données en un ou plusieurs sous-groupes appelés strates. Ensuite, vous générez un échantillon aléatoire qui contient des données personnalisées provenant de chaque sous-groupe.
    9. Pour la méthode, si vous choisissez Automatique, vous sélectionnez une seule colonne pour les strates.
    10. Si vous choisissez Manuel, vous spécifiez une ou plusieurs strates et pour chaque strate, vous spécifiez des conditions de filtre définissant les lignes dans chaque strate.
    11. Dans cet exemple de données de compagnies aériennes, nous allons créer deux strates. La première définit 50 % des résultats indiquant les aéroports de destination New York et la seconde définit les 50 % restants indiquant une distance de vol déterminée.
    12. Dans la zone de spécification des détails de cette strate, entrez le pourcentage de l'échantillon qui représentera les conditions que vous spécifiez dans cette première strate. Les pourcentages de strates doivent totaliser 100 %.
    13. Opérateurs disponibles pour les données de type chaîne.
    14. 50 % de l'échantillon contient les aéroports de destination dans la région de New York.
    15. Cliquez sur Enregistrer pour enregistrer les premières strates.
    16. La première strate, désignée par Strata0, comporte une seule condition. Dans cette strate, 50 % de l'échantillon doit satisfaire à la condition.
    17. Dans la zone de spécification des détails de cette strate, entrez le pourcentage de l'échantillon qui représentera les conditions que vous spécifiez dans la seconde strate.
    18. Opérateurs disponibles pour les données numériques.
    19. 50 % de l'échantillon sera destiné aux vols d'une distance supérieure à 500.
    20. Cliquez sur Enregistrer pour enregistrer la seconde strate.
    21. La seconde strate, désignée par Strata1, comporte une seule condition. Dans cette strate, 50 % de l'échantillon doit satisfaire à la condition.
    22. Si vous utilisez plusieurs strates, l'opération Echantillon applique en interne une opération Filtrer avec une condition OR sur les strates. En fonction des données, des conditions et de la taille de l'échantillon, les résultats de l'utilisation d'une seule strate comportant plusieurs conditions peuvent différer de l'utilisation de plus strates.
    23. Contrairement aux autres opérations Data Refinery, l'opération Echantillon ne modifie le fichier qu'une fois que vous aurez créé et exécuté un travail pour le flux Data Refinery.
    24. L'étape Echantillon s'affiche dans le panneau Etapes.
    25. Le fichier comporte plus de 10000 lignes.
    26. Enregistrez et créez un travail pour le flux Data Refinery.
    27. Le nouveau fichier d'actifs s'ajoute au projet pour la sortie du flux Data Refinery.
    28. Affichez le fichier de sortie.
    29. Il y a 10 lignes (50 % de l'échantillon) avec les aéroports de New York dans la colonne Dest, mais 17 lignes dans la colonne Distance dont les valeurs sont supérieures à 500.
    30. Ces résultats s'expliquent par le fait que les strates ont été appliquées avec une condition OR et qu'il y un chevauchement de données pour les conditions spécifiées dans les premières strates dont les lignes filtrées par destination contenant les aéroports de New York avaient des valeurs de distance supérieures à 500.
    31. Le fichier de sortie de Data Refinery montre la taille réduite.

Tri croissant
Trier toutes les lignes de la table par la colonne sélectionnée dans l'ordre croissant.

Tri décroissant
Trier toutes les lignes de la table par la colonne sélectionnée dans l'ordre décroissant.


  • Transcription vidéo
    1. Triez rapidement toutes les lignes d'un ensemble de données en triant les lignes dans une colonne sélectionnée.
    2. Le moyen le plus rapide de trier des colonnes est à partir du menu de la colonne.
    3. Vous pouvez trier les lignes par ordre croissant ou décroissant.
    4. Triez par ordre croissant.
    5. L'ordre de toutes les lignes de la table est mis à jour par l'opération de tri de la première colonne.
    6. L'opération de tri s'affiche dans le panneau Etapes.
    7. Triez par ordre décroissant.
    8. L'ordre de toutes les lignes de la table est modifié par l'opération de tri de la deuxième colonne.
    9. La deuxième opération de tri s'affiche dans le panneau Etapes.
    10. Triez par ordre croissant.
    11. L'ordre de toutes les lignes de la table est modifié par l'opération de tri de la troisième colonne.
    12. La troisième opération de tri s'affiche dans le panneau Etapes.

Diviser la colonne
Divisez la colonne par des caractères non alphanumériques, la position, le modèle ou le texte.


  • Transcription vidéo
    1. L'opération Fractionner la colonne divise une colonne en deux colonnes ou plus en fonction de caractères non alphanumériques, du texte, de motif ou de position.
    2. Pour commencer, fractionnez la colonne YMD en colonnes YEAR, MONTH et DAY.
    3. L'opération de la colonne de fractionnement se trouve dans la catégorie ORGANISER.
    4. Sélectionnez d'abord la colonne YMD à fractionner.
    5. Les onglets proposent quatre choix pour les méthodes de fractionnement de la colonne.
    6. DEFAULT utilise tous les caractères non alphanumériques figurant dans les valeurs de colonne pour fractionner la colonne.
    7. Dans TEXT, vous sélectionnez un caractère ou vous entrez du texte pour fractionner la colonne.
    8. Dans PATTERN, vous entrez une expression régulière basée sur la syntaxe R pour déterminer l'endroit où fractionner la colonne.
    9. Dans POSITION, vous indiquez à quelle position fractionner la colonne.
    10. Nous voulons fractionner la colonne YMD à l'aide de l'astérisque (*), qui est un caractère non alphanumérique ; nous allons donc sélectionner l'onglet DEFAULT.
    11. Fractionner la colonne YMD en trois nouvelles colonnes : YEAR, MONTH et DAY.
    12. Les trois nouvelles colonnes YEAR, MONTH et DAY s'ajoutent au fichier.
    13. L'opération Fractionner la colonne s'affiche dans le panneau Etapes.
    14. Ensuite, fractionnez la colonne FLIGHT en deux colonnes, l'une pour le code de la compagnie aérienne et l'autre pour le numéro de vol. Etant donné que les codes de compagnie aérienne comportent deux caractères, nous pouvons fractionner la colonne par position.
    15. Cliquez sur l'onglet POSITION, puis tapez 2 dans la case Positions.
    16. Fractionnez la colonne FLIGHT en deux colonnes : AIRLINE et FLTNMBR.
    17. Les deux nouvelles colonnes AIRLINE et FLIGHTNBR s'ajoutent au fichier.
    18. L'opération Fractionner la colonne s'affiche dans le panneau Etapes.

Union
Combiner les lignes de deux jeux de données qui partagent le même schéma et élimine les doublons. Si vous sélectionnez Autoriser un nombre différent de colonnes et autoriser les valeurs en double, l'opération est une commande UNION ALL.


  • Transcription vidéo
    1. L'opération Union combine les lignes de deux fichiers qui partagent le même schéma.
    2. Ce fichier comporte quatre colonnes et six lignes. Les types de données de gauche à droite sont Chaîne, Chaîne, Décimale, Chaîne.
    3. Lors du chargement du fichier dans Data Refinery, l'opération AUTOMATIQUE Convertir le type de colonne a converti automatiquement la colonne PRICE en type de données Décimale.
    4. Les colonnes du deuxième fichier doivent être compatibles avec les types de données de ce fichier.
    5. Sélectionnez le fichier à combiner avec le fichier en cours.
    6. Lorsque vous prévisualisez le nouveau fichier, vous constatez qu'il comporte également quatre colonnes. Cependant, la colonne PRICE est un type de données Chaîne.
    7. Avant d'appliquer l'opération Union, vous devez supprimer l'étape AUTOMATIQUE Convertir le type colonne de sorte que la colonne PRICE soit du même type de données que la colonne PRICE dans le nouveau fichier (Chaîne).
    8. La colonne PRICE est désormais du type de données chaîne.
    9. Maintenant, répétez l'opération d'union.
    10. Le nouveau fichier s'ajoute au fichier en cours. Le nombre de lignes du fichier est augmenté à 12.
    11. L'opération Union s'affiche dans le panneau Etapes.
    12. A présent, ajoutez un fichier comportant un nombre différent de colonnes. Les colonnes correspondantes doivent toujours être de types de données compatibles.
    13. Sélectionnez le fichier à combiner avec le fichier en cours.
    14. Lorsque vous prévisualisez le nouveau fichier, vous constatez qu'il comporte une colonne de plus que le fichier d'origine. La cinquième colonne est TYPE.
    15. Sélectionnez Autoriser un nombre différent de colonnes et autoriser les valeurs en double.
    16. Appliquer l'opération Union.
    17. Le nouveau fichier s'ajoute au fichier en cours. Le nombre de lignes du fichier est augmenté à 18.
    18. La colonne supplémentaire, TYPE, s'ajoute au fichier.
    19. L'opération Union s'affiche dans le panneau Etapes.

Astuce pour l'opération d'union : si vous recevez une erreur concernant des schémas incompatibles, vérifiez si l'opération automatique Convertir le type de colonne a modifié les types de données du premier ensemble de données. Supprimez l'étape Convertir le type de colonne et réessayez.

LANGAGE NATUREL

Supprimer les mots d'arrêt Supprimer les mots communs de la langue anglaise, tels que " le " ou " et ". Les mots vides ont généralement peu de valeur sémantique pour les algorithmes et les modèles d'analyse de texte. Retirez les mots vides pour réduire le volume de données et améliorer la qualité des données que vous utilisez pour entraîner des modèles d'apprentissage automatique.

Facultatif : pour confirmer les mots supprimés, appliquez l'opération de segmentation (par des mots) dans la colonne sélectionnée, puis affichez les statistiques pour les mots dans l'onglet Profil. Vous pouvez annuler l'étape de segmentation ultérieurement dans le flux Data Refinery.


  • Transcription vidéo
    1. L'opération Retirer les mots vides supprime du fichier les mots courants de la langue française. Les mots vides ont généralement peu de valeur sémantique pour les algorithmes et les modèles d'analyse de texte. Retirez les mots vides pour réduire le volume de données et améliorer la qualité des données.
    2. L'opération Retirer les mots vides supprime les mots suivants : aucun, avec, à, ce, ces, comme, est, était, être, dans, de, depuis, et, il, ils, là, le, leur, mais, non, ou, par, pour, puis, que, sera, si, sont, sur, tel, un, une, vers.
    3. L'opération Retirer les mots vides figure dans la catégorie NATURAL LANGUAGE.
    4. Sélectionnez la colonne STRING.
    5. Cliquez sur Appliquer pour supprimer les mots d'arrêt.
    6. Les mots vides sont supprimés de la colonne STRING.
    7. L'opération Retirer les mots vides s'affiche dans le panneau Etapes.

Segmenter
Fractionnez le texte français en mots, phrases, paragraphes, lignes, caractères ou par expression régulière.


  • Transcription vidéo
    1. L'opération Segmenter fractionne le texte français en mots, phrases, paragraphes, lignes, caractères ou par expression régulière.
    2. L'opération Segmenter figure dans la catégorie NATURAL LANGUAGE.
    3. Sélectionnez la colonne STRING.
    4. Options de segmentation disponibles.
    5. Créez une colonne portant le nom WORDS.
    6. L'opération Segmenter a pris les mots de la colonne STRING et a créé une colonne, WORDS, avec une ligne pour chaque mot.
    7. L'opération Segmenter s'affiche dans le panneau Etapes.

Rubrique parent : Affinage des données