Pour accéder à vos données dans OpenLineage, créez un actif de connexion pour celles-ci.
OpenLineage est un cadre ouvert qui peut être utilisé pour collecter et analyser les données de lignage.
Créer une connexion à OpenLineage
Pour créer le bien de connexion, vous avez besoin des détails de connexion suivants :
- Nom d'hôte ou adresse IP
- Numéro de port
Choisissez la méthode de création d'une connexion basée sur l'emplacement dans la plateforme.
- Dans un projet
- Cliquez sur Assets > New asset > Connect to a data source. Voir Ajout d'une connexion à un projet.
- Dans un catalogue
- Cliquez sur Ajouter au catalogue > Connexion. Voir Ajout d'un actif de connexion à un catalogue.
- Dans le catalogue d'actifs de la plateforme
- Cliquez sur Nouvelle connexion. Voir Ajout de connexions de plateforme.
Etape suivante : ajout d'actifs de données à partir de la connexion
Où vous pouvez utiliser cette connexion
Vous pouvez utiliser la connexion OpenLineage dans les espaces de travail et les outils suivants :
Projets
- Metadata import (IBM Knowledge Catalog)
Catalogs
- Platform assets catalog
- Autres cataloguesIBM Knowledge Catalog)
Lignage des données
- Metadata import (lineage)IBM Knowledge Catalog et IBM Manta Data Lineage)
Configuration de l'importation de métadonnées de lignage pour OpenLineage
Lorsque vous créez une importation de métadonnées pour la connexion OpenLineage, vous pouvez définir des options spécifiques à cette source de données et définir l'étendue des données pour lesquelles le lignage est généré. Pour plus d'informations sur l'importation de métadonnées, voir Conception des importations de métadonnées.
Pour importer des métadonnées de lignage pour OpenLineage, suivez ces étapes :
- Créer une définition de la source de données. Sélectionnez OpenLineage comme type de source de données.
- Créer une connexion à la source de données dans un projet.
- Créer une importation de métadonnées. En savoir plus sur les options spécifiques à la source de données OpenLineage:
- Lorsque vous définissez une portée, vous pouvez analyser l'ensemble de la source de données ou utiliser les options d'inclusion et d'exclusion pour définir les espaces de noms des travaux que vous souhaitez analyser. Voir Listes d'inclusion et d'exclusion.
- En option, vous pouvez fournir une entrée externe. Vous ajoutez ce fichier dans le champ Ajouter des entrées à partir d'un fichier. Le fichier doit avoir une structure supportée. Voir Entrées externes.
Listes d'inclusion et d'exclusion
Vous pouvez inclure ou exclure des actifs en utilisant des espaces de noms de travaux dans les événements OpenLineage. Toute l'entrée est évaluée comme une expression régulière. Exemples de valeurs :
myPrestoApp1Namespace
: tous les événements avec l'espace de noms de l'emploi 'myPrestoApp1Namespace
.mySparkApp[1-5]Namespace
: tous les événements dont l'espace de travail commence par "mySparkApp1Namespace
et se termine par un chiffre compris entre 1 et 5.
Entrées externes
Vous pouvez ajouter des événements OpenLineage en tant qu'entrées externes. Le fichier peut avoir la structure suivante :
<event_file_name>.json
Rubrique parent : Connexions prises en charge