Per accedere ai dati in OpenLineage, creare una risorsa di connessione.
OpenLineage è un framework aperto che può essere utilizzato per raccogliere e analizzare il lineage dei dati.
Creare una connessione a OpenLineage
Per creare l'asset di connessione, sono necessari i seguenti dettagli di connessione:
- Nome host o Indirizzo IP
- Numero porta
Scegliere il metodo per creare una connessione in base alla posizione in cui ci si trova nella piattaforma
- In un progetto
- Fare clic su Attività > Nuova attività > Connetti a un'origine dati. Vedere Aggiunta di un collegamento a un progetto.
- In un catalogo
- Fare clic su Aggiungi al catalogo > Connessione. Vedere Aggiunta di una risorsa di connessione a un catalogo.
- Nel Platform assets catalog
- Fare clic su Nuova connessione. Vedere Aggiunta di connessioni alla piattaforma.
Passo successivo: Aggiungere asset di dati dalla connessione
Dove è possibile utilizzare questa connessione
È possibile utilizzare la connessione OpenLineage nei seguenti spazi di lavoro e strumenti:
Progetti
- Metadata import (IBM Knowledge Catalog)
Cataloghi
- Platform assets catalog
- Altri cataloghiIBM Knowledge Catalog)
Derivazione dati
- Metadata import (lineage)IBM Knowledge Catalog e IBM Manta Data Lineage)
Configurazione dell'importazione dei metadati del lignaggio per OpenLineage
Quando si crea un'importazione di metadati per la connessione OpenLineage, è possibile impostare opzioni specifiche per questa fonte di dati e definire l'ambito dei dati per i quali viene generato il lineage. Per informazioni dettagliate sull'importazione dei metadati, vedere Progettazione delle importazioni di metadati.
Per importare i metadati del lignaggio per OpenLineage, eseguire le seguenti operazioni:
- Creare una definizione di origine dati. Selezionare OpenLineage come tipo di origine dati.
- Creare una connessione all'origine dati in un progetto.
- Creare un'importazione di metadati. Per saperne di più sulle opzioni specifiche dell'origine dati OpenLineage:
- Quando si definisce un ambito, è possibile analizzare l'intera origine dati o utilizzare le opzioni include ed esclude per definire gli spazi dei nomi dei lavori che si desidera analizzare. Vedere Elenchi di inclusione ed esclusione.
- Opzionalmente, è possibile fornire un input esterno. Il file viene aggiunto nel campo Aggiungi input da file. Il file deve avere una struttura supportata. Vedere Ingressi esterni.
Elenchi di inclusione ed esclusione
È possibile includere o escludere le risorse utilizzando gli spazi dei nomi dei lavori negli eventi di OpenLineage. L'intero input viene valutato come espressione regolare. Valori di esempio:
myPrestoApp1Namespace
: tutti gli eventi con lo spazio dei nomi dei lavori 'myPrestoApp1Namespace
.mySparkApp[1-5]Namespace
: tutti gli eventi con uno spazio dei nomi di lavoro che inizia con 'mySparkApp1Namespace
e termina con una cifra compresa tra 1 e 5.
Input esterni
È possibile aggiungere eventi OpenLineage come input esterni. Il file può avere la seguente struttura:
<event_file_name>.json
Argomento principale: Connessioni supportate