0 / 0
Torna alla versione inglese della documentazione
Mascheramento dei dati con flusso di mascheramento
Ultimo aggiornamento: 05 dic 2024
Mascheramento dei dati con flusso di mascheramento

Il flusso di mascheramento consente agli amministratori di dati di produrre copie mascherate di dati per data scientist, analisti di business e tester di applicazioni. I dati sono protetti con regole di protezione dati che si applicano automaticamente a tutti i dati importati nel catalogo.

Il flusso di mascheramento introduce anche opzioni di mascheramento avanzate per le regole di protezione dei dati, come la conservazione avanzata del formato, la tokenizzazione hash unidirezionale, la capacità di mantenere le relazioni e di aumentare l'utilità dei dati mascherati. Le regole di protezione dei dati con mascheramento avanzato funzionano solo nei progetti.

Servizi richiesti
IBM Knowledge Catalog
Data Privacy (flusso di maschere)
Formato dati
Relazionale: tabelle in origini dati relazionali
Dimensione dati
Qualsiasi dimensione

Prima di creare i flussi di mascheramento, l'amministratore dei dati deve completare queste attività prerequisite.

Una volta completate le attività prerequisite, sia gli amministratori di dati che gli utenti di dati possono eseguire una delle seguenti attività:

  • Creare un nuovo progetto e aggiungere asset di dati da mascherare nel progetto.
  • Scegliere un progetto esistente con asset di dati.

Dopo aver completato una delle attività, fare clic su Nuova risorsa > Copia e maschera i dati.

Ruoli utente nel flusso di mascheramento

In qualità di amministratore dei dati (o ingegnere dei dati), si ha una forte conoscenza degli asset di dati e dei requisiti dei dati degli utenti dei dati. L'utente è responsabile della preparazione dei dati per mascherare e configurare l'accesso utente ai dati mascherati. Consultare attività che gli amministratori di dati devono completare.

Come utente di dati, come data scientist, analisti di business, tester e sviluppatori, ti affidi all'amministratore dei dati per curare e fornire dati protetti di cui hai bisogno per svolgere il tuo lavoro. Consultare le attività che gli utenti di dati possono eseguire.

Origini dati supportate

Il flusso di mascheramento supporta le seguenti origini dati relazionale e non relazionale:

  • Apache Hive
  • Db2 LUW
  • Db2 Warehouse
  • MySQL
  • Netezza
  • Oracle
  • PostgreSQL
  • SQL Server
  • Teradata

Attività prerequisite per gli amministratori di dati

Autorizzazioni richieste
Devi essere un amministratore dell'account IBM Cloud .

Al momento dell'installazione del flusso di mascheramento, è presente almeno un account amministratore configurato nella propria organizzazione. Questo amministratore può fornire ad altri utenti l'accesso admin.

Prepararsi alla privatizzazione dei dati completando le seguenti attività:

  1. Creazione di catalogo.

  2. Aggiungere gli asset di dati ai cataloghi importando automaticamente gli asset di dati con metadata. Le connessioni ai dati vengono create nel Catalogo metadati. Quando si importano gli asset di dati, selezionare il catalogo creato nel passo precedente come destinazione di importazione. Consultare Pubblicazione di asset da un progetto in un catalogo.

  3. Conferma dell'assegnazione corretta delle classi di dati

  4. Impostazione delle regole di protezione dati. Le regole di protezione dei dati si applicano a tutti i cataloghi gestiti e vengono applicate dal flusso di mascheramento quando si creano copie mascherate di dati utilizzando i flussi di mascheramento. Opzioni di mascheramento dati avanzate sono abilitate solo per le classi di dati.

  5. Gestione dell'accesso utente aggiungendo utenti a un account IBM Cloud e configurando Cloud Pak for Data as a Service per l'organizzazione.

  6. Aggiunta di utenti di dati ai cataloghi mediante la gestione dell'accesso a un catalogo.

Evitare la perdita involontaria di dati

Spostamento di asset dai cataloghi ai progetti

Per impostazione predefinita, le regole di protezione dati non vengono applicate per il proprietario dell'asset, l'utente che ha aggiunto l'asset al catalogo. Ciò significa che per il proprietario dell'asset, le anteprime del catalogo non sono protette per gli asset di dati di cui sono proprietari.

  • Quando si sposta un asset da un catalogo a un progetto, l'asset nel progetto è una copia dell'asset del catalogo. Gli asset di progetto non sono collegati a regole di protezione dati.
    • Se la persona che sposta l'asset è il proprietario dell'asset, l'anteprima dell'asset viene smascherata per tutti gli utenti nel progetto.
    • Se la persona che sposta l'asset non è il proprietario dell'asset, l'anteprima dell'asset viene mascherata per tutti gli utenti nel progetto.

Poiché le regole di protezione dei dati non vengono applicate per i proprietari degli asset, quando i proprietari degli asset eseguono un flusso di mascheramento, la copia dei dati caricata in un database di destinazione non viene mascherata. I dati vengono mascherati solo quando gli utenti dei dati eseguono il flusso di mascheramento.

Procedura ottimale per evitare perdite di dati non intenzionali

Considerare le seguenti procedure ottimali per evitare la perdita di dati:

  • Il progetto utilizzato dall'amministratore per importare i metadati nel catalogo non deve essere utilizzato per mascherare i flussi.  Se si desidera utilizzare lo stesso progetto per le importazioni di metadati e i flussi di mascheramento, verificare che tutti gli utenti del progetto dispongano delle autorizzazioni per visualizzare i dati non mascherati.

  • Gli amministratori dei dati non devono spostare i dati dai catalogo ai progetti per la creazione di flussi di mascheramento. Gli amministratori di dati devono aggiungere utenti di dati come visualizzatori al catalogo e solo gli utenti di dati devono spostare i dati dal catalogo al progetto. Possono facoltativamente aggiungere altri utenti al progetto.

Evitare errori di memoria esaurita

Durante un lavoro di mascheramento del flusso, Spark potrebbe tentare di leggere tutte le origini dati nella memoria. Potrebbero verificarsi degli errori quando non si dispone di memoria sufficiente per supportare il lavoro. Il volume massimo di dati che può adattarsi al nodo di elaborazione Spark distribuito più grande è di circa 12GBs.

Per i lavori del flusso di mascheramento che hanno un utilizzo elevato della memoria, per evitare errori di memoria esaurita:

  • Limitare il numero di esecutori e la dimensione degli esecutori per il job.
  • Impostare le colonne nella tabella di origine per partizionare i dati.
  • Quando i lavori di mascheramento del flusso comportano lo spostamento di grandi quantità di dati, assicurarsi di selezionare le colonne in base alle quali i dati possono essere partizionati durante il lavoro di mascheramento del flusso.

Output troncato per contenere le restrizioni di lunghezza delle colonne

La lunghezza colonna è la lunghezza massima definita per una colonna in un database per i dati di tipo stringa.

In precedenza, l'output di mascheramento generato non considerava la lunghezza della colonna e il lavoro del flusso di mascheramento non avrebbe avuto esito positivo se uno dei valori di output avesse superato la lunghezza della colonna.

Ora, l'output generato viene troncato per garantire che non superi le limitazioni di lunghezza della colonna.

Attività prerequisite per utenti di dati

Gli utenti di dati devono essere già membri della piattaforma o disporre del livello di autorizzazione per il ruolo di data scientist.

Autorizzazioni richieste
Devi avere un IBM Cloud conto e averne diritto IBM Knowledge Catalog Piano leggero.

Autorizzazioni facoltative

  • Gli amministratori di dati possono fornire all'utente l'accesso Editor o Visualizzatore ai cataloghi.
  • Gli amministratori di dati o altri utenti di dati possono anche fornire l'accesso ai singoli progetti che creano.

Preparare copie di dati mascherati completando le seguenti attività:

  1. Creazione di progetti.
  2. Creare un asset del flusso di mascheramento.
  3. Esegui lavori di mascheramento del flusso.

Ulteriori informazioni

Ricerca e risposta AI generativa
Queste risposte sono generate da un modello di lingua di grandi dimensioni in watsonx.ai basato sul contenuto della documentazione del prodotto. Ulteriori informazioni