0 / 0
Go back to the English version of the documentation
Maskowanie danych z przepływem maskowania
Last updated: 27 lip 2023
Maskowanie danych z przepływem maskowania

Maskujący przepływ pozwala administratorom danych na tworzenie maskowanych kopii danych dla naukowców danych, analityków biznesowych i testerów aplikacji. Dane są chronione regułami ochrony danych, które mają zastosowanie automatycznie do wszystkich danych zaimportowanych do katalogu.

Przepływ maskowania wprowadza również zaawansowane opcje maskowania dla reguł ochrony danych, takie jak rozszerzona zachowywanie formatu, jednokierunkowa tokenizacja mieszająca, odwracalne szyfrowanie, możliwość utrzymywania relacji oraz zwiększanie programu narzędziowego danych maskowanych. Reguły ochrony danych z zaawansowanymi maskowaniem działają tylko w projektach.

Wymagane usługi
Watson Knowledge Catalog
Format daty
Relacyjny: Tabele w relacyjnych źródłach danych
Wielkość danych
Dowolna wielkość

Przed utworzeniem przepływów maskujących administrator danych musi wykonać następujące zadania wstępne.

Po zakończeniu zadań wymaganych wstępnie, zarówno administratorzy danych, jak i użytkownicy danych mogą wykonać jedną z następujących czynności:

  • Utwórz nowy projekt i dodaj zasoby danych, które mają być maskowane w projekcie.
  • Wybierz istniejący projekt z zasobami danych.

Po wykonaniu jednego z zadań kliknij opcję Nowy zasób > Przepływ maskowania.

Role użytkowników w przepływie maskowania

Jako administrator danych (lub inżynier danych) użytkownik posiada dużą wiedzę na temat zasobów danych i wymagań dotyczących danych użytkowników danych. Użytkownik jest odpowiedzialny za przygotowywanie danych do maskowania i konfigurowanie dostępu użytkowników do danych maskowanych. Zapoznaj się z zadaniami, które muszą zostać wykonane przez administratorów danych.

Jako użytkownik danych, takich jak analitycy danych, analitycy biznesowi, testerzy i programiści, użytkownik może polegać na tym, że administrator danych będzie się kurował i udostępniał chronione dane, które są potrzebne do wykonania pracy. Zapoznaj się z zadaniami, które mogą wykonywać użytkownicy danych.

Obsługiwane źródła danych

Przepływ maskujący obsługuje następujące relacyjne i nierelacyjne źródła danych:

  • Apache Hive
  • Db2 LUW
  • Db2 Warehouse
  • MySQL
  • Netezza
  • Oracle
  • PostgreSQL
  • SQL Server
  • Teradata

Zadania wymagane wstępnie dla administratorów danych

wymagane uprawnienia
Użytkownik musi być administratorem konta IBM Cloud .

W momencie instalowania przepływu maskowania istnieje co najmniej jedno konto administratora skonfigurowane w organizacji. Ten administrator może nadawać innym użytkownikom uprawnienia administratora.

Przygotuj się do sprywatyzowania danych, wykonując następujące zadania:

  1. Tworzenie katalogów.

  2. Dodaj zasoby danych do katalogów, automatycznie importując zasoby danych za pomocą metadanych. Użytkownik tworzy połączenia z danymi w katalogu metadanych. Podczas importowania zasobów danych wybierz katalog, który został utworzony w poprzednim kroku jako cel importu. Więcej informacji na ten temat zawiera sekcja Publikowanie zasobów aplikacyjnych z projektu w katalogu.

  3. Potwierdzanie, że klasy danych są poprawnie przypisane.

  4. Konfigurowanie reguł ochrony danych. Reguły ochrony danych mają zastosowanie do wszystkich katalogów zarządzanych i są wymuszane przez przepływ maskowania podczas tworzenia maskowanych kopii danych za pomocą przepływów maskowania. Opcja Zaawansowane opcje maskowania danych jest włączona tylko dla klas danych.

  5. Zarządzanie dostępem użytkowników , dodając użytkowników do konta IBM Cloud i ustawiając Cloud Pak for Data as a Service dla organizacji użytkownika.

  6. Dodawanie użytkowników danych do katalogów poprzez zarządzanie dostępem do katalogu.

Unikanie nieumyślnego wycieku danych

Przenoszenie zasobów z katalogów do projektów

Domyślnie reguły ochrony danych nie są wymuszane dla właściciela zasobu, użytkownika, który dodał zasób do katalogu. Oznacza to, że dla właściciela zasobu, podgląd katalogu nie jest chroniony dla zasobów danych, których są właścicielkami.

  • Przeniesienie zasobu z katalogu do projektu powoduje, że zasób aplikacyjny w projekcie jest kopią zasobu katalogu. Zasoby aplikacyjne projektu nie są powiązane z regułami ochrony danych.
    • Jeśli osoba przenosza zasób jest właścicielem zasobu, wówczas podgląd zasobu jest rozmasowany dla wszystkich użytkowników w projekcie.
    • Jeśli osoba przenosza zasób nie jest właścicielem zasobu, wówczas podgląd zasobu jest maskowany dla wszystkich użytkowników w projekcie.

Ponieważ reguły ochrony danych nie są wymuszane dla właścicieli zasobów, gdy właściciele zasobów uruchamiają przepływ maskujący, kopia danych załadowana do docelowej bazy danych nie jest maskowana. Dane są maskowane tylko wtedy, gdy użytkownicy danych uruchamiają przepływ maskujący.

Najlepsza praktyka w celu uniknięcia nieumyślnego wycieku danych

Aby uniknąć wycieku danych, należy rozważyć następujące sprawdzone procedury:

  • Projekt używany przez administratora do importowania metadanych do katalogu nie powinien być używany do maskowania przepływów.  Aby użyć tego samego projektu dla importów metadanych i przepływów maskujących, należy upewnić się, że wszyscy użytkownicy w projekcie mają uprawnienia do wyświetlenia niezamaskowanych danych.

  • Administratorzy danych nie powinni przenosić danych z katalogów do projektów na potrzeby tworzenia przepływów maskujących. Administratorzy danych powinni dodać użytkowników danych jako przeglądających do katalogu, a następnie tylko użytkownicy danych powinni przenieść dane z katalogu do projektu. Mogą one opcjonalnie dodać innych użytkowników do projektu.

Unikanie błędów braku pamięci

Podczas maskowania przepływu pracy Spark może próbować odczytać wszystkie źródła danych do pamięci. Błędy mogą wystąpić wtedy, gdy nie ma wystarczającej ilości pamięci do obsługi zadania. Największa ilość danych, które mogą zmieścić się w największym wdrożonym węźle przetwarzania Spark, wynosi około 12GBs.

W przypadku zadań przepływu maskowania, które mają duże wykorzystanie pamięci, aby uniknąć błędów braku pamięci:

  • Ogranicz liczbę wykonań i wielkość wykonań dla zadania.
  • Ustaw kolumny w tabeli źródłowej, aby podzielić dane.
  • Gdy zadania przepływu maskowania wiążą się z przenosniem dużej ilości danych, należy się upewnić, że wybrano kolumny, według których dane mogą być partycjonowane podczas maskowania zadania przepływu.

Dane wyjściowe obcięte w celu uwzględnienia ograniczeń długości kolumn

Długość kolumny to maksymalna długość, która jest zdefiniowana dla kolumny w bazie danych dla danych typu łańcuchowego.

Wcześniej wygenerowane dane wyjściowe maskowania nie zostały uwzględnione dla długości kolumny, a zadanie maskowania nie powiedzie się, jeśli którekolwiek z wartości wyjściowych przekroczyłoby długość kolumny.

Wygenerowane dane wyjściowe zostaną obcięte, aby upewnić się, że nie przekroczą ograniczeń długości kolumn.

Zadania wymagane wstępnie dla użytkowników danych

Użytkownicy danych muszą już być członkiem platformy lub posiadać uprawnienia do roli naukowca danych.

wymagane uprawnienia
Użytkownik musi mieć konto IBM Cloud i być uprawniony do planu Watson Knowledge Catalog Lite.

Uprawnienia opcjonalne

  • Administratorzy danych mogą nadać użytkownikowi dostęp z uprawnieniami edytującego lub przeglądający do katalogów.
  • Administratorzy danych lub inni użytkownicy danych mogą również mieć dostęp do pojedynczych projektów, które tworzą.

Przygotuj maskowane kopie danych, wykonując następujące czynności:

  1. Tworzenie projektów.
  2. Utwórz maskujący zasób przepływu.
  3. Uruchom zadania maskowania przepływu.

Więcej inform.