Translation not up to date
Maskujący przepływ pozwala administratorom danych na tworzenie maskowanych kopii danych dla naukowców danych, analityków biznesowych i testerów aplikacji. Dane są chronione regułami ochrony danych, które mają zastosowanie automatycznie do wszystkich danych zaimportowanych do katalogu.
Przepływ maskowania wprowadza również zaawansowane opcje maskowania dla reguł ochrony danych, takie jak rozszerzona zachowywanie formatu, jednokierunkowa tokenizacja mieszająca, odwracalne szyfrowanie, możliwość utrzymywania relacji oraz zwiększanie programu narzędziowego danych maskowanych. Reguły ochrony danych z zaawansowanymi maskowaniem działają tylko w projektach.
- Wymagane usługi
- Watson Knowledge Catalog
- Format daty
- Relacyjny: Tabele w relacyjnych źródłach danych
- Wielkość danych
- Dowolna wielkość
Przed utworzeniem przepływów maskujących administrator danych musi wykonać następujące zadania wstępne.
Po zakończeniu zadań wymaganych wstępnie, zarówno administratorzy danych, jak i użytkownicy danych mogą wykonać jedną z następujących czynności:
- Utwórz nowy projekt i dodaj zasoby danych, które mają być maskowane w projekcie.
- Wybierz istniejący projekt z zasobami danych.
Po wykonaniu jednego z zadań kliknij opcję Nowy zasób > Przepływ maskowania.
Role użytkowników w przepływie maskowania
Jako administrator danych (lub inżynier danych) użytkownik posiada dużą wiedzę na temat zasobów danych i wymagań dotyczących danych użytkowników danych. Użytkownik jest odpowiedzialny za przygotowywanie danych do maskowania i konfigurowanie dostępu użytkowników do danych maskowanych. Zapoznaj się z zadaniami, które muszą zostać wykonane przez administratorów danych.
Jako użytkownik danych, takich jak analitycy danych, analitycy biznesowi, testerzy i programiści, użytkownik może polegać na tym, że administrator danych będzie się kurował i udostępniał chronione dane, które są potrzebne do wykonania pracy. Zapoznaj się z zadaniami, które mogą wykonywać użytkownicy danych.
Obsługiwane źródła danych
Przepływ maskujący obsługuje następujące relacyjne i nierelacyjne źródła danych:
- Apache Hive
- Db2 LUW
- Db2 Warehouse
- MySQL
- Netezza
- Oracle
- PostgreSQL
- SQL Server
- Teradata
Zadania wymagane wstępnie dla administratorów danych
- wymagane uprawnienia
- Użytkownik musi być administratorem konta IBM Cloud .
W momencie instalowania przepływu maskowania istnieje co najmniej jedno konto administratora skonfigurowane w organizacji. Ten administrator może nadawać innym użytkownikom uprawnienia administratora.
Przygotuj się do sprywatyzowania danych, wykonując następujące zadania:
Dodaj zasoby danych do katalogów, automatycznie importując zasoby danych za pomocą metadanych. Użytkownik tworzy połączenia z danymi w katalogu metadanych. Podczas importowania zasobów danych wybierz katalog, który został utworzony w poprzednim kroku jako cel importu. Więcej informacji na ten temat zawiera sekcja Publikowanie zasobów aplikacyjnych z projektu w katalogu.
Konfigurowanie reguł ochrony danych. Reguły ochrony danych mają zastosowanie do wszystkich katalogów zarządzanych i są wymuszane przez przepływ maskowania podczas tworzenia maskowanych kopii danych za pomocą przepływów maskowania. Opcja Zaawansowane opcje maskowania danych jest włączona tylko dla klas danych.
Zarządzanie dostępem użytkowników , dodając użytkowników do konta IBM Cloud i ustawiając Cloud Pak for Data as a Service dla organizacji użytkownika.
Dodawanie użytkowników danych do katalogów poprzez zarządzanie dostępem do katalogu.
Unikanie nieumyślnego wycieku danych
Przenoszenie zasobów z katalogów do projektów
Domyślnie reguły ochrony danych nie są wymuszane dla właściciela zasobu, użytkownika, który dodał zasób do katalogu. Oznacza to, że dla właściciela zasobu, podgląd katalogu nie jest chroniony dla zasobów danych, których są właścicielkami.
- Przeniesienie zasobu z katalogu do projektu powoduje, że zasób aplikacyjny w projekcie jest kopią zasobu katalogu. Zasoby aplikacyjne projektu nie są powiązane z regułami ochrony danych.
- Jeśli osoba przenosza zasób jest właścicielem zasobu, wówczas podgląd zasobu jest rozmasowany dla wszystkich użytkowników w projekcie.
- Jeśli osoba przenosza zasób nie jest właścicielem zasobu, wówczas podgląd zasobu jest maskowany dla wszystkich użytkowników w projekcie.
Ponieważ reguły ochrony danych nie są wymuszane dla właścicieli zasobów, gdy właściciele zasobów uruchamiają przepływ maskujący, kopia danych załadowana do docelowej bazy danych nie jest maskowana. Dane są maskowane tylko wtedy, gdy użytkownicy danych uruchamiają przepływ maskujący.
Najlepsza praktyka w celu uniknięcia nieumyślnego wycieku danych
Aby uniknąć wycieku danych, należy rozważyć następujące sprawdzone procedury:
Projekt używany przez administratora do importowania metadanych do katalogu nie powinien być używany do maskowania przepływów. Aby użyć tego samego projektu dla importów metadanych i przepływów maskujących, należy upewnić się, że wszyscy użytkownicy w projekcie mają uprawnienia do wyświetlenia niezamaskowanych danych.
Administratorzy danych nie powinni przenosić danych z katalogów do projektów na potrzeby tworzenia przepływów maskujących. Administratorzy danych powinni dodać użytkowników danych jako przeglądających do katalogu, a następnie tylko użytkownicy danych powinni przenieść dane z katalogu do projektu. Mogą one opcjonalnie dodać innych użytkowników do projektu.
Unikanie błędów braku pamięci
Podczas maskowania przepływu pracy Spark może próbować odczytać wszystkie źródła danych do pamięci. Błędy mogą wystąpić wtedy, gdy nie ma wystarczającej ilości pamięci do obsługi zadania. Największa ilość danych, które mogą zmieścić się w największym wdrożonym węźle przetwarzania Spark, wynosi około 12GBs.
W przypadku zadań przepływu maskowania, które mają duże wykorzystanie pamięci, aby uniknąć błędów braku pamięci:
- Ogranicz liczbę wykonań i wielkość wykonań dla zadania.
- Ustaw kolumny w tabeli źródłowej, aby podzielić dane.
- Gdy zadania przepływu maskowania wiążą się z przenosniem dużej ilości danych, należy się upewnić, że wybrano kolumny, według których dane mogą być partycjonowane podczas maskowania zadania przepływu.
Dane wyjściowe obcięte w celu uwzględnienia ograniczeń długości kolumn
Długość kolumny to maksymalna długość, która jest zdefiniowana dla kolumny w bazie danych dla danych typu łańcuchowego.
Wcześniej wygenerowane dane wyjściowe maskowania nie zostały uwzględnione dla długości kolumny, a zadanie maskowania nie powiedzie się, jeśli którekolwiek z wartości wyjściowych przekroczyłoby długość kolumny.
Wygenerowane dane wyjściowe zostaną obcięte, aby upewnić się, że nie przekroczą ograniczeń długości kolumn.
Zadania wymagane wstępnie dla użytkowników danych
Użytkownicy danych muszą już być członkiem platformy lub posiadać uprawnienia do roli naukowca danych.
- wymagane uprawnienia
- Użytkownik musi mieć konto IBM Cloud i być uprawniony do planu Watson Knowledge Catalog Lite.
Uprawnienia opcjonalne
- Administratorzy danych mogą nadać użytkownikowi dostęp z uprawnieniami edytującego lub przeglądający do katalogów.
- Administratorzy danych lub inni użytkownicy danych mogą również mieć dostęp do pojedynczych projektów, które tworzą.
Przygotuj maskowane kopie danych, wykonując następujące czynności: