Przypadek użycia zarządzania danymi
Wiele przedsiębiorstw zmaga się z bilansem korzyści płynących z zapewnienia dostępu do danych z potrzebą ochrony wrażliwych danych. Cloud Pak for Data as a Service udostępnia metody, które przedsiębiorstwo potrzebuje do automatyzacji zarządzania danymi, dzięki czemu można zapewnić dostęp do danych i ich ochronę.
Obejrzyj ten film wideo, aby wyświetlić przypadek użycia sieci Fabric do zaimplementowania rozwiązania do zarządzania danymi w Cloud Pak for Data(Cloud Pak for Data).
Ten film wideo udostępnia metodę wizualną, która umożliwia poznanie pojęć i zadań w tej dokumentacji.
Wyzwania
Wiele przedsiębiorstw stawia czoła następującym wyzwaniom w zakresie zarządzania danymi:
- Zapewnianie prywatności danych w skali
- Organizacje muszą przestrzegać przepisów o ochronie danych osobowych w źródłach danych na wielu platformach chmurowych i w siedzibie.
- Uzyskiwanie dostępu do danych wysokiej jakości
- Organizacje muszą zapewnić dostęp do wysokiej jakości danych przedsiębiorstwa w wielu zespołach.
- Tworzenie kompletnego profilu klienta
- Zespoły muszą budować dokładne widoki klientów w skali, szybko, w celu optymalizacji procesów samoobsługowych i stewardship.
- udostępnianie samoobsługowej konsumpcji danych
- Konsumenci danych, tacy jak naukowcy danych, starają się znaleźć i wykorzystać potrzebne dane.
Problemy te można rozwiązać, implementując sieć Fabric z danymi Cloud Pak for Data as a Service.
Przykład: wyzwania Golden Bank
Podążaj za historią Złotego Banku, ponieważ zespół rządzenia wdraża zarządzanie danymi. Golden Bank ma dużą ilość danych klientów i kredytów hipotecznych, które obejmują wrażliwe dane. Bank chce zapewnić jakość danych, maskować wrażliwe dane i udostępnić go do użytku w kilku działach.
Proces
Sposób implementowania zarządzania danymi zależy od potrzeb danej organizacji. Zarządzanie danymi można zaimplementować w sposób liniowy lub iteracyjny. Użytkownik może korzystać z domyślnych funkcji i predefiniowanych artefaktów lub dostosować rozwiązanie.
Aby zaimplementować zarządzanie danymi, organizacja może śledzić ten proces:
- Ustanowienie słownika biznesowego
- Definiowanie reguł w celu ochrony danych
- Kuruj i konsoliduj dane
- Współużytkowanie lub praca z danymi
Usługi Watson Knowledge Catalog i Match 360 w produkcie Cloud Pak for Data as a Service udostępniają wszystkie narzędzia i procesy, które muszą być zaimplementowane przez organizację użytkownika w celu zaimplementowania rozwiązania do zarządzania danymi.
1. Ustal słownik biznesowy
Aby sprostać wyzwaniom, zespół musi utworzyć słownik biznesowy, importując lub tworząc artefakty zarządzania, które działają jako metadane w celu sklasyfikowania i opisania danych:
- Zanim będzie można zautomatyzować prywatność danych, zespół musi upewnić się, że dane do sterowania są dokładnie identyfikowane.
- Zanim będzie można przeanalizować jakość danych, należy zidentyfikować format danych.
- Aby ułatwić znalezienie danych, Twój zespół musi się upewnić, że treść tych danych jest dokładnie opisana.
W pierwszym kroku procesu zespół zarządzania może tworzyć na podstawie predefiniowanych artefaktów zarządzania i tworzyć niestandardowe artefakty zarządzania, które są specyficzne dla danej organizacji. Istnieje możliwość tworzenia artefaktów w celu opisania formatu, znaczenia biznesowego, wrażliwości, zakresu wartości i strategii zarządzania danymi.
Co można użyć | Co można zrobić | Najlepiej używać, gdy |
---|---|---|
Kategorie | Użyj predefiniowanej kategorii do przechowywania artefaktów zarządzania. Utwórz kategorie, aby organizować artefakty zarządzania w strukturze hierarchicznej podobnej do folderów. Dodaj współpracowników z rolami, które definiują ich uprawnienia do artefaktów w kategorii. |
Potrzebna jest więcej niż predefiniowana kategoria. Użytkownik ma mieć możliwość precyzyjnego kontrolowania tego, kto może być właścicielem, autorem i widokiem artefaktów zarządzania. |
Przepływy pracy | Użyj domyślnej konfiguracji przepływu pracy, która nie ogranicza tego, kto tworzy artefakty zarządzania lub wymaga przeglądów. Skonfiguruj przepływy pracy dla artefaktów zarządzania i wyznaczono, kto może tworzyć typy artefaktów zarządzania, w których kategorie są tworzone. |
Użytkownik chce sterować tym, kto tworzy artefakty zarządzania. Użytkownik chce, aby robocze artefakty zarządzania zostały przejrzane przed ich opublikowaniem. |
Artefakty zarządzania | Użyj predefiniowanych terminów biznesowych, klas danych i klasyfikacji. Utwórz artefakty zarządzania, które działają jako metadane, aby wzbogacić, zdefiniować i kontrolować zasoby danych. |
Użytkownik chce dodać wiedzę i znaczenie dla zasobów, aby pomóc ludziom w zrozumieniu danych. Chcesz poprawić analizę jakości danych. |
Knowledge Accelerators | Zaimportuj zestaw predefiniowanych artefaktów zarządzania w celu poprawy klasyfikacji danych, zgodności z przepisami, analizy samoobsługowej i innych operacji zarządzania. | Do opisywania problemów biznesowych, wydajności biznesowej, standardów branżowych i przepisów wymagany jest standardowy słownik. Użytkownik chce zaoszczędzić czas, importując wstępnie utworzone artefakty zarządzania. |
Przykład: słownik biznesowy Golden Bank
Kierownik zespołu ds. zarządzania w Golden Bank rozpoczyna tworzenie kategorii Bankowość, która umożliwia wstrzymanie artefaktów zarządzania, które zespół planuje utworzyć. Kierownik zespołu dodaje do kategorii Bankowość pozostałe elementy zespołu zarządzania jako współpracowników z rolą Edytujący , dzięki czemu mają uprawnienia do tworzenia artefaktów zarządzania. Następnie kierownik zespołu konfiguruje przepływy pracy w taki sposób, aby inny członek zespołu był odpowiedzialny za tworzenie każdego typu artefaktu. Wszystkie przepływy pracy wymagają kroku zatwierdzenia przez kierownika zespołu.
Jeden członek zespołu zarządzania importuje zestaw terminów biznesowych z arkusza kalkulacyjnego. Niektóre z warunków biznesowych są związane z zawodami klientów osobistych. Inny członek zespołu tworzy zestaw danych odniesienia, "Professions", który zawiera listę zawodów, w których każda okupacja ma numer identyfikacyjny. Trzeci członek zespołu tworzy niestandardową klasę danych, "Profesja" w celu identyfikacji zawodu klientów osobistych na podstawie referencyjnego zestawu danych.
2. Definiowanie reguł w celu ochrony danych
W kolejnym kroku procesu Twój zespół definiuje reguły zapewniające zgodność z przepisami ochrony danych osobowych przez kontrolę nad tym, kto może zobaczyć jakie dane. Zespół tworzy reguły ochrony danych w celu zdefiniowania sposobu ochrony danych w katalogach zarządzanych. Zespół może używać tych reguł ochrony danych do maskowania poufnych danych w oparciu o treść, format lub znaczenie danych lub tożsamość użytkowników, którzy uzyskują dostęp do tych danych.
Co można użyć | Co można zrobić | Najlepiej używać, gdy |
---|---|---|
Reguły ochrony danych | Chroń poufne informacje przed nieautoryzowanym dostępem w zarządzanych katalogach przez odmawianie dostępu do danych, maskowanie wartości danych lub filtrowanie wierszy w zasobach danych. Dynamicznie i spójnie maskuj dane w zarządzanych katalogach na poziomie szczegółowości zdefiniowanym przez użytkownika. |
Konieczne jest automatyczne wymuszenie prywatności danych w katalogach zarządzanych. Użytkownik chce zachować dostępność i użyteczność danych, a jednocześnie przestrzegać przepisów dotyczących ochrony prywatności. |
Przepływy maskowania | Użyj zaawansowanego formatu-zachowując możliwości maskowania danych podczas wyodrębniania kopii lub podzestawów danych produkcyjnych. | Potrzebne są anonimizowane dane treningowe i zestawy testów, które zachowują integralność danych. |
Strategie i reguły zarządzania | Opisz i udokumentuj wytyczne, przepisy, standardy lub procedury organizacji w celu zapewnienia bezpieczeństwa danych. Opisz wymagane zachowanie lub działania w celu zaimplementowania strategii zarządzania. |
Użytkownik chce, aby osoby, które korzystają z danych, rozumieły strategie zarządzania danymi. |
Przykład: zasady ochrony danych Golden Bank
Aby stworzyć model predykcyjny dla zatwierdzeń kredytów hipotecznych, naukowcy z danymi Golden Bank potrzebują dostępu do zestawów danych, które zawierają dane wrażliwe. Na przykład, naukowcy danych chcą uzyskać dostęp do tabeli z danymi dotyczącymi osób ubiegających się o kredyt hipoteczny, które obejmują kolumnę z numerami ubezpieczenia społecznego.
Członek zespołu ds. zarządzania tworzy regułę ochrony danych, która maskuje numery ubezpieczenia społecznego. Jeśli przypisaną klasą danych kolumny w zasobie danych jest "US Social Security Number", to wartości w tej kolumnie są zastępowane przez 10 Xs.
Członek zespołu zarządzania tworzy strategię, która zawiera regułę ochrony danych. Strategia opisuje przyczyny biznesowe dla implementowania reguły.
3. Kurowanie danych do współużytkowania w katalogach
Zarządcy danych kurują wysokiej jakości zasoby danych w projektach i publikują je w katalogach, w których mogą je znaleźć osoby, które potrzebują tych danych. Zarządcy danych wzbogacają zasoby danych, przypisując artefakty zarządzania jako metadane opisujące dane i informując je o wyszukiwaniu semantycznym danych.
Co można użyć | Co można zrobić | Najlepiej używać, gdy |
---|---|---|
Metadata import | Automatycznie importuj metadane techniczne dla danych, które są powiązane z połączeniem w celu utworzenia zasobów danych. | Konieczne jest utworzenie wielu zasobów danych ze źródła danych. Należy odświeżyć zasoby danych, które zostały wcześniej zaimportowane. |
Wzbogacanie metadanych | Profilowanie wielu zasobów danych w pojedynczym wykonaniu w celu automatycznego przypisywania klas danych oraz identyfikowania typów danych i formatów kolumn. Automatycznie przypisuj warunki biznesowe do zasobów i wygeneruj sugestie dotyczące terminów w oparciu o klasyfikację danych. Uruchom ponownie zadania importowania i wzbogacania w określonych odstępach czasu, aby wykryć i ocenić zmiany w zasobach danych. |
Konieczne jest ograniczenie i opublikowanie wielu zaimportowanych zasobów danych. |
Analiza jakości danych | Przeprowadzanie analizy jakości w wielu zestawach danych w pojedynczym wykonaniu w celu skanowania wspólnych wymiarów jakości danych, takich jak brakujące wartości lub naruszenia klas danych. Ciągły śledzenie zmian w treści i strukturze danych oraz rekurencyjnie analizowanych zmienionych danych. |
Użytkownik musi wiedzieć, czy jakość danych może mieć wpływ na dokładność analizy danych lub modeli. Użytkownicy muszą określić, które zestawy danych mają być naprawiane. |
Eksplorator danych głównych | Za pomocą głównego eksploratora danych w programie IBM Match 360użytkownicy i systemy wyszukują, wyświetlają i analizują główne obiekty danych. Użytkownicy mogą wykrywać dane główne bezpośrednio w obszarze, w którym oczekują na ich wykorzystanie. |
Użytkownicy i systemy muszą mieć łączny widok danych. Użytkownicy i systemy muszą wyszukiwać, wyświetlać i analizować główne jednostki danych. Użytkownik chce używać interfejsów API do łączenia aplikacji biznesowych z zaufanymi danymi głównymi. |
Przykład: kuracja i konsolidacja danych Golden Bank
Zarządcy danych w zespole zarządzania rozpoczynają importowanie metadanych w celu utworzenia zasobów danych w projekcie. Po zaimporcie metadanych Golden Bank ma dwa zasoby danych, które reprezentują tabele z kolumną o nazwie "ID". Po wzbogaceniu metadanych kolumny te są wyraźnie zróżnicowane w zależności od przypisanych im metadanych:
- Do jednej kolumny przypisywany jest termin "Zawód" i "Profesja" oraz klasa danych "Profesja".
- Do drugiej kolumny przypisywany jest termin biznesowy "Identyfikator osobisty" i "Prywatna osoba" oraz klasa danych "Numer PESEL z USA".
Zarządcy danych uruchamiają analizę jakości danych w zasobach danych, aby upewnić się, że ogólny wynik jakości danych przekracza próg złotego Banku w wysokości 95%.
Inżynierowie danych w Golden Bank łączą dane klientów z różnych systemów w całym przedsiębiorstwie, jak również dane zewnętrzne, z danymi z oceny kredytowej w celu rozwiązania podmiotów i tworzenia skonsolidowanego widoku klientów. Inżynierowie ustawiają i dodają zasoby aplikacyjne do danych głównych, odwzorowują atrybuty zasobu danych, publikują model danych i uruchamiają zgodny algorytm w celu przygotowania danych do eksplorowanych.
Lider zespołu ds. zarządzania tworzy katalog, "katalog zatwierdzania kredytów hipotecznych" i dodaje zarządców danych i naukowców danych jako współpracowników katalogu. Zarządcy danych publikują zasoby danych, które zostały utworzone w projekcie do katalogu.
4. Podziel się lub pracuj z danymi
Katalog pomaga zespołom zrozumieć dane użytkownika i udostępnia odpowiednie dane do właściwego użycia. Analitycy danych i inni użytkownicy mogą pomóc sobie w tych danych, które są potrzebne, podczas gdy pozostają one zgodne z zasadami dostępu i ochrony danych w korporacji. Mogą one dodawać zasoby danych z katalogu do projektu, w którym współpracują w celu przygotowania, analizy i modelowania danych.
Co można użyć | Co można zrobić | Najlepiej używać, gdy |
---|---|---|
Katalogi | Zasoby aplikacyjne należy zorganizować w celu udostępnienia ich do współużytkowania dla współpracowników w organizacji. Należy skorzystać z wyszukiwania i rekomendacji semantycznych opartych na AI, aby pomóc użytkownikom w znalezieniu tego, czego potrzebują. |
Użytkownicy muszą łatwo zrozumieć, współpracować, wzbogacać i uzyskiwać dostęp do danych o wysokiej jakości. Chcesz zwiększyć widoczność danych i współpracę między użytkownikami biznesowymi. Użytkownicy muszą wyświetlać, uzyskiwać dostęp do danych, manipulować nimi i analizować dane bez zrozumienia jego fizycznego formatu lub lokalizacji, a także bez konieczności przenoszenia lub kopiowania danych. Chcesz, aby użytkownicy zwiększyli zasoby według ocen i przeglądania zasobów. |
Wyszukiwanie globalne | Wyszukiwanie zasobów aplikacyjnych we wszystkich projektach, katalogach i obszarach wdrażania, do których użytkownik ma dostęp. Wyszukiwanie artefaktów zarządzania w kategoriach, do których użytkownik ma dostęp. |
Konieczne jest znalezienie danych lub innego typu zasobu aplikacyjnego lub artefaktu zarządzania. |
Data Refinery | Należy wyczyścić dane w celu usunięcia lub usunięcia danych, które są niepoprawne, niekompletne, niepoprawnie sformatowane lub zduplikowane. Dane kształtu w celu dostosowania go przez filtrowanie, sortowanie, łączenie lub usuwanie kolumn. |
Należy poprawić jakość lub przydatność danych. |
Przykład: katalog Golden Bank
Naukowcy danych znajdują zasoby danych, których potrzebują w katalogu, i kopiują te zasoby aplikacyjne do projektu. W swoim projekcie naukowcy danych mogą dopracować dane, aby przygotować go do szkolenia modelu.
Kursy dotyczące zarządzania danymi
Samouczek | Opis | Ekspertyza dla kursu |
---|---|---|
Kuruj dane wysokiej jakości | Tworzenie wysokiej jakości zasobów danych poprzez wzbogacenie danych i przeprowadzenie analizy jakości danych. | Uruchom narzędzie Metadata import i narzędzia wzbogacania metadanych. |
Chroń dane | Sterowanie dostępem do danych w ramach Cloud Pak for Data as a Service. | Utwórz reguły ochrony danych. |
konsumowanie danych | Odnajdywać, kształtować i analizować dane. | Zapoznaj się z katalogiem i uruchom narzędzie Data Refinery . |
Zarządzaj zwirtualizowanymi danymi | Wzbogacaj zwirtualizowane dane i upewnij się, że dane wirtualne są chronione. | Do zarządzania zwirtualizowanymi danymi służy interfejs, projekty i katalogi interfejsu Watson Query . |
Konfigurowanie widoku 360 stopni | Skonfiguruj, odwzoruj i modeluj dane, aby utworzyć skonsolidowany widok dla klientów. | Użyj interfejsu przeciągania i upuszczania Match 360 , aby skonfigurować skonsolidowany widok. |
Dowiedz się więcej o zarządzaniu danymi
- Przegląd produktu Watson Knowledge Catalog
- Konfigurowanie produktu Watson Knowledge Catalog
- Planowanie implementacji do zarządzania danymi
- Wideo
Temat nadrzędny: Przegląd rozwiązania dla sieci Fabric