0 / 0
Go back to the English version of the documentation
Planowanie przechowywania danych w katalogach
Last updated: 27 paź 2023
Planowanie przechowywania danych w katalogach

Proces kuracji obejmuje tworzenie zasobów danych, przypisywanie artefaktów nadzoru i innych metadanych do zasobów danych, publikowanie zasobów danych w katalogu, a następnie aktualizowanie metadanych zasobów aplikacyjnych po zmianie danych bazowych lub słownika biznesowego. Gdy zarządcy danych dodają do katalogów wysokiej jakości, wzbogacone zasoby danych, odbiorcy danych mogą znaleźć i wykorzystać te zasoby danych.

Mimo że zasoby danych można przetwarzać indywidualnie, proces ten nie jest skalowalny. Istnieje możliwość zautomatyzowania wielu zadań związanych z kuracją za pomocą Metadata import i narzędzi do wzbogacania metadanych, które umożliwiają wykrywanie, tworzenie, wzbogacanie i publikowanie zestawów zasobów danych.

Aby w jak największym stopniu zautomatyzować zarządzanie danymi, należy wykonać następujące czynności w celu skonfigurowania projektu kuracji, dodania do katalogu zasobów danych kuratorstwa oraz zaktualizowania zasobów danych, tak aby metadane były aktualne:

Zadanie Obowiązkowe? Częstość
Konfigurowanie projektu Tak Jednorazowe
Dodawanie połączeń do źródeł danych Tak Jednorazowe
Importowanie metadanych w celu utworzenia zasobów danych Tak Okresowe
Wzbogacanie zasobów danych o metadane i inne informacje Tak Okresowe
Rozstrzygnij dane jednostki, aby utworzyć pełny widok danych Nie Okresowe
Dostosowywanie analizy jakości danych Nie Okresowe
Publikowanie zasobów danych w katalogach Tak Okresowe

Cykl danych kuratorskie obejmuje kroki wymienione w tabeli.

Podczas tworzenia zasobów importowanych i wzbogacanych metadanych można zaplanować ich automatyczne uruchamianie lub uruchamianie na żądanie. Harmonogramy zadań można skonfigurować w interfejsie użytkownika lub za pomocą interfejsów API. Na przykład można zaplanować import metadanych dla konkretnej daty i godziny. Następnie można zaplanować wzbogacanie metadanych dla tych samych zasobów aplikacyjnych, które mają zostać uruchomione po zakończeniu importowania metadanych. Po zakończeniu wzbogacania metadanych przejrzyj wyniki, wprowadź niezbędne zmiany, a następnie opublikuj aktualizacje zasobów danych w katalogu.

Konfigurowanie projektu na potrzeby obsługi

Projekt to grupowy obszar roboczy, w którym osoby pracują z danymi w celu osiągnięcia współużytkowanego celu.

Aby poprawić spójność, można utworzyć konwencje dla projektów, takie jak:

  • Nazwy projektów: identyfikowanie projektów w spójny sposób, na przykład według przeznaczenia, zakresu dat lub zespołu.
  • Wymagania projektu: opis i odsyłacz do wymagań i zadań w systemach zewnętrznych w pliku Read me projektu.
  • Nazwy połączeń: identyfikowanie połączeń w spójny sposób, na przykład według źródła danych, nazwy tabeli lub przeznaczenia.

Projekt obsługi danych zwykle zawiera następujące typy elementów, które są jawnie dodawane przez zarządcę danych lub tworzone w wyniku procesu:

  • Zasoby połączenia dla źródeł danych, które zawierają dane do obsługi
  • Połączone zasoby danych, które są tworzone przez import metadanych
  • Zasoby aplikacyjne Metadata import
  • Zasoby aplikacyjne wzbogacania metadanych
  • Definicja jakości danych i zasoby reguł
  • Zasoby przepływu DataStage , które są tworzone przez uruchomienie reguł jakości danych
  • Zasoby danych, które zawierają tabele wyjściowe reguł jakości danych
  • Zadania utworzone przez uruchomienie zasobów

Dowiedz się więcej o tworzeniu projektów

Dodaj połączenia do źródeł danych

Zanim zarządcy danych będą mogli importować metadane w celu utworzenia połączonych zasobów danych, będą potrzebowali zasobów połączenia dla odpowiednich źródeł danych. Źródła danych mogą obejmować bazy danych, takie jak Db2, lub systemy plików, takie jak IBM Cloud Object Storage.

Zwykle organizacje dodają połączenia do Platform assets catalog , aby wszyscy użytkownicy mogli je znaleźć i wykorzystać. Na przykład inżynierowie danych mogą utworzyć zasoby aplikacyjne połączenia w Platform assets catalog, a następnie wszyscy użytkownicy mogą łatwo dodać te połączenia do swoich projektów. Alternatywnie można utworzyć połączenia w ramach projektu.

Podczas tworzenia połączeń należy zdecydować, w jaki sposób mają być obsługiwane referencje połączenia. Domyślnie referencje połączenia są oznaczone jako współużytkowane, co umożliwia wszystkim użytkownikom korzystanie z tych samych referencji w celu uzyskania dostępu do danych. Jeśli każdy użytkownik ma wprowadzać swoje osobiste referencje, należy wyłączyć współużytkowane referencje podczas tworzenia połączeń. Jeśli jednak połączenia wymagają osobistych referencji, należy upewnić się, że zarządcy danych mają referencje dla wszystkich połączeń, których potrzebują do obsługi.

Cloud Pak for Data obsługuje wiele połączeń, ale nie wszystkie z nich są obsługiwane na potrzeby importowania metadanych, wzbogacania metadanych i analizy jakości danych.

Więcej informacji o dodawaniu połączeń

Importowanie metadanych w celu utworzenia zasobów danych

Opcja Metadata import wykrywa wszystkie tabele lub pliki, które są dostępne z określonego połączenia ze źródłem danych. Można utworzyć połączone zasoby danych dla wszystkich lub wybranych tabel lub plików. Proces importowania metadanych tworzy również zasób aplikacyjny importu metadanych, który można ponownie uruchomić lub określić jako dane wejściowe na potrzeby wzbogacania metadanych.

Zwykle organizacje tworzą wiele zasobów importowanych metadanych dla jednego źródła danych. Każdy import metadanych zawiera tabele lub pliki, które mają podobną częstotliwość zmian w strukturze, schemacie lub wierszach danych. Następnie można uruchomić każdy import metadanych zgodnie z innym harmonogramem. Na przykład można utworzyć importy metadanych o następującej charakterystyce:

  • Import metadanych dla tabel z częstymi aktualizacjami, które mają być uruchamiane co tydzień.
  • Import danych metrycznych dla tabel z rzadko aktualizacjami, które mają być uruchamiane co miesiąc.
  • Import metadanych dla tabel z rzadkimi aktualizacjami, które są uruchamiane ręcznie w razie potrzeby.

Ponownie uruchom importowanie metadanych, aby wykryć następujące typy zmian w źródle danych:

  • Zasoby, które zostały dodane lub usunięte
  • Schematy tabel, które zostały zmienione
  • Aktualizacje metadanych zasobów, takie jak zmiany nazw lub zaktualizowane opisy

Po ponownym uruchomieniu importowania metadanych ponownie uruchom wzbogacanie metadanych.

Dowiedz się więcej o importowaniu metadanych

Wzbogacanie zasobów danych o metadane i inne informacje

Wzbogacanie metadanych dodaje informacje do połączonych zasobów danych. Można łatwo uruchomić wzbogacanie metadanych dla wszystkich tabel lub plików utworzonych za pomocą importu metadanych, ustawiając import metadanych jako zasięg danych. Proces wzbogacania metadanych tworzy również zadanie wzbogacania metadanych, które można ponownie uruchomić.

Zwykle organizacje tworzą wzbogacanie metadanych dla każdego importu metadanych. Następnie można łatwo synchronizować harmonogramy importu metadanych i wzbogacania metadanych. Można jednak tworzyć wzbogacenia metadanych dla pojedynczego połączonego zasobu danych, takiego jak tabela zwirtualizowana.

Po uruchomieniu wzbogacania metadanych dla zasobów danych informacje są dodawane w zależności od wybranych opcji wzbogacania:

  • Tylko profilowanie: dodaje klasy danych i statystyki.
  • Analiza i profilowanie jakości: dodaje oceny jakości, klasy danych i statystyki.
  • Przypisanie terminu: w przypadku uruchomienia bez profilowania terminy są przypisywane przy użyciu algorytmu uczenia maszynowego i dopasowywania nazw. W przypadku uruchamiania z profilowaniem terminy biznesowe mogą być również przypisywane na podstawie relacji z klasami danych.

Ustawiając wielkość próbkowania danych, można zrównoważyć dokładność i szybkość. Im większa próbka danych, tym dokładniejsza klasa danych i przypisania terminów biznesowych oraz analiza jakości danych, ale dłuższe zadanie wzbogacania metadanych trwa.

Chociaż można określić automatyczne przypisywanie klas danych i terminów biznesowych, należy przejrzeć wyniki. Dokładne przypisania klas danych i terminów biznesowych mają newralgiczne znaczenie. W przeciwnym razie informacje poufne mogą nie być maskowane lub chronione przez reguły ochrony danych. Im więcej zostanie uruchomione wzbogacanie metadanych i dopasowywanie klasy danych i przypisań terminów biznesowych, tym dokładniejszy będzie algorytm automatycznego przypisywania.

Uruchom ponownie wzbogacanie metadanych i standardową analizę jakości danych w następujących okolicznościach:

  • Po ponownym uruchomieniu importowania metadanych. W zależności od oczekiwanej liczby zmian w danych należy ponownie uruchomić wzbogacanie metadanych dla całego zasięgu danych importu lub tylko dla nowych lub zmienionych danych, na przykład w celu pobrania nowych tabel lub kolumn. Zmiany wartości danych w kolumnie mogą mieć wpływ na oceny jakości danych lub na klasy danych i przypisania terminów biznesowych.
  • Po wprowadzeniu zmian w dostępnych klasach danych i warunkach biznesowych. Zmiany w klasach danych i warunkach biznesowych mogą mieć wpływ na ich przypisania do kolumn.

Zadania wzbogacania metadanych mogą zająć znaczne ilości czasu, w zależności od wielkości danych. Korzystają również z zasobów obliczeniowych, które są fakturowane na koncie.

Dowiedz się więcej o wzbogacaniu metadanych

Rozwiąż problem z danymi jednostki, aby uzyskać pełny wgląd w dane

Aby upewnić się, że użytkownicy i systemy mają pełny, zaufany i zunifikowany widok danych klienta, należy użyć opcji IBM Match 360 , aby dopasować i skonsolidować dane z różnych źródeł oraz ustanowić pełny widok danych, zwany danymi głównymi.

Zdefiniuj model danych dla danych głównych, a następnie załaduj zasoby danych z całego przedsiębiorstwa i odwzoruj je na model. Następnie należy rozpocząć konfigurowanie systemu w celu spełnienia unikalnych wymagań organizacji. Skonfiguruj algorytm uzgadniania i uruchom go, aby utworzyć jednostki danych głównych. Przejrzyj udostępnione statystyki i wykresy, aby ocenić wyniki dopasowania. W zależności od wyników można dodatkowo dostroić algorytm i poprawić wyniki uzgadniania, dokonując przeglądu par lub zmieniając wagi i progi dopasowania.

Po udoskonaliniu algorytmu uzgadniania użytkownicy biznesowi mogą wyszukiwać i eksplorować dane główne, aby uzyskać kluczowe spostrzeżenia. Zarządcy danych mogą edytować, konserwować i remediować dane, a następnie eksportować je jako połączone dane lub w formacie CSV w celu użycia w innym miejscu.

Dowiedz się więcej o rozstrzyganiu danych jednostki

Dostosuj analizę jakości danych

Aby dostosować analizę jakości danych, należy utworzyć i uruchomić reguły jakości danych. Każda reguła jakości danych ma zastosowanie do zasobów danych z jednego źródła danych lub do pojedynczego zasobu danych z pliku. Reguły jakości danych są uruchamiane jako przepływy DataStage , które wymagają usługi DataStage .

Format i sposób definiowania warunków reguł jakości danych zależą od typu wyników, które mają być odbierane.

Wyniki Formatowanie Metoda
Zwraca stopień, w jakim kolumny są zgodne z warunkami reguły. Definicje jakości danych Użytkownik tworzy zasoby definicji jakości danych, do których odwołuje się co najmniej jedna reguła jakości danych. Logikę reguły można określić, rozmieszczając elementy blokowe na kanwie lub wprowadzając wyrażenie w edytorze dowolnym.
Zwraca kolumny, które nie spełniają warunków reguły. Instrukcje SQL Instrukcje SQL wprowadza się w każdej regule jakości danych.

W przypadku tworzenia reguł jakości danych, które zawierają definicje jakości danych, dostępne są następujące opcje:

  • Wielokrotne wykorzystanie tej samej definicji jakości danych w regule jakości danych.
  • Uwzględnij wiele definicji jakości danych w regule jakości danych.
  • Publikowanie definicji jakości danych w katalogu i ponowne wykorzystywanie ich w wielu projektach.
  • Utwórz proste reguły, które wiążą dane bezpośrednio i opcjonalnie tworzą łączenia dla powiązań.
  • Tworzenie złożonych reguł, w których dane są wstępnie przetwarzane w przepływach DataStage , a dane wyjściowe mogą być kierowane do połączeń wyjściowych DataStage .
  • Utwórz łączenia dla powiązań, aby użyć danych z wielu tabel w tabeli wyjściowej.
  • Utwórz zestawy parametrów w projekcie na potrzeby zarządzania wartościami i kolumnami literałów, które są powiązane ze zmiennymi reguł. Można również opublikować zestaw parametrów w katalogu i ponownie go wykorzystać w wielu projektach.
  • Ustaw maksymalną liczbę rekordów do oceny i metodę próbkowania.

Istnieje możliwość wysłania danych wyjściowych reguły jakości danych do zewnętrznej bazy danych w celu zachowania szczegółowego rekordu wyników reguły. Na przykład można uruchomić raporty lub wysłać informacje do zespołu ds. zarządzania danymi w celu naprawy problemów z jakością.

Dowiedz się więcej o analizie jakości danych

Publikowanie zasobów danych w katalogu

Istnieje możliwość opublikowania wielu wzbogaconych zasobów danych w katalogu w jednej operacji z poziomu zasobu aplikacyjnego wzbogacania metadanych lub z poziomu karty Zasoby aplikacyjne w projekcie.

Główne różnice między publikowaniem z karty Zasoby i z zasobu wzbogacania metadanych dotyczą obsługi zduplikowanych zasobów. W poniższej tabeli przedstawiono porównanie dostępnych opcji i ich efektów.

Metoda publikowania Publikowanie masowe? Opcje obsługi duplikatów Przypisania terminów biznesowych
Karta Zasoby Tak, można wybrać wiele zasobów aplikacyjnych do opublikowania razem. Aktualizuj oryginalne zasoby aplikacyjne
Nadpisz oryginalne zasoby aplikacyjne
Zezwalaj na duplikaty (jeśli ustawienia katalogu zawierają tę opcję)
Zachowaj oryginalne zasoby aplikacyjne i odrzuć duplikaty
Oryginalne przypisania terminów biznesowych mogą zostać usunięte.
Zasób wzbogacania metadanych Tak, można wybrać wiele zasobów aplikacyjnych do opublikowania razem. Aktualizuj oryginalne zasoby Warunki biznesowe z nowego zasobu są dodawane do oryginalnego zasobu. Oryginalne przypisania terminów biznesowych nie są usuwane.

Więcej informacji na temat publikowania w katalogu

Poprzednie zadania planowania

Następne zadania planowania

Temat nadrzędny: Planowanie implementacji nadzoru nad danymi

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more