0 / 0
Wróć do wersji angielskiej dokumentacji
Przypadek użycia integracji danych
Przypadek użycia integracji danych

Przypadek użycia integracji danych

Aby radzić sobie z napływem woluminów i zróżnicowaniem źródeł danych, przedsiębiorstwa muszą budować automatyzację i inteligencję w swoich procesach integracji danych. Cloud Pak for Data as a Service udostępnia platformę i narzędzia umożliwiające dynamiczne i inteligentne harmonizowanie danych w rozproszonym krajobrazie w celu utworzenia wydajnej sieci błyskawicznie dostępnych informacji dla konsumentów danych.

Obejrzyj ten film wideo, aby wyświetlić przypadek użycia sieci Fabric do zaimplementowania rozwiązania do integracji danych w Cloud Pak for Data.

Ten film wideo udostępnia metodę wizualną jako alternatywę dla poniższych kroków opisowych w tej dokumentacji.

Wyzwania

W miarę wzrostu ich typów danych i woluminów przedsiębiorstwa stoją przed następującymi wyzwaniami w zakresie integracji danych:

Ingesting data from across the enterprise
Processes need to be able to ingest data from any application or system Niezależnie of whether the data rezyduje on the premises, in the cloud, or in a hybrid environment.

Integrowanie danych z wielu źródeł
Organizacje muszą być w stanie zautomatyzować masową spożycie, czyszczenie i złożone transformacje danych.

Udostępnienie danych dla użytkowników
Inżynierowie danych muszą mieć możliwość publikowania wszystkich zintegrowanych zestawów danych w jednym katalogu, a wszyscy użytkownicy, którzy muszą korzystać z danych, muszą mieć do niego dostęp samoobsługowy.

Użytkownik może rozwiązać te problemy i zintegrować swoje dane, korzystając z opcji Cloud Pak for Data as a Service.

Przykład: wyzwania Golden Bank

Podążaj za historią Złotego Banku, jako że zespół inżynierii danych wdraża integrację danych. Złoty Bank ma dużą ilość danych klientów i kredytów hipotecznych, które przechowywane są w trzech zewnętrznych źródłach danych. Nadawcy korzystają z tych informacji, aby pomóc im w decydowaniu o tym, czy powinny zatwierdzać lub odmawiać zastosowania hipoteki. Bank chce zintegrować dane z różnych źródeł, a następnie dostarczyć te przetransformowane dane do pojedynczego pliku wyjściowego, który może być współużytkowany.

Proces

Aby zaimplementować rozwiązanie integracji danych dla przedsiębiorstwa, organizacja może śledzić ten proces:

  1. Integrowanie danych
  2. Współużytkowanie danych
  3. Zautomatyzuj cykl życia danych

Usługi DataStage, Watson Query, Data Replicationi Watson Knowledge Catalog w produkcie Cloud Pak for Data as a Service udostępniają wszystkie narzędzia i procesy, które muszą być zaimplementowane przez organizację użytkownika w celu zaimplementowania rozwiązania do integracji danych.

Obraz przedstawiający przepływ przypadku użycia integracji danych

1. Integrowanie danych

Dzięki architekturze danych Cloud Pak for Data as a Serviceinżynierowie danych mogą optymalizować integrację danych przy użyciu obciążeń i strategii danych w celu wydajnego uzyskiwania dostępu do danych i pracy z nimi oraz łączenia zwirtualizowanych danych z różnych źródeł, typów i chmur, tak jakby dane pochodzą z jednego źródła danych. W tym kroku przetwarzane są dane surowe, spożycie, zwirtualizowane i przekształcone w materiały eksploatacyjne, wysokiej jakości dane, które są gotowe do eksplorowanego, a następnie zaaranżowane w cyklu życia AI.

Co można użyć Co można zrobić Najlepiej używać, gdy
Watson Query Zapytanie o wiele źródeł danych jako jedno. Inżynierowie danych mogą tworzyć wirtualne tabele danych, które mogą łączyć, łączyć lub filtrować dane z różnych relacyjnych źródeł danych.

Inżynierowie danych mogą następnie udostępnić wynikowe połączone dane jako zasoby danych w katalogach. Na przykład można użyć połączonych danych do kanałów kontrolnych, notebooków i przepływów, aby dane mogły być eksplorowane.
Aby wygenerować widoki, należy połączyć dane z wielu źródeł.

Należy udostępnić dane łączne jako zasoby danych w katalogu.
DataStage Inżynierowie danych mogą projektować i uruchamiać złożone potokiny danych ETL, które przenoszą i transformują dane. Konieczne jest zaprojektowanie i uruchomienie złożonych przepływów danych. Przepływy muszą obsługiwać duże ilości danych i łączyć się z szeroką gamą źródeł danych, integrować i transformować dane oraz dostarczać je do systemu docelowego w trybie wsadowym lub w czasie rzeczywistym.
Data Refinery Dostęp i doprecyzowanie danych pochodzących ze zróżnicowanych połączeń źródeł danych.

Materializuje wynikowe zestawy danych jako obrazy stanu w czasie, które mogą łączyć, łączyć, filtrować lub maskować dane w celu wykorzystania ich do analizowania i eksplorowania danych przez naukowców.

Tworzenie wynikowych zestawów danych dostępnych w katalogach.
Należy zwizualizować dane, gdy chcesz je ukształtować lub oczyścić.

Chcesz uprościć proces przygotowywania dużych ilości danych surowych do analizy.
Data Replication Dystrybuuj obciążenie integracji danych w wielu serwisach.

Zapewniamy nieprzerwaną dostępność danych.
Dane są rozprowadzane w wielu serwisach.

Dane użytkownika muszą być stale dostępne.


Przykład: integracja danych Golden Bank

Analitycy ryzyka w Golden Bank obliczają dzienną stopę procentową, którą rekomendowały oferowanie kredytobiorcom dla każdego zakresu ocen kredytowych. Inżynierowie danych korzystają z programu DataStage w celu agregowania anonimizowanych danych dotyczących aplikacji hipotecznych z danymi identyfikowanymi przez osoby ubiegające się o kredyt hipoteczny. DataStage integruje te informacje, w tym informacje o wyniku kredytowym dla każdego wnioskodawcy, całkowity dług wnioskodawcy oraz tabelę wyszukiwania stopy oprocentowania. Następnie inżynierowie danych ładują dane do docelowego wyjściowego pliku .csv, który może zostać opublikowany w katalogu i udostępniony do współużytkowania przez kredytodawców i analityków.


2. Udostępnij dane do współużytkowania

Katalog pomaga zespołom zrozumieć dane klienta i udostępnia odpowiednie dane do właściwego użycia. Analitycy danych i inni użytkownicy mogą pomóc sobie w zintegrowanych danych, które są im potrzebne, podczas gdy pozostają one zgodne z zasadami dostępu i ochrony danych w korporacji. Mogą one dodawać zasoby danych z katalogu do projektu, w którym współpracują w celu przygotowania, analizy i modelowania danych.

Co można użyć Co można zrobić Najlepiej używać, gdy
Katalogi Za pomocą katalogów w Watson Knowledge Catalog można organizować zasoby, które mają być współużytkowane przez współpracowników w organizacji.

Należy skorzystać z wyszukiwania i rekomendacji semantycznych opartych na AI, aby pomóc użytkownikom w znalezieniu tego, czego potrzebują.
Użytkownicy muszą łatwo zrozumieć, współpracować, wzbogacać i uzyskiwać dostęp do wysokiej jakości danych.

Użytkownik chce zwiększyć widoczność danych i współpracę między użytkownikami biznesowymi.

Użytkownicy muszą wyświetlać, uzyskiwać dostęp do danych, manipulować nimi i analizować dane bez zrozumienia jego fizycznego formatu lub lokalizacji, a także bez konieczności przenoszenia lub kopiowania danych.

Chcesz, aby użytkownicy zwiększyli zasoby według ocen i ich przeglądu.


Przykład: katalog Golden Bank

Lider zespołu ds. zarządzania w Golden Bank tworzy katalog, "Mortgage Approval Catalog" (Katalog Zatwierdzania Kredytów Hipotecznych) oraz dodaje zarządców danych i naukowców danych jako współpracowników katalogu. Zarządcy danych publikują zasoby danych, które zostały utworzone w katalogu. Naukowcy danych znajdują zasoby danych, kurowane przez dane zarządcze, w katalogu i kopiują te zasoby aplikacyjne do projektu. W swoim projekcie naukowcy danych mogą dopracować dane, aby przygotować go do szkolenia modelu.


Automatyzacja cyklu życia danych

Zespół może zautomatyzować i uprościć cykl życia danych przy użyciu programu Watson Pipelines.

Co można użyć Co można zrobić Najlepiej używać, gdy
Watson Pipelines Użyj rurociągów, aby utworzyć powtarzalne i zaplanowane przepływy, które automatyzują proces przyjmowania i integracji danych. Użytkownik chce zautomatyzować niektóre lub wszystkie kroki w przepływie integracji danych.


Przykład: zautomatyzowany cykl życia danych Golden Bank

Naukowcy danych w Golden Bank mogą korzystać z rurociągów, aby zautomatyzować ich cykl życia integracji danych, aby utrzymać aktualny stan danych.

Kursy dotyczące integracji danych

Samouczek Opis Ekspertyza dla kursu
Integrowanie danych Wyodrębnij, odfiltruj, dołączaj i transformuj dane. Użyj interfejsu przeciągania i upuszczania DataStage , aby transformować dane.
Wirtualizowanie danych zewnętrznych Zwirtualizowanie i łączenie tabel danych ze źródeł zewnętrznych. Za pomocą interfejsu Watson Query można zwirtualizować dane.
Replikuj dane Konfigurowanie w pobliżu czasu rzeczywistego i ciągłej replikacji między źródłowymi i docelowo bazami danych. Użyj narzędzia Data Replication , aby zreplikować dane.
Harmonizacja i potok AI z integracją danych Utwórz potok typu end-to-end, który przygotowuje dane i pociągi modelu. Za pomocą interfejsu Watson Pipelines przeciągnij i upuść interfejs, aby utworzyć potok.


Dodatkowe informacje

Temat nadrzędny: Przegląd rozwiązania dla sieci Fabric