Translation not up to date
Aby radzić sobie z napływem woluminów i zróżnicowaniem źródeł danych, przedsiębiorstwa muszą budować automatyzację i inteligencję w swoich procesach integracji danych. Cloud Pak for Data as a Service udostępnia platformę i narzędzia umożliwiające dynamiczne i inteligentne harmonizowanie danych w rozproszonym krajobrazie w celu utworzenia wydajnej sieci błyskawicznie dostępnych informacji dla konsumentów danych.
Obejrzyj ten film wideo, aby wyświetlić przypadek użycia sieci Fabric do zaimplementowania rozwiązania do integracji danych w Cloud Pak for Data.
Ten film wideo udostępnia metodę wizualną, która umożliwia poznanie pojęć i zadań w tej dokumentacji.
Wyzwania
W miarę wzrostu ich typów danych i woluminów przedsiębiorstwa stoją przed następującymi wyzwaniami w zakresie integracji danych:
- Ingesting danych z całego przedsiębiorstwa
- Procesy muszą mieć możliwość przyjmowania danych z dowolnej aplikacji lub systemu, niezależnie od tego, czy dane rezydują w pomieszczeniach, w chmurze, czy w środowisku hybrydowym.
- Integrowanie danych z wielu źródeł
- Inżynierowie danych muszą mieć możliwość łączenia danych z wielu źródeł danych w jeden zestaw danych w postaci pliku lub tabeli wirtualnej.
- Udostępnianie danych użytkownikom
- Inżynierowie danych muszą mieć możliwość publikowania wszystkich zintegrowanych zestawów danych w jednym katalogu, a wszyscy użytkownicy, którzy muszą korzystać z danych, muszą mieć do niego dostęp samoobsługowy.
Użytkownik może rozwiązać te problemy i zintegrować swoje dane, korzystając z opcji Cloud Pak for Data as a Service.
Przykład: wyzwania Golden Bank
Podążaj za historią Złotego Banku, jako że zespół inżynierii danych wdraża integrację danych. Złoty Bank ma dużą ilość danych klientów i kredytów hipotecznych, które przechowywane są w trzech zewnętrznych źródłach danych. Nadawcy korzystają z tych informacji, aby pomóc im w decydowaniu o tym, czy powinny zatwierdzać lub odmawiać zastosowania hipoteki. Bank chce zintegrować dane z różnych źródeł, a następnie dostarczyć te przetransformowane dane do pojedynczego pliku wyjściowego, który może być współużytkowany.
Proces
Aby zaimplementować rozwiązanie integracji danych dla przedsiębiorstwa, organizacja może śledzić ten proces:
Usługi DataStage, Watson Query, Data Replicationi Watson Knowledge Catalog w produkcie Cloud Pak for Data as a Service udostępniają wszystkie narzędzia i procesy, które muszą być zaimplementowane przez organizację użytkownika w celu zaimplementowania rozwiązania do integracji danych.
1. Integrowanie danych
Dzięki architekturze danych Cloud Pak for Data as a Serviceinżynierowie danych mogą optymalizować integrację danych przy użyciu obciążeń i strategii danych w celu wydajnego uzyskiwania dostępu do danych i pracy z nimi oraz łączenia zwirtualizowanych danych z różnych źródeł, typów i chmur, tak jakby dane pochodzą z jednego źródła danych. W tym kroku przetwarzane są dane surowe, spożycie, zwirtualizowane i przekształcone w materiały eksploatacyjne, wysokiej jakości dane, które są gotowe do eksplorowanego, a następnie zaaranżowane w cyklu życia AI.
Co można użyć | Co można zrobić | Najlepiej używać, gdy |
---|---|---|
Watson Query | Zapytanie o wiele źródeł danych jako jedno. Inżynierowie danych mogą tworzyć wirtualne tabele danych, które mogą łączyć, łączyć lub filtrować dane z różnych relacyjnych źródeł danych. Inżynierowie danych mogą następnie udostępnić wynikowe połączone dane jako zasoby danych w katalogach. Na przykład można użyć połączonych danych do kanałów kontrolnych, notebooków i przepływów, aby dane mogły być eksplorowane. |
Aby wygenerować widoki, należy połączyć dane z wielu źródeł. Należy udostępnić dane łączne jako zasoby danych w katalogu. |
DataStage | Inżynierowie danych mogą projektować i uruchamiać złożone potokiny danych ETL, które przenoszą i transformują dane. | Konieczne jest zaprojektowanie i uruchomienie złożonych przepływów danych. Przepływy muszą obsługiwać duże ilości danych i łączyć się z szeroką gamą źródeł danych, integrować i transformować dane oraz dostarczać je do systemu docelowego w trybie wsadowym lub w czasie rzeczywistym. |
Data Refinery | Dostęp i doprecyzowanie danych pochodzących ze zróżnicowanych połączeń źródeł danych. Materializuje wynikowe zestawy danych jako obrazy stanu w czasie, które mogą łączyć, łączyć, filtrować lub maskować dane w celu wykorzystania ich do analizowania i eksplorowania danych przez naukowców. Tworzenie wynikowych zestawów danych dostępnych w katalogach. |
Należy zwizualizować dane, gdy chcesz je ukształtować lub oczyścić. Chcesz uprościć proces przygotowywania dużych ilości danych surowych do analizy. |
Data Replication | Dystrybuuj obciążenie integracji danych w wielu serwisach. Zapewniamy nieprzerwaną dostępność danych. |
Dane są rozprowadzane w wielu serwisach. Dane użytkownika muszą być stale dostępne. |
Przykład: integracja danych Golden Bank
Analitycy ryzyka w Golden Bank obliczają dzienną stopę procentową, którą rekomendowały oferowanie kredytobiorcom dla każdego zakresu ocen kredytowych. Inżynierowie danych korzystają z programu DataStage w celu agregowania anonimizowanych danych dotyczących aplikacji hipotecznych z danymi identyfikowanymi przez osoby ubiegające się o kredyt hipoteczny. DataStage integruje te informacje, w tym informacje o wyniku kredytowym dla każdego wnioskodawcy, całkowity dług wnioskodawcy oraz tabelę wyszukiwania stopy oprocentowania. Następnie inżynierowie danych ładują dane do docelowego wyjściowego pliku .csv, który może zostać opublikowany w katalogu i udostępniony do współużytkowania przez kredytodawców i analityków.
Automatyzacja cyklu życia danych
Zespół może zautomatyzować i uprościć cykl życia danych przy użyciu Watson Pipelines.
Co można użyć | Co można zrobić | Najlepiej używać, gdy |
---|---|---|
Watson Pipelines | Użyj rurociągów, aby utworzyć powtarzalne i zaplanowane przepływy, które automatyzują proces przyjmowania i integracji danych. | Użytkownik chce zautomatyzować niektóre lub wszystkie kroki w przepływie integracji danych. |
Przykład: zautomatyzowany cykl życia danych Golden Bank
Naukowcy danych w Golden Bank mogą korzystać z rurociągów, aby zautomatyzować ich cykl życia integracji danych, aby utrzymać aktualny stan danych.
Kursy dotyczące integracji danych
Samouczek | Opis | Ekspertyza dla kursu |
---|---|---|
Integracja danych | Wyodrębnij, odfiltruj, dołączaj i transformuj dane. | Użyj interfejsu przeciągania i upuszczania DataStage , aby transformować dane. |
Wirtualizowanie danych zewnętrznych | Zwirtualizowanie i łączenie tabel danych ze źródeł zewnętrznych. | Za pomocą interfejsu Watson Query można zwirtualizować dane. |
Replikuj dane | Konfigurowanie w pobliżu czasu rzeczywistego i ciągłej replikacji między źródłowymi i docelowo bazami danych. | Użyj narzędzia Data Replication , aby zreplikować dane. |
Harmonizacja i potok AI z integracją danych | Utwórz potok typu end-to-end, który przygotowuje dane i pociągi modelu. | Użyj interfejsu przeciągania i upuszczania Watson Pipelines , aby utworzyć potok. |
Więcej inform.
- Przegląd DataStage
- Watson Query -przegląd
- Przegląd produktu Watson Knowledge Catalog
- Data Replication
- Wideo
Temat nadrzędny: Przegląd rozwiązania dla sieci Fabric