Translation not up to date
Ten kurs umożliwia pracę z danymi wysokiej jakości i chronionymi po ukończeniu kursu Curate high quality data tutorial i Protect your data tutorial z zastosowaniem nadzoru nad danymi w wersji próbnej struktury danych. Twoim celem jest ocena, udostępnianie, kształtowanie i analizowanie danych w strukturze danych.
Historia kursu jest taka, że Golden Bank ma kilka działów, które wymagają dostępu do wysokiej jakości danych dotyczących kredytów hipotecznych dla klientów. Analityk danych będzie musiał wyszukać i znaleźć odpowiednie dane, zrozumieć i zaufać ich treści, a następnie przygotować je do użycia przez innych analityków danych i analityków danych.
Poniższy animowany obraz udostępnia szybki podgląd tego, co zostanie wykonane na zakończenie tego kursu, w którym można wyświetlać zasoby katalogowe, ręcznie wzbogacać zasoby i tworzyć relacje, wizualizować dane i filtrować dane w celu poprawy jakości. Kliknij obraz, aby wyświetlić większy obraz.
Podgląd kursu
W tym kursie zostaną wykonane następujące czynności:
- Skonfiguruj wymagania wstępne.
- Czynność 1: Zrozumieć zasoby danych.
- Czynność 2: Wzbogacanie zasobów i tworzenie relacji.
- Czynność 3: Dodawanie wzbogaconych danych do projektu
- Czynność 4: Wizualizuj dane.
- Czynność 5: Przygotowanie danych do analizy i sztucznej inteligencji.
- Procedura czyszcząca (opcjonalnie)
Obejrzyj ten film wideo, aby wyświetlić podgląd kroków tego kursu. W interfejsie użytkownika wyświetlanym na filmie wideo mogą występować niewielkie różnice. Film wideo ma być towarzyszem napisanego kursu.
Ten film wideo zawiera wizualną metodę zapoznawania się z pojęciami i zadaniami opisanymi w tej dokumentacji.
Użyj obrazu wideo
Wskazówka: Rozpocznij film wideo, a następnie podczas przewijania kursu film wideo przechodzi do trybu obrazowania. Zamknij spis treści wideo, aby uzyskać najlepsze doświadczenia z obrazem. Istnieje możliwość użycia trybu obrazowania w obrazie, dzięki czemu można śledzić film wideo podczas wykonywania zadań w tym kursie. Kliknij znaczniki czasu dla każdego zadania, które ma być wykonywane.Poniższy animowany obraz przedstawia sposób korzystania z funkcji obrazków wideo i spisu treści:
Uzyskaj pomoc w społeczności
Aby uzyskać pomoc dotyczącą tego kursu, można zadać pytanie lub znaleźć odpowiedź na forum dyskusyjnym społeczności Cloud Pak for Data.
Konfigurowanie okien przeglądarki
Aby uzyskać optymalne dopasowanie do tego kursu, otwórz stronę Cloud Pak for Data w jednym oknie przeglądarki i pozostaw ten kurs otwarty w innym oknie przeglądarki, aby łatwo przełączać się między dwiema aplikacjami. Rozważ rozmieszczenie dwóch okien przeglądarki obok siebie, aby ułatwić sobie śledzenie.
Wskazówka: Jeśli podczas wykonywania tego kursu w interfejsie użytkownika pojawi się prezentacja z przewodnikiem, kliknij opcję Być może później.
Początek strony
Ukończ wstępnie wymagane kursy
Aby wyświetlić podgląd tego zadania, należy obejrzeć film wideo o godzinie 00:39.
Ukończ kursy Curate high quality data i Protect your data :
- Kurs Curate high quality data (Curate High Quality Data) służy do importowania i wzbogacania zasobów danych oraz publikowania ich w katalogu.
- Kurs Chroń dane dotyczący tworzenia reguł ochrony danych i maskowania przepływów w celu ochrony danych.
Początek strony
Aby wyświetlić podgląd tego zadania, należy obejrzeć film wideo o godzinie 01:12.
Zasoby danych w katalogach to znacznie więcej niż wskaźniki do danych. Zawierają one informacje o formacie i znaczeniu danych oraz statystyki dotyczące wartości danych. Wykonaj następujące kroki, aby zrozumieć wartość zasobów danych:
Z Cloud Pak for Data menu nawigacyjnego wybierz opcję Katalogi > Wyświetl wszystkie katalogi.
Otwórz Katalog zatwierdzania kredytów hipotecznych.
Sekcja wyróżnione zasoby zawiera zasoby Ostatnio dodane , zasoby rekomendowane przez produkt Watson , które są sugerowanymi zasobami pochodzącymi ze sztucznej inteligencji i uczenia maszynowego w oparciu o dotychczasowe wykorzystanie i popularność oraz zasoby wysoko ocenione , które zostały ocenione i przejrzane przez współpracowników.
Kliknij opcję Ukryj wyróżnione zasoby , aby zamknąć tę sekcję.
Wyszukaj łańcuch
mortgage
.Kliknij opcję MORTGAGE_APPLICANTS_TRUST , aby wyświetlić ten zasób katalogu. Karta Przegląd i panel boczny udostępniają podstawowe informacje o zasobie, takie jak opis, ocena, znaczniki, gdzie znajduje się zasób, warunki biznesowe, klasy danych i elementy pokrewne.
Kliknij kartę Profil . Informacje o profilu ułatwiają zrozumienie treści, jakości i łatwości używania danych.
Przewiń w prawo, aby znaleźć kolumnę ZIP_CODE .
Klasa danych, która została automatycznie przypisana do kolumny ZIP_CODE to Commercial and Government Entity. Należy zauważyć, że automatycznie przypisana klasa danych może być różna. Ponieważ wartości są kodami poczkowymi, można łatwo ponownie sklasyfikować tę kolumnę. Kliknij listę rozwijaną, aby wyświetlić inne możliwe klasy danych i ich poziomy ufności. Wybierz opcję US Zip Code(Kod pocztowy w Stanach Zjednoczonych).
Kliknij kartę Zasób , aby wyświetlić podgląd danych.
Wróć do karty Przegląd , aby wyświetlić więcej metadanych dotyczących kolumn. Na liście kolumn wyszukaj kolumnę EMPLOYMENT_STATUS , aby wyświetlić metadane zawierające przypisane terminy biznesowe.
Sprawdź postęp
Na poniższym obrazku przedstawiono zasób MORTGAGE_APPLICANTS_TRUST w katalogu. Przeanalizowano typ informacji, które Watson Knowledge Catalog automatycznie dodaje do zasobów danych podczas wzbogacania metadanych. W następnym zadaniu zostanie ręcznie wzbogacone ten zasób danych.
Początek strony
Aby wyświetlić podgląd tego zadania, należy obejrzeć film wideo począwszy od wersji 02:49.
Można zwiększyć wartość zasobów, dodając do nich informacje. Na przykład można dodać opinię o zasobie aplikacyjnym, zaktualizować właściwości zasobu aplikacyjnego i utworzyć relacje w celu połączenia zasobów aplikacyjnych. Aby wzbogacić zasoby i utworzyć relacje, wykonaj następujące kroki:
Dla zasobu katalogu MORTGAGE_APPLICANTS_TRUST kliknij kartę Przegląd . Oceń i skomentuj ten zasób, aby inni mogli go łatwo znaleźć.
Jako ocenę wybierz 5 gwiazdek .
W celu przejrzenia należy skopiować i wkleić następujący tekst:
This contains high quality customer data from the mortgage system.
Kliknij przycisk Submit.
Kliknij kartę Przegląd.
Kliknij ikonę Edytuj znajdującą się obok nazwy zasobu aplikacyjnego, aby edytować nazwę zasobu aplikacyjnego.
Zmień nazwę na:
MORTGAGE_APPLICANTS_TRUST_PROTECT
Kliknij przycisk Zastosuj.
W sekcji Opis w panelu po prawej stronie kliknij przycisk Dodaj .
Uwaga:Jeśli ten zasób aplikacyjny ma istniejący opis, zamiast ikony Dodaj będzie wyświetlana ikona Edytuj .
Skopiuj i wklej następujący opis:
Mortgage applicants from the Mortgage System
Kliknij przycisk Zastosuj.
Ponieważ ten zasób aplikacyjny jest powiązany z pożyczkami hipotecznymi, obok opcji Warunki biznesowenależy kliknąć ikonę Dodaj .
W polu Szukaj wpisz
loan
.Uwaga: Po wpisaniu wyszukiwanego terminu nie trzeba naciskać klawisza Enter. Po wpisaniu wyszukiwanego terminu zostanie wyświetlona lista wyników.Wybierz opcję Kredyt.
Kliknij opcję Dodaj.
Ponieważ ten zasób zawiera dane osobowe, obok opcji Klasyfikacjekliknij ikonę Dodaj .
Wybierz opcję Informacje umożliwiające identyfikację tożsamości.
Kliknij opcję Dodaj.
Ponieważ ten zasób aplikacyjny jest powiązany z innymi zasobami hipotecznymi, obok pola Elementy pokrewnenależy kliknąć opcję Dodaj elementy pokrewne > Dodaj zasoby pokrewne.
Wybierz opcję Jest powiązane zi kliknij przycisk Dalej.
Wybierz zasoby CREDIT_SCORE i MORTGAGE_APPLICATION , a następnie kliknij opcję Dodaj.
Kliknij opcję MORTGAGE_APPLICATION , aby wyświetlić powiązany zasób.
Sprawdź postęp
Na poniższym obrazku przedstawiono kartę Przegląd dla zasobu aplikacyjnego MORTGAGE_APPLICANTS_TRUST_PROTECT w katalogu. Dzięki przeglądaniu, aktualizowaniu właściwości i dodawaniu relacji do zasobów aplikacyjnych zasoby te były bardziej wartościowe. W następnym zadaniu do projektu zostanie dodany wzbogacony zasób aplikacyjny.
Początek strony
Aby wyświetlić podgląd tego zadania, należy obejrzeć film wideo począwszy od wersji 04:09.
Zespół analityków danych potrzebuje danych osób ubiegających się o kredyt hipoteczny w projekcie analizy kredytu hipotecznego do uszczegółowienia, wizualizacji, analizy i wykorzystania jako dane szkoleniowe dla modeli. Aby dodać wzbogacone dane do projektu, wykonaj następujące kroki:
Kliknij opcję Katalog zatwierdzenia kredytu hipotecznego w ścieżce nawigacyjnej.
Na końcu wiersza zasobu aplikacyjnego katalogu MORTGAGE_APPLICANTS_TRUST_PROTECT kliknij menu Overflow i wybierz opcję Add to project(Dodaj do projektu).
Z listy rozwijanej Cel wybierz projekt Zarządzanie danymi .
Kliknij opcję Dodaj.
Po wyświetleniu powiadomienia kliknij opcję Idź do projektu. Jeśli powiadomienie nie zostanie wysłane, należy wykonać następujące czynności:
Kliknij Cloud Pak for Data menu nawigacyjne , a następnie wybierz opcję Projekty > Wyświetl wszystkie projekty.
Kliknij projekt Zarządzanie danymi .
W projekcie kliknij kartę Zasoby , aby wyświetlić zasób danych MORTGAGE_APPLICANTS_TRUST_PROTECT .
Sprawdź postęp
Na poniższym obrazku przedstawiono zasób aplikacyjny MORTGAGE_APPLICANTS_TRUST_PROTECT w projekcie. Teraz można przystąpić do wizualizacji danych.
Początek strony
Aby wyświetlić podgląd tej czynności, należy obejrzeć film wideo począwszy od wersji 04:39.
Należy oczyścić i doprecyzować dane kandydatów do obsługi kredytów hipotecznych, aby przygotować je do pracy z narzędziami analitycznymi i modelami. Szybkim i łatwym sposobem określenia, w jaki sposób należy je ukształtować, jest wizualizacja danych w oknie Data Refinery. Wizualizacja jest oparta na pierwszych 5000 wierszy danych. Aby zwizualizować dane, wykonaj następujące kroki:
Kliknij zasób danych MORTGAGE_APPLICANTS_TRUST_PROTECT , aby wyświetlić podgląd danych.
Kliknij opcję Przygotuj dane , aby otworzyć zasób danych w oknie Data Refineryi poczekać na odczytanie i przetworzenie danych.
W panelu Informacje o tym zasobie aplikacyjnym kliknij przycisk X , aby zamknąć panel.
W panelu Kroki kliknij znak X , aby zamknąć panel.
Kliknij kartę Wizualizacje .
W polu Kolumna do wizualizacjiwybierz pozycję EMPLOYMENT_STATUS.
Kliknij opcję Wizualizuj dane. Narzędzie wybiera wykres kołowy jako najlepszy typ wykresu dla tej kolumny, który przedstawia rozkład kandydatów według statusu zatrudnienia. Należy zwrócić uwagę na sugerowane typy wykresów, które są oznaczone niebieską kropką obok słupka, chmury słów i słonecznienia.
W polu Typ wykresuwybierz typ wykresu Bąbelkowy . Wykres bąbelkowy jest jednym z łatwych sposobów szybkiej wizualizacji rozkładu wartości w konkretnym zestawie danych.
Z listy rozwijanej Typ wykresu wybierz typ wykresu Relacja .
Ten typ wykresu wymaga dwóch kolumn. Wybierz następujące kolumny:
W pierwszej kolumnie wybierz pozycję EMPLOYMENT_STATUS.
Kliknij opcję Dodaj kolejną kolumnę.
Dla drugiej kolumnywybierz EDUCATION.
Za pomocą wykresu Relacja można wybrać punkty końcowe w celu wyświetlenia relacji. Na przykład można wyświetlić status zatrudnienia kandydatów według poziomu wykształcenia.
Sprawdź postęp
Na poniższym obrazku przedstawiono zasób aplikacyjny MORTGAGE_APPLICANTS_TRUST_PROTECT wizualizowany w obszarze Data Refinery. Teraz można przystąpić do czyszczenia danych.
Początek strony
Aby wyświetlić podgląd tego zadania, należy obejrzeć film wideo o godzinie 05:59.
Nie można przetwarzać kandydatów bez numeru ubezpieczenia społecznego, dlatego należy przejrzeć dane i usunąć wszystkich kandydatów bez numeru ubezpieczenia społecznego. Aby przygotować dane MORTGAGE_APPLICANTS_TRUST_PROTECT, wykonaj następujące czynności:
- Wyświetl częstotliwość wartości w kolumnie Social_Security_Number.
- Filtrowanie kandydatów z brakującymi wartościami w kolumnie Social_Security_Number.
Aby przygotować dane, wykonaj następujące kroki:
W oknie Data Refinerykliknij kartę Profile .
Przewiń w prawo, aby znaleźć kolumnę Social_Security_Number . Zwróć uwagę na kilka brakujących wartości.
Kliknij kartę Dane , aby odfiltrować te rekordy. Na pasku statusu w dolnej części ekranu opcja Data Refinery wskazuje, że PEŁNY ZESTAW DANYCH ma wartość 1101 wierszy.
Jeśli panel Kroki nie jest widoczny, kliknij opcję Kroki , aby otworzyć panel.
Kliknij opcję Nowy krok.
W sekcji Czyść wybierz opcję Filtr.
W polu Kolumna wybierz kolumnę Social_Security_Number .
W polu Operator wybierz opcję Nie jest puste.
Kliknij przycisk Zastosuj. Zauważ, że na pasku statusu w dolnej części ekranu opcja Data Refinery wskazuje, że PEŁNY ZESTAW DANYCH ma 1000 wierszy, ponieważ wiersze z brakującymi numerami ubezpieczenia społecznego są odfiltrowane. Zauważ, że na panelu Kroki zostanie wyświetlony nowy krok z operacją Filtr .
Kliknij kartę Profil .
Przewiń w prawo, aby znaleźć kolumnę Social_Security_Number . Należy zauważyć, że brakujące wartości zniknęły.
Na pasku narzędzi kliknij ikonę Zapisz .
Na pasku narzędzi kliknij ikonę Eksportuj i wybierz opcję Eksportuj bieżące dane do pliku CSV.
Zapisz plik MORTGAGE_APPLICANTS_TRUST_PROTECT_shaped.csv w folderze lokalnym.
Przejdź do tego folderu i otwórz plik CSV, który zawiera 1000 wierszy i żaden kandydat nie ma numeru ubezpieczenia społecznego.
Wróć do obszaru Cloud Pak for Datai kliknij projekt Zarządzanie danymi w ścieżce nawigacji.
Kliknij opcję Wszystkie zasobyi znajdź nowy zasób przepływu Data Refinery o nazwie MORTGAGE_APPLICANTS_TRUST_PROTECT_flow.
Wskazówka: Udoskonalony zestaw danych można zapisać w projekcie lub w zewnętrznym źródle danych, takim jak instancja Db2 Warehouse , w której przechowywane są oryginalne zestawy danych. Więcej informacji na ten temat zawiera sekcja Tworzenie zadań w programie Data Refinery.Sprawdź postęp
Na poniższym obrazku przedstawiono plik MORTGAGE_APPLICANTS_TRUST_PROTECT_shaped.csv , który został udoskonalony w sekcji Data Refinery. Ten zestaw danych zawiera informacje na temat tych osób ubiegających się o kredyt hipoteczny, które dostarczyły numer ubezpieczenia społecznego.
Początek strony
Jako analityk danych dla Golden Bank nauczyłeś się, jak wyszukiwać i odnajdywać właściwe dane, rozumieć i ufać ich treści, a następnie przygotowywać je do użycia przez innych analityków danych i analityków danych.
Czyszczenie (opcjonalne)
Aby ponownie skorzystać z kursów w przypadku zarządzania danymi, należy usunąć następujące artefakty.
Artefakt | Usuwanie |
---|---|
Zaimportowane terminy biznesowe | Usuwanie artefaktów zarządzania |
Kategoria bankowa | Usuwanie kategorii |
Zasady ochrony danych: Informacje poufne i numer ubezpieczenia społecznego | Usuwanie reguł ochrony danych |
Katalog zatwierdzania kredytu hipotecznego | Usuwanie katalogu |
Przykładowy projekt nadzoru nad danymi | Usuwanie projektu |
Następne kroki
Należy wypróbować kurs Govern virtualized data tutorial(Zarządzanie danymi wirtualnymi).
Należy wypróbować kurs Konfigurowanie widoku 360 stopni.
Zarejestruj się, aby skorzystać z innego przypadku użycia struktury danych.
Więcej inform.
Temat nadrzędny: Kursy dotyczące struktury danych