Dodawanie danych i odwzorowywanie ich na model danych (IBM Match 360)

Translation not up to date

The translation of this page does not represent the latest version. For the latest updates, see the English version of the documentation.

Go back to the English version of the documentation

Dodawanie danych i odwzorowywanie ich na model danych (IBM Match 360)

Last updated: 31 sie 2023

Dodawanie danych i odwzorowywanie ich na model danych (IBM Match 360)

Każde źródło danych lub zasób musi zostać odwzorowany i opublikowany w modelu danych, zanim będzie można go użyć w funkcjach programu IBM Match 360 , takich jak dopasowanie.

wymagane uprawnienia: Aby dodawać, odwzorowywać i publikować zasoby danych w głównej instancji danych, należy być członkiem grupy użytkowników DataEngineer dla usługi IBM Match 360 .; W przypadku pracy z katalogiem regulowanym można tylko wyświetlać lub dodawać zasoby katalogowe, do których użytkownik jest właścicielem zasobu danych.

Produkt IBM Match 360 zawiera potężną możliwość automatyzacji, która usuwa konieczność ręcznego odwzorowania poszczególnych kolumn danych na model przez inżynierów danych. Funkcja automatyzacji wykrywa, analizuje i kategoryzuje każdą kolumnę danych do odpowiednich atrybutów lub pól w modelu danych. Zanim możliwe będzie uruchomienie automatycznego odwzorowania, należy profilować dane. Profilowanie analizuje i klasyfikuje dane, aby umożliwić zautomatyzowanie procesu automatycznego.

Profilowanie i automatyzacja są obsługiwane tylko dla typów rekordów osób i organizacji. W przypadku innych typów rekordów należy ręcznie odwzorować kolumny na model danych.

W tym temacie:

Dodawanie danych rekordu z zwykłego pliku danych
Dodawanie danych lub źródeł przy użyciu projektu
Odwzorowywanie danych na model danych
Dodawanie danych relacji z zwykłego pliku danych
Publikowanie przykładowych danych

Dodawanie danych rekordu z tekstowego pliku danych

Aby dodać dane rekordu do programu IBM Match 360 z pliku danych CSV lub TSV:

W menu nawigacyjnym kliknij opcję Konfiguracja danych , aby otworzyć ekran konfiguracji danych. Kliknij opcję Uruchom z zasobami danych lub wybierz kartę Zasoby .
Kliknij ikonę Prześlij zasób aplikacyjny do projektu na pasku działań.
Z poziomu panelu Dane, który zostanie otwarty, wybierz, czy dane mają być dodawane, czy mają być przesyłane, czy z projektu, czy z katalogu. Aby przesłać plik danych, należy wybrać opcję Ładuj.
Na komputerze lokalnym wybierz płaski plik danych w formacie CSV lub TSV i przeciągnij go do panelu Dane. Po zakończeniu przesyłania pliku jest on dodawany do listy podsumowania zasobów.
Zapoznaj się ze szczegółami nowo dodanego zasobu aplikacyjnego. Jeśli zasób nie zawiera żadnych informacji w kolumnie Typ danych zasobu aplikacyjnego , należy zdefiniować typ rekordu. Typ danych zasobu zawiera informacje na temat typu danych, jakie zawiera każdy zasób. Ważne jest przypisanie typu rekordu do każdego zasobu, tak aby IBM Match 360 mógł znaleźć część modelu danych, która najlepiej pasuje do danych.

a. Umieść wskaźnik myszy nad wierszem zasobu na liście podsumowania zasobów aplikacyjnych, a następnie kliknij menu przepełnienia trójpunktowego. Alternatywnie, aby edytować właściwości zasobu dla więcej niż jednego zasobu jednocześnie, zaznacz pole wyboru obok wielu zasobów na liście podsumowania zasobów aplikacyjnych.

b. Kliknij opcję Ustaw właściwości zasobu aplikacyjnego.

c. Wybierz opcję Rekordy z listy Kategoria danych zasobu aplikacyjnego .

d. Wybierz poprawny typ jednostki z listy Typ danych zasobu aplikacyjnego i kliknij przycisk Zapisz.

Jeśli odpowiedni typ jednostki nie znajduje się na liście typów danych zasobu aplikacyjnego, może być konieczne dostosowanie modelu danych. Więcej informacji na ten temat zawiera sekcja Dostosowywanie modelu danych.

Następny krok: Odwzoruj dane do modelu danych

Dodawanie danych lub źródeł przy użyciu projektu

Za pomocą projektu można dodawać zasoby danych, źródła lub połączenia do programu IBM Match 360 .

Można użyć programu IBM Match 360 jako połączonego źródła danych lub celu. Aby uzyskać informacje na temat konfigurowania połączenia IBM Match 360 i korzystania z niego, zapoznaj się z informacjami w sekcji PołączenieIBM Match 360.

Wszystkie pliki zasobów danych, które mają zostać załadowane do programu IBM Match 360 , muszą zawierać rozszerzenie obsługiwanego typu, takie jak .csv lub .tsv. To wymaganie obejmuje zasoby aplikacyjne, które już znajdują się w projekcie. Jeśli nazwa zasobu aplikacyjnego w projekcie nie zawiera obsługiwanego rozszerzenia pliku, podczas próby jego dodania pojawi się zaciemnione informacje. Aby edytować nazwę zasobu aplikacyjnego w projekcie, przejdź do karty Zasoby projektu, wybierz zasób, a następnie zmień nazwę w panelu Informacje o tym zasobie aplikanowym .

Obejrzyj ten film wideo, aby zobaczyć, jak utworzyć połączenie i dodać połączone dane do projektu.

Ten film wideo udostępnia metodę wizualną, która umożliwia poznanie pojęć i zadań w tej dokumentacji.

Transkrypcja

Synchronizuj transkrypcj z wideo

Zapis wideo
Czas	Transkrypcja
00:00	W tym filmie wideo pokazano, jak skonfigurować połączenie ze źródłem danych i dodać połączone dane do projektu Watson Studio .
00:08	Jeśli istnieją dane zapisane w źródle danych, można skonfigurować połączenie z tym źródłem danych z dowolnego projektu.
00:16	W tym miejscu można dodać różne elementy do projektu.
00:20	W takim przypadku należy dodać połączenie.
00:24	Użytkownik może utworzyć nowe połączenie z usługą IBM , taką jak IBM Db2 i Cloud Object Storage, albo do usługi od osób trzecich, takich jak Amazon, Microsoft lub Apache.
00:39	Można także filtrować listę w oparciu o zgodne usługi.
00:45	Można również dodać połączenie, które zostało utworzone na poziomie platformy, które może być używane w projektach i katalogach.
00:54	Można również utworzyć połączenie z jedną z udostępnianych usług IBM Cloud .
00:59	W takim przypadku należy wybrać udostępnionej usługi IBM Cloud dla produktu Db2 Warehouse on Cloud.
01:08	Jeśli referencje nie są wstępnie zapełnione, można uzyskać informacje autoryzacyjne dla instancji z poziomu strony uruchamiania usługi IBM Cloud .
01:17	Najpierw przetestuj połączenie, a następnie utwórz połączenie.
01:25	Nowe połączenie zostanie teraz wyświetlone na liście zasobów danych.
01:30	Następnie dodaj połączone zasoby danych do tego projektu.
01:37	Wybierz źródło-w tym przypadku jest to właśnie utworzone połączenie Db2 Warehouse on Cloud (Db2 Warehouse on Cloud).
01:43	Następnie wybierz schemat i tabelę.
01:50	Można zauważyć, że spowoduje to dodanie odwołania do danych w ramach tego połączenia i włączenie go do projektu docelowego.
01:58	Podaj nazwę i opis i kliknij przycisk "Utwórz".
02:06	Dane są teraz wyświetlane na liście zasobów danych.
02:09	Otwórz zestaw danych, aby uzyskać podgląd; a z tego miejsca można przejść bezpośrednio do procesu dopracowania danych.
02:17	Więcej filmów wideo można znaleźć w dokumentacji Cloud Pak for Data as a Service .

Więcej informacji na temat dodawania danych bezpośrednio do projektu zawiera sekcja Dodawanie danych do projektu.

Po dodaniu danych należy je odwzorować na model danych IBM Match 360 . Szczegółowe informacje na ten temat zawiera sekcja Odwzoruj dane w modelu danych.

Odwzorowywanie danych na model danych

Aby odwzorować zasób danych na model danych IBM Match 360 :

Na ekranie Konfiguracja danych kliknij kartę Odwzorowanie .
Z listy Zasoby wybierz zasób danych, który ma zostać odwzorowany w systemie. Dane z zasobu są wyświetlane w formacie tabelarycznym z licznymi wierszami i kolumnami. Każda kolumna reprezentuje atrybut, który musi być odwzorowany na odpowiedni typ atrybutu w modelu danych. Po pierwszym otwarciu źródła danych lub zasobu każda kolumna jest oznaczona znacznikiem Not Mapped (Nie odwzorowano).

Wskazówka: każdą kolumnę można odwzorować ręcznie, jeśli zostanie wybrana, ale można znacznie przyspieszyć proces odwzorowywania, korzystając z funkcji automatycznego odwzorowania.
Aby włączyć automatyczne ograniczanie dla tego źródła lub zasobu, należy najpierw profilować dane. Kliknij opcję Profil. Profilowanie analizuje i klasyfikuje dane, aby umożliwić zautomatyzowanie procesu automatycznego. Profilowanie może zająć trochę czasu, więc działa on w tle, dzięki czemu można kontynuować pracę. Użytkownik może rozpocząć przeglądanie i ręczne odwzorowywanie niektórych kolumn.

Automatyzacja nigdy nie nadpisuje żadnego ręcznego odwzorowania, które zostało wykonane.
Po zakończeniu profilowania kliknij opcję Automap. Firma IBM Match 360 with Watson analizuje dane i automatycznie odwzorowuje jak największą liczbę kolumn w modelu danych. Nawet jeśli nie można odwzorować konkretnej kolumny, funkcja automap może zasugerować niektóre z najbardziej prawdopodobnych odwzorowań.
Przejrzyj wyniki automatycznego odwzorowania. Jeśli dowolne z odwzorowań jest niepoprawne lub jeśli kolumna pozostaje nieodwzorowana, ręcznie odwzoruj je ręcznie. Alternatywnie, jeśli określona kolumna nie jest wymagana, można ją wykluczyć z ładowania danych IBM Match 360 with Watson .
Aby ręcznie odwzorować kolumnę, wybierz ją, a następnie użyj panelu Odwzorowywanie celów , aby wyszukać i wybrać odpowiedni atrybut lub pole z modelu danych. Kliknij opcję Odwzoruj i zapisz w modelu danych. Jeśli odpowiedni atrybut lub pole nie istnieje w modelu danych, można utworzyć jeden z nich na panelu Odwzorowywanie celów . Kliknij przycisk + , aby utworzyć i podać szczegóły nowego pola lub atrybutu.

Jeśli zostanie wybrana opcja utworzenia atrybutu prostego zamiast przypisywania istniejącego typu atrybutu, nowy prosty atrybut zostanie dodany bezpośrednio do typu akt na karcie Modelowanie . Nie jest on skategoryzowany w obszarze Typy atrybutów.
Przewiń w poziomie w poziomie, aby upewnić się, że każda kolumna w źródle danych lub zasobie jest odwzorowana. Jeśli jakiekolwiek kolumny nie są odwzorowane, automatycznie lub jawnie wykluczone z odwzorowania, zasób danych pozostaje w stanie Odwzorowywanie w toku .

Aby wykluczyć kolumnę z odwzorowania, należy wybrać kolumnę, a następnie wybrać opcję Wyklucz tę kolumnę z odwzorowania.
Po zakończeniu odwzorowania źródła danych można przystąpić do publikowania danych w systemie.
- Jeśli model danych jest nowy lub został zmieniony, należy najpierw opublikować model, klikając ikonę modelu publikowania na pasku działań. Poczekaj na zakończenie zadania publikowania.
- Aby opublikować dane, kliknij ikonę publikowania danych na pasku działań. Poczekaj na zakończenie zadania publikowania.
Wróć do strony przeglądu konfiguracji, wybierając opcję Przegląd konfiguracji z menu nawigacyjnego.
Na stronie przeglądu konfiguracji potwierdź, że masz co najmniej jedno źródło danych lub zasób, który został dodany i odwzorowany.

Dodawanie danych relacji z płaskiego pliku danych

Zanim możliwe będzie załadowanie zasobu danych relacji do IBM Match 360, należy najpierw zdefiniować odpowiedni typ relacji w modelu danych. Szczegółowe informacje na ten temat zawiera sekcja Dostosowywanie modelu danych.

Wskazówka: Po zdefiniowaniu nowego typu relacji należy upewnić się, że model danych został opublikowany.

Zasoby danych relacji są formatowane w postaci wierszy z ogranicznikami (CSV lub TSV). Istnieje kilka wymaganych kolumn danych:

Identyfikatory rekordów dla obu podmiotów w każdej relacji
Typy rekordów dla obu podmiotów w każdej relacji
Rejestrowanie źródeł dla obu stron w każdej relacji

Zasób danych relacji można utworzyć ręcznie, za pomocą procesu ETL lub za pomocą aplikacji, w której przechowywane są relacje.

Aby dodać dane relacji do programu IBM Match 360 z pliku danych CSV lub TSV, wykonaj następujące czynności:

W menu nawigacyjnym kliknij opcję Konfiguracja danych , aby otworzyć ekran konfiguracji danych. Kliknij opcję Uruchom z zasobami danych lub wybierz kartę Zasoby .
Ładuj, odwzoruj i opublikuj zasoby danych akt w IBM Match 360. Te zasoby danych powinny zawierać dane rekordu, które mają zostać powiązane z użyciem relacji. Szczegółowe informacje na ten temat zawiera sekcja Dodawanie danych rekordu z płaskiego pliku danych i Odwzorowanie danych na model danych.
Załaduj plik zasobu danych relacji:

a. Kliknij ikonę Prześlij zasób aplikacyjny do projektu na pasku działań.

b. Z poziomu panelu Dane, który zostanie otwarty, wybierz, czy dane mają być dodawane, czy mają być przesyłane, czy z projektu, czy z katalogu. Aby przesłać plik danych, należy wybrać opcję Ładuj.

Uwaga: Jeśli dane obejmują katalogi zarządzane, może nie być możliwe wyświetlenie lub dodanie niektórych zasobów katalogu. W zależności od uprawnień użytkownik może mieć możliwość wyświetlania tylko zasobów katalogu, których właścicielem jest użytkownik lub którymi zarządza.

c. Na komputerze lokalnym wybierz płaski plik danych zawierający dane relacji w formacie CSV lub TSV i przeciągnij go do panelu Dane. Po zakończeniu przesyłania pliku jest on dodawany do listy podsumowania zasobów.
Zapoznaj się ze szczegółami nowo dodanego zasobu relacji.
Umieść wskaźnik myszy nad wierszem zasobu relacji na liście podsumowania zasobów aplikacyjnych, a następnie kliknij menu przepełnienia trójpunktowego.
Kliknij opcję Ustaw właściwości zasobu aplikacyjnego.
Wybierz opcję Relacje z listy Kategoria danych zasobu aplikacyjnego .
Wybierz poprawny typ relacji z listy Typ danych zasobu aplikacyjnego i kliknij przycisk Zapisz. Jeśli odpowiedni typ relacji nie znajduje się na liście typów danych zasobu aplikacyjnego, może być konieczne dostosowanie modelu danych. Więcej informacji na ten temat zawiera sekcja Dostosowywanie modelu danych.
Odwzoruj i opublikuj zasób danych relacji. Szczegółowe informacje na ten temat zawiera sekcja Odwzorowanie danych na model danych. Należy pamiętać o odwzorowaniu każdej z wymaganych kolumn danych: from record ID, to record ID, from record type, to record type, from record sourcei to record source.

Ograniczenie: Dane relacji nie obsługują profilowania i automatycznego odwzorowania. Ręcznie odwzoruj kolumny na model danych.

Publikowanie przykładowych danych

Jeśli nie masz własnych zasobów danych gotowych do wykonania, ale chcesz rozpocząć korzystanie z usługi IBM Match 360 , załaduj udostępnione przykładowe dane i model zamiast.

Aby załadować przykładowe dane programu IBM Match 360 :

Przejdź do strony głównej danych głównych.
Na kaflu Dane główne kliknij opcję Publikuj przykładowy model.
Po zakończeniu publikowania przykładowego modelu kliknij opcję Publikuj przykładowe dane.
Opcjonalnie przejdź do karty Zadania , aby obserwować postęp wykonywania przykładowych zadań ładowania. Jeśli nie chcesz oglądać postępu, możesz przejść do innego ekranu, a zadania będą nadal działać w tle.

Następne kroki

Więcej inform.

Temat nadrzędny: Konfigurowanie danych głównych