Translation not up to date
Syntetyczne dane tabelaryczne można wygenerować w IBM watsonx.ai. Korzyścią dla danych syntetycznych jest to, że można zakupić dane na żądanie, a następnie dostosować, tak aby pasowały do przypadku użycia, i produkować je w dużych ilościach. Ten kurs pomaga nauczyć się używania graficznego edytora przepływu, Synthetic Data Generator, do generowania danych tabelarycznych na podstawie danych produkcyjnych lub niestandardowego schematu danych przy użyciu wizualnych przepływów i algorytmów modelowania.
- Wymagane usługi
- Watson Studio
Podstawowy przepływ pracy obejmuje następujące zadania:
- Otwórz projekt. Projekty służą do współpracy z innymi osobami w celu pracy z danymi.
- Dodaj swoje dane do projektu. Za pomocą połączenia można dodać pliki CSV lub dane ze zdalnego źródła danych.
- Utwórz i uruchom syntetyczny przepływ danych do projektu. Narzędzie graficznego edytora przepływu Synthetic Data Generator służy do generowania syntetycznych danych tabelarycznych na podstawie danych produkcyjnych lub niestandardowego schematu danych przy użyciu przepływów wizualnych i algorytmów modelowania.
- Przejrzyj przepływ danych syntetycznych i dane wyjściowe.
Przeczytaj informacje na temat danych syntetycznych
Dane syntetyczne to informacje, które zostały wygenerowane na komputerze w celu rozszerzenia lub zastąpienia rzeczywistych danych w celu poprawy modeli AI, ochrony danych wrażliwych i złagodzenia bias. Dane syntetyczne pomagają złagodzić wiele problemów logistycznych, etycznych i prywatności, które są związane z modelami uczenia maszynowego na przykładach realnych.
Obejrzyj film wideo na temat generowania syntetycznych danych tabelarycznych
Obejrzyj ten film wideo w celu wyświetlenia podglądu kroków w tym kursie. W interfejsie użytkownika mogą wystąpić niewielkie różnice w interfejsie wideo. Film ma być towarzyszem napisanego kursu.
Ten film wideo udostępnia metodę wizualną, która umożliwia poznanie pojęć i zadań w tej dokumentacji.
Wypróbuj kurs, aby wygenerować syntetyczne dane tabelaryczne
W tym kursie zostaną wykonane następujące zadania:
- Czynność 1: Otwieranie projektu
- Czynność 2: Dodawanie danych do projektu
- Czynność 3: Tworzenie przepływu danych syntetycznych
- Czynność 4: Przegląd przepływu danych i danych wyjściowych
Użyj obrazu wideo
Wskazówka: Rozpocznij film wideo, a następnie podczas przewijania kursu film wideo przechodzi do trybu obrazowania. Zamknij spis treści wideo, aby uzyskać najlepsze doświadczenia z obrazem. Istnieje możliwość użycia trybu obrazowania w obrazie, dzięki czemu można śledzić film wideo podczas wykonywania zadań w tym kursie. Kliknij znaczniki czasu dla każdego zadania, które ma być wykonywane.Poniższy animowany obraz przedstawia sposób korzystania z funkcji obrazków wideo i spisu treści:
Uzyskaj pomoc w społeczności
Aby uzyskać pomoc dotyczącą tego kursu, można zadać pytanie lub znaleźć odpowiedź na forum dyskusyjnym społeczności Cloud Pak for Data.
Skonfiguruj okna przeglądarki
Aby uzyskać optymalne doświadczenie związane z ukończeniem tego kursu, należy otworzyć program Cloud Pak for Data w jednym oknie przeglądarki i pozostawić otwartą stronę kursu w innym oknie przeglądarki, aby można było łatwo przełączać się między tymi aplikacjami. Rozważ zorganizowanie dwóch okien przeglądarki, aby ułatwić jej śledzenie.
Wskazówka: Jeśli podczas wypełniania tego kursu w interfejsie użytkownika wystąpi prezentacja z przewodnikiem, kliknij opcję Może później.
Powrót do góry
Do przechowywania zasobów wymagany jest projekt.
Obejrzyj film wideo, aby zobaczyć, w jaki sposób utworzyć projekt środowiska testowego i powiązać usługę. Następnie należy wykonać kroki, aby sprawdzić, czy istnieje projekt lub utworzyć projekt środowiska testowego.
Ten film wideo udostępnia metodę wizualną, która umożliwia poznanie pojęć i zadań w tej dokumentacji.
Na ekranie głównym watsonx przewiń stronę do sekcji Projekty . Jeśli wyświetlone zostaną wszystkie wymienione projekty, przejdź do Zadania 2. Jeśli projekty nie są widoczne, należy wykonać następujące kroki, aby utworzyć projekt.
Kliknij opcję Utwórz projekt środowiska testowego. Po utworzeniu projektu w sekcji Projekty zostanie wyświetlony projekt środowiska testowego.
Aby uzyskać więcej informacji lub obejrzeć film wideo, należy zapoznać się z sekcją Tworzenie projektu.
Sprawdź postęp
Na poniższym obrazku przedstawiono ekran główny z piaskownicy wymienionym w sekcji Projekty. Teraz można otworzyć laboratorium podpowiedzi.
Powrót do góry
Aby wyświetlić podgląd tej czynności, należy obejrzeć film wideo o godzinie 00:24.
Zestaw danych używany w tym kursie zawiera typowe informacje, które firma zbiera na temat swoich klientów i jest dostępna w próbkach. Aby znaleźć zestaw danych w przykładach i dodać go do projektu, wykonaj następujące kroki:
Uzyskaj dostęp do zestawu danych Customers w przykładach.
Kliknij opcję Dodaj do projektu.
Wybierz projekt z listy, a następnie kliknij przycisk Dodaj.
Po dodaniu zestawu danych kliknij opcję Wyświetl projekt.
Więcej informacji na temat dodawania zasobów danych z przykładów do projektu można znaleźć w sekcji Ładowanie i uzyskiwanie dostępu do danych w notatniku.
Sprawdź postęp
Na poniższym obrazku przedstawiono kartę Zasoby w projekcie. Teraz jesteś gotowy do utworzenia syntetycznego przepływu danych.
Powrót do góry
Aby wyświetlić podgląd tej czynności, należy obejrzeć film wideo o godzinie 00:43.
Użyj Synthetic Data Generator , aby utworzyć przepływ danych, który generuje dane tabelaryczne syntetyczne na podstawie danych produkcyjnych lub niestandardowego schematu danych przy użyciu przepływów wizualnych i algorytmów modelowania. Aby utworzyć zasób syntetycznego przepływu danych w projekcie, wykonaj następujące kroki:
- Na karcie Zasoby w projekcie kliknij opcję Nowe zadanie > Generuj syntetyczne dane tabelaryczne.
- W polu Nazwa wpisz
Bank customers
. - Kliknij makro Create.
- Na ekranie Witamy w Synthetic Data Generator kliknij opcję Pierwszy użytkownik, a następnie kliknij przycisk Kontynuuj. Ta opcja udostępnia doświadczenie w zakresie budowania przepływu danych.
- Przejrzyj dwa przypadki użycia:
- Wykorzystaj istniejące dane: wygeneruj ustrukturyzowany zestaw danych syntetycznych na podstawie danych produkcyjnych. Można połączyć się z bazą danych, zaimportować lub przesłać plik, maskę i wygenerować dane wyjściowe przed wyeksportowaniem.
- Utwórz na podstawie danych niestandardowych: Generuj strukturalny zestaw danych syntetycznych oparty na metadanych. Istnieje możliwość zdefiniowania danych w każdej kolumnie tabeli, ich rozkładach i korelowaniu.
- Wybierz przypadek użycia opcji Leverage your existing data (Leverage your existing data) i kliknij przycisk Next (Dalej), aby zaimportować istniejące dane.
- Kliknij opcję Wybierz dane z projektu , aby użyć zasobu danych klientów, który został dodany z przykładów.
- Wybierz opcję Zasób danych > customers.csv.
- Kliknij przycisk Wybierz.
- Kliknij przycisk Dalej.
- Na liście kolumn wyszukaj łańcuch
creditcard_number
.- W kolumnie Anonimizacja dla
CREDITCARD_NUMBER
wybierz opcję Tak , aby maskować numery kart kredytowych klientów. - Kliknij przycisk Dalej.
- W kolumnie Anonimizacja dla
- Zaakceptuj ustawienia domyślne na stronie Opcje mimiczne . Opcje te generują dane syntetyczne w oparciu o dane produkcyjne, korzystając z zestawu kandydujących rozkładów statystycznych do modyfikowania każdej kolumny w danych. Kliknij przycisk Dalej.
- W polu File name(Nazwa pliku) wpisz
bank_customers.csv
i kliknij przycisk Next(Dalej). - Przejrzyj ustawienia i kliknij opcję Save and run(Zapisz i uruchom). Zostanie wyświetlone narzędzie Synthetic Data Generator z przepływem danych. Poczekaj na zakończenie działania.
Sprawdź postęp
Na poniższym obrazku przedstawiono przepływ danych otwarty w Synthetic Data Generator. Teraz można eksplorować przepływ danych i wyświetlać dane wyjściowe.
Powrót do góry
Aby wyświetlić podgląd tej czynności, należy obejrzeć film wideo rozpoczynający się od strony 01:48.
Po zakończeniu działania można eksplorować przepływ danych. Aby przejrzeć syntetyczny przepływ danych i wyniki, wykonaj następujące kroki:
Kliknij ikonę Paleta , aby zamknąć panel węzła.
Kliknij dwukrotnie węzeł Import , aby wyświetlić ustawienia.
- Przejrzyj właściwości Dane . Narzędzie odczyta zestaw danych z projektu i wypełni odpowiednie właściwości danych.
- Rozwiń sekcję Typy . Narzędzie odczyta wartości i kolumny w zestawie danych.
- Kliknij przycisk Anuluj.
Kliknij dwukrotnie węzeł Anonimizacja , aby wyświetlić ustawienia.
- Upewnij się, że kolumna CREDITCARD_NUMBER została ustawiona jako anonimizowana.
- Rozwiń sekcję Anonimizacja wartości . W tym miejscu można dostosować sposób anonimizacji wartości.
- Kliknij przycisk Anuluj.
Kliknij dwukrotnie węzeł Mimic , aby wyświetlić ustawienia.
- Przejrzyj ustawienia domyślne, aby zmitować dane w zestawie danych klientów źródłowych.
- Kliknij przycisk Anuluj.
Kliknij dwukrotnie węzeł Generuj , aby wyświetlić ustawienia.
- Przejrzyj listę kolumn Syntetyzowane kolumny.
- Opcjonalnie: przejrzyj informacje w sekcji Korelacje i Opcje zaawansowane.
- Kliknij przycisk Anuluj.
Kliknij dwukrotnie węzeł Eksport , aby wyświetlić ustawienia.
- Opcjonalnie: Domyślnie wyeksportowane dane są przechowywane w projekcie. Kliknij opcję Zmień ścieżkę , aby zapisać wyeksportowane dane w połączeniu, na przykład Db2 Warehouse.
- Kliknij przycisk Anuluj.
Kliknij nazwę projektu, aby powrócić do karty Zasoby .
Kliknij opcję bank_customers.csv , aby wyświetlić podgląd wygenerowanych syntetycznych danych tabelarycznych.
Sprawdź postęp
Na poniższym obrazku przedstawiono wyeksportowany, wygenerowany syntetyczny zestaw danych tabelarycznych.
Powrót do góry
Następne kroki
Aby uzyskać bardziej praktyczne doświadczenie w pracy z produktem watsonx.ai: , należy spróbować tych dodatkowych kursów.
Zasoby dodatkowe
Wyświetl więcej filmów wideo.
Aby uzyskać praktyczne doświadczenie, należy znaleźć przykładowe zestawy danych, projekty, modele, pytania i notebooki w przykładach:
Notebooki , które można dodać do projektu, aby rozpocząć analizę danych i budowanie modeli.
Projekty , które można zaimportować zawierające notatniki, zestawy danych, pytania i inne zasoby.
Zestawy danych , które można dodać do projektu w celu uszczegółowienia, analizowania i budowania modeli.
Pytania , których można użyć w laboratorium pytań w celu wyświetlenia pytania o model podstawowy.
Modele Foundation , których można używać w laboratorium podpowiedzi.
Temat nadrzędny: Kursy Szybki start