Translation not up to date
Podczas określania danych wejściowych dla wdrożeń wsadowych modeli SPSS należy stosować się do tych reguł.
Tabela podsumowania typów danych:
danych | Opis |
---|---|
Typ | wstawiane, odwołania do danych |
Formaty plików | CSV |
Źródła danych
Dane wejściowe/wyjściowe odniesienia do danych:
- Zasoby lokalne/zarządzane z obszaru
- Połączone (zdalne) zasoby aplikacyjne z tych źródeł:
Uwagi:
- W przypadku połączeń typu Cloud Object Storage lub Cloud Object Storage (infrastructure)należy skonfigurować Klucz dostępu i Klucz tajny, znany również pod nazwą Informacje autoryzacyjne HMAC.
- W przypadku wdrożeń SPSS te źródła danych nie są zgodne ze standardem FIPS (Federal Information Processing Standard):
- Cloud Object Storage
- Cloud Object Storage (infrastructure)
- Woluminy pamięci masowej
W przypadku programowego określania odwołań do danych wejściowych/wyjściowych:
Odniesienie do źródła danych
type
zależy od typu zasobu. Więcej informacji można znaleźć w sekcji Typy odwołań do źródła danych w sekcji Dodawanie zasobów danych do miejsca wdrażania.Zadania SPSS obsługują wiele wejść źródła danych i pojedyncze dane wyjściowe. Jeśli schemat nie jest udostępniany w metadanych modelu w czasie zapisywania modelu, należy ręcznie wprowadzić wartość
id
i wybrać zasób danych dla każdego połączenia. Jeśli schemat jest udostępniany w metadanych modelu, nazwy produktuid
są wypełniane automatycznie przy użyciu metadanych. Po prostu wybierz zasób danych dla odpowiednich partycjiid
w produkcie Watson Studio. Szczegółowe informacje można znaleźć w sekcji Korzystanie z wielu źródeł danych dla zadania SPSS.Aby utworzyć zasób lokalny lub zarządzany jako odwołanie do danych wyjściowych, należy określić pole
name
dlaoutput_data_reference
, aby zasób danych został utworzony przy użyciu określonej nazwy. Określeniehref
, które odwołuje się do istniejącego zasobu danych lokalnych, nie jest obsługiwane. Należy zauważyć, że połączone zasoby danych, które odwołują się do obsługiwanych baz danych, mogą być tworzone woutput_data_references
tylko wtedy, gdyinput_data_references
odnosi się również do jednego z tych źródeł.Nazwy tabel, które są udostępniane w odwołaniach do danych wejściowych i wyjściowych, są ignorowane. Nazwy tabel, które są przywołane w strumieniu modelu SPSS , będą używane podczas wdrażania wsadowego.
SQL PushBack umożliwia generowanie instrukcji SQL dla rodzimych operacji programu IBM SPSS Modeler , które mogą być "przekazywane z powrotem" do bazy danych, aby zwiększyć wydajność. SQL Pushback jest obsługiwany tylko z:
- Db2
- SQL Server
- Netezza Performance Server
Jeśli zadanie jest tworzone za pomocą klienta Python , należy podać nazwę połączenia, która jest przywołana w węzłach danych strumienia modelu SPSS w polu
id
, oraz element href zasobu danych w produkcielocation.href
dla odwołań do danych wejściowych/wyjściowych w ładunku zadań wdrażania. Na przykład można skonstruować ładunek zadania w następujący sposób:job_payload_ref = { client.deployments.ScoringMetaNames.INPUT_DATA_REFERENCES: [{ "id": "DB2Connection", "name": "drug_ref_input1", "type": "data_asset", "connection": {}, "location": { "href": <input_asset_href1> } },{ "id": "Db2 WarehouseConn", "name": "drug_ref_input2", "type": "data_asset", "connection": {}, "location": { "href": <input_asset_href2> } }], client.deployments.ScoringMetaNames.OUTPUT_DATA_REFERENCE: { "type": "data_asset", "connection": {}, "location": { "href": <output_asset_href> } } }
Korzystanie z połączonych danych dla zadania przepływu SPSS Modeler
Przepływ SPSS Modeler może mieć wiele węzłów danych wejściowych i wyjściowych. Podczas nawiązywania połączenia z obsługiwaną bazą danych jako źródłem danych wejściowych i wyjściowych należy zwrócić uwagę, że szczegóły połączenia są wybierane z wejściowego i wyjściowego odwołania do danych, ale nazwy tabel wejściowych i wyjściowych są wybierane z pliku strumieniowego modelu SPSS .
Aby wykonać zadanie wsadowe wdrożenia modelu SPSS korzystającego z połączenia z bazą danych, należy upewnić się, że węzły wejściowe i wyjściowe strumienia modelera są węzłami zasobów danych. W programie SPSS Modelerwęzły zasobów danych muszą być skonfigurowane za pomocą nazw tabel, które będą używane później dla predykcji zadania. Ustaw węzły i nazwy tabel przed zapisami modelu na Watson Machine Learning. Podczas konfigurowania węzłów zasobów danych należy wybrać nazwę tabeli z programu Connections; wybór zasobu danych, który jest tworzony w projekcie, nie jest obecnie obsługiwany.
Podczas tworzenia zadania wdrażania dla modelu SPSS należy upewnić się, że typ źródeł danych jest taki sam dla danych wejściowych i wyjściowych. Skonfigurowane nazwy tabel ze strumienia modelu zostaną przekazane do wdrożenia wsadowego, a nazwy tabel wejścia/wyjścia, które są udostępnione w połączonym danych, zostaną zignorowane.
Aby wykonać zadanie wsadowe wdrożenia modelu SPSS korzystanego z połączenia Cloud Object Storage (COS), należy upewnić się, że strumień modelu SPSS ma pojedyncze węzły zasobów danych wejściowych i wyjściowych.
Obsługiwane kombinacje źródeł danych wejściowych i wyjściowych
Należy określić zgodne źródła dla danych wejściowych przepływu SPSS Modeler , danych wejściowych zadania wsadowego oraz danych wyjściowych. Jeśli zostanie określona niezgodna kombinacja typów źródeł danych, podczas próby wykonania zadania wsadowego zostanie zgłoszony błąd.
Te kombinacje są obsługiwane dla zadań wsadowych:
Wejście/wyjście strumienia modelu SPSS | Dane wejściowe zadania wdrożenia wsadowego | Dane wyjściowe zadania wdrożenia wsadowego |
---|---|---|
Plik | Lokalny/zarządzany lub przywoływany zasób danych lub zasób aplikacyjny połączenia (plik) | Zdalny zasób danych lub zasób połączenia (plik) lub nazwa |
Baza danych | Zdalny zasób danych lub zasób połączenia (baza danych) | Zdalny zasób danych lub zasób połączenia (baza danych) |
Określanie wielu wejść
W przypadku określania wielu danych wejściowych dla wdrożenia strumienia modelu SPSS bez schematu należy określić identyfikator dla każdego elementu w produkcie input_data_references
.
Szczegółowe informacje na ten temat zawiera sekcja Korzystanie z wielu źródeł danych dla zadania SPSS.
W tym przykładzie podczas tworzenia zadania należy podać trzy pozycje wejściowe o identyfikatorach: sample_db2_conn
, sample_teradata_conn
i sample_googlequery_conn
, a następnie wybrać wymagane połączone dane dla każdego wejścia.
{
"deployment": {
"href": "/v4/deployments/<deploymentID>"
},
"scoring": {
"input_data_references": [{
"id": "sample_db2_conn",
"name": "DB2 connection",
"type": "data_asset",
"connection": {},
"location": {
"href": "/v2/assets/<asset_id>?space_id=<space_id>"
},
},
{
"id": "sample_teradata_conn",
"name": "Teradata connection",
"type": "data_asset",
"connection": {},
"location": {
"href": "/v2/assets/<asset_id>?space_id=<space_id>"
},
},
{
"id": "sample_googlequery_conn",
"name": "Google bigquery connection",
"type": "data_asset",
"connection": {},
"location": {
"href": "/v2/assets/<asset_id>?space_id=<space_id>"
},
}],
"output_data_references": {
"id": "sample_db2_conn",
"type": "data_asset",
"connection": {},
"location": {
"href": "/v2/assets/<asset_id>?space_id=<space_id>"
},
}
}
Temat nadrzędny: Szczegółowe informacje wejściowe wdrożenia wsadowego według środowiska