Translation not up to date
Vstupní data pro dávkovou úlohu implementace můžete zadat několika způsoby, včetně přímého odeslání souboru nebo poskytnutí odkazu na databázové tabulky. Typy přípustných vstupních dat se liší podle typu úlohy implementace, kterou vytváříte.
Informace o podporovaných typech vstupu podle rámce naleznete v tématu Podrobnosti vstupu dávkové implementace podle rámce.
Vstupní data mohou být dodána dávkové úloze jako vložená data nebo odkaz na data.
Dostupné typy vstupu pro dávkové implementace podle rámce a typu aktiva
Rámec | Typ dávkové implementace |
---|---|
Optimalizace rozhodování | Odkaz |
Python funkce | Vložit |
PyTorch | Vloženo a odkaz |
Tensorflow | Vloženo a odkaz |
Scikit-učit se | Vloženo a odkaz |
Skripty Python | Odkaz |
Spark MLlib | Vloženo a odkaz |
SPSS | Vloženo a odkaz |
XGBoost (zvýšení) | Vloženo a odkaz |
Vložený popis dat
Vstupní data vloženého typu pro dávkové zpracování jsou uvedena v informačním obsahu úlohy implementace dávky. Můžete například předat soubor CSV jako vstup implementace v uživatelském rozhraní nebo jako hodnotu pro parametr scoring.input_data
v zápisníku. Po dokončení dávkové úlohy implementace se výstup zapíše do parametru metadat scoring.predictions
příslušné úlohy.
Popis odkazu na data
Vstupní a výstupní data typu odkaz na data , která se používají pro dávkové zpracování, lze uložit:
- Ve vzdáleném zdroji dat, jako je sektor Cloud Object Storage nebo databáze SQL/no-SQL.
- Jako lokální nebo spravované datové aktivum v prostoru implementace.
Podrobnosti pro odkazy na data zahrnují:
Odkaz na zdroj dat
type
závisí na typu aktiva. Viz část Typy odkazů na zdroje dat v části Přidání datových aktiv do prostoru implementace.Pro typ
data_asset
musí být odkazy na vstupní data uvedeny jako /v2/assets href v parametruinput_data_references.location.href
v informačním obsahu úlohy nasazení. Zde uvedené datové aktivum může být odkazem na lokální nebo připojené datové aktivum. Také, pokud musí být výstupní data úlohy dávkové implementace trvale uložena ve vzdáleném zdroji dat, odkazy na výstupní data musí být uvedeny jako parametr /v2/assets href inoutput_data_reference.location.href
v informačním obsahu úlohy implementace.Všechny odkazy na vstup a výstup
data_asset
musí být ve stejném ID prostoru jako dávková implementace.Pokud musí být výstupní data úlohy implementace dávky trvale uchována v prostoru implementace jako lokální aktivum, musí být uveden parametr
output_data_reference.location.name
. Po úspěšném dokončení dávkové úlohy implementace se v prostoru vytvoří aktivum s uvedeným názvem.Výstupní data mohou obsahovat informace o umístění datového aktiva ve vzdálené databázi. V této situaci můžete určit, zda se má dávkový výstup připojit k tabulce, nebo zda se má tabulka oříznout a aktualizovat výstupní data. Pomocí parametru
output_data_references.location.write_mode
zadejte hodnotytruncate
neboappend
.- Zadáním hodnoty
truncate
osekne tabulku a vloží data dávkového výstupu. - Uvedení
append
jako hodnoty připojí dávková výstupní data do tabulky vzdálené databáze. - Parametr
write_mode
lze použít pouze pro parametroutput_data_references
. - Produkt
write_mode
je použitelný pouze pro datová aktiva související se vzdálenou databází. Tento parametr není použitelný pro lokální datové aktivum nebo datové aktivum založené na standardu COS.
- Zadáním hodnoty
Příklad informačního obsahu datového aktiva
"input_data_references": [{
"type": "data_asset",
"connection": {
},
"location": {
"href": "/v2/assets/<asset_id>?space_id=<space_id>"
}
}]
Příklad informačního obsahu connection_asset
"input_data_references": [{
"type": "connection_asset",
"connection": {
"id": "<connection_guid>"
},
"location": {
"bucket": "<bucket name>",
"file_name": "<directory_name>/<file name>"
}
<other wdp-properties supported by runtimes>
}]
Strukturování vstupních dat
Jak strukturovat vstupní data, také známá jako informační obsah, pro dávkovou úlohu závisí na rámci aktiva, které implementujete.
Vstupní soubor .csv nebo jiné strukturované datové formáty musí být formátovány tak, aby odpovídaly schématu aktiva. Seznam názvů sloupců (polí) v prvním řádku a hodnot, které mají být hodnoceny v následujících řádcích. Například:
PassengerId, Pclass, Name, Sex, Age, SibSp, Parch, Ticket, Fare, Cabin, Embarked
1,3,"Braund, Mr. Owen Harris",0,22,1,0,A/5 21171,7.25,,S
4,1,"Winslet, Mr. Leo Brown",1,65,1,0,B/5 200763,7.50,,S
Vstupní soubor JSON musí poskytovat stejné informace o polích a hodnotách pomocí tohoto formátu:
{"input_data":[{
"fields": [<field1>, <field2>, ...],
"values": [[<value1>, <value2>, ...]]
}]}
Například:
{"input_data":[{
"fields": ["PassengerId","Pclass","Name","Sex","Age","SibSp","Parch","Ticket","Fare","Cabin","Embarked"],
"values": [[1,3,"Braund, Mr. Owen Harris",0,22,1,0,"A/5 21171",7.25,null,"S"],
[4,1,"Winselt, Mr. Leo Brown",1,65,1,0,"B/5 200763",7.50,null,"S"]]
}]}
Příprava informačního obsahu, který odpovídá schématu existujícího modelu
Viz tento vzorový kód:
model_details = client.repository.get_details("<model_id>") # retrieves details and includes schema
columns_in_schema = []
for i in range(0, len(model_details['entity']['schemas']['input'][0].get('fields'))):
columns_in_schema.append(model_details['entity']['schemas']['input'][0].get('fields')[i]['name'])
X = X[columns_in_schema] # where X is a pandas dataframe that contains values to be scored
#(...)
scoring_values = X.values.tolist()
array_of_input_fields = X.columns.tolist()
payload_scoring = {"input_data": [{"fields": [array_of_input_fields],"values": scoring_values}]}
Omezení použití velkých datových svazků jako vstupu pro dávkové úlohy přidělení skóre
Spustíte-li dávkovou úlohu přidělení skóre, která jako vstup používá velké objemy dat, může dojít k selhání úlohy kvůli internímu nastavení časového limitu. Dojde-li k vypršení časového limitu během dávkového přidělení skóre, musíte nakonfigurovat omezení časového limitu úrovně dotazu zdroje dat tak, aby bylo možné zpracovávat přerušitelné úlohy. Další informace o nastavení časového limitu dotazu naleznete v tématu Známé problémy a omezení pro produkt Watson Machine Learning.
Nadřízené téma: Vytvoření dávkové implementace