0 / 0
Go back to the English version of the documentation
Zdroje dat pro přidělení skóre dávkovým implementacím
Last updated: 09. 11. 2023
Zdroje dat pro přidělení skóre dávkovým implementacím

Vstupní data pro dávkovou úlohu implementace můžete zadat několika způsoby, včetně přímého odeslání souboru nebo poskytnutí odkazu na databázové tabulky. Typy přípustných vstupních dat se liší podle typu úlohy implementace, kterou vytváříte.

Informace o podporovaných typech vstupu podle rámce naleznete v tématu Podrobnosti vstupu dávkové implementace podle rámce.

Vstupní data mohou být dodána dávkové úloze jako vložená data nebo odkaz na data.

Dostupné typy vstupu pro dávkové implementace podle rámce a typu aktiva

Dostupné typy vstupu pro dávkové implementace podle rámce a typu aktiva
Rámec Typ dávkové implementace
Optimalizace rozhodování Odkaz
Python funkce Vložit
PyTorch Vloženo a odkaz
Tensorflow Vloženo a odkaz
Scikit-učit se Vloženo a odkaz
Skripty Python Odkaz
Spark MLlib Vloženo a odkaz
SPSS Vloženo a odkaz
XGBoost (zvýšení) Vloženo a odkaz

Vložený popis dat

Vstupní data vloženého typu pro dávkové zpracování jsou uvedena v informačním obsahu úlohy implementace dávky. Můžete například předat soubor CSV jako vstup implementace v uživatelském rozhraní nebo jako hodnotu pro parametr scoring.input_data v zápisníku. Po dokončení dávkové úlohy implementace se výstup zapíše do parametru metadat scoring.predictions příslušné úlohy.

Popis odkazu na data

Vstupní a výstupní data typu odkaz na data , která se používají pro dávkové zpracování, lze uložit:

  • Ve vzdáleném zdroji dat, jako je sektor Cloud Object Storage nebo databáze SQL/no-SQL.
  • Jako lokální nebo spravované datové aktivum v prostoru implementace.

Podrobnosti pro odkazy na data zahrnují:

  • Odkaz na zdroj dat type závisí na typu aktiva. Viz část Typy odkazů na zdroje dat v části Přidání datových aktiv do prostoru implementace.

  • Pro typ data_asset musí být odkazy na vstupní data uvedeny jako /v2/assets href v parametru input_data_references.location.href v informačním obsahu úlohy nasazení. Zde uvedené datové aktivum může být odkazem na lokální nebo připojené datové aktivum. Také, pokud musí být výstupní data úlohy dávkové implementace trvale uložena ve vzdáleném zdroji dat, odkazy na výstupní data musí být uvedeny jako parametr /v2/assets href in output_data_reference.location.href v informačním obsahu úlohy implementace.

  • Všechny odkazy na vstup a výstup data_asset musí být ve stejném ID prostoru jako dávková implementace.

  • Pokud musí být výstupní data úlohy implementace dávky trvale uchována v prostoru implementace jako lokální aktivum, musí být uveden parametr output_data_reference.location.name . Po úspěšném dokončení dávkové úlohy implementace se v prostoru vytvoří aktivum s uvedeným názvem.

  • Výstupní data mohou obsahovat informace o umístění datového aktiva ve vzdálené databázi. V této situaci můžete určit, zda se má dávkový výstup připojit k tabulce, nebo zda se má tabulka oříznout a aktualizovat výstupní data. Pomocí parametru output_data_references.location.write_mode zadejte hodnoty truncate nebo append.

    • Zadáním hodnoty truncate osekne tabulku a vloží data dávkového výstupu.
    • Uvedení append jako hodnoty připojí dávková výstupní data do tabulky vzdálené databáze.
    • Parametr write_mode lze použít pouze pro parametr output_data_references .
    • Produkt write_mode je použitelný pouze pro datová aktiva související se vzdálenou databází. Tento parametr není použitelný pro lokální datové aktivum nebo datové aktivum založené na standardu COS.

Příklad informačního obsahu datového aktiva

"input_data_references": [{
    "type": "data_asset",
    "connection": {
    },
    "location": {
        "href": "/v2/assets/<asset_id>?space_id=<space_id>"
    }
}]

Příklad informačního obsahu connection_asset

"input_data_references": [{
    "type": "connection_asset",
    "connection": {
        "id": "<connection_guid>"
    },
    "location": {
        "bucket": "<bucket name>",
        "file_name": "<directory_name>/<file name>"
    }
    <other wdp-properties supported by runtimes>
}]

Strukturování vstupních dat

Jak strukturovat vstupní data, také známá jako informační obsah, pro dávkovou úlohu závisí na rámci aktiva, které implementujete.

Vstupní soubor .csv nebo jiné strukturované datové formáty musí být formátovány tak, aby odpovídaly schématu aktiva. Seznam názvů sloupců (polí) v prvním řádku a hodnot, které mají být hodnoceny v následujících řádcích. Například:

PassengerId, Pclass, Name, Sex, Age, SibSp, Parch, Ticket, Fare, Cabin, Embarked
1,3,"Braund, Mr. Owen Harris",0,22,1,0,A/5 21171,7.25,,S
4,1,"Winslet, Mr. Leo Brown",1,65,1,0,B/5 200763,7.50,,S

Vstupní soubor JSON musí poskytovat stejné informace o polích a hodnotách pomocí tohoto formátu:

{"input_data":[{
        "fields": [<field1>, <field2>, ...],
        "values": [[<value1>, <value2>, ...]]
}]}

Například:

{"input_data":[{
        "fields": ["PassengerId","Pclass","Name","Sex","Age","SibSp","Parch","Ticket","Fare","Cabin","Embarked"],
        "values": [[1,3,"Braund, Mr. Owen Harris",0,22,1,0,"A/5 21171",7.25,null,"S"],
                  [4,1,"Winselt, Mr. Leo Brown",1,65,1,0,"B/5 200763",7.50,null,"S"]]
}]}

Příprava informačního obsahu, který odpovídá schématu existujícího modelu

Viz tento vzorový kód:

model_details = client.repository.get_details("<model_id>")  # retrieves details and includes schema
columns_in_schema = []
for i in range(0, len(model_details['entity']['schemas']['input'][0].get('fields'))):
    columns_in_schema.append(model_details['entity']['schemas']['input'][0].get('fields')[i]['name'])

X = X[columns_in_schema] # where X is a pandas dataframe that contains values to be scored
#(...)
scoring_values = X.values.tolist()
array_of_input_fields = X.columns.tolist()
payload_scoring = {"input_data": [{"fields": [array_of_input_fields],"values": scoring_values}]}

Omezení použití velkých datových svazků jako vstupu pro dávkové úlohy přidělení skóre

Spustíte-li dávkovou úlohu přidělení skóre, která jako vstup používá velké objemy dat, může dojít k selhání úlohy kvůli internímu nastavení časového limitu. Dojde-li k vypršení časového limitu během dávkového přidělení skóre, musíte nakonfigurovat omezení časového limitu úrovně dotazu zdroje dat tak, aby bylo možné zpracovávat přerušitelné úlohy. Další informace o nastavení časového limitu dotazu naleznete v tématu Známé problémy a omezení pro produkt Watson Machine Learning.

Nadřízené téma: Vytvoření dávkové implementace

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more