0 / 0
Go back to the English version of the documentation
Podporované modely základů dostupné s watsonx.ai
Last updated: 09. 11. 2023
Podporované modely základů dostupné s watsonx.ai

V produktu IBM watsonx.aije implementována kolekce modelů typu open source a základů IBM .

Tyto modely můžete vyzvat k zadání v produktu Prompt Lab nebo programově pomocí knihovny Python .

Souhrn modelů

Informace o tom, jak poskytovatel modelu, vyladění instrukcí, omezení tokenů a další faktory mohou ovlivnit zvolený model, naleznete v tématu Výběr modelu.

V následující tabulce jsou uvedeny podporované základní modely, které poskytuje IBM .

Tabulka 1. IBM v souboru watsonx.ai
Název modelu Poskytovatel Pokyn-vyladěno Účtovací třída Maximum tokenů
Kontext (vstup + výstup)
Další informace
granite-13b-chat-v1 IBM Ano Třída 3 8192 Modelová karta
Web
Výzkumný papír
granite-13b-instruct-v1 IBM Ano Třída 3 8192 Modelová karta
Web
Výzkumný papír

 

V následující tabulce jsou uvedeny podporované základní modely, které třetí strany poskytují prostřednictvím funkce Hugging Face.

Tabulka 2. Podporované modely nadace třetích stran v watsonx.ai
Název modelu Poskytovatel Pokyn-vyladěno Účtovací třída Maximum tokenů
Kontext (vstup + výstup)
Další informace
flan-t5-xxl-11b Google Ano Třída 2 4096 Modelová karta
Výzkumný papír
flan-ul2-20b Google Ano Třída 3 4096 Modelová karta
UL2 výzkumný dokument
Výzkumný dokument Flan
gpt-neox-20b EleutherAI Ne Třída 3 8192 Modelová karta
Výzkumný papír
llama-2-13b-chat Meta Ano Třída 2 4096 Modelová karta
Výzkumný papír
llama-2-70b-chat Meta Ano Třída 3 4096 Modelová karta
Výzkumný papír
mpt-7b-instruct2 Mozaika ML Ano Třída 1 2048 Modelová karta
Webové stránky
mt0-xxl-13b BigScience Ano Třída 2 4096 Modelová karta
Výzkumný papír
starcoder-15.5b BigCode Ne Třída 2 8192 Modelová karta
Výzkumný papír

 

 

Podrobnosti modelu nadace

Dostupné základní modely podporují řadu příkladů použití jak pro přírodní jazyky, tak pro programovací jazyky. Chcete-li zobrazit typy úloh, které mohou tyto modely provádět, přezkoumejte a vyzkoušejte ukázkové výzvy k zadání.

flan-t5-xxl-11b

Model flan-t5-xxl-11b je poskytován společností Google na Hugging Face. Tento model je založen na předem natrénovaném modelu transformátoru přenosu textu na text (T5) a používá metody jemného doladění instrukcí k dosažení lepšího výkonu s nulovým a malým počtem výstřelu. Model je také vyladěn s daty řetězce myšlenek, aby se zlepšila jeho schopnost provádět logické úlohy.

Použití

Obecné použití s nulovými nebo nemnoha výzvami k zadání.

Náklady

Třída 2. Podrobnosti o cenách viz Watson Machine Learning.

Vyzkoušejte to
Velikost

11 miliard parametrů

Omezení tokenů

Kontext (vstup + výstup): 4096

Poznámka: Výstup plánu Lite je omezen na 700

Podporované přirozené jazyky

Angličtina, němčina, francouzština

Informace o vyladění pokynů

Model byl vyladěn na úlohy, které zahrnují vícesložkové uvažování z dat řetězce myšlení kromě tradičních úloh zpracování přirozeného jazyka. Podrobnosti o použitých datových sadách trénování jsou publikovány.

Architektura modelu

Kodér-dekodér

Licence

Apache 2.0 licence

Chcete-li se dozvědět více o tomto modelu, prohlédněte si následující prostředky:

flan-ul2-20b

Model flan-ul2-20b poskytuje společnost Google na Hugging Face. Tento model byl trénován pomocí Paradigmů Unifying Language Learning (UL2). Model je optimalizován pro generování jazyka, porozumění jazyku, klasifikaci textu, odpovídání na otázky, uvažování zdravého rozumu, argumentaci dlouhého textu, strukturované znalosti a vyhledávání informací, učení v kontextu, výzvy s nulovým výstřelem a jednorázovou výzvu.

Použití

Obecné použití s nulovými nebo nemnoha výzvami k zadání.

Náklady

Třída 3. Podrobnosti o cenách viz Watson Machine Learning.

Vyzkoušejte to
Velikost

20 miliard parametrů

Omezení tokenů

Kontext (vstup + výstup): 4096

Poznámka: Výstup plánu Lite je omezen na 700

Podporované přirozené jazyky

Angličtina

Informace o vyladění pokynů

Model flan-ul2-20b je předtrénován na kolosální, vyčištěné verzi webového prolézaného korpusu Common Crawl. Model je vyladěn s několika předškolními cíli, aby byl optimalizován pro různé úlohy zpracování přirozeného jazyka. Podrobnosti o použitých datových sadách trénování jsou publikovány.

Architektura modelu

Kodér-dekodér

Licence

Apache 2.0 licence

Chcete-li se dozvědět více o tomto modelu, prohlédněte si následující prostředky:

gpt-neox-20b

Model gpt-neox-20b je poskytován EleutherAI na Hugging Face. Tento model je autoregresivní jazykový model, který je trénován na různých anglických textech, aby podporoval obecné případy použití. GPT-NeoX-20B nebyl vyladěn pro následné úlohy.

Použití

Funguje nejlépe s několika výstřely výzvy. Přijímá speciální znaky, které lze použít pro generování strukturovaného výstupu.

Datová sada použitá pro trénování obsahuje vulgární a urážlivý text. Ujistěte se, že jste před použitím v aplikaci kurátovali jakýkoli výstup z modelu.

Náklady

Třída 3. Podrobnosti o cenách viz Watson Machine Learning.

Vyzkoušejte to
Velikost

20 miliard parametrů

Omezení tokenů

Kontext (vstup + výstup): 8192

Poznámka: Výstup plánu Lite je omezen na 700

Podporované přirozené jazyky

Angličtina

Data použitá během trénování

Model gpt-neox-20b byl natrénován na Pile. Další informace o Pile viz The Pile: An 800GB Dataset of Diverse Text for Language Modeling. Hromada nebyla deduplikována před tím, než byla použita pro výcvik.

Architektura modelu

Dekodér

Licence

Apache 2.0 licence

Chcete-li se dozvědět více o tomto modelu, prohlédněte si následující prostředky:

granite-13b-chat-v1

Model granite-13b-chat-v1 poskytuje společnost IBM. Tento model je optimalizován pro dialogová použití a funguje dobře s virtuálním agentem a konverzačními aplikacemi.

Použití
Generuje výstup dialogu jako chatbot. Používá formát výzvy specifický pro model. Zahrnuje do výstupu klíčové slovo, které lze použít jako posloupnost zastavení pro vytvoření stručné odpovědi.
Náklady
Třída 3. Podrobnosti o cenách viz Watson Machine Learning.
Vyzkoušejte to
Velikost
13 miliard parametrů
Omezení tokenů
Kontext (vstup + výstup): 8192
Podporované přirozené jazyky
Angličtina
Informace o vyladění pokynů
Žulová rodina modelů je vyškolena na datových sadách relevantních pro podniky z pěti domén: internet, akademický, kód, právní a finanční. Data použitá k trénování modelů nejprve projdou revizí řízení dat IBM a jsou filtrována podle textu, který je označen pro nenávist, zneužití nebo zneuctivost pomocí IBM-vyvinutého filtru HAP. IBM sdílí informace o používaných metodách trénování a datových sadách.
Architektura modelu
Dekodér
Licence
Podmínky použití
Další informace o smluvní ochraně související s produktem IBM watsonx.ainaleznete v popisu služby IBM watsonx.ai.

Chcete-li se dozvědět více o tomto modelu, prohlédněte si následující prostředky:

granite-13b-instruct-v1

Model granite-13b-instruct-v1 poskytuje společnost IBM. Tento model byl trénován s vysoce kvalitními finančními daty a je špičkovým modelem pro finanční úkoly. Mezi vyhodnocené finanční úkoly patří: poskytování skóre sentimentu pro transkripce akcií a výdělků, klasifikace novin, extrakce hodnocení úvěrového rizika, shrnutí dlouhodobého finančního textu a zodpovězení finančních otázek nebo otázek souvisejících s pojištěním.

Použití

Podporuje úlohy extrakce, sumarizace a klasifikace. Generuje užitečný výstup pro úlohy související s financemi. Používá formát výzvy specifický pro model. Přijímá speciální znaky, které lze použít pro generování strukturovaného výstupu.

Náklady

Třída 3. Podrobnosti o cenách viz Watson Machine Learning.

Vyzkoušejte to
Velikost

13 miliard parametrů

Omezení tokenů

Kontext (vstup + výstup): 8192

Podporované přirozené jazyky

Angličtina

Informace o vyladění pokynů

Žulová rodina modelů je vyškolena na datových sadách relevantních pro podniky z pěti domén: internet, akademický, kód, právní a finanční. Data použitá k trénování modelů nejprve projdou revizí řízení dat IBM a jsou filtrována podle textu, který je označen pro nenávist, zneužití nebo zneuctivost pomocí IBM-vyvinutého filtru HAP. IBM sdílí informace o používaných metodách trénování a datových sadách.

Architektura modelu

Dekodér

Licence

Podmínky použití

Další informace o smluvní ochraně související s produktem IBM watsonx.ainaleznete v popisu služby IBM watsonx.ai.

Chcete-li se dozvědět více o tomto modelu, prohlédněte si následující prostředky:

Llama-2 Konverzace

Model konverzace Llama-2 je poskytován společností Meta on Hugging Face. Vyladěný model je užitečný pro generování konverzace. Model je předem vyškolen s veřejně dostupnými online daty a vyladěn pomocí učení se výztuží z lidské zpětné vazby.

Můžete zvolit použití 13 miliard parametrů nebo 70 miliard parametrů verze modelu.

Použití

Generuje výstup dialogu jako chatbot. Používá formát výzvy specifický pro model.

Náklady

13b: Třída 2

70b: Třída 3

Podrobnosti o cenách viz Watson Machine Learning.

Vyzkoušejte to
Dostupné velikosti
  • 13 miliard parametrů
  • 70 miliard parametrů
Omezení tokenů

Kontext (vstup + výstup): 4096

Poznámka: Výstup plánu Lite je omezen na 900

Podporované přirozené jazyky

Angličtina

Informace o vyladění pokynů

Llama 2 byla předškolena na 2 biliony žetonů dat z veřejně dostupných zdrojů. Data jemného doladění zahrnují veřejně dostupné datové sady instrukcí a více než jeden milion nových příkladů, které byly lidmi anotovány.

Architektura modelu

Llama 2 je automatický regresivní model jazyka pouze pro dekodéry, který používá optimalizovanou architekturu transformátoru. Vyladěné verze používají dohlížené doladění a posílení učení s lidskou zpětnou vazbou.

Licence

Licence

Chcete-li se dozvědět více o tomto modelu, prohlédněte si následující prostředky:

mpt-7b-instruct2

Model mpt-7b-instruct2 je poskytován společností MosaicML na Hugging Face. Tento model je vyladěnou verzí základního modelu MosaicML předtrénovaného transformátoru (MPT), který byl natrénován pro zpracování dlouhých vstupů. Tato verze modelu byla optimalizována společností IBM pro následující zkrácené pokyny.

Použití

Obecné použití s nulovými nebo nemnoha výzvami k zadání.

Náklady

Třída 1. Podrobnosti o cenách viz Watson Machine Learning.

Vyzkoušejte to
Velikost

7 miliard parametrů

Omezení tokenů

Kontext (vstup + výstup): 2048

Poznámka: Výstup plánu Lite je omezen na 500

Podporované přirozené jazyky

Angličtina

Informace o vyladění pokynů

Datová sada, která byla použita k trénování tohoto modelu, je kombinací datové sady Dolly z databáze a filtrované podmnožiny pomocného a neškodného asistenta s posilováním učení z tréninkových dat lidské zpětné vazby od společnosti Anthropic. Během filtrování byly extrahovány části dialogových oken, které obsahují instrukce-následující kroky byly extrahovány pro použití jako ukázky.

Architektura modelu

Kodér-dekodér

Licence

Apache 2.0 licence

Chcete-li se dozvědět více o tomto modelu, prohlédněte si následující prostředky:

mt0-xxl-13b

Model mt0-xxl-13b poskytuje produkt BigScience na Hugging Face. Model je optimalizován pro podporu generování jazyka a překladových úloh s angličtinou, jinými jazyky než angličtinou a vícejazyčnými výzvami.

Použití

Obecné použití s nulovými nebo nemnoha výzvami k zadání. U překladových úloh uveďte tečku, která označuje konec textu, který chcete přeložit, nebo model může pokračovat ve větě, spíše než jej přeložit.

Náklady

Třída 2. Podrobnosti o cenách viz Watson Machine Learning.

Vyzkoušejte to
Velikost

13 miliard parametrů

Omezení tokenů

Kontext (vstup + výstup): 4096

Poznámka: Výstup plánu Lite je omezen na 700

Podporované přirozené jazyky

Model je předem vyškolen na vícejazyčná data ve 108 jazycích a vyladěn s vícejazyčnými daty ve 46 jazycích pro provádění vícejazyčných úloh.

Informace o vyladění pokynů

BigScience publikuje podrobnosti o svém kódu a datových sadách.

Architektura modelu

Kodér-dekodér

Licence

Apache 2.0 licence

Chcete-li se dozvědět více o tomto modelu, prohlédněte si následující prostředky:

starcoder-15.5b

Model starcoder-15.5b je poskytován produktem BigCode na Hugging Face. Tento model může generovat kód a převádět kód z jednoho programovacího jazyka do jiného. Tento model je určen pro použití vývojáři ke zvýšení jejich produktivity.

Použití

Generování kódu a převod kódu

Pozn.: Výstup modelu může zahrnovat kód, který je převzat přímo z trénovací dat, což může být licencovaný kód, který vyžaduje přisouzení.

Náklady

Třída 2. Podrobnosti o cenách viz Watson Machine Learning.

Vyzkoušejte to
Velikost

15.5 miliarda parametrů

Omezení tokenů

Kontext (vstup + výstup): 8192

Podporované programovací jazyky

Více než 80 programovacích jazyků s důrazem na Python.

Data použitá během trénování

Tento model byl trénován na více než 80 programovacích jazycích z produktu GitHub. Byl použit filtr, který vyloučí z trénovacích dat jakýkoli licencovaný kód nebo kód, který je označen s požadavky na odhlášení. Nicméně výstup modelu může zahrnovat kód z jeho trénovací dat, která vyžadují přisouzení. Model nebyl vyladěn instrukcemi. Odeslání vstupu pouze s instrukcemi a bez příkladů může vést k špatnému výstupu modelu.

Architektura modelu

Dekodér

Licence

Licence

Chcete-li se dozvědět více o tomto modelu, prohlédněte si následující prostředky:

 

Nadřízené téma: Modely Foundation

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more