Translation not up to date
V produktu IBM watsonx.aije implementována kolekce modelů typu open source a základů IBM .
Tyto modely můžete vyzvat k zadání v produktu Prompt Lab nebo programově pomocí knihovny Python .
Souhrn modelů
Informace o tom, jak poskytovatel modelu, vyladění instrukcí, omezení tokenů a další faktory mohou ovlivnit zvolený model, naleznete v tématu Výběr modelu.
V následující tabulce jsou uvedeny podporované základní modely, které poskytuje IBM .
Název modelu | Poskytovatel | Pokyn-vyladěno | Účtovací třída | Maximum tokenů Kontext (vstup + výstup) |
Další informace |
---|---|---|---|---|---|
granite-13b-chat-v1 | IBM | Ano | Třída 3 | 8192 | Modelová karta Web Výzkumný papír |
granite-13b-instruct-v1 | IBM | Ano | Třída 3 | 8192 | Modelová karta Web Výzkumný papír |
V následující tabulce jsou uvedeny podporované základní modely, které třetí strany poskytují prostřednictvím funkce Hugging Face.
Název modelu | Poskytovatel | Pokyn-vyladěno | Účtovací třída | Maximum tokenů Kontext (vstup + výstup) |
Další informace |
---|---|---|---|---|---|
flan-t5-xxl-11b | Ano | Třída 2 | 4096 | Modelová karta Výzkumný papír |
|
flan-ul2-20b | Ano | Třída 3 | 4096 | Modelová karta UL2 výzkumný dokument Výzkumný dokument Flan |
|
gpt-neox-20b | EleutherAI | Ne | Třída 3 | 8192 | Modelová karta Výzkumný papír |
llama-2-13b-chat | Meta | Ano | Třída 2 | 4096 | Modelová karta Výzkumný papír |
llama-2-70b-chat | Meta | Ano | Třída 3 | 4096 | Modelová karta Výzkumný papír |
mpt-7b-instruct2 | Mozaika ML | Ano | Třída 1 | 2048 | Modelová karta Webové stránky |
mt0-xxl-13b | BigScience | Ano | Třída 2 | 4096 | Modelová karta Výzkumný papír |
starcoder-15.5b | BigCode | Ne | Třída 2 | 8192 | Modelová karta Výzkumný papír |
- Seznam modelů, které jsou poskytovány v každém regionálním datovém středisku, naleznete v tématu Regionální dostupnost modelu nadace.
- Informace o účtovacích třídách a omezení sazeb viz Watson Machine Learning.
Podrobnosti modelu nadace
Dostupné základní modely podporují řadu příkladů použití jak pro přírodní jazyky, tak pro programovací jazyky. Chcete-li zobrazit typy úloh, které mohou tyto modely provádět, přezkoumejte a vyzkoušejte ukázkové výzvy k zadání.
flan-t5-xxl-11b
Model flan-t5-xxl-11b je poskytován společností Google na Hugging Face. Tento model je založen na předem natrénovaném modelu transformátoru přenosu textu na text (T5) a používá metody jemného doladění instrukcí k dosažení lepšího výkonu s nulovým a malým počtem výstřelu. Model je také vyladěn s daty řetězce myšlenek, aby se zlepšila jeho schopnost provádět logické úlohy.
- Použití
Obecné použití s nulovými nebo nemnoha výzvami k zadání.
- Náklady
Třída 2. Podrobnosti o cenách viz Watson Machine Learning.
- Vyzkoušejte to
- Velikost
11 miliard parametrů
- Omezení tokenů
Kontext (vstup + výstup): 4096
Poznámka: Výstup plánu Lite je omezen na 700
- Podporované přirozené jazyky
Angličtina, němčina, francouzština
- Informace o vyladění pokynů
Model byl vyladěn na úlohy, které zahrnují vícesložkové uvažování z dat řetězce myšlení kromě tradičních úloh zpracování přirozeného jazyka. Podrobnosti o použitých datových sadách trénování jsou publikovány.
- Architektura modelu
Kodér-dekodér
- Licence
Chcete-li se dozvědět více o tomto modelu, prohlédněte si následující prostředky:
flan-ul2-20b
Model flan-ul2-20b poskytuje společnost Google na Hugging Face. Tento model byl trénován pomocí Paradigmů Unifying Language Learning (UL2). Model je optimalizován pro generování jazyka, porozumění jazyku, klasifikaci textu, odpovídání na otázky, uvažování zdravého rozumu, argumentaci dlouhého textu, strukturované znalosti a vyhledávání informací, učení v kontextu, výzvy s nulovým výstřelem a jednorázovou výzvu.
- Použití
Obecné použití s nulovými nebo nemnoha výzvami k zadání.
- Náklady
Třída 3. Podrobnosti o cenách viz Watson Machine Learning.
- Vyzkoušejte to
- Velikost
20 miliard parametrů
- Omezení tokenů
Kontext (vstup + výstup): 4096
Poznámka: Výstup plánu Lite je omezen na 700
- Podporované přirozené jazyky
Angličtina
- Informace o vyladění pokynů
Model flan-ul2-20b je předtrénován na kolosální, vyčištěné verzi webového prolézaného korpusu Common Crawl. Model je vyladěn s několika předškolními cíli, aby byl optimalizován pro různé úlohy zpracování přirozeného jazyka. Podrobnosti o použitých datových sadách trénování jsou publikovány.
- Architektura modelu
Kodér-dekodér
- Licence
Chcete-li se dozvědět více o tomto modelu, prohlédněte si následující prostředky:
gpt-neox-20b
Model gpt-neox-20b je poskytován EleutherAI na Hugging Face. Tento model je autoregresivní jazykový model, který je trénován na různých anglických textech, aby podporoval obecné případy použití. GPT-NeoX-20B nebyl vyladěn pro následné úlohy.
- Použití
Funguje nejlépe s několika výstřely výzvy. Přijímá speciální znaky, které lze použít pro generování strukturovaného výstupu.
Datová sada použitá pro trénování obsahuje vulgární a urážlivý text. Ujistěte se, že jste před použitím v aplikaci kurátovali jakýkoli výstup z modelu.
- Náklady
Třída 3. Podrobnosti o cenách viz Watson Machine Learning.
- Vyzkoušejte to
- Velikost
20 miliard parametrů
- Omezení tokenů
Kontext (vstup + výstup): 8192
Poznámka: Výstup plánu Lite je omezen na 700
- Podporované přirozené jazyky
Angličtina
- Data použitá během trénování
Model gpt-neox-20b byl natrénován na Pile. Další informace o Pile viz The Pile: An 800GB Dataset of Diverse Text for Language Modeling. Hromada nebyla deduplikována před tím, než byla použita pro výcvik.
- Architektura modelu
Dekodér
- Licence
Chcete-li se dozvědět více o tomto modelu, prohlédněte si následující prostředky:
granite-13b-chat-v1
Model granite-13b-chat-v1 poskytuje společnost IBM. Tento model je optimalizován pro dialogová použití a funguje dobře s virtuálním agentem a konverzačními aplikacemi.
- Použití
- Generuje výstup dialogu jako chatbot. Používá formát výzvy specifický pro model. Zahrnuje do výstupu klíčové slovo, které lze použít jako posloupnost zastavení pro vytvoření stručné odpovědi.
- Náklady
- Třída 3. Podrobnosti o cenách viz Watson Machine Learning.
- Vyzkoušejte to
- Velikost
- 13 miliard parametrů
- Omezení tokenů
- Kontext (vstup + výstup): 8192
- Podporované přirozené jazyky
- Angličtina
- Informace o vyladění pokynů
- Žulová rodina modelů je vyškolena na datových sadách relevantních pro podniky z pěti domén: internet, akademický, kód, právní a finanční. Data použitá k trénování modelů nejprve projdou revizí řízení dat IBM a jsou filtrována podle textu, který je označen pro nenávist, zneužití nebo zneuctivost pomocí IBM-vyvinutého filtru HAP. IBM sdílí informace o používaných metodách trénování a datových sadách.
- Architektura modelu
- Dekodér
- Licence
- Podmínky použití
- Další informace o smluvní ochraně související s produktem IBM watsonx.ainaleznete v popisu služby IBM watsonx.ai.
Chcete-li se dozvědět více o tomto modelu, prohlédněte si následující prostředky:
granite-13b-instruct-v1
Model granite-13b-instruct-v1 poskytuje společnost IBM. Tento model byl trénován s vysoce kvalitními finančními daty a je špičkovým modelem pro finanční úkoly. Mezi vyhodnocené finanční úkoly patří: poskytování skóre sentimentu pro transkripce akcií a výdělků, klasifikace novin, extrakce hodnocení úvěrového rizika, shrnutí dlouhodobého finančního textu a zodpovězení finančních otázek nebo otázek souvisejících s pojištěním.
- Použití
Podporuje úlohy extrakce, sumarizace a klasifikace. Generuje užitečný výstup pro úlohy související s financemi. Používá formát výzvy specifický pro model. Přijímá speciální znaky, které lze použít pro generování strukturovaného výstupu.
- Náklady
Třída 3. Podrobnosti o cenách viz Watson Machine Learning.
- Vyzkoušejte to
- Velikost
13 miliard parametrů
- Omezení tokenů
Kontext (vstup + výstup): 8192
- Podporované přirozené jazyky
Angličtina
- Informace o vyladění pokynů
Žulová rodina modelů je vyškolena na datových sadách relevantních pro podniky z pěti domén: internet, akademický, kód, právní a finanční. Data použitá k trénování modelů nejprve projdou revizí řízení dat IBM a jsou filtrována podle textu, který je označen pro nenávist, zneužití nebo zneuctivost pomocí IBM-vyvinutého filtru HAP. IBM sdílí informace o používaných metodách trénování a datových sadách.
- Architektura modelu
Dekodér
- Licence
Další informace o smluvní ochraně související s produktem IBM watsonx.ainaleznete v popisu služby IBM watsonx.ai.
Chcete-li se dozvědět více o tomto modelu, prohlédněte si následující prostředky:
Llama-2 Konverzace
Model konverzace Llama-2 je poskytován společností Meta on Hugging Face. Vyladěný model je užitečný pro generování konverzace. Model je předem vyškolen s veřejně dostupnými online daty a vyladěn pomocí učení se výztuží z lidské zpětné vazby.
Můžete zvolit použití 13 miliard parametrů nebo 70 miliard parametrů verze modelu.
- Použití
Generuje výstup dialogu jako chatbot. Používá formát výzvy specifický pro model.
- Náklady
13b: Třída 2
70b: Třída 3
Podrobnosti o cenách viz Watson Machine Learning.
- Vyzkoušejte to
- Dostupné velikosti
- 13 miliard parametrů
- 70 miliard parametrů
- Omezení tokenů
Kontext (vstup + výstup): 4096
Poznámka: Výstup plánu Lite je omezen na 900
- Podporované přirozené jazyky
Angličtina
- Informace o vyladění pokynů
Llama 2 byla předškolena na 2 biliony žetonů dat z veřejně dostupných zdrojů. Data jemného doladění zahrnují veřejně dostupné datové sady instrukcí a více než jeden milion nových příkladů, které byly lidmi anotovány.
- Architektura modelu
Llama 2 je automatický regresivní model jazyka pouze pro dekodéry, který používá optimalizovanou architekturu transformátoru. Vyladěné verze používají dohlížené doladění a posílení učení s lidskou zpětnou vazbou.
- Licence
Chcete-li se dozvědět více o tomto modelu, prohlédněte si následující prostředky:
mpt-7b-instruct2
Model mpt-7b-instruct2 je poskytován společností MosaicML na Hugging Face. Tento model je vyladěnou verzí základního modelu MosaicML předtrénovaného transformátoru (MPT), který byl natrénován pro zpracování dlouhých vstupů. Tato verze modelu byla optimalizována společností IBM pro následující zkrácené pokyny.
- Použití
Obecné použití s nulovými nebo nemnoha výzvami k zadání.
- Náklady
Třída 1. Podrobnosti o cenách viz Watson Machine Learning.
- Vyzkoušejte to
- Velikost
7 miliard parametrů
- Omezení tokenů
Kontext (vstup + výstup): 2048
Poznámka: Výstup plánu Lite je omezen na 500
- Podporované přirozené jazyky
Angličtina
- Informace o vyladění pokynů
Datová sada, která byla použita k trénování tohoto modelu, je kombinací datové sady Dolly z databáze a filtrované podmnožiny pomocného a neškodného asistenta s posilováním učení z tréninkových dat lidské zpětné vazby od společnosti Anthropic. Během filtrování byly extrahovány části dialogových oken, které obsahují instrukce-následující kroky byly extrahovány pro použití jako ukázky.
- Architektura modelu
Kodér-dekodér
- Licence
Chcete-li se dozvědět více o tomto modelu, prohlédněte si následující prostředky:
mt0-xxl-13b
Model mt0-xxl-13b poskytuje produkt BigScience na Hugging Face. Model je optimalizován pro podporu generování jazyka a překladových úloh s angličtinou, jinými jazyky než angličtinou a vícejazyčnými výzvami.
- Použití
Obecné použití s nulovými nebo nemnoha výzvami k zadání. U překladových úloh uveďte tečku, která označuje konec textu, který chcete přeložit, nebo model může pokračovat ve větě, spíše než jej přeložit.
- Náklady
Třída 2. Podrobnosti o cenách viz Watson Machine Learning.
- Vyzkoušejte to
- Velikost
13 miliard parametrů
- Omezení tokenů
Kontext (vstup + výstup): 4096
Poznámka: Výstup plánu Lite je omezen na 700
- Podporované přirozené jazyky
Model je předem vyškolen na vícejazyčná data ve 108 jazycích a vyladěn s vícejazyčnými daty ve 46 jazycích pro provádění vícejazyčných úloh.
- Informace o vyladění pokynů
BigScience publikuje podrobnosti o svém kódu a datových sadách.
- Architektura modelu
Kodér-dekodér
- Licence
Chcete-li se dozvědět více o tomto modelu, prohlédněte si následující prostředky:
starcoder-15.5b
Model starcoder-15.5b je poskytován produktem BigCode na Hugging Face. Tento model může generovat kód a převádět kód z jednoho programovacího jazyka do jiného. Tento model je určen pro použití vývojáři ke zvýšení jejich produktivity.
- Použití
Generování kódu a převod kódu
Pozn.: Výstup modelu může zahrnovat kód, který je převzat přímo z trénovací dat, což může být licencovaný kód, který vyžaduje přisouzení.
- Náklady
Třída 2. Podrobnosti o cenách viz Watson Machine Learning.
- Vyzkoušejte to
- Velikost
15.5 miliarda parametrů
- Omezení tokenů
Kontext (vstup + výstup): 8192
- Podporované programovací jazyky
Více než 80 programovacích jazyků s důrazem na Python.
- Data použitá během trénování
Tento model byl trénován na více než 80 programovacích jazycích z produktu GitHub. Byl použit filtr, který vyloučí z trénovacích dat jakýkoli licencovaný kód nebo kód, který je označen s požadavky na odhlášení. Nicméně výstup modelu může zahrnovat kód z jeho trénovací dat, která vyžadují přisouzení. Model nebyl vyladěn instrukcemi. Odeslání vstupu pouze s instrukcemi a bez příkladů může vést k špatnému výstupu modelu.
- Architektura modelu
Dekodér
- Licence
Chcete-li se dozvědět více o tomto modelu, prohlédněte si následující prostředky:
Nadřízené téma: Modely Foundation