0 / 0
Go back to the English version of the documentation
Obsługiwane modele fundamentów dostępne w katalogu watsonx.ai
Last updated: 09 lis 2023
Obsługiwane modele fundamentów dostępne w katalogu watsonx.ai

W produkcie IBM watsonx.aiwdrożono kolekcję modeli podstawowych Open Source i IBM .

Te modele można wyświetlać w laboratorium podpowiedzi lub programowo, korzystając z biblioteki Python .

Podsumowanie modeli

Aby zrozumieć, w jaki sposób dostawca modelu, strojenie instrukcji, limity tokenów i inne czynniki mogą wpływać na wybór modelu, należy zapoznać się z sekcją Wybieranie modelu.

Poniższa tabela zawiera listę obsługiwanych modeli podstawowych udostępnianych przez IBM .

Tabela 1. IBM w pliku watsonx.ai
Nazwa modelu Dostawca Instrukcje dostrojone Klasa fakturowania Maksymalna liczba tokenów
Context (input + output)
Dodatkowe informacje
granite-13b-chat-v1 IBM Tak Klasa 3 8192 Karta modelu
Serwis WWW
Research paper
granite-13b-instruct-v1 IBM Tak Klasa 3 8192 Karta modelu
Serwis WWW
Research paper

 

Poniższa tabela zawiera listę obsługiwanych modeli podstawowych, które są dostępne dla innych firm za pośrednictwem funkcji Hugging Face.

Tabela 2. Obsługiwane modele fundamentów innych firm w pliku watsonx.ai
Nazwa modelu Dostawca Instrukcje dostrojone Klasa fakturowania Maksymalna liczba tokenów
Context (input + output)
Dodatkowe informacje
flan-t5-xxl-11b Google Tak Klasa 2 4096 Karta modelu
opracowanie
flan-ul2-20b Google Tak Klasa 3 4096 Karta modelu
UL2 opracowanie badawcze
Flan research paper
gpt-neox-20b EleutherAI Nie Klasa 3 8192 Karta modelu
opracowanie
llama-2-13b-chat Meta Tak Klasa 2 4096 Karta modelu
opracowanie
llama-2-70b-chat Meta Tak Klasa 3 4096 Karta modelu
opracowanie
mpt-7b-instruct2 Mozaika ML Tak Klasa 1 2048 Karta modelowa
Serwis WWW
mt0-xxl-13b BigScience Tak Klasa 2 4096 Karta modelu
opracowanie
starcoder-15.5b BigCode Nie Klasa 2 8192 Karta modelu
opracowanie

 

 

Szczegóły modelu fundamentowego

Dostępne podstawowe modele obsługują wiele przypadków użycia zarówno w językach naturalnych, jak i w językach programowania. Aby wyświetlić typy zadań, które mogą być wykonywane przez te modele, należy przejrzeć i wypróbować przykładowe pytania.

flan-t5-xxl-11b

Model flan-t5-xxl-11b jest udostępniany przez firmę Google na platformie Hugging Face. Ten model jest oparty na wstępnie wytrenowanym modelu transformatora przesyłania tekstu do tekstu (T5) i korzysta z metod dostrajania instrukcji, aby uzyskać lepszą wydajność zerową i małą liczbę strzału. Model jest również precyzyjnie dostrojony do danych z łańcucha myślowego, aby zwiększyć jego zdolność do wykonywania zadań związanych z rozumowaniem.

Wykorzystanie

Ogólne zastosowanie z pytaniami zero-lub kilka-strzał.

Koszt

Klasa 2. Szczegółowe informacje na temat cen zawiera sekcja PlanyWatson Machine Learning.

Wypróbuj
Wielkość

11 miliardów parametrów

Limity tokenów

Kontekst (wejście + wyjście): 4096

Uwaga: Dane wyjściowe planu Lite są ograniczone do 700

Obsługiwane języki naturalne

angielski, niemiecki, francuski

Informacje o strojeniu instrukcji

Model został precyzyjnie dostosowany do zadań, które obejmują wieloetapowe rozumowanie z danych dotyczących łańcucha myślowego, oprócz tradycyjnych zadań przetwarzania języka naturalnego. Publikowane są szczegółowe informacje o używanych zestawach danych uczących.

Architektura modelu

Koder-dekoder

Licencja

Apache 2.0 licencja

Więcej informacji na temat tego modelu zawierają następujące zasoby:

flan-ul2-20b

Model flan-ul2-20b jest udostępniany przez firmę Google na stronie Hugging Face. Ten model został wytrenowany przy użyciu Unifying Language Learning Paradigms (UL2). Model jest zoptymalizowany pod kątem generowania języka, rozumienia języka, klasyfikacji tekstu, odpowiadania na pytania, rozumowania opartego na zdrowym rozsądku, określania długiego tekstu, ustrukturyzowanego uziemienia wiedzy i pobierania informacji, uczenia kontekstowego, pytania o zerowy strzał i jednostrzałowego pytania.

Wykorzystanie

Ogólne zastosowanie z pytaniami zero-lub kilka-strzał.

Koszt

Klasa 3. Szczegółowe informacje na temat cen zawiera sekcja PlanyWatson Machine Learning.

Wypróbuj
Wielkość

20 miliardów parametrów

Limity tokenów

Kontekst (wejście + wyjście): 4096

Uwaga: Dane wyjściowe planu Lite są ograniczone do 700

Obsługiwane języki naturalne

Polski

Informacje o strojeniu instrukcji

Model flan-ul2-20b jest wstępnie wytrenowany w kolosalnej, wyczyszczonej wersji korpusu przeszukiwania sieci Common Crawl. Model jest precyzyjnie dostrojony z wieloma celami szkolenia wstępnego, aby zoptymalizować go do różnych zadań przetwarzania języka naturalnego. Publikowane są szczegółowe informacje o używanych zestawach danych uczących.

Architektura modelu

Koder-dekoder

Licencja

Apache 2.0 licencja

Więcej informacji na temat tego modelu zawierają następujące zasoby:

gpt-neox-20b

Model gpt-neox-20b jest udostępniany przez firmę EleutherAI na platformie Hugging Face. Ten model jest autoregresyjnym modelem językowym, który jest wytrenowany na różnych tekstach w języku angielskim w celu obsługi przypadków użycia ogólnego przeznaczenia. GPT-NeoX-20B nie został dostrojony do kolejnych zadań.

Wykorzystanie

Działa najlepiej z nielicznymi pytaniami. Akceptuje znaki specjalne, które mogą być używane do generowania ustrukturyzowanych danych wyjściowych.

Zestaw danych używany do treningu zawiera nieprzyzwoity i obraźliwy tekst. Przed użyciem modelu w aplikacji należy sprawdzić jego dane wyjściowe.

Koszt

Klasa 3. Szczegółowe informacje na temat cen zawiera sekcja PlanyWatson Machine Learning.

Wypróbuj
Wielkość

20 miliardów parametrów

Limity tokenów

Kontekst (wejście + wyjście): 8192

Uwaga: Dane wyjściowe planu Lite są ograniczone do 700

Obsługiwane języki naturalne

Polski

Dane używane podczas treningu

Model gpt-neox-20b został wytrenowany na modelu Pile. Więcej informacji na temat pliku Pile zawiera sekcja The Pile: An 800GB Dataset of Diverse Text for Language Modeling. Stos nie był zdeduplikowany przed użyciem do treningu.

Architektura modelu

Dekoder

Licencja

Apache 2.0 licencja

Więcej informacji na temat tego modelu zawierają następujące zasoby:

granite-13b-chat-v1

Model granite-13b-chat-v1 jest udostępniany przez firmę IBM. Ten model jest zoptymalizowany pod kątem przypadków użycia związanych z dialogiem i dobrze współpracuje z aplikacjami wirtualnego agenta i czatu.

Wykorzystanie
Generuje wyjście dialogu jak czatbot. Używa formatu pytania specyficznego dla modelu. Powoduje uwzględnienie w danych wyjściowych słowa kluczowego, którego można użyć jako sekwencji zatrzymania w celu uzyskania zwięzłej odpowiedzi.
Koszt
Klasa 3. Szczegółowe informacje na temat cen zawiera sekcja PlanyWatson Machine Learning.
Wypróbuj
Wielkość
13 miliardów parametrów
Limity tokenów
Kontekst (wejście + wyjście): 8192
Obsługiwane języki naturalne
Polski
Informacje o strojeniu instrukcji
Rodzina modeli granitowych jest szkolona w zakresie zestawów danych dotyczących przedsiębiorstw z pięciu dziedzin: internet, środowisko akademickie, kodeks, prawo i finanse. Dane używane do trenowania modeli są najpierw przeglądane przez nadzór nad danymi IBM i są filtrowane przez filtr HAP opracowany przez firmę IBMpod kątem nienawiści, nadużywania lub bluźnierstwa. IBM udostępnia informacje o stosowanych metodach szkolenia i zestawach danych.
Architektura modelu
Dekoder
Licencja
Warunki używania
Więcej informacji na temat ochrony kontraktowej związanej z usługą IBM watsonx.aizawiera opis usługi IBM watsonx.ai.

Więcej informacji na temat tego modelu zawierają następujące zasoby:

granite-13b-instruct-v1

Model granite-13b-instruct-v1 jest udostępniany przez firmę IBM. Model ten został wytrenowany przy użyciu wysokiej jakości danych finansowych i jest modelem o najwyższej wydajności w zakresie zadań finansowych. Ocenione zadania finansowe obejmują: dostarczanie wyników sentymentalnych dla rozmów o stanach i zyskach, klasyfikowanie nagłówków wiadomości, wyodrębnianie ocen ryzyka kredytowego, podsumowywanie finansowego tekstu w długim formacie oraz odpowiadanie na pytania finansowe lub związane z ubezpieczeniem.

Wykorzystanie

Obsługuje zadania wyodrębniania, podsumowania i klasyfikacji. Generuje przydatne dane wyjściowe dla zadań związanych z finansowaniem. Używa formatu pytania specyficznego dla modelu. Akceptuje znaki specjalne, które mogą być używane do generowania ustrukturyzowanych danych wyjściowych.

Koszt

Klasa 3. Szczegółowe informacje na temat cen zawiera sekcja PlanyWatson Machine Learning.

Wypróbuj
Wielkość

13 miliardów parametrów

Limity tokenów

Kontekst (wejście + wyjście): 8192

Obsługiwane języki naturalne

Polski

Informacje o strojeniu instrukcji

Rodzina modeli granitowych jest szkolona w zakresie zestawów danych dotyczących przedsiębiorstw z pięciu dziedzin: internet, środowisko akademickie, kodeks, prawo i finanse. Dane używane do trenowania modeli są najpierw przeglądane przez nadzór nad danymi IBM i są filtrowane przez filtr HAP opracowany przez firmę IBMpod kątem nienawiści, nadużywania lub bluźnierstwa. IBM udostępnia informacje o stosowanych metodach szkolenia i zestawach danych.

Architektura modelu

Dekoder

Licencja

Warunki używania

Więcej informacji na temat ochrony kontraktowej związanej z usługą IBM watsonx.aizawiera opis usługi IBM watsonx.ai.

Więcej informacji na temat tego modelu zawierają następujące zasoby:

Llama-2 Rozmowa sieciowa

Model Llama-2 Chat jest udostępniany przez firmę Meta on Hugging Face. Dostrojony model jest przydatny do generowania czatów. Model jest wstępnie wytrenowany z publicznie dostępnych danych online i precyzyjnie dostrojony za pomocą wzmocnień uczenia się na podstawie opinii ludzi.

Można użyć wersji modelu o wartości 13 miliardów parametrów lub 70 miliardów parametrów.

Wykorzystanie

Generuje wyjście dialogu jak czatbot. Używa formatu pytania specyficznego dla modelu.

Koszt

13b: Klasa 2

70b: Klasa 3

Szczegółowe informacje na temat cen zawiera sekcja PlanyWatson Machine Learning.

Wypróbuj
Dostępne wielkości
  • 13 miliardów parametrów
  • 70 miliardów parametrów
Limity tokenów

Kontekst (wejście + wyjście): 4096

Uwaga: Dane wyjściowe planu Lite są ograniczone do 900

Obsługiwane języki naturalne

Polski

Informacje o strojeniu instrukcji

Llama 2 został wstępnie przeszkolony na 2 bilionach żetonów danych z publicznie dostępnych źródeł. Dane dostrajające obejmują publicznie dostępne zestawy danych instrukcji i ponad milion nowych przykładów, które zostały opisane przez ludzi.

Architektura modelu

Llama 2 to model języka dekodera autoregresyjnego, który wykorzystuje zoptymalizowaną architekturę transformatora. Dostrojone wersje korzystają z nadzorowanego dostrajania i wzmacniania uczenia się z ludzkimi opiniami.

Licencja

Licencja

Więcej informacji na temat tego modelu zawierają następujące zasoby:

mpt-7b-instruct2

Model mpt-7b-instruct2 jest udostępniany przez język MosaicML na stronie Hugging Face. Ten model jest zoptymalizowaną wersją podstawowego modelu MosaicML Prewytrenowanego Transformera (MPT), który został wytrenowany do obsługi długich danych wejściowych. Ta wersja modelu została zoptymalizowana przez firmę IBM pod kątem wykonywania skróconych instrukcji.

Wykorzystanie

Ogólne zastosowanie z pytaniami zero-lub kilka-strzał.

Koszt

Klasa 1. Szczegółowe informacje na temat cen zawiera sekcja PlanyWatson Machine Learning.

Wypróbuj
Wielkość

7 miliardów parametrów

Limity tokenów

Kontekst (wejście + wyjście): 2048

Uwaga: Dane wyjściowe planu Lite są ograniczone do 500

Obsługiwane języki naturalne

Polski

Informacje o strojeniu instrukcji

Zestaw danych, który był używany do trenowania tego modelu jest kombinacją zestawu danych Dolly z Databrick i filtrowanego podzbioru pomocnego i nieopanowanego asystenta z wzmocnieniem uczenia się na podstawie danych z ludzkiego sprzężenia zwrotnego z Antropii. Podczas filtrowania części wymian okien dialogowych, które zawierają kolejne kroki instrukcji, zostały wyodrębnione w celu użycia ich jako przykładów.

Architektura modelu

Koder-dekoder

Licencja

Apache 2.0 licencja

Więcej informacji na temat tego modelu zawierają następujące zasoby:

mt0-xxl-13b

Model mt0-xxl-13b jest udostępniany przez firmę BigScience na platformie Hugging Face. Model jest zoptymalizowany pod kątem obsługi zadań generowania i tłumaczenia języka angielskiego, języków innych niż angielski i pytań wielojęzycznych.

Wykorzystanie

Ogólne zastosowanie z pytaniami zero-lub kilka-strzał. W przypadku zadań tłumaczenia należy dołączyć kropkę, aby wskazać koniec tekstu, który ma zostać przetłumaczony, lub model może kontynuować zdanie zamiast go tłumaczyć.

Koszt

Klasa 2. Szczegółowe informacje na temat cen zawiera sekcja PlanyWatson Machine Learning.

Wypróbuj
Wielkość

13 miliardów parametrów

Limity tokenów

Kontekst (wejście + wyjście): 4096

Uwaga: Dane wyjściowe planu Lite są ograniczone do 700

Obsługiwane języki naturalne

Model jest wstępnie wytrenowany na danych wielojęzycznych w 108 językach i dostrojony do danych wielojęzycznych w 46 językach do wykonywania zadań wielojęzycznych.

Informacje o strojeniu instrukcji

BigScience publikuje szczegółowe informacje o swoim kodzie i zestawach danych.

Architektura modelu

Koder-dekoder

Licencja

Apache 2.0 licencja

Więcej informacji na temat tego modelu zawierają następujące zasoby:

starcoder-15.5b

Model starcoder-15.5b jest udostępniany przez BigCode w serwisie Hugging Face. Ten model może generować kod i konwertować kod z jednego języka programowania na inny. Model ma być używany przez programistów w celu zwiększenia produktywności.

Wykorzystanie

Generowanie kodu i konwersja kodu

Uwaga: wyniki modelu mogą zawierać kod, który jest pobierany bezpośrednio z danych treningowych, które mogą być kodem licencjonowanym wymagającym przypisania.

Koszt

Klasa 2. Szczegółowe informacje na temat cen zawiera sekcja PlanyWatson Machine Learning.

Wypróbuj
Wielkość

15.5 miliardów parametrów

Limity tokenów

Kontekst (wejście + wyjście): 8192

Obsługiwane języki programowania

Ponad 80 języków programowania, z naciskiem na Python.

Dane używane podczas treningu

Ten model został wytrenowany w ponad 80 językach programowania z serwisu GitHub. Zastosowano filtr w celu wykluczenia z danych szkoleniowych kodu licencjonowanego lub kodu, który jest oznaczony żądaniami rezygnacji. Niemniej jednak wyniki modelu mogą zawierać kod z danych uczących, który wymaga przypisania. Model nie został dostrojony do instrukcji. Wprowadzenie danych wejściowych tylko z instrukcją i bez przykładów może spowodować powstanie słabego wyniku modelu.

Architektura modelu

Dekoder

Licencja

Licencja

Więcej informacji na temat tego modelu zawierają następujące zasoby:

 

Temat nadrzędny: Modele Foundation

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more