Translation not up to date
W produkcie IBM watsonx.aiwdrożono kolekcję modeli podstawowych Open Source i IBM .
Te modele można wyświetlać w laboratorium podpowiedzi lub programowo, korzystając z biblioteki Python .
Podsumowanie modeli
Aby zrozumieć, w jaki sposób dostawca modelu, strojenie instrukcji, limity tokenów i inne czynniki mogą wpływać na wybór modelu, należy zapoznać się z sekcją Wybieranie modelu.
Poniższa tabela zawiera listę obsługiwanych modeli podstawowych udostępnianych przez IBM .
Nazwa modelu | Dostawca | Instrukcje dostrojone | Klasa fakturowania | Maksymalna liczba tokenów Context (input + output) |
Dodatkowe informacje |
---|---|---|---|---|---|
granite-13b-chat-v1 | IBM | Tak | Klasa 3 | 8192 | Karta modelu Serwis WWW Research paper |
granite-13b-instruct-v1 | IBM | Tak | Klasa 3 | 8192 | Karta modelu Serwis WWW Research paper |
Poniższa tabela zawiera listę obsługiwanych modeli podstawowych, które są dostępne dla innych firm za pośrednictwem funkcji Hugging Face.
Nazwa modelu | Dostawca | Instrukcje dostrojone | Klasa fakturowania | Maksymalna liczba tokenów Context (input + output) |
Dodatkowe informacje |
---|---|---|---|---|---|
flan-t5-xxl-11b | Tak | Klasa 2 | 4096 | Karta modelu opracowanie |
|
flan-ul2-20b | Tak | Klasa 3 | 4096 | Karta modelu UL2 opracowanie badawcze Flan research paper |
|
gpt-neox-20b | EleutherAI | Nie | Klasa 3 | 8192 | Karta modelu opracowanie |
llama-2-13b-chat | Meta | Tak | Klasa 2 | 4096 | Karta modelu opracowanie |
llama-2-70b-chat | Meta | Tak | Klasa 3 | 4096 | Karta modelu opracowanie |
mpt-7b-instruct2 | Mozaika ML | Tak | Klasa 1 | 2048 | Karta modelowa Serwis WWW |
mt0-xxl-13b | BigScience | Tak | Klasa 2 | 4096 | Karta modelu opracowanie |
starcoder-15.5b | BigCode | Nie | Klasa 2 | 8192 | Karta modelu opracowanie |
- Listę modeli dostępnych w poszczególnych regionalnych centrach przetwarzania danych można znaleźć w sekcji Regionalna dostępność modelu fundamentowego.
- Więcej informacji na temat klas rozliczeniowych i ograniczania szybkości zawiera sekcja PlanyWatson Machine Learning.
Szczegóły modelu fundamentowego
Dostępne podstawowe modele obsługują wiele przypadków użycia zarówno w językach naturalnych, jak i w językach programowania. Aby wyświetlić typy zadań, które mogą być wykonywane przez te modele, należy przejrzeć i wypróbować przykładowe pytania.
flan-t5-xxl-11b
Model flan-t5-xxl-11b jest udostępniany przez firmę Google na platformie Hugging Face. Ten model jest oparty na wstępnie wytrenowanym modelu transformatora przesyłania tekstu do tekstu (T5) i korzysta z metod dostrajania instrukcji, aby uzyskać lepszą wydajność zerową i małą liczbę strzału. Model jest również precyzyjnie dostrojony do danych z łańcucha myślowego, aby zwiększyć jego zdolność do wykonywania zadań związanych z rozumowaniem.
- Wykorzystanie
Ogólne zastosowanie z pytaniami zero-lub kilka-strzał.
- Koszt
Klasa 2. Szczegółowe informacje na temat cen zawiera sekcja PlanyWatson Machine Learning.
- Wypróbuj
- Wielkość
11 miliardów parametrów
- Limity tokenów
Kontekst (wejście + wyjście): 4096
Uwaga: Dane wyjściowe planu Lite są ograniczone do 700
- Obsługiwane języki naturalne
angielski, niemiecki, francuski
- Informacje o strojeniu instrukcji
Model został precyzyjnie dostosowany do zadań, które obejmują wieloetapowe rozumowanie z danych dotyczących łańcucha myślowego, oprócz tradycyjnych zadań przetwarzania języka naturalnego. Publikowane są szczegółowe informacje o używanych zestawach danych uczących.
- Architektura modelu
Koder-dekoder
- Licencja
Więcej informacji na temat tego modelu zawierają następujące zasoby:
flan-ul2-20b
Model flan-ul2-20b jest udostępniany przez firmę Google na stronie Hugging Face. Ten model został wytrenowany przy użyciu Unifying Language Learning Paradigms (UL2). Model jest zoptymalizowany pod kątem generowania języka, rozumienia języka, klasyfikacji tekstu, odpowiadania na pytania, rozumowania opartego na zdrowym rozsądku, określania długiego tekstu, ustrukturyzowanego uziemienia wiedzy i pobierania informacji, uczenia kontekstowego, pytania o zerowy strzał i jednostrzałowego pytania.
- Wykorzystanie
Ogólne zastosowanie z pytaniami zero-lub kilka-strzał.
- Koszt
Klasa 3. Szczegółowe informacje na temat cen zawiera sekcja PlanyWatson Machine Learning.
- Wypróbuj
- Wielkość
20 miliardów parametrów
- Limity tokenów
Kontekst (wejście + wyjście): 4096
Uwaga: Dane wyjściowe planu Lite są ograniczone do 700
- Obsługiwane języki naturalne
Polski
- Informacje o strojeniu instrukcji
Model flan-ul2-20b jest wstępnie wytrenowany w kolosalnej, wyczyszczonej wersji korpusu przeszukiwania sieci Common Crawl. Model jest precyzyjnie dostrojony z wieloma celami szkolenia wstępnego, aby zoptymalizować go do różnych zadań przetwarzania języka naturalnego. Publikowane są szczegółowe informacje o używanych zestawach danych uczących.
- Architektura modelu
Koder-dekoder
- Licencja
Więcej informacji na temat tego modelu zawierają następujące zasoby:
gpt-neox-20b
Model gpt-neox-20b jest udostępniany przez firmę EleutherAI na platformie Hugging Face. Ten model jest autoregresyjnym modelem językowym, który jest wytrenowany na różnych tekstach w języku angielskim w celu obsługi przypadków użycia ogólnego przeznaczenia. GPT-NeoX-20B nie został dostrojony do kolejnych zadań.
- Wykorzystanie
Działa najlepiej z nielicznymi pytaniami. Akceptuje znaki specjalne, które mogą być używane do generowania ustrukturyzowanych danych wyjściowych.
Zestaw danych używany do treningu zawiera nieprzyzwoity i obraźliwy tekst. Przed użyciem modelu w aplikacji należy sprawdzić jego dane wyjściowe.
- Koszt
Klasa 3. Szczegółowe informacje na temat cen zawiera sekcja PlanyWatson Machine Learning.
- Wypróbuj
- Wielkość
20 miliardów parametrów
- Limity tokenów
Kontekst (wejście + wyjście): 8192
Uwaga: Dane wyjściowe planu Lite są ograniczone do 700
- Obsługiwane języki naturalne
Polski
- Dane używane podczas treningu
Model gpt-neox-20b został wytrenowany na modelu Pile. Więcej informacji na temat pliku Pile zawiera sekcja The Pile: An 800GB Dataset of Diverse Text for Language Modeling. Stos nie był zdeduplikowany przed użyciem do treningu.
- Architektura modelu
Dekoder
- Licencja
Więcej informacji na temat tego modelu zawierają następujące zasoby:
granite-13b-chat-v1
Model granite-13b-chat-v1 jest udostępniany przez firmę IBM. Ten model jest zoptymalizowany pod kątem przypadków użycia związanych z dialogiem i dobrze współpracuje z aplikacjami wirtualnego agenta i czatu.
- Wykorzystanie
- Generuje wyjście dialogu jak czatbot. Używa formatu pytania specyficznego dla modelu. Powoduje uwzględnienie w danych wyjściowych słowa kluczowego, którego można użyć jako sekwencji zatrzymania w celu uzyskania zwięzłej odpowiedzi.
- Koszt
- Klasa 3. Szczegółowe informacje na temat cen zawiera sekcja PlanyWatson Machine Learning.
- Wypróbuj
- Wielkość
- 13 miliardów parametrów
- Limity tokenów
- Kontekst (wejście + wyjście): 8192
- Obsługiwane języki naturalne
- Polski
- Informacje o strojeniu instrukcji
- Rodzina modeli granitowych jest szkolona w zakresie zestawów danych dotyczących przedsiębiorstw z pięciu dziedzin: internet, środowisko akademickie, kodeks, prawo i finanse. Dane używane do trenowania modeli są najpierw przeglądane przez nadzór nad danymi IBM i są filtrowane przez filtr HAP opracowany przez firmę IBMpod kątem nienawiści, nadużywania lub bluźnierstwa. IBM udostępnia informacje o stosowanych metodach szkolenia i zestawach danych.
- Architektura modelu
- Dekoder
- Licencja
- Warunki używania
- Więcej informacji na temat ochrony kontraktowej związanej z usługą IBM watsonx.aizawiera opis usługi IBM watsonx.ai.
Więcej informacji na temat tego modelu zawierają następujące zasoby:
granite-13b-instruct-v1
Model granite-13b-instruct-v1 jest udostępniany przez firmę IBM. Model ten został wytrenowany przy użyciu wysokiej jakości danych finansowych i jest modelem o najwyższej wydajności w zakresie zadań finansowych. Ocenione zadania finansowe obejmują: dostarczanie wyników sentymentalnych dla rozmów o stanach i zyskach, klasyfikowanie nagłówków wiadomości, wyodrębnianie ocen ryzyka kredytowego, podsumowywanie finansowego tekstu w długim formacie oraz odpowiadanie na pytania finansowe lub związane z ubezpieczeniem.
- Wykorzystanie
Obsługuje zadania wyodrębniania, podsumowania i klasyfikacji. Generuje przydatne dane wyjściowe dla zadań związanych z finansowaniem. Używa formatu pytania specyficznego dla modelu. Akceptuje znaki specjalne, które mogą być używane do generowania ustrukturyzowanych danych wyjściowych.
- Koszt
Klasa 3. Szczegółowe informacje na temat cen zawiera sekcja PlanyWatson Machine Learning.
- Wypróbuj
- Wielkość
13 miliardów parametrów
- Limity tokenów
Kontekst (wejście + wyjście): 8192
- Obsługiwane języki naturalne
Polski
- Informacje o strojeniu instrukcji
Rodzina modeli granitowych jest szkolona w zakresie zestawów danych dotyczących przedsiębiorstw z pięciu dziedzin: internet, środowisko akademickie, kodeks, prawo i finanse. Dane używane do trenowania modeli są najpierw przeglądane przez nadzór nad danymi IBM i są filtrowane przez filtr HAP opracowany przez firmę IBMpod kątem nienawiści, nadużywania lub bluźnierstwa. IBM udostępnia informacje o stosowanych metodach szkolenia i zestawach danych.
- Architektura modelu
Dekoder
- Licencja
Więcej informacji na temat ochrony kontraktowej związanej z usługą IBM watsonx.aizawiera opis usługi IBM watsonx.ai.
Więcej informacji na temat tego modelu zawierają następujące zasoby:
Llama-2 Rozmowa sieciowa
Model Llama-2 Chat jest udostępniany przez firmę Meta on Hugging Face. Dostrojony model jest przydatny do generowania czatów. Model jest wstępnie wytrenowany z publicznie dostępnych danych online i precyzyjnie dostrojony za pomocą wzmocnień uczenia się na podstawie opinii ludzi.
Można użyć wersji modelu o wartości 13 miliardów parametrów lub 70 miliardów parametrów.
- Wykorzystanie
Generuje wyjście dialogu jak czatbot. Używa formatu pytania specyficznego dla modelu.
- Koszt
13b: Klasa 2
70b: Klasa 3
Szczegółowe informacje na temat cen zawiera sekcja PlanyWatson Machine Learning.
- Wypróbuj
- Dostępne wielkości
- 13 miliardów parametrów
- 70 miliardów parametrów
- Limity tokenów
Kontekst (wejście + wyjście): 4096
Uwaga: Dane wyjściowe planu Lite są ograniczone do 900
- Obsługiwane języki naturalne
Polski
- Informacje o strojeniu instrukcji
Llama 2 został wstępnie przeszkolony na 2 bilionach żetonów danych z publicznie dostępnych źródeł. Dane dostrajające obejmują publicznie dostępne zestawy danych instrukcji i ponad milion nowych przykładów, które zostały opisane przez ludzi.
- Architektura modelu
Llama 2 to model języka dekodera autoregresyjnego, który wykorzystuje zoptymalizowaną architekturę transformatora. Dostrojone wersje korzystają z nadzorowanego dostrajania i wzmacniania uczenia się z ludzkimi opiniami.
- Licencja
Więcej informacji na temat tego modelu zawierają następujące zasoby:
mpt-7b-instruct2
Model mpt-7b-instruct2 jest udostępniany przez język MosaicML na stronie Hugging Face. Ten model jest zoptymalizowaną wersją podstawowego modelu MosaicML Prewytrenowanego Transformera (MPT), który został wytrenowany do obsługi długich danych wejściowych. Ta wersja modelu została zoptymalizowana przez firmę IBM pod kątem wykonywania skróconych instrukcji.
- Wykorzystanie
Ogólne zastosowanie z pytaniami zero-lub kilka-strzał.
- Koszt
Klasa 1. Szczegółowe informacje na temat cen zawiera sekcja PlanyWatson Machine Learning.
- Wypróbuj
- Wielkość
7 miliardów parametrów
- Limity tokenów
Kontekst (wejście + wyjście): 2048
Uwaga: Dane wyjściowe planu Lite są ograniczone do 500
- Obsługiwane języki naturalne
Polski
- Informacje o strojeniu instrukcji
Zestaw danych, który był używany do trenowania tego modelu jest kombinacją zestawu danych Dolly z Databrick i filtrowanego podzbioru pomocnego i nieopanowanego asystenta z wzmocnieniem uczenia się na podstawie danych z ludzkiego sprzężenia zwrotnego z Antropii. Podczas filtrowania części wymian okien dialogowych, które zawierają kolejne kroki instrukcji, zostały wyodrębnione w celu użycia ich jako przykładów.
- Architektura modelu
Koder-dekoder
- Licencja
Więcej informacji na temat tego modelu zawierają następujące zasoby:
mt0-xxl-13b
Model mt0-xxl-13b jest udostępniany przez firmę BigScience na platformie Hugging Face. Model jest zoptymalizowany pod kątem obsługi zadań generowania i tłumaczenia języka angielskiego, języków innych niż angielski i pytań wielojęzycznych.
- Wykorzystanie
Ogólne zastosowanie z pytaniami zero-lub kilka-strzał. W przypadku zadań tłumaczenia należy dołączyć kropkę, aby wskazać koniec tekstu, który ma zostać przetłumaczony, lub model może kontynuować zdanie zamiast go tłumaczyć.
- Koszt
Klasa 2. Szczegółowe informacje na temat cen zawiera sekcja PlanyWatson Machine Learning.
- Wypróbuj
- Wielkość
13 miliardów parametrów
- Limity tokenów
Kontekst (wejście + wyjście): 4096
Uwaga: Dane wyjściowe planu Lite są ograniczone do 700
- Obsługiwane języki naturalne
Model jest wstępnie wytrenowany na danych wielojęzycznych w 108 językach i dostrojony do danych wielojęzycznych w 46 językach do wykonywania zadań wielojęzycznych.
- Informacje o strojeniu instrukcji
BigScience publikuje szczegółowe informacje o swoim kodzie i zestawach danych.
- Architektura modelu
Koder-dekoder
- Licencja
Więcej informacji na temat tego modelu zawierają następujące zasoby:
starcoder-15.5b
Model starcoder-15.5b jest udostępniany przez BigCode w serwisie Hugging Face. Ten model może generować kod i konwertować kod z jednego języka programowania na inny. Model ma być używany przez programistów w celu zwiększenia produktywności.
- Wykorzystanie
Generowanie kodu i konwersja kodu
Uwaga: wyniki modelu mogą zawierać kod, który jest pobierany bezpośrednio z danych treningowych, które mogą być kodem licencjonowanym wymagającym przypisania.
- Koszt
Klasa 2. Szczegółowe informacje na temat cen zawiera sekcja PlanyWatson Machine Learning.
- Wypróbuj
- Wielkość
15.5 miliardów parametrów
- Limity tokenów
Kontekst (wejście + wyjście): 8192
- Obsługiwane języki programowania
Ponad 80 języków programowania, z naciskiem na Python.
- Dane używane podczas treningu
Ten model został wytrenowany w ponad 80 językach programowania z serwisu GitHub. Zastosowano filtr w celu wykluczenia z danych szkoleniowych kodu licencjonowanego lub kodu, który jest oznaczony żądaniami rezygnacji. Niemniej jednak wyniki modelu mogą zawierać kod z danych uczących, który wymaga przypisania. Model nie został dostrojony do instrukcji. Wprowadzenie danych wejściowych tylko z instrukcją i bez przykładów może spowodować powstanie słabego wyniku modelu.
- Architektura modelu
Dekoder
- Licencja
Więcej informacji na temat tego modelu zawierają następujące zasoby:
Temat nadrzędny: Modele Foundation