Translation not up to date
The translation of this page does not represent the latest version. For the latest updates, see the English version of the documentation.
Last updated: 07 lis 2023
Aby określić, które modele mogą działać poprawnie w projekcie, należy wziąć pod uwagę atrybuty modelu, takie jak licencja, dane wstępnego treningu, wielkość modelu i sposób dostrojenia modelu. Po uzyskaniu krótkiej listy modeli, które najlepiej pasują do danego przypadku użycia, należy systematycznie testować modele, aby sprawdzić, które z nich konsekwentnie zwracają pożądane wyniki.
Atrybut modelu | Uwagi |
---|---|
Długość kontekstu | Czasami nazywana długością okna kontekstu, oknem kontekstulub maksymalną długością sekwencji, długość kontekstu jest maksymalną dozwoloną wartością liczby elementów w zachęcie wejścia powiększoną o liczbę elementów w wygenerowanych danych wyjściowych. Podczas generowania wyników z modelami w pliku watsonx.ailiczba leksemów w wygenerowanych wynikach jest ograniczona przez parametr maksymalnej liczby leksemów. W przypadku niektórych modeli długość znacznika danych wyjściowych modelu dla planów Lite jest ograniczona przez dynamiczny, specyficzny dla modelu górny limit sterowany przez środowisko. |
Koszty | Koszt korzystania z modeli podstawowych jest mierzony w jednostkach zasobów. Cena jednostki zasobów jest oparta na stawce klasy fakturowania dla modelu podstawy. |
Dostrajanie | Po wstępnym przeszkoleniu wiele modeli podstawowych jest dostrojonych do konkretnych zadań, takich jak klasyfikowanie, wyodrębnianie informacji, podsumowywanie, odpowiadanie na instrukcje, odpowiadanie na pytania lub uczestniczenie w rozmowie dialogowej. Model, który został dostrojony do zadań podobnych do planowanego użycia, zwykle działa lepiej z pytaniami o zero-shot niż modele, które nie zostały dostrojone w sposób dopasowany do danego przypadku użycia. Jednym ze sposobów poprawy wyników modelu dostrojonego jest ustrukturyzowanie pytania w tym samym formacie, co pytania w zestawach danych, które zostały użyte do dostrojenia tego modelu. |
Instrukcje dostrojone | Instrukcja dostrojona oznacza, że model został dostrojony z podpowiedziami zawierającymi instrukcję. Gdy model jest dostrojony do instrukcji, zwykle dobrze reaguje na pytania, które zawierają instrukcję, nawet jeśli te pytania nie zawierają przykładów. |
Odszkodowanie IP | Oprócz warunków licencji należy zapoznać się ze strategią ochrony przed roszczeniami z tytułu własności intelektualnej dla modelu. Niektórzy dostawcy modeli podstawowych wymagają od użytkownika zwolnienia ich z odpowiedzialności za naruszenie praw własności intelektualnej, które może wynikać z użycia ich modeli AI. Informacje na temat ochrony umownej związanej z IBM watsonx.aizawiera opis usługi IBM watsonx.ai. |
Licencja | Na ogół każdy model podstawowy jest dostarczany z inną licencją, która ogranicza sposób użycia modelu. Przejrzyj licencje modelu, aby upewnić się, że można użyć modelu dla planowanego rozwiązania. |
Architektura modelu | Architektura modelu wpływa na zachowanie modelu. Model oparty na transformatorze ma zwykle jedną z następujących architektur: Encoder-only: rozumie tekst wejściowy na poziomie zdania, transformując sekwencje wejściowe w reprezentacyjne wektory nazywane osadzaniem. Typowe zadania dla modeli zawierających tylko koder obejmują klasyfikowanie i wyodrębnianie jednostek. Tylko dekoder: Generuje tekst wyjściowy słowo po słowie przez wnioskowanie z sekwencji wejściowej. Typowe zadania dla modeli zawierających tylko dekoder obejmują generowanie tekstu i odpowiadanie na pytania. Koder-dekoder: zarówno rozpoznaje tekst wejściowy, jak i generuje tekst wyjściowy na podstawie tekstu wejściowego. Typowe zadania dla modeli kodera-dekodera obejmują tłumaczenie i podsumowanie. |
Dostępność regionalna | Można pracować z modelami, które są dostępne w tym samym regionalnym centrum przetwarzania danych IBM Cloud , co usługi watsonx . |
Obsługiwane języki naturalne | Wiele podstawowych modeli działa dobrze tylko w języku angielskim. Jednak niektórzy twórcy modeli zawierają wiele języków w zestawach danych wstępnego uczenia, aby precyzyjnie dostosować swój model do zadań wykonywanych w różnych językach i przetestować wydajność modelu w wielu językach. Jeśli planujesz zbudować rozwiązanie dla globalnej publiczności lub rozwiązanie, które wykonuje zadania tłumaczeniowe, poszukaj modeli, które zostały utworzone z myślą o obsłudze wielu języków. |
Obsługiwane języki programowania | Nie wszystkie podstawowe modele działają dobrze w przypadku programowania przypadków użycia. Jeśli planowane jest utworzenie rozwiązania podsumowującego, konwertującego, generującego lub w inny sposób przetwarzającego kod, należy sprawdzić, które języki programowania zostały uwzględnione w zestawach danych wstępnego trenowania modelu i w działaniach dostrajających w celu określenia, czy model ten jest odpowiedni dla danego przypadku użycia. |
Więcej inform.
- Tokeny i dzielenie na leksemy
- Parametry modelu dla podpowiedzi
- Wskazówki
- PlanyWatson Machine Learning
- Dostępność regionalna dla modeli podstawowych
Temat nadrzędny: Obsługiwane modele podstawowe