0 / 0
Go back to the English version of the documentation
Wybór modelu fundamentalnego w pliku watsonx.ai
Last updated: 07 lis 2023
Wybór modelu fundamentalnego w pliku watsonx.ai

Aby określić, które modele mogą działać poprawnie w projekcie, należy wziąć pod uwagę atrybuty modelu, takie jak licencja, dane wstępnego treningu, wielkość modelu i sposób dostrojenia modelu. Po uzyskaniu krótkiej listy modeli, które najlepiej pasują do danego przypadku użycia, należy systematycznie testować modele, aby sprawdzić, które z nich konsekwentnie zwracają pożądane wyniki.

 

Tabela 1. Uwagi dotyczące wyboru modelu fundamentalnego w pliku IBM watsonx.ai
Atrybut modelu Uwagi
Długość kontekstu Czasami nazywana długością okna kontekstu, oknem kontekstulub maksymalną długością sekwencji, długość kontekstu jest maksymalną dozwoloną wartością liczby elementów w zachęcie wejścia powiększoną o liczbę elementów w wygenerowanych danych wyjściowych. Podczas generowania wyników z modelami w pliku watsonx.ailiczba leksemów w wygenerowanych wynikach jest ograniczona przez parametr maksymalnej liczby leksemów. W przypadku niektórych modeli długość znacznika danych wyjściowych modelu dla planów Lite jest ograniczona przez dynamiczny, specyficzny dla modelu górny limit sterowany przez środowisko.
Koszty Koszt korzystania z modeli podstawowych jest mierzony w jednostkach zasobów. Cena jednostki zasobów jest oparta na stawce klasy fakturowania dla modelu podstawy.
Dostrajanie Po wstępnym przeszkoleniu wiele modeli podstawowych jest dostrojonych do konkretnych zadań, takich jak klasyfikowanie, wyodrębnianie informacji, podsumowywanie, odpowiadanie na instrukcje, odpowiadanie na pytania lub uczestniczenie w rozmowie dialogowej. Model, który został dostrojony do zadań podobnych do planowanego użycia, zwykle działa lepiej z pytaniami o zero-shot niż modele, które nie zostały dostrojone w sposób dopasowany do danego przypadku użycia. Jednym ze sposobów poprawy wyników modelu dostrojonego jest ustrukturyzowanie pytania w tym samym formacie, co pytania w zestawach danych, które zostały użyte do dostrojenia tego modelu.
Instrukcje dostrojone Instrukcja dostrojona oznacza, że model został dostrojony z podpowiedziami zawierającymi instrukcję. Gdy model jest dostrojony do instrukcji, zwykle dobrze reaguje na pytania, które zawierają instrukcję, nawet jeśli te pytania nie zawierają przykładów.
Odszkodowanie IP Oprócz warunków licencji należy zapoznać się ze strategią ochrony przed roszczeniami z tytułu własności intelektualnej dla modelu. Niektórzy dostawcy modeli podstawowych wymagają od użytkownika zwolnienia ich z odpowiedzialności za naruszenie praw własności intelektualnej, które może wynikać z użycia ich modeli AI. Informacje na temat ochrony umownej związanej z IBM watsonx.aizawiera opis usługi IBM watsonx.ai.
Licencja Na ogół każdy model podstawowy jest dostarczany z inną licencją, która ogranicza sposób użycia modelu. Przejrzyj licencje modelu, aby upewnić się, że można użyć modelu dla planowanego rozwiązania.
Architektura modelu Architektura modelu wpływa na zachowanie modelu. Model oparty na transformatorze ma zwykle jedną z następujących architektur:
Encoder-only: rozumie tekst wejściowy na poziomie zdania, transformując sekwencje wejściowe w reprezentacyjne wektory nazywane osadzaniem. Typowe zadania dla modeli zawierających tylko koder obejmują klasyfikowanie i wyodrębnianie jednostek.
Tylko dekoder: Generuje tekst wyjściowy słowo po słowie przez wnioskowanie z sekwencji wejściowej. Typowe zadania dla modeli zawierających tylko dekoder obejmują generowanie tekstu i odpowiadanie na pytania.
Koder-dekoder: zarówno rozpoznaje tekst wejściowy, jak i generuje tekst wyjściowy na podstawie tekstu wejściowego. Typowe zadania dla modeli kodera-dekodera obejmują tłumaczenie i podsumowanie.
Dostępność regionalna Można pracować z modelami, które są dostępne w tym samym regionalnym centrum przetwarzania danych IBM Cloud , co usługi watsonx .
Obsługiwane języki naturalne Wiele podstawowych modeli działa dobrze tylko w języku angielskim. Jednak niektórzy twórcy modeli zawierają wiele języków w zestawach danych wstępnego uczenia, aby precyzyjnie dostosować swój model do zadań wykonywanych w różnych językach i przetestować wydajność modelu w wielu językach. Jeśli planujesz zbudować rozwiązanie dla globalnej publiczności lub rozwiązanie, które wykonuje zadania tłumaczeniowe, poszukaj modeli, które zostały utworzone z myślą o obsłudze wielu języków.
Obsługiwane języki programowania Nie wszystkie podstawowe modele działają dobrze w przypadku programowania przypadków użycia. Jeśli planowane jest utworzenie rozwiązania podsumowującego, konwertującego, generującego lub w inny sposób przetwarzającego kod, należy sprawdzić, które języki programowania zostały uwzględnione w zestawach danych wstępnego trenowania modelu i w działaniach dostrajających w celu określenia, czy model ten jest odpowiedni dla danego przypadku użycia.

Więcej inform.

Temat nadrzędny: Obsługiwane modele podstawowe

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more