Techniki unikania niepożądanych wyników

Translation not up to date

The translation of this page does not represent the latest version. For the latest updates, see the English version of the documentation.

Go back to the English version of the documentation

Techniki unikania niepożądanych wyników

Last updated: 07 lis 2023

Techniki unikania niepożądanych wyników

Każdy model podstawowy ma możliwość generowania wyników, które zawierają niepoprawne lub nawet szkodliwe treści. Należy zapoznać się z typami niepożądanych danych wyjściowych, które mogą być generowane, przyczynami niepożądanych danych wyjściowych oraz krokami, które można podjąć w celu zmniejszenia ryzyka uszkodzenia.

Podstawowe modele dostępne w produkcie IBM watsonx.ai mogą generować dane wyjściowe zawierające halucynacje, dane osobowe, mowę nienawiści, nadużycie, bluźnierstwa i uprzedzenia. Poniższe techniki mogą przyczynić się do zmniejszenia ryzyka, ale nie gwarantują, że wygenerowane dane wyjściowe będą wolne od niepożądanych treści.

Znajdź techniki ułatwiające uniknięcie następujących typów niepożądanych treści w wynikach modelu bazowego:

Halucynacje
Dane osobowe
Mowa nienawiści, znęcanie się i bluźnierstwa
Obciążenie

Omamy

Gdy model podstawowy generuje szczegóły poza tematem, powtarzające się lub niepoprawne treści albo tworzy szczegóły, takie zachowanie jest czasami nazywane halucynacją.

Halucynacje poza tematem mogą wystąpić z powodu pseudolosowości w dekodowaniu wygenerowanych danych wyjściowych. W najlepszych przypadkach, że losowość może doprowadzić do wspaniałego twórczego wyniku. Ale losowość może również powodować nonsensowne wyjście, które nie jest przydatne.

Model może zwracać halucynacje w postaci sfabrykowanych szczegółów, gdy zostanie poproszony o wygenerowanie tekstu, ale nie ma wystarczającej ilości tekstu pokrewnego, aby można było na nim rysować. Jeśli na przykład w zachęcie zostaną uwzględnione poprawne szczegóły, model będzie mniej skłonny do halucynacji i tworzenia szczegółów.

Techniki unikania halucynacji

Aby uniknąć halucynacji, należy przetestować co najmniej jedną z następujących technik:

Wybierz model ze wstępnym trenowaniem i dostrajaniem, który jest zgodny z Twoją domeną i wykonywanym zadaniem.
Podaj kontekst w monicie.

Jeśli poinstruujesz model podstawowy, aby wygenerował tekst na temat, który nie jest powszechny w danych przed treningiem, i nie dodasz do pytania informacji o temacie, model będzie bardziej skłonny do halucynacji.
Określ wartości zachowawcze dla parametrów tokenów minimalnej i maksymalnej liczby tokenów oraz określ jedną lub więcej sekwencji zatrzymania.

W przypadku określenia wysokiej wartości parametru Minimalna liczba tokenów można wymusić generowanie przez model odpowiedzi dłuższej niż ta, która w naturalny sposób byłaby zwracana dla pytania. Model ma większe prawdopodobieństwo halucynacji, ponieważ dodaje słowa do danych wyjściowych, aby osiągnąć wymagany limit.
W przypadkach użycia, które nie wymagają zbyt wiele kreatywności w wygenerowanych danych wyjściowych, należy użyć dekodowania zachłannego. Jeśli preferowane jest użycie dekodowania próbkowania, należy określić wartości zachowawcze dla parametrów temperature, top-p i top-k.
Aby zredukować powtarzający się tekst w wygenerowanych danych wyjściowych, należy zwiększyć parametr kary za powtarzanie.
Jeśli podczas dekodowania zachłannego wyświetlany jest powtarzający się tekst w wygenerowanych danych wyjściowych, a dla danego przypadku użycia akceptowalna jest pewna kreatywność, należy spróbować użyć dekodowania próbnego. Należy ustawić umiarkowanie niskie wartości dla parametrów temperature, top-p i top-k.
W swoim pytaniu poinstruuj model, co robić, gdy nie ma on odpowiedzi na pytanie o pewność siebie lub wysokie prawdopodobieństwo.

Na przykład w scenariuszu odpowiadania na pytania można dołączyć instrukcję: If the answer is not in the article, say “I don't know”.

Dane osobowe

Słownictwo modelu bazowego jest tworzone na podstawie słów w danych przed treningiem. Jeśli dane wstępnego szkolenia obejmują strony WWW, które są pobierane z Internetu, słownik modelu może zawierać następujące typy informacji:

Nazwiska autorów artykułu
Informacje kontaktowe z serwisów WWW firmy
Dane osobowe z pytań i komentarzy, które zostały opublikowane na otwartych forach społeczności

Jeśli do generowania tekstu dla części wiadomości e-mail reklamowej używany jest model podstawowy, wygenerowana treść może zawierać informacje kontaktowe dla innej firmy.

Jeśli poprosisz model podstawowy o napisanie papieru z cytatami, model może zawierać odwołania, które wyglądają legalnie, ale nie są. Może nawet przypisać te wymyślone odwołania do rzeczywistych autorów z właściwego pola. Model fundamentowy może generować imitacje, poprawne w formie, ale nie ugruntowane w faktach, ponieważ modele są dobre w łączeniu słów (w tym nazw), które mają wysokie prawdopodobieństwo wystąpienia razem. Fakt, że model nadaje temu wynikowi odrobinę legitymacji, poprzez uwzględnienie nazwisk prawdziwych ludzi jako autorów w cytatach, sprawia, że ta forma halucynacji jest przekonywualna i wiarygodna. To również sprawia, że ta forma halucynacji jest niebezpieczna. Ludzie mogą wpaść w kłopoty, jeśli wierzą, że cytaty są prawdziwe. Nie wspominając o krzywdzie, jaką mogą wyrządzić ludzie, którzy są wymienieni jako autorzy dzieł, których nie napisali.

Techniki wykluczania danych osobowych

Aby wykluczyć dane osobowe, należy wypróbować następujące techniki:

W zachęcie poinstruuj model, aby nie wymieniał nazwisk, danych kontaktowych ani danych osobowych.

Na przykład, gdy użytkownik poprosi model o wygenerowanie wiadomości e-mail z reklamą, należy poinformować model, aby zawierał nazwę firmy i numer telefonu. Ponadto poinstruuj model, aby "nie zawierał żadnych innych informacji o firmie ani danych osobowych".
W większej aplikacji, potoku lub rozwiązaniu przetwarzanie końcowe treści generowanej przez model podstawowy w celu znalezienia i usunięcia danych osobowych.

Mowa nienawiści, znęcanie się i bluźnierstwa

Podobnie jak w przypadku danych osobowych, gdy dane wstępnego szkolenia obejmują terminy nienawistne lub obraźliwe lub wulgarne, model podstawowy, który jest wytrenowany na podstawie tych danych, ma te problematyczne terminy w słowniku. Jeśli w słowniku modelu znajduje się nieodpowiedni język, model podstawowy może wygenerować tekst zawierający niepożądaną treść.

Jeśli do generowania treści dla firmy używane są modele podstawowe, należy wykonać następujące czynności:

Rozpoznaj, że ten rodzaj danych wyjściowych jest zawsze możliwy.
Wykonaj kroki, aby zmniejszyć prawdopodobieństwo wyzwolenia modelu w celu wygenerowania tego rodzaju szkodliwych wyników.
Wbuduj procesy przeglądu i weryfikacji personelu w swoje rozwiązania.

Techniki ograniczania ryzyka wystąpienia nienawiści, znęcania się i bluźnierstwa

Aby uniknąć nienawiści mowy, nadużycia, i wulgarności, przetestować jedną lub więcej z tych technik:

W narzędziu Prompt Lab (Laboratorium z pytaniami) ustaw opcję AI guardrails (Barierki sztucznej inteligencji) na wartość On (Włączone). Jeśli ta funkcja jest włączona, każde zdanie w zachęcie wejściowej lub wygenerowanym wyjściu, które zawiera szkodliwy język, jest zastępowane komunikatem z informacją o usunięciu potencjalnie szkodliwego tekstu.
Nie włączaj mowy nienawiści, nadużycia, lub wulgarności w swojej zachęcie, aby zapobiec model reaguje w naturze.
W zachęcie poinstruuj model, aby używał czystego języka.

Na przykład, w zależności od tonu, którego potrzebujesz do uzyskania wyników, poinstruuj model, aby używał języka "formalnego", "profesjonalnego", "PG" lub "przyjaznego".
W większej aplikacji, potoku lub rozwiązaniu należy przetworzyć treść wygenerowaną przez model podstawowy w celu usunięcia niepożądanej treści.

Zmniejszanie ryzyka stronniczości w wynikach modelu

Podczas wstępnego uczenia model podstawowy uczy się statystycznego prawdopodobieństwa, że niektóre słowa następują po innych słowach, na podstawie tego, jak te słowa pojawiają się w danych uczących. Wszelkie odchylenie w danych uczących jest trenowane do modelu.

Na przykład, jeśli dane szkoleniowe częściej odnoszą się do lekarzy jako mężczyzn i pielęgniarek jako kobiet, że uprzedzenia mogą być odzwierciedlone w statystycznych relacjach między tymi słowami w modelu. W rezultacie model może generować wyniki, które częściej odnoszą się do lekarzy jako mężczyzn i pielęgniarek jako kobiet. Czasami ludzie wierzą, że algorytmy mogą być bardziej sprawiedliwe i nieobiektywne niż ludzie, ponieważ algorytmy te "wykorzystują matematykę do decydowania". Jednak odchylenie w danych uczących jest odzwierciedlane w treści generowanej przez podstawowe modele, które są trenowane na podstawie tych danych.

Techniki zmniejszania uprzedzeń

Trudno jest uzyskać wynik obciążenia, który jest generowany przez model podstawowy, który został wstępnie wytrenowany na podstawie danych obciążonych. Wyniki można jednak poprawić, dołączając treść do pytania o przeciwdziałanie uprzedzeń, które mogą mieć zastosowanie do danego przypadku użycia.

Na przykład zamiast instruować model, aby "wymieniał objawy zawału serca", można nakazać modelowi, aby "wymieniał objawy zawału serca, w tym objawy wspólne dla mężczyzn i objawy wspólne dla kobiet".

Temat nadrzędny: Podpowiedź