Techniky, jak se vyhnout nežádoucímu výstupu

Translation not up to date

The translation of this page does not represent the latest version. For the latest updates, see the English version of the documentation.

Go back to the English version of the documentation

Techniky, jak se vyhnout nežádoucímu výstupu

Last updated: 07. 11. 2023

Techniky, jak se vyhnout nežádoucímu výstupu

Každý základní model má potenciál generovat výstup, který obsahuje nesprávný nebo dokonce škodlivý obsah. Seznamte se s typy nežádoucích výstupů, které mohou být generovány, s příčinami nežádoucích výstupů a s kroky, které můžete podniknout, abyste snížili riziko poškození.

Základní modely, které jsou k dispozici v produktu IBM watsonx.ai , mohou generovat výstup, který obsahuje halucinace, osobní informace, projevy nenávisti, zneužití, vulgární výrazy a zkreslení. Následující techniky mohou pomoci snížit riziko, ale nezaručují, že generovaný výstup nebude obsahovat nežádoucí obsah.

Najděte techniky, které vám pomohou vyhnout se následujícím typům nežádoucího obsahu ve výstupu základního modelu:

Hallucinace
Osobní informace
Nenávistná řeč, zneužívání a rouhavost
zaujatí

Halucinace

Když základní model generuje mimo téma, opakující se nebo nesprávný obsah nebo vytváří podrobnosti, toto chování se někdy nazývá halucinace.

Off-topic halucinace se může stát kvůli pseudo-náhodnosti v dekódování generovaného výstupu. V nejlepších případech, že náhodnost může mít za následek nádherně kreativní výstup. Ale náhodnost může také vést k nesmyslnému výstupu, který není užitečný.

Model může vrátit halucinace ve formě vyrobených detailů, když je vyzván k vygenerování textu, ale není uveden dostatek souvisejícího textu k tomu, aby mohl čerpat. Zahrnete-li například do výzvy správné údaje, bude mít model menší pravděpodobnost, že bude halucinovat a sestavovat podrobnosti.

Techniky, jak se vyhnout halucinacím

Abyste se vyhnuli halucinacím, vyzkoušejte jednu nebo více z těchto technik:

Vyberte model s předškolením a vyladěním, které odpovídá vaší doméně a úkolu, který právě provádíte.
Poskytněte kontext ve výzvě k zadání.

Pokud instruujete základní model, aby generoval text na téma, které není běžné v jeho datech předběžného trénování, a nepřidáváte informace o předmětu do výzvy, je pravděpodobnější, že model bude halucinovat.
Zadejte konzervativní hodnoty pro parametry Min tokenů a Max tokenů a určete jednu nebo více posloupností zastavení.

Zadáte-li pro parametr Min tokenů vysokou hodnotu, můžete vynutit, aby model generoval delší odezvu, než by model přirozeně vrátil pro výzvu k zadání. Model je pravděpodobnější, že bude halucinovat, protože přidává slova do výstupu, aby dosáhl požadovaného limitu.
Pro případy použití, které nevyžadují mnoho kreativity v generovaném výstupu, použijte chamtivé dekódování. Pokud dáváte přednost použití dekódování vzorkování, nezapomeňte zadat konzervativní hodnoty pro parametry teploty, top-p a top-k.
Chcete-li omezit opakující se text v generovaném výstupu, zkuste zvýšit parametr pro trest opakování.
Pokud v generovaném výstupu uvidíte opakující se text, když použijete nenasytné dekódování, a pokud je pro váš případ použití přijatelná nějaká kreativita, zkuste místo toho použít vzorkovací dekódování. Ujistěte se, že jste nastavili středně nízké hodnoty pro parametry teploty, top-p a top-k.
Ve vaší výzvě instruujte model, co dělat, když nemá žádnou sebevědomou odpověď nebo odpověď s vysokou pravděpodobností.

Například ve scénáři odpovídání na otázky můžete zahrnout instrukci: If the answer is not in the article, say “I don't know”.

Osobní údaje

Slovní zásoba základního modelu je tvořena slovy v předškolních datech. Pokud data předběžného trénování zahrnují webové stránky, které jsou vystřižené z internetu, může slovník modelu obsahovat následující typy informací:

Jména autorů článků
Kontaktní informace z webových stránek společnosti
Osobní informace z otázek a komentářů zveřejněných v otevřených fórech komunity

Pokud použijete model nadace ke generování textu pro část reklamního e-mailu, může generovaný obsah obsahovat kontaktní informace pro jinou společnost!

Pokud požádáte o založení modelu psát papír s citacemi, model může obsahovat odkazy, které vypadají legitimní, ale nejsou. Může dokonce připisovat tyto vymyšlené odkazy na skutečné autory ze správného pole. Základní model pravděpodobně vytvoří imitace citací, které jsou správné ve formě, ale nejsou založeny na faktech, protože modely jsou dobré v tom, že spojují slova (včetně jmen), která mají vysokou pravděpodobnost, že se objeví společně. Skutečnost, že model propůjčuje výstupu dotek legitimity tím, že do citací zahrne jména skutečných lidí jako autorů, činí tuto formu halucinace přesvědčivou a věrohodnou. To také činí tuto formu halucinace nebezpečnou. Lidé se mohou dostat do problémů, pokud se domnívají, že citace jsou skutečné. Nemluvě o škodě, která může přijít k lidem, kteří jsou uvedeni jako autoři nepsaných děl.

Techniky pro vyloučení osobních údajů

Chcete-li vyloučit osobní informace, vyzkoušejte tyto techniky:

Ve své výzvě nařiďte modelu, aby se zdržel uvedení jmen, kontaktních údajů nebo osobních údajů.

Když například vyzváte model k vygenerování reklamního e-mailu, dejte modelu pokyn, aby obsahoval název vaší společnosti a telefonní číslo. Také instruujte model, aby "nezahrnoval žádné jiné společnosti nebo osobní údaje".
Ve větší aplikaci, propojení procesů nebo řešení zpracujte obsah vygenerovaný modelem nadace za účelem vyhledání a odebrání osobních informací.

Nenávistné projevy, zneužívání a rouhavost

Stejně jako u osobních údajů, pokud předškolená data zahrnují nenávistné nebo zneužívající podmínky nebo vulgární výrazy, základní model, který je na těchto datech vyškolen, má tyto problematické výrazy ve svém slovníku. Pokud je ve slovníku modelu nevhodný jazyk, může základní model generovat text, který obsahuje nežádoucí obsah.

Používáte-li modely základů ke generování obsahu pro váš podnik, musíte provést následující akce:

Uvědomte si, že tento druh výstupu je vždy možný.
Podnikněte kroky ke snížení pravděpodobnosti spuštění modelu k vytvoření tohoto druhu škodlivého výstupu.
Sestavte procesy lidských revizí a verifikace do svých řešení.

Techniky pro snížení rizika nenávistných projevů, zneužívání a profanity

Chcete-li se vyhnout nenávistné řeči, zneužívání a rouhavosti, vyzkoušejte jednu nebo více z těchto technik:

V produktu Prompt Lab nastavte přepínač AI guardrails na hodnotu On (Zapnuto). Je-li tato funkce povolena, je každá věta ve vstupní výzvě nebo generovaném výstupu, která obsahuje škodlivý jazyk, nahrazena zprávou, která říká, že potenciálně škodlivý text byl odebrán.
Do výzvy nezahrnujte nenávistné projevy, zneužívání nebo vulgární chování, abyste zabránili tomu, aby model reagoval v naturáliích.
Ve vaší výzvě instruujte model, aby používal čistý jazyk.

Například v závislosti na tónu, který potřebujete pro výstup, instruujte model, aby používal "formální", "profesionální", "PG" nebo "přátelský" jazyk.
Ve větší aplikaci, propojení procesů nebo řešení zpracujte obsah vygenerovaný modelem nadace za účelem odebrání nežádoucího obsahu.

Snížení rizika zkreslení ve výstupu modelu

Během předběžného trénování se základní model dozví statistickou pravděpodobnost, že určitá slova následují jiná slova na základě toho, jak se tato slova objevují v trénovacích datech. Jakákoli zaujatost v trénovacích datech je trénována do modelu.

Pokud například údaje o výcviku častěji odkazují na lékaře jako na muže a zdravotní sestry jako na ženy, tato předpojatost se pravděpodobně odrazí ve statistických vztazích mezi těmito slovy v modelu. V důsledku toho je pravděpodobné, že model vytvoří výstup, který častěji odkazuje na lékaře jako na muže a zdravotní sestry jako na ženy. Někdy se lidé domnívají, že algoritmy mohou být spravedlivější a nezaujatější než lidé, protože algoritmy "pouze používají matematiku k rozhodování". Ale zaujatost v trénovacích datech se odráží v obsahu, který je generován modely základů, které jsou trénovány na těchto datech.

Techniky pro snížení zkreslení

Je obtížné debias výstup, který je generován základový model, který byl předem trénován na zkreslené dat. Výsledky však můžete zlepšit tím, že do výzvy k zadání zahrnete obsah s cílem čelit zkreslení, které se může vztahovat na váš případ použití.

Například namísto instruování modelu, aby "vypsal příznaky srdečního záchvatu", můžete model instruovat, aby "vypsal příznaky srdečního záchvatu, včetně příznaků běžných pro muže a příznaků běžných pro ženy".

Nadřízené téma: Rady k výzvě k zadání