Translation not up to date
Sada Python SDK je knihovna Python , kde můžete pracovat přímo s produktem Watson OpenScale. Python SDK můžete použít ke konfiguraci databáze protokolování, k vázání vašeho stroje pro výuku strojů a k výběru a monitorování nasazení.
Počínaje verzí Watson OpenScale Python SDK verze 3.0.14podporuje produkt Watson OpenScale výpočet následujících algoritmů spravedlnosti a vysvětlovacích algoritmů:
Následující metriky a algoritmy mohou být vypočteny v běhovém prostředí notebooku nebo jsou offloads jako úlohy Spark proti produktu IBM Analytics Engine.
FairScore transformátor
Transformátor FairScore můžete použít jako techniku následného zpracování předpojatosti. Tato technika transformuje odhadovanou pravděpodobnost nebo skóre pravděpodobnostního modelu binární klasifikace, pokud jde o cíle spravedlivosti. Chcete-li použít aplikaci Transformer FairScore Transformer v produktu Watson OpenScale, musíte vycvičit transformátor Fair skóre.
Individuální spravedlnost po zpracovateli
Jednotlivý post-procesor spravedlnosti je post-processing transformátor algoritmus, který transformuje jednotlivé skóre k dosažení individuální spravedlnosti. Můžete jej použít s produktem Python SDK pro podporu vícetřídné klasifikace textu. Tento algoritmus musíte trénovat dříve, než jej budete moci použít k transformaci výstupů modelu.
Redukce vstupu
Můžete použít algoritmus snížení vstupů k výpočtu minimální sady funkcí, které musíte uvést, chcete-li zachovat konzistentní předpovědi modelu. Algoritmus vylučuje funkce, které nemají vliv na modelové předpovědi.
Kompenzace pravděpodobnosti
Kompenzace pravděpodobnosti (LC) je rámcem pro vysvětlování odchylek od předpovědi černé skříňky modelu od základní pravdy. S testovacími daty a predikční funkcí modelu černé skříňky může adaptér LC identifikovat anomálie v testovacích datech a vysvětlit, co způsobilo, že se vzorek stal anomálií. Optické vysvětlení LC se poskytuje jako rozdílová data, která při přidání do původních testovacích dat nebo anomálií konverguje předpovídání modelu do základní pravdy. Adaptér LC poskytuje lokální vysvětlení a je podporován pouze pro regresní modely.
Průměrná individuální odchylka
Můžete použít střední hodnoty jednotlivých rozdílů a ověřit, zda váš model generuje podobné předpovědi či skóre pro podobné ukázky. Tato metrika vypočítá rozdíl v odhadech pravděpodobnosti vícetříd klasifikačních modelů pro podobné ukázky.
Procházení vícerozměrné podmnožiny
Algoritmus skenování vícerozměrných dílčích sad můžete použít jako obecnou metodu skenování předpojatosti. Tato metoda zjišťuje a identifikuje, které podskupiny funkcí mají statisticky významné prediktivní zkreslení pro pravděpodobnostní binární klasifikátor. Tento algoritmus pomáhá rozhodnout se, které funkce jsou chráněné atributy a které hodnoty těchto funkcí jsou privilegovanou skupinou pro vyhodnocení monitoru.
Výkonnostní opatření
Následující metriky ukazatelů výkonu můžete použít k vyhodnocení modelů s matricí záměny, které jsou vypočítány za použití základních dat pravdy a předpovědi modelů z ukázkových dat:
- average_odds_difference
- average_odds_difference
- error_rate_difference
- error_rate_ratio
- chybný_negativní_rozdíl
- chybný_hodnota_negativního_poměru
- faleš_pozitivní_pozice_rate_rozdíl
- příznak false_positive_rate_ratio
- false_discovery_rate_difference
- chybný_poměr discovery_rate_ratio
- hodnota false_omission_rate_difference
- hodnota false_omission_rate_ratio
Extrakce chráněných atributů
Algoritmus extrakce chráněných atributů transformuje textové datové sady do strukturovaných datových sad. Algoritmus tokenizuje textová data, porovná data se vzory, které zadáte, a extrahuje chráněný atribut z textu za účelem vytvoření strukturovaných dat. Tato strukturovaná data můžete použít k detekci zaujatosti proti chráněnému atributu s algoritmem detekce zkreslení Watson OpenScale . Algoritmus extrakce chráněných atributů podporuje pouze pohlaví jako chráněný atribut.
Zamknuté chráněné atributy
Algoritmus ochrany chráněnného atributu generuje protifaktické příkazy identifikací vzorů chráněných atributů v datových sadách textu. Tento text také tokenizuje text a pertuje klíčová slova v textových datech pro generování příkazů. Původní a pertulové datové sady můžete použít k detekci zaujatosti vůči atributu ochrany s algoritmem detekce zkreslení Watson OpenScale . Algoritmus perturbation protected attribute podporuje pouze pohlaví jako chráněný atribut.
Vysvětlovač
Protokol vysvětlivek identifikuje vstupní data z referenční sady, která potřebuje vysvětlení. Tato metoda minimalizuje maximální střední nesoulad (MMD) mezi referenčními datovými body a řadou instancí, které jsou vybrány ze vzdělávacích dat. Pro lepší pochopení vašich modelových předpovědí modelují instance dat školení podobnou distribuci jako referenční datové body.
Exponovaný vysvětlitel (SHAP)
SHAP je hra-teoretický přístup, který vysvětluje výstup strojového učení modelů. Spojuje optimální přidělování úvěrů s místními vysvětleními pomocí hodnot Shapley a jejich souvisejících rozšíření.
SHAP přiřadí každý model funkci důležitosti pro konkrétní předpověď, která se nazývá hodnota Shapley. Hodnota Shapley je průměrný marginální příspěvek hodnoty funkce ve všech možných skupinách funkcí. Hodnoty SHAP vstupních funkcí jsou částky rozdílu mezi úrovní baseline nebo očekávaným výstupem modelu a aktuálním výstupem modelu pro predikci, která je vysvětlena. Výstup modelu základny může být založen na souhrnu údajů o školení nebo libovolné části dat, pro které je třeba generovat vysvětlení.
Hodnoty Shapley sady transakcí lze kombinovat tak, aby získali globální vysvětlení, která poskytují přehled o tom, které funkce modelu jsou nejdůležitější.
Smoothed empirical differential (SED)
The SED is fairness metric that you can use to describe fairness for your model predictions. SED kvantifikuje rozdíl v pravděpodobnosti příznivých a nevýhodných výsledků mezi protínajících skupin, které jsou rozděleny podle funkcí. Všechny protínající se skupiny jsou stejné, takže neexistují žádné neprivilegované nebo privilegované skupiny. Tento výpočet vygeneruje hodnotu SED, která je minimálním poměrem Dirichletův hladší pravděpodobnost pro příznivé a nepříznivé výsledky mezi protínajícími se skupinami v datové sadě. Hodnota je v rozsahu 0-1, kromě 0 a 1, a větší hodnota určuje lepší výsledek.
Statistický rozdíl parity
Statistický rozdíl v paritě je metrikou spravedlnosti, kterou lze použít k popisu spravedlnosti pro vaše modelové předpovědi. Je to rozdíl mezi poměrem příznivých výsledků v neprivilegovaných a privilegovaných skupin. Tuto metriku lze vypočítat buď ze vstupní datové sady, nebo z výstupu datové sady z klasifikátoru nebo předpokládané datové sady. Hodnota 0 znamená, že obě skupiny obdrží stejnou výhodu. Hodnota menší než 0 znamená vyšší přínos pro privilegovanou skupinu. Hodnota větší než 0 znamená vyšší přínos pro neprivilegovanou skupinu.
Tyto metriky a algoritmy můžete vypočítat pomocí produktu Watson OpenScale Python SDK verze 3.0.14 nebo novější. Další informace naleznete v dokumentaci sady SDK produktuWatson OpenScale Python.
Ukázkové zápisníky můžete také použít k vypočítání metrik spravedlnosti a vysvětlitelnosti.
Nadřízené téma: Rozhraní API, sady SDK a výukové programy