Translation not up to date
Vyhodnoťte svůj experiment s cílem zajistit, aby vaše výsledky nebyly zkreslené ve prospěch jedné skupiny nad druhou.
Omezení
Hodnocení spravedlivosti nejsou u experimentů časových řad podporovány.
Hodnocení experimentů a modelů pro spravedlnost
Při definování experimentu a vytvoření modelu strojového učení se chcete ujistit, že jsou vaše výsledky spolehlivé a nezaujaté. Bias ve strojově vzdělávacím modelu může mít za následek, že se model během odborné přípravy dozví o chybných lekcích. Tento scénář může vést k tomu, že nedostatečná data nebo špatné shromažďování dat nebo správa má za následek slabý výsledek, když model generuje předpovědi. Je důležité vyhodnotit experiment pro náznaky zaujatosti k jejich nápravě, je-li to nutné, a budovat důvěru ve výsledky modelu.
Volba AutoAI obsahuje následující nástroje, techniky a funkce, které vám pomohou vyhodnotit a napravit pokus o ovlivnění předpojatosti.
Definice a termíny
Atribut Fairness -Bias nebo Fairness je obvykle měřen pomocí atributu spravedlnosti, jako je pohlaví, národnost nebo věk.
Monitorovaná/Referenční skupina -Monitorovaná skupina je ta hodnota atributu spravedlnosti, pro kterou chcete měřit zkreslení. Hodnoty v monitorované skupině se porovnávají s hodnotami v referenční skupině. Je-li například Fairness Attribute=Gender
použito k měření zaujatosti vůči ženám, pak je hodnota sledované skupiny "Žena" a hodnota referenční skupiny je "Muž".
Příznivý/Nepříznivý výsledek -Důležitá koncepce v odhalování zkreslení je příznivá a nepříznivá výsledek modelu. Například Claim approved
může být považován za příznivý výsledek a Claim denied
může být považován za nežádoucí výsledek.
Rozpozit dopad -Metrika použitá k měření předpojatosti (vypočítaná jako poměr procentní části příznivého výsledku pro monitorovanou skupinu k procentu příznivého výsledku pro referenční skupinu). Bias se říká, že existuje, pokud je nesourodá hodnota dopadu menší než uvedená prahová hodnota.
Například, pokud je schváleno 80% pojistných událostí, které jsou provedeny samci, ale pouze 60% nároků, které provádí ženy, je schváleno, pak nesourodý dopad je: 60/80 = 0.75. Typicky prahová hodnota pro posun je 0.8. Vzhledem k tomu, že tento nesourodný poměr dopadů je menší než 0.8, je model považován za zkreslený.
Všimněte si, že rozdílný poměr dopadů je větší než 1.25 [ inverzní hodnota (1/disparate dopad) je pod prahovou hodnotou 0.8], je také považována za zkreslenou.
Podívejte se na video o vyhodnocení a zlepšení spravedlnosti
Podívejte se na toto video, abyste viděli, jak vyhodnotit model strojového učení pro spravedlnost, abyste zajistili, že vaše výsledky nejsou zkreslené.
Toto video poskytuje vizuální metodu pro seznámení se s koncepty a úlohami v této dokumentaci.
Použití testu spravedlnosti pro experiment AutoAI v uživatelském rozhraní
Otevřete Experimentální nastavení.
Klepněte na kartu Fairness .
Povolit možnosti pro spravedlnost. Možnosti:
- Vyhodnocení spravedlivosti: Tuto volbu povolte, chcete-li zkontrolovat jednotlivé propojení procesů pro posun při výpočtu nesourodé krmné dávky. Tato metoda sleduje, zda potrubní obuv má tendenci poskytovat příznivé (preferované) výsledku pro jednu skupinu častěji než jiné.
- Prahová hodnota spravedlivosti: Nastavte prahovou hodnotu spravedlnosti, abyste určili, zda existuje v propojení procesů v závislosti na hodnotě nesourodého dopadu. Výchozí hodnota je 80, což představuje rozdílný poměr dopadů menší než 0.80.
- Příznivé výsledky: Určete hodnotu ze sloupce předpovědi, která by byla považována za příznivou. Hodnota může být například "schváleno", "přijato" nebo jak odpovídá vašemu typu předpovědi.
- Automatická metoda chráněného atributu: Vyberte, jak vyhodnocovat funkce, které jsou potenciálními zdroji zkreslení. Můžete uvést automatickou detekci, v kterémpřípadě AutoAI detekuje běžně chráněné atributy, včetně: pohlaví, národnosti, rodinného stavu, věku a PSČ nebo poštovní směrovací číslo. V každé kategorii se AutoAI pokusí o určení chráněné skupiny. Například pro kategorii
sex
by monitorovaná skupina bylafemale
.
Poznámka: V automatickém režimu je pravděpodobné, že funkce není identifikovaná správně jako chráněný atribut, pokud má netypické hodnoty, například v jiném jazyce než v angličtině. Automatická detekce je podporována pouze pro angličtinu.- Manuální chráněná metoda atributu: Určete výsledek a dodejte chráněný atribut výběrem ze seznamu atributů. Všimněte si, že když ručně zadáte atributy, musíte definovat skupinu a uvést, zda je pravděpodobné, že bude mít očekávané výsledky (referenční skupinu), nebo zda má být přezkoumáno za účelem zjištění odchylky od očekávaných výsledků (sledovaná skupina).
Tento obrázek například zobrazuje sadu ručně zadaných skupin atributů pro monitorování.
Uložit nastavení pro použití a spuštění experimentu pro použití vyhodnocení spravedlnosti na ropovody.
Poznámky:
- Pro modely s více skiny můžete ve sloupci předpovědi vybrat více hodnot, které budou klasifikovány jako příznivé nebo ne.
- U regresních modelů můžete zadat rozsah výsledků, které jsou považovány za příznivé nebo ne.
- Hodnocení spravedlivosti nejsou v současné době k dispozici pro experimenty s časovými řadami.
Seznam automaticky zjištěných atributů pro měření spravedlnosti
Je-li povolena automatická detekce, produkt AutoAI automaticky zjistí následující atributy, jsou-li přítomny v datech školení. Atributy musí být v angličtině.
- stáří
- stav_občanství
- barva
- postižení
- národnost
- pohlaví
- genetické_informace
- handicap
- jazyk
- Rodinný
- political_víra
- těhotenství
- náboženství
- stav veteránů
Použití testu spravedlnosti pro experiment AutoAI v notebooku
Testování spravedlivosti můžete provést v experimentu AutoAI , který je vycvičen v notebooku, a rozšiřte schopnosti nad rámec toho, co je poskytnuto v uživatelském rozhraní.
Příklad příkazu Bias detection
V tomto příkladu pomocí rozhraní API Watson Machine Learning Python (ibm-watson-machine-learning) je konfigurace optimalizátoru pro detekci zkreslení konfigurována s následujícím vstupem, kde:
- name-název experimentu
- prediction_type-typ problému
- prediction_column-název cílového sloupce
- fairness_info-Konfigurace funkce rozpoznávání zkreslení
fairness_info = {
"protected_attributes": [
{
"feature": "personal_status",
"reference_group": ["male div/sep", "male mar/wid", "male single"],
"monitored_group": ["female div/dep/mar"]
},
{
"feature": "age",
"reference_group": [[26, 100]],
"monitored_group": [[1, 25]]}
],
"favorable_labels": ["good"],
"unfavorable_labels": ["bad"],
}
from ibm_watson_machine_learning.experiment import AutoAI
experiment = AutoAI(wml_credentials, space_id=space_id)
pipeline_optimizer = experiment.optimizer(
name='Credit Risk Prediction and bias detection - AutoAI',
prediction_type=AutoAI.PredictionType.BINARY,
prediction_column='class',
scoring='accuracy',
fairness_info=fairness_info,
retrain_on_holdout=False
)
Vyhodnocení výsledků
Výsledky vyhodnocení si můžete prohlédnout pro každý kolonu.
- Na stránce Experimentový souhrn klepněte na ikonu filtru pro nástěnku propojení procesů.
- Vyberte pro svůj experiment metriky dopadu na diparte. Tato volba vyhodnocuje jednu obecnou metriku a jednu metriku pro každou monitorovanou skupinu.
- Přezkoumejte metriku propojení procesů pro nesourodé dopady, abyste určili, zda máte problém s předvolbou, nebo jen abyste určili, které propojení procesů vede lépe pro ohodnocení spravedlnosti.
V tomto příkladu má kolona, která byla zařazena jako první pro přesnost, také nesourodé skóre příjmů, které je v rámci přijatelných limitů.
Zmírňování emisí
Je-li v experimentu detekováno zkreslení, můžete jej zmírnit tím, že optimalizujete svůj experiment s použitím "kombinovaných střelců": accuracy_and_disparate_impact
nebo r2_and_disparate_impact
, jak je definováno otevřenými zdrojem balík LALE.
Kombinované střepy se používají v procesu vyhledávání a optimalizace k vrácení korektních a přesných modelů.
Například, chcete-li optimalizovat pro detekci zkreslení pro klasifikační experiment:
- Otevřete Experimentální nastavení.
- Na stránce Předpovědi zvolte optimalizaci Přesnost a nesourodé dopady v experimentu.
- Znovu spusťte ten experiment.
Metrika Přesnost a nesourodý dopad vytváří kombinované skóre pro přesnost a spravedlivost pro pokusy o klasifikaci. Vyšší skóre indikuje lepší výkon a spravedlivost opatření. Je-li nesourodé skóre dopadu mezi 0.9 a 1.11 (přijatelná úroveň), je vráceno skóre přesnosti. Jinak se vrátí nesourodá hodnota dopadu, která je nižší než skóre přesnosti, s nižší (zápornou) hodnotou, která označuje mezeru ve férovosti.
Pokročilí uživatelé mohou použít zápisník k použití nebo přezkoumání metod detekce spravedlnosti. Vyškolený model AutoAI můžete dále upřesnit pomocí balíků jiných dodavatelů, jako je například: lale, AIF360 , které rozšiřují možnosti zjišťování spravedlivosti a předpojatosti nad rámec toho, co je standardně poskytováno spolu s uživatelem AutoAI .
Prostudujte si ukázkový zápisník, který vyhodnocuje kanály pro spravedlnost.
Přečtěte si tento Medium blog post on Bias detection in AutoAI.
Další kroky
Odstraňování problémů s experimenty AutoAI
Nadřízené téma: PřehledAutoAI