본 문서의 가장 정확하고 최신 버전은 영어(원본) 버전을 참조하십시오. IBM은 자동으로 기계 번역된 컨텐츠를 사용하여 발생하는 피해 또는 손실에 대해 책임을 지지 않습니다.
AutoAI 실험에 공정성 테스트 적용
마지막 업데이트 날짜: 2024년 11월 28일
AutoAI 실험에 공정성 테스트 적용
공정성에 대한 실험을 평가하여 결과가 다른 그룹보다 한 그룹에 유리하게 편향되지 않도록 하십시오.
한계
Copy link to section
공정성 평가는 시계열 실험에 대해 지원되지 않습니다.
공정성을 위한 실험 및 모델 평가
Copy link to section
실험을 정의하고 머신 러닝 모델을 생성할 때는 결과가 신뢰할 수 있고 편향되어 있는지 확인하려고 합니다. 기계 학습 모델의 편향성은 모델이 훈련 중에 잘못된 학습을 학습할 때 발생할 수 있습니다. 이 시나리오는 모델이 예측을 생성할 때 데이터가 충분하지 않거나 데이터 콜렉션 또는 관리 결과가 좋지 않은 경우에 발생할 수 있습니다. 필요한 경우 편향 신호를 교정하기 위해 편향 신호에 대한 실험을 평가하고 모델 결과에서 신뢰를 구축하는 것이 중요합니다.
AutoAI 에는 편향성에 대한 실험을 평가하고 수정하는 데 도움이 되는 다음과 같은 도구, 기술 및 기능이 포함되어 있습니다.
공정성 속성 -편향성 또는 공정성은 일반적으로 성별, 인종 또는 나이와 같은 공정성 속성을 사용하여 측정됩니다.
모니터/참조 그룹 -모니터되는 그룹은 편향성을 측정하려는 공정성 속성의 값입니다. 모니터되는 그룹의 값은 참조 그룹의 값과 비교됩니다. 예를 들어, Fairness Attribute=Gender이(가) 여성에 대한 편향성을 측정하는 데 사용되는 경우, 모니터되는 그룹 값은 "Female"이며 참조 그룹 값은 "Male"입니다.
선호 가능/비선호 결과 -편향 발견의 중요한 개념은 모델의 선호 및 비선호 결과의 개념입니다. 예를 들어, Claim approved 는 선호 결과로 간주되고 Claim denied 는 비선호 결과로 간주될 수 있습니다.
서로 다른 영향 -편향을 측정하는 데 사용되는 메트릭 (참조 그룹에 대한 선호 결과의 백분율에 대한 모니터되는 그룹의 선호 결과 백분율의 비율로 계산됨). 다른 영향 값이 지정된 임계값보다 작으면 바이어스가 존재한다고 합니다.
예를 들어, 남성이 작성한 보험 청구의 80%가 승인되었지만 여성이 작성한 청구의 60%만 승인된 경우 다른 영향은 60/80 = 0.75입니다. 전형적으로, 편향성에 대한 임계값은 0.8입니다. 이와 같은 이질적 영향 비율이 0.8 미만이기 때문에, 모델은 편향되는 것으로 간주됩니다.
서로 다른 영향 비율이 1.25 보다 큰 경우 [역 값 (1/disparate 영향) 이 임계값 0.8미만이면 편향된 것으로 간주됩니다.
공정성 평가 및 개선에 대한 동영상 보기
Copy link to section
결과가 편향되지 않도록 하기 위해 공정성을 위해 기계 학습 모델을 평가하는 방법을 보려면 이 비디오를 보십시오.
비디오 면책사항: 이 비디오의 일부 사소한 단계 및 그래픽 요소는 플랫폼과 다를 수 있습니다.
이 비디오는 이 문서의 개념 및 태스크를 학습하기 위한 시각적 방법을 제공합니다.
UI에서 AutoAI 실험을 위한 공정성 테스트 적용
Copy link to section
실험 설정을 여십시오.
공정성 탭을 클릭하십시오.
공정성을 위한 옵션을 사용합니다. 옵션은 다음과 같습니다.
공정성 평가: 이질적 영향 비율을 계산하여 각 파이프라인의 편향성을 검사하려면 이 옵션을 사용하십시오. 이 방법은 파이프라인 신발이 한 그룹에 다른 그룹보다 더 자주 선호되는 결과를 제공하는 경향이 있는지 여부를 추적합니다.
공정성 임계값: 공정성 임계값을 설정하여 서로 다른 영향 비율의 값을 기반으로 파이프라인에 편향성이 있는지 여부를 판별하십시오. 기본값은 80이며, 이는 0.80미만의 서로 다른 영향 비율을 나타냅니다.
선호하는 결과: 적합한 것으로 간주되는 예측 열의 값을 지정하십시오. 예를 들어, 값은 "승인됨", "승인됨" 또는 예측 유형에 맞는 값일 수 있습니다.
자동 보호된 속성 메소드: 잠재적인 편향성 소스인 기능을 평가하는 방법을 선택하십시오. 자동 발견을 지정할 수 있습니다. 이 경우 AutoAI 는 성별, 인종, 결혼 여부, 연령, 우편번호를 포함하여 일반적으로 보호되는 속성을 발견합니다. 각 카테고리 내에서, AutoAI는 보호된 그룹을 결정하려고 시도합니다. 예를 들어, sex 카테고리의 경우 모니터되는 그룹은 female입니다.
참고: 자동 모드에서는 일반적이지 않은 값 (예: 영어 이외의 언어) 이 있는 경우 기능이 보호된 속성으로 올바르게 식별되지 않을 수 있습니다. 자동 검색은 영어에 대해서만 지원됩니다.
수동 보호 속성 메소드: 결과를 수동으로 지정하고 속성 목록에서 선택하여 보호된 속성을 제공하십시오. 수동으로 속성을 제공하는 경우, 그룹을 정의하고 예상 결과 (참조 그룹) 가 있을 가능성이 있는지 또는 예상 결과 (모니터된 그룹) 의 차이를 발견하기 위해 검토해야 하는지 여부를 지정해야 합니다.
예를 들어, 이 이미지는 모니터링을 위해 수동으로 지정된 속성 그룹 세트를 표시합니다.
적용할 설정을 저장하고 실험을 실행하여 파이프라인에 공정성 평가를 적용하십시오.
참고:
다중 클래스 모델의 경우 예측 열에서 여러 값을 선택하여 선호 여부를 분류할 수 있습니다.
회귀 모델의 경우 유리하거나 그렇지 않은 것으로 간주되는 결과의 범위를 지정할 수 있습니다.
공정성 평가는 현재 시계열 실험에 사용할 수 없습니다.
공정성 측정을 위해 자동으로 발견된 속성 목록
Copy link to section
자동 발견이 사용으로 설정되면 AutoAI 는 다음 속성이 훈련 데이터에 있는 경우 자동으로 해당 속성을 발견합니다. 속성은 영어여야 합니다.
수명
시민권 상태
색상
장애
인증
성별
생성 정보
핸디캡
언어
결혼 상태
폴리티칼_믿음
임신
종교
고질적인 상태
노트북에서 AutoAI 실험을 위한 공정성 테스트 적용
Copy link to section
노트북에서 훈련된 AutoAI 실험에서 공정성 테스트를 수행하고 UI에서 제공되는 기능 이상으로 기능을 확장할 수 있습니다.
편향성 감지 예제
Copy link to section
이 예제에서는 watsonx.ai 런타임 Python API(ibm-watson-machine-learning)를 사용하여 편향성 감지를 위한 옵티마이저 구성이 다음 입력으로 구성되며, 여기서 편향성 감지를 위한 옵티마이저 구성은 다음과 같습니다:
결합된 스코어카드는 검색 및 최적화 프로세스에서 사용되어 공정하고 정확한 모델을 리턴합니다.
예를 들어, 분류 실험에 대한 편향성 발견을 최적화하려면 다음을 수행하십시오.
실험 설정을 여십시오.
예측 페이지에서 실험의 정확성 및 이질적인 영향 을 최적화하도록 선택하십시오.
실험을 다시 실행하십시오.
정확성 및 이질적 영향 메트릭은 분류 실험의 정확성 및 공정성에 대한 결합된 점수를 작성합니다. 높은 점수는 더 나은 성과 및 공정성 측정을 표시합니다. 서로 다른 영향 점수가 0.9 - 1.11 (허용 가능한 레벨) 사이인 경우 정확도 점수가 리턴됩니다. 그렇지 않으면, 정확성 점수보다 낮은 다른 영향 값이 리턴되고, 공정성 갭을 표시하는 낮은 (음수) 값이 리턴됩니다.