AI 가드레일은 잠재적으로 유해한 컨텐츠 (예: 혐오 발언, 학대, 욕설) 를 기초 모델 출력 및 입력에서 제거합니다.
프롬프트 랩의 AI 가드레일 기능은 기본 모델 입력 및 출력 텍스트에 분류 태스크를 적용하는 AI를 기반으로 합니다. 증오, 남용 및 욕설 (HAP) 검출기 또는 HAP 필터라고도 하는 문장 분류기는 IBM Research에서 작성한 인코더 전용 NLP 모델의 Slate 제품군에서 대형 언어 모델을 미세 조정하여 작성되었습니다.
분류자는 모델 입력 및 출력 텍스트를 문장으로 나눈 후 각 문장을 검토하여 유해한 컨텐츠를 찾아 플래그를 지정합니다. 분류자는 각 단어, 단어 간의 관계 및 문장의 컨텍스트를 평가하여 문장에 유해한 언어가 포함되어 있는지 여부를 판별합니다. 그런 다음 분류자는 부적절한 컨텐츠가 있을 가능성을 나타내는 점수를 지정합니다.
프롬프트 랩의 AI 가드레일은 다음 유형의 언어를 발견하고 플래그를 지정합니다.
혐오 발언: 인종, 종교, 민족, 성적 지향, 장애 또는 성별과 같은 속성을 기반으로 한 개인 또는 그룹에 대한 증오의 표현입니다. 증오 발언은 집단의 구성원들을 다치게 하거나, 모욕하거나, 모욕하거나, 폭력이나 사회적 혼란을 조장하려는 의도를 보여준다.
모욕적인 언어: 누군가를 괴롭히거나, 모욕하거나, 모욕하는 것을 의미하는 루드 (Rude) 또는 상처를 주는 언어입니다.
욕설: 욕설, 모욕 또는 성적으로 명시적인 언어와 같은 유독성 단어입니다.
AI 가드레일 기능은 자연어 기반 모델을 추론할 때 지원되며 영어 텍스트에서만 유해한 컨텐츠를 발견할 수 있습니다. AI 가드레일은 프로그래밍 언어 기반 모델에 적용할 수 없습니다.
프롬프트 랩의 입력 및 출력에서 유해한 언어 제거
프롬프트 랩에서 기본 모델에 대해 작업할 때 유해한 컨텐츠를 제거하려면 AI guardrails 전환기를 On으로 설정하십시오.
AI 가드레일 기능은 영어로 된 모든 자연어 기반 모델에 대해 자동으로 사용으로 설정됩니다.
기능이 사용으로 설정된 후 생성을 클릭하면 필터가 모든 모델 입력 및 출력 텍스트를 확인합니다. 부적절한 텍스트는 다음과 같은 방식으로 처리됩니다.
부적합으로 플래그 지정된 입력 텍스트는 기초 모델에 제출되지 않습니다. 모델 출력 대신 다음 메시지가 표시됩니다.
[The input was rejected as inappropriate]
부적합으로 플래그 지정된 모델 출력 텍스트는 다음 메시지로 대체됩니다.
[Potentially harmful text removed]
AI 가드레일 구성
혐오, 욕설, 비속어(HAP) 필터의 적용 여부를 제어하고 사용자 입력 및 기초 모델 출력에 대한 HAP 필터의 민감도를 독립적으로 변경할 수 있습니다.
AI 가드레일을 구성하려면 다음 단계를 완료하세요:
AI 가드레일을 활성화한 상태에서 AI 가드레일 설정 아이콘
을 클릭합니다.
사용자 입력 또는 기초 모델 출력에 대해서만 AI 가드레일을 비활성화하려면 사용자 입력 또는 모델 출력에 대한 HAP 슬라이더를
1
로 설정합니다.가드레일의 감도를 변경하려면 HAP 슬라이더를 움직입니다.
슬라이더 값은 콘텐츠가 유해한 것으로 간주되기 위해 HAP 분류기의 점수가 도달해야 하는 임계값을 나타냅니다. 점수 임계값 범위는 0.0에서 1.0까지입니다.
0.1
또는0.2
와 같이 값이 낮을수록 임계값이 낮아지므로 더 안전합니다. 유해한 콘텐츠는 점수가 낮을수록 필터가 작동할 가능성이 높습니다. 그러나 콘텐츠가 안전한 경우에도 분류기가 트리거될 수 있습니다.0.8
또는0.9
와 같이 1에 가까운 값일수록 점수 임계값이 높기 때문에 더 위험합니다. 필터를 트리거하는 데 더 높은 점수가 필요한 경우 유해한 콘텐츠의 발생을 놓칠 수 있습니다. 그러나 유해한 것으로 표시된 콘텐츠는 유해할 가능성이 더 높습니다.슬라이더를 조정하여 필요에 가장 적합한 설정을 찾아보세요.
저장 을 클릭하십시오.
프로그래밍 방식의 대안
API를 사용하여 기초 모델을 프롬프트할 때 moderations
필드를 사용하여 기초 모델 입력 및 출력에 필터를 적용할 수 있습니다. 자세한 정보는 watsonx.ai API 참조를 참조하십시오. Python 라이브러리를 사용하여 필터를 조정하는 방법에 대한 자세한 정보는 프로그래밍 방식으로 기초 모델 참조를 참조하십시오.
API에서 추론 요청을 제출할 때 개인 식별 정보를 포함할 수 있는 콘텐츠에 플래그를 지정하는 PII 필터를 적용할 수도 있습니다. 프롬프트 랩에서 제출된 추론 요청에 대해서는 PII 필터가 비활성화됩니다.
PII 필터는 자연어 처리 AI 모델을 사용하여 전화번호, 이메일 주소와 같은 개인 식별 정보(PII) 정보에 대한 언급을 식별하고 플래그를 지정합니다. 플래그가 지정된 엔티티 유형의 전체 목록은 일반 엔티티에 대한 규칙 기반 추출를 참조하세요. 필터 임계값은 0.8이며 변경할 수 없습니다.
자세히 알아보기
상위 주제: 프롬프트 랩