0 / 0

모델 입력 및 출력에서 유해한 언어 제거

마지막 업데이트 날짜: 2025년 7월 08일
모델 입력 및 출력에서 유해한 언어 제거

AI 가드레일은 잠재적으로 유해한 컨텐츠 (예: 혐오 발언, 학대, 욕설) 를 기초 모델 출력 및 입력에서 제거합니다.

기능

AI 가드레일은 기초 모델 입력에 제공된 입력과 모델이 생성한 출력 텍스트에 문장 분류기를 사용하는 AI로 구동됩니다.

문장 분류기는 모델 입력 및 출력 텍스트를 문장으로 분류한 다음 각 문장을 검토하여 유해한 콘텐츠를 찾아 플래그를 지정합니다. 분류자는 각 단어, 단어 간의 관계 및 문장의 컨텍스트를 평가하여 문장에 유해한 언어가 포함되어 있는지 여부를 판별합니다. 그런 다음 분류자는 부적절한 컨텐츠가 있을 가능성을 나타내는 점수를 지정합니다.

자연어 기반 모델을 추론할 때 AI 가드레일이 자동으로 활성화됩니다.

Prompt Lab 에서 AI 가드레일을 사용하고 생성을 클릭하면 필터가 모든 모델 입력 및 출력 텍스트를 확인합니다. 부적절한 텍스트는 다음과 같은 방식으로 처리됩니다.

  • 부적합으로 플래그 지정된 입력 텍스트는 기초 모델에 제출되지 않습니다. 모델 출력 대신 다음 메시지가 표시됩니다.

    [The input was rejected as inappropriate]

  • 부적합으로 플래그 지정된 모델 출력 텍스트는 다음 메시지로 대체됩니다.

    [Potentially harmful text removed]

제한사항

  • AI 가드레일은 영어 텍스트의 유해 콘텐츠만 감지할 수 있습니다.
  • 프로그래밍 언어 기반 모델에는 AI 가드레일을 적용할 수 없습니다.

업무 방식

파운데이션 모델로 작업할 때 다음과 같은 방법으로 유해한 콘텐츠를 제거할 수 있습니다:

AI 가드레일 설정

사용자 입력 및 모델 출력에 적용할 다음 필터를 구성하고 해당되는 경우 필터 감도를 조정할 수 있습니다:

혐오, 욕설 및 비속어(HAP) 필터

HAP 필터는 IBM Research에서 구축한 인코더 전용 자연어 처리(NLP) 모델인 IBM Slate 제품군의 대규모 언어 모델을 미세 조정하여 만든 문장 분류기입니다.

HAP 필터를 사용하여 다음 유형의 언어를 감지하고 플래그를 지정합니다:

  • 혐오 발언: 인종, 종교, 출신 민족, 성적 지향, 장애, 성별 등의 속성에 근거하여 개인이나 집단에 대한 증오를 표현하는 행위입니다. 증오 발언은 집단의 구성원들을 다치게 하거나, 모욕하거나, 모욕하거나, 폭력이나 사회적 혼란을 조장하려는 의도를 보여준다.

  • 욕설: 다른 사람이나 사물을 괴롭히거나 비하하거나 비하하기 위한 무례하거나 상처를 주는 언어입니다.

  • 욕설: 비속어, 모욕 또는 성적으로 노골적인 언어와 같은 유해한 단어.

사용자 입력과 모델 출력에 HAP 필터를 독립적으로 사용할 수 있습니다.

임계값을 설정하여 필터 감도를 변경할 수 있습니다. 임계값은 HAP 분류기가 생성한 점수가 콘텐츠가 유해한 것으로 간주되기 위해 도달해야 하는 값을 나타냅니다. 점수 임계값 범위는 0.0에서 1.0까지입니다.

0.1 또는 0.2 과 같이 값이 낮을수록 임계값이 낮기 때문에 더 안전합니다. 유해한 콘텐츠는 점수가 낮을수록 필터가 작동할 가능성이 높습니다. 그러나 콘텐츠가 안전한 경우에도 분류기가 트리거될 수 있습니다.

0.8 또는 0.9 과 같이 1에 가까운 값은 점수 임계값이 높기 때문에 더 위험합니다. 필터를 트리거하는 데 더 높은 점수가 필요한 경우 유해한 콘텐츠의 발생을 놓칠 수 있습니다. 그러나 유해한 것으로 표시된 콘텐츠는 유해할 가능성이 더 높습니다.

AI 가드레일을 비활성화하려면 HAP 임계값을 1 으로 설정합니다.

개인 식별 정보(PII) 필터

PII 필터는 NLP AI 모델을 사용하여 콘텐츠를 식별하고 플래그를 지정합니다. 플래그가 지정된 엔티티 유형의 전체 목록은 일반 엔티티에 대한 규칙 기반 추출를 참조하세요.

PII 필터를 사용하여 전화번호, 이메일 주소와 같은 개인 식별 정보를 사용자 입력 및 기초 모델 출력에서 필터링할지 여부를 제어할 수 있습니다. 사용자 입력 및 모델 출력에 대한 PII 필터를 독립적으로 설정할 수 있습니다.

PII 필터 임계값은 0.8 으로 설정되어 있으며 필터의 감도를 변경할 수 없습니다.

Granite 가디언 모델을 필터로 사용 베타

Granite 가디언 파운데이션 모델은 Granite 의 모델 제품군( IBM )에서 가져온 것입니다. 이 모델은 유해 콘텐츠에 대한 고급 보호 기능을 제공하도록 설계된 훨씬 더 강력한 가드레일 필터입니다.

참고:필터로서의 Granite 가디언 모델은 현재 베타 버전이므로 요금이 부과되지 않습니다. Granite 보호자 검토는 기본적으로 비활성화되어 있습니다.

Granite 보호자 모델을 필터로 사용하여 다음 유형의 언어를 감지하고 플래그를 지정합니다:

  • 사회적 편견: 정체성이나 특성에 근거한 편견에 기반한 발언.

  • 탈옥: 유해하거나 제한적이거나 부적절한 콘텐츠를 생성하기 위해 AI를 조작하려는 시도입니다.

  • 폭력: 신체적, 정신적 또는 성적 피해를 조장하는 행위.

  • 욕설: 모욕적인 언어 또는 모욕적인 표현 사용.

  • 비윤리적인 행동: 도덕적 또는 법적 기준을 위반하는 행위.

  • 해로운 참여: 유해하거나 비윤리적인 요청에 참여하거나 이를 지지하는 행위.

  • 회피성: 충분한 이유를 제시하지 않고 참여를 회피하는 행위입니다.

중요: Granite 보호자 필터는 전체 채팅 기록을 사용하여 프롬프트가 안전하지 않은지 파악합니다. '위험'으로 플래그가 지정된 메시지를 포함하면 이후의 모든 메시지가 안전 검사에 실패합니다.

Granite 보호자 모델을 사용자 입력 전용 필터로 사용할 수 있습니다.

임계값을 설정하여 필터 감도를 변경할 수 있습니다. 임계값은 콘텐츠가 유해한 것으로 간주되기 위해 도달해야 하는 점수 값을 나타냅니다. 점수 임계값 범위는 0.0에서 1.0까지입니다.

0.1 또는 0.2 과 같이 값이 낮을수록 임계값이 낮기 때문에 더 안전합니다. 유해한 콘텐츠는 점수가 낮을수록 필터가 작동할 가능성이 높습니다. 그러나 콘텐츠가 안전한 경우에도 분류기가 트리거될 수 있습니다.

0.8 또는 0.9 과 같이 1에 가까운 값은 점수 임계값이 높기 때문에 더 위험합니다. 필터를 트리거하는 데 더 높은 점수가 필요한 경우 유해한 콘텐츠의 발생을 놓칠 수 있습니다. 그러나 유해한 것으로 표시된 콘텐츠는 유해할 가능성이 더 높습니다.

AI 가드레일을 비활성화하려면 Granite 가디언 임계값을 1 으로 설정합니다.

AI 가드레일 구성 Prompt Lab

Prompt Lab 에서 기초 모델로 작업할 때 유해한 콘텐츠를 제거하려면 AI 가드레일 스위처를 켜짐으로 설정하십시오.

AI 가드레일 기능은 영어로 된 모든 자연어 기반 모델에 대해 자동으로 사용으로 설정됩니다.

Prompt Lab 에서 AI 가드레일을 구성하려면 다음 단계를 완료하세요:

  1. AI 가드레일을 활성화한 상태에서 AI 가드레일 설정 아이콘 AI 가드레일 설정 아이콘 을 클릭합니다.

  2. 사용자 입력 및 모델 출력에 적용할 다양한 필터를 구성하고 해당되는 경우 필터 감도를 조정할 수 있습니다.

    • HAP 필터

      AI 가드레일을 비활성화하려면 HAP 슬라이더를 1 로 설정합니다. 가드레일의 감도를 변경하려면 HAP 슬라이더를 움직입니다.

    • PII 필터

      PII 필터를 사용하려면 PII 스위처를 켜짐으로 설정합니다.

    • Granite 필터로서의 가디언 모델

      Granite 보호자 검토는 기본적으로 비활성화되어 있습니다. 가드레일의 감도를 변경하려면 Granite 가디언 슬라이더를 이동합니다.

    슬라이더를 조정하여 필요에 가장 적합한 설정을 찾아보세요.

  3. 저장 을 클릭하십시오.

프로그래밍 방식으로 AI 가드레일 구성

AI 가드레일을 프로그래밍 방식으로 설정하여 기초 모델에 제공되는 입력 텍스트와 모델에서 생성된 출력을 여러 가지 방식으로 조정할 수 있습니다.

휴식 (REST API)

Watsonx.ai


다음 watsonx.ai API 엔드포인트를 사용하여 자연어 입력 및 출력 텍스트에 AI 가드레일을 구성하고 적용할 수 있습니다:

Watsonx.governance


watsonx.governance 의 경우 다음 watsonx.governance API 엔드포인트를 사용하여 자연어 입력 및 출력 텍스트에 AI 가드레일을 구성하고 적용할 수 있습니다:

Python

Watsonx.ai


watsonx.ai Python SDK를 사용하여 다음과 같은 방법으로 자연어 입력 및 출력 텍스트에 AI 가드레일을 구성하고 적용할 수 있습니다:

  • 텍스트 생성 API를 사용하여 기초 모델을 추론할 때 Python 라이브러리로 AI 가드레일 필터를 조정하세요. 자세한 내용은 프로그래밍 방식으로 기초 모델 추론하기( Python )를 참조하세요.

  • 텍스트 감지 API를 사용하여 기초 모델을 추론할 때 Python 라이브러리로 AI 가드레일 필터를 조정하세요. 자세한 내용은 watsonx.ai Python 라이브러리의 Guardian 클래스를 참조하세요.

    다음 코드 예시는 텍스트 감지 API로 필터를 구성하고 사용하는 방법을 보여줍니다:

    from ibm_watsonx_ai import APIClient, Credentials
    from ibm_watsonx_ai.foundation_models.moderations import Guardian
    
    credentials = Credentials(
        url = "https://{region}.ml.cloud.ibm.com",
        api_key ="{my-IBM-Cloud-API-key}"
    )
    api_client = APIClient(credentials, space_id="{my-space-ID}")
    
    detectors = {
        "granite_guardian": {"threshold": 0.4},
        "hap": {"threshold": 0.4},
        "pii": {},
    }
    
    guardian = Guardian(
        api_client=api_client,  # required
        detectors=detectors  # required
    )
    

    Python 라이브러리와 함께 사용자 지정 필터를 사용하려면 텍스트 감지 요청에 다음 매개변수를 포함하세요:

    text = "I would like to say some `Indecent words`."
      
    response = guardian.detect(
        text=text,   # required
        detectors=detectors # optional
    )
    

자세한 내용은 watsonx.ai Python SDK를 참조하세요.

Watsonx.governance


watsonx.governance 의 경우 watsonx.governance Python SDK를 사용하여 다음과 같은 방법으로 자연어 입력 및 출력 텍스트에 AI 가드레일을 구성하고 적용할 수 있습니다:

  • 텍스트 감지 API를 사용하여 기초 모델을 추론할 때 Python 라이브러리로 AI 가드레일 필터를 조정하세요. 자세한 내용은 watsonx.governance Python 라이브러리의 SDK 설명서를 참조하세요.

    다음 코드 예시는 텍스트 감지 API로 필터를 구성하고 사용하는 방법을 보여줍니다:

    import os
    
    from ibm_watsonx_gov.evaluators import MetricsEvaluator
    from ibm_watsonx_gov.metrics import (HAPMetric, PIIMetric, HarmMetric)
    
    os.environ["WATSONX_APIKEY"] = "<IBM_CLOUD_APIKEY>"
    
    evaluator = MetricsEvaluator()
    text = "How can I steal someone's credit card information and use it?"
    
    result = evaluator.evaluate(data={"input_text": text}, metrics=[PIIMetric(), HAPMetric(), HarmMetric()])
    result.to_df()
       
    

    Python SDK를 사용하여 AI 가드레일을 호출하는 방법에 대한 자세한 내용은 IBM watsonx.governance 를 사용하여 가드레일을 호출하는 방법에 대한 노트북을 참조하세요.

자세히 알아보기

상위 주제: 빌딩 프롬프트