0 / 0
영어 버전 문서로 돌아가기

바람직하지 않은 출력을 방지하기 위한 기술

마지막 업데이트 날짜: 2024년 11월 28일
바람직하지 않은 출력을 방지하기 위한 기술

모든 foundation model 부정확하거나 유해한 콘텐츠가 포함된 결과물이 생성될 가능성이 있습니다. 생성될 수 있는 바람직하지 않은 출력의 유형, 바람직하지 않은 출력의 이유 및 위험을 줄이기 위해 수행할 수 있는 단계를 이해하십시오.

IBM watsonx.ai 에서 사용 가능한 기본 모델은 환각, 개인 정보, 혐오 발언, 학대, 욕설 및 편견을 포함하는 출력을 생성할 수 있습니다. 다음 기술은 위험을 줄이는 데 도움이 될 수 있지만 생성된 출력에 원하지 않는 컨텐츠가 없음을 보장하지는 않습니다.

foundation model 출력에서 다음과 같은 유형의 바람직하지 않은 콘텐츠를 피하는 데 도움이 되는 기술을 찾아보세요:

환각

foundation model 주제에서 벗어나거나 반복적이거나 잘못된 콘텐츠를 생성하거나 세부 사항을 조작하는 경우, 이러한 행동을 환각이라고도 합니다.

생성된 출력의 디코딩에서 의사 랜덤성으로 인해 오프 토픽 (off-topic) 환각이 발생할 수 있습니다. 최상의 경우에, 그 무작위성은 놀라울 정도로 창의적인 결과를 초래할 수 있다. 그러나 무작위성은 유용하지 않은 넌센스 출력을 초래할 수도 있습니다.

이 모델은 텍스트를 생성하도록 프롬프트될 때 조작된 세부사항 양식으로 환각을 리턴할 수 있지만 그리기에 충분한 관련 텍스트가 제공되지 않습니다. 예를 들어, 프롬프트에 올바른 세부사항을 포함하면 모델이 보이지 않게 되어 세부사항을 구성할 가능성이 줄어듭니다.

환각을 피하기 위한 기술

환각을 방지하려면 다음 기술 중 하나 이상을 테스트하십시오.

  • 수행 중인 도메인 및 태스크와 일치하는 사전 훈련 및 미세 조정이 있는 모델을 선택하십시오.

  • 프롬프트에 컨텍스트를 제공하십시오.

    foundation model 사전 학습 데이터에서 흔히 볼 수 없는 주제에 대한 텍스트를 생성하도록 지시하고 프롬프트에 주제에 대한 정보를 추가하지 않으면 모델이 환각을 일으킬 가능성이 더 높습니다.

  • 최소 토큰 및 최대 토큰 매개변수에 대해 보수적인 값을 지정하고 하나 이상의 중지 시퀀스를 지정하십시오.

    최소 토큰 매개변수에 높은 값을 지정하면 모델이 프롬프트에 대해 자연스럽게 리턴하는 것보다 더 긴 응답을 생성하도록 모델을 강제 실행할 수 있습니다. 모델은 필요한 한계에 도달하기 위해 출력에 단어를 추가하므로 환각을 일으킬 가능성이 높습니다.

  • 생성된 출력에서 많은 창의성이 필요하지 않은 유스 케이스의 경우 그리디 디코딩을 사용하십시오. 샘플링 디코딩을 사용하려면 온도, top-p및 top-k 매개변수에 보수적인 값을 지정해야 합니다.

  • 생성된 출력에서 반복 텍스트를 줄이려면 반복 페널티 매개변수를 늘려 보십시오.

  • 그리디 디코딩을 사용할 때 생성된 출력에 반복 텍스트가 표시되고 유스 케이스에 일부 창의성이 허용되는 경우 대신 샘플링 디코딩을 사용해 보십시오. 온도, top-p및 top-k 매개변수에 대해 적당히 낮은 값을 설정해야 합니다.

  • 프롬프트에서 확신이 없거나 확률이 높은 응답이 없는 경우 모델에 수행할 작업을 지시하십시오.

    예를 들어, 질문에 응답하는 시나리오에서 다음 명령어를 포함할 수 있습니다. If the answer is not in the article, say “I don't know”.

개인 정보

foundation model 어휘는 사전 학습 데이터에 있는 단어로 구성됩니다. 사전 훈련 데이터에 인터넷에서 스크랩된 웹 페이지가 포함된 경우 모델의 어휘에 다음 유형의 정보가 포함될 수 있습니다.

  • 기사 작성자의 이름
  • 회사 웹 사이트의 연락처 정보
  • 공개 커뮤니티 포럼에 게시된 질문 및 댓글의 개인 정보

foundation model 사용하여 광고 이메일의 일부에 대한 텍스트를 생성하는 경우 생성된 콘텐츠에 다른 회사의 연락처 정보가 포함될 수 있습니다!

foundation model 인용이 포함된 논문을 작성하도록 요청하는 경우, 해당 모델에는 합법적으로 보이지만 그렇지 않은 참고 문헌이 포함될 수 있습니다. 이러한 최대 참조를 올바른 필드의 실제 작성자에게 귀속시킬 수도 있습니다. foundation model 함께 나타날 확률이 높은 단어(이름 포함)를 잘 연결하기 때문에 형식은 정확하지만 사실에 근거하지 않은 모방 인용을 생성할 가능성이 높습니다. 이 모델이 실제 사람들의 이름을 인용구에 포함시킴으로써 그 결과물을 합법성의 한 부분으로 만들어 준다는 사실은 이러한 형태의 환각을 설득력 있고 믿을 수 있게 만든다. 이것은 또한 환각의 형태를 위험하게 만듭니다. 사람들은 그 인용구가 진짜라고 믿는다면 문제를 일으킬 수 있다. 그들이 쓰지 않은 작품의 저자로 등재되어 있는 사람들에게 발생할 수 있는 피해는 말할 것도 없다.

개인 정보 제외 기술

개인 정보를 제외하려면 다음 기술을 시도하십시오.

  • 프롬프트에서 이름, 연락처 세부사항 또는 개인 정보를 언급하지 않도록 모델에 지시하십시오.

    예를 들어, 모델에 광고 이메일을 생성하도록 프롬프트하는 경우 회사 이름 및 전화번호를 포함하도록 모델에 지시하십시오. 또한 다른 회사 또는 개인 정보를 포함하지 않도록 모델에 지시하십시오.

  • watsonx.ai API에서, 추론 요청을 제출할 때 moderations 필드에서 PII 필터를 사용으로 설정할 수 있습니다.

    자세한 내용은 API 참조 문서를 참조하세요.

  • 대규모 애플리케이션, 파이프라인 또는 솔루션에서 foundation model 생성된 콘텐츠를 사후 처리하여 개인 정보를 찾아서 제거합니다.

혐오 발언, 학대, 욕설

개인정보와 마찬가지로, 사전 학습 데이터에 혐오 또는 욕설이나 비속어가 포함된 경우 해당 데이터로 학습된 foundation model 문제가 되는 용어가 어휘에 포함됩니다. 모델의 어휘에 부적절한 언어가 포함되어 있으면 foundation model 원치 않는 콘텐츠가 포함된 텍스트를 생성할 수 있습니다.

기본 모델을 사용하여 비즈니스에 대한 컨텐츠를 생성할 때 다음을 수행해야 합니다.

  • 이러한 종류의 출력은 항상 가능합니다.
  • 이러한 종류의 유해한 출력을 생성하기 위해 모델을 트리거할 가능성을 줄이는 단계를 수행하십시오.
  • 사용자 검토 및 확인 프로세스를 솔루션에 빌드합니다.

혐오 발언, 학대, 욕설의 위험성을 줄이기 위한 기법

혐오 발언, 학대, 욕설을 피하려면 다음 기술 중 하나 이상을 테스트하십시오.

  • 프롬프트 랩에서 AI 가드레일 스위치를 켜짐으로 설정하십시오. 이 기능이 사용으로 설정되면 유해한 언어를 포함하는 입력 프롬프트 또는 생성된 출력의 모든 문장이 잠재적으로 유해한 텍스트가 제거되었음을 나타내는 메시지로 대체됩니다.

  • 모델이 종류에 따라 응답하지 않도록 프롬프트에 증오 발언, 학대 또는 욕설을 포함시키지 마십시오.

  • 프롬프트에서 모델이 깨끗한 언어를 사용하도록 지시하십시오.

    예를 들어, 출력에 필요한 어조에 따라 모델에 "정규", "전문", "PG" 또는 "친숙한" 언어를 사용하도록 지시하십시오.

  • watsonx.ai API에서, 추론 요청을 제출할 때 moderations 필드에서 HAP 필터를 사용으로 설정할 수 있습니다.

    자세한 내용은 API 참조 문서를 참조하세요.

  • 대규모 애플리케이션, 파이프라인 또는 솔루션에서 foundation model 생성된 콘텐츠를 후처리하여 원하지 않는 콘텐츠를 제거합니다.

모델 출력에서 편향성의 위험 감소

사전 학습 중에 foundation model 학습 데이터에서 특정 단어가 어떻게 나타나는지에 따라 특정 단어가 다른 단어 뒤에 올 수 있는 통계적 확률을 학습합니다. 훈련 데이터의 편향은 모델로 훈련됩니다.

예를 들어, 훈련 데이터가 더 자주 의사를 남성으로, 간호사를 여성으로 참조하는 경우 해당 편향성은 모델에서 해당 단어 사이의 통계적 관계에 반영될 수 있습니다. 결과적으로 모델은 의사를 남성으로, 간호사를 여성으로 더 자주 참조하는 출력을 생성할 수 있습니다. 사람들은 알고리즘이 인간보다 더 공정하고 편향되지 않을 수 있다고 믿습니다. 왜냐하면 알고리즘은 " 단지 수학을 사용하여 결정하기 때문입니다. 그러나 훈련 데이터의 편향성은 해당 데이터에 대해 훈련된 기본 모델에 의해 생성되는 컨텐츠에 반영됩니다.

바이어스 감소를 위한 기술

편향된 데이터로 사전 학습된 foundation model 의해 생성된 출력은 편향성을 제거하기가 어렵습니다. 그러나 유스 케이스에 적용될 수 있는 편향성을 반대하기 위해 프롬프트에 컨텐츠를 포함하여 결과를 개선할 수 있습니다.

예를 들어, 모델에 "심장 마비 증상을 나열하도록 지시하는 대신 모델에 남성에게 공통적인 증상과 여성에게 공통적인 증상을 포함하여" 심장 마비 증상을 나열하도록 지시할 수 있습니다.

상위 주제: 프롬프트 팁