0 / 0
영어 버전 문서로 돌아가기
문서 및 이미지로 채팅하기
마지막 업데이트 날짜: 2024년 11월 14일
문서 및 이미지로 채팅하기

프롬프트 랩에서 만든 foundation model 프롬프트에 채팅할 문서와 이미지를 빠르게 추가할 수 있습니다.

다음 유형의 파일을 프롬프트에 연결할 수 있습니다:

근거 문서

foundation model 생성하는 출력에 최신의 사실 정보를 통합하려면 문서를 프롬프트와 연결하여 foundation model 입력을 관련 사실에 근거하세요.

검색 증강 생성(RAG)으로 알려진 이 패턴은 foundation model 정확한 답변을 생성하도록 하려는 질문 답변 시나리오에서 특히 유용합니다.

업로드된 문서로 채팅하기를 참조하세요.

이미지

이미지를 추가하고 시각적 정보를 텍스트로 변환하여 다음과 같은 유형의 작업에 도움을 줄 수 있습니다:

  • 이미지에 대한 대체 텍스트 생성을 자동화하여 시각장애 사용자가 웹 페이지에서 의미 있는 시각적 요소를 인식하고 접근성 요구 사항을 충족할 수 있도록 지원합니다
  • 보험금 청구 시 첨부되는 재산 피해 사진 요약하기
  • 문서에서 이미지를 텍스트로 변환한 후 RAG 사용 사례의 근거 정보로 사용합니다.

업로드된 이미지로 채팅하기를 참조하세요.

업로드된 문서로 채팅하기

검색 증강 생성(RAG) 솔루션에서 모델이나 문서를 사용하기 전에 문서의 품질과 foundation model 기능을 모두 빠르게 테스트하려면 Prompt Lab에서 문서와 채팅하세요.

업로드한 문서의 텍스트는 텍스트 임베딩으로 변환되어 정보를 빠르게 검색할 수 있는 벡터 인덱스에 저장됩니다. 프롬프트를 사용하여 질문을 제출하면 관련 콘텐츠를 찾기 위해 벡터 인덱스에서 유사성 검색이 실행됩니다. 상위 검색 결과는 프롬프트에 컨텍스트로 추가되고 원래 질문과 함께 foundation model 입력으로 제출됩니다.

테스트 목적으로 자동으로 생성되는 인메모리 벡터 저장소에 대한 기본 설정을 수락할 수 있습니다.

벡터화된 문서를 사용하는 보다 강력한 솔루션을 구현하기로 결정했다면 foundation model 프롬프트에 벡터화된 문서 추가하기를 참조하여 더 많은 구성 옵션에 대해 알아보세요.

문서와 대화하려면 다음 단계를 완료하십시오.

  1. 채팅 모드의 프롬프트 랩에서 foundation model 선택한 다음 프롬프트에 사용할 모델 매개변수를 지정합니다.

  2. 문서 업로드 아이콘 ' 문서 업로드 아이콘'을 클릭한 다음 문서 추가를 선택합니다.

    파일을 찾아 업로드하거나 추가할 파일이 있는 프로젝트에서 데이터 자산을 선택하십시오. 지원되는 파일 형식에 대한 자세한 내용은 기초 문서를 참조하세요.

    기본 인메모리 인덱스보다 더 강력한 벡터 인덱스를 사용하여 문서를 저장하려면 벡터 인덱스 만들기를 참조하세요.

  3. 작성을 클릭하십시오.

    벡터 인덱스 빌드가 진행 중이라는 메시지가 표시될 수 있습니다. 인덱스가 언제 준비되었는지 확인하려면 메시지를 닫은 다음 업로드한 문서를 클릭하여 벡터 인덱스 자산 세부 정보 페이지를 엽니다.

  4. 문서에 있는 정보에 대한 질문을 제출하여 모델이 문맥 정보를 얼마나 잘 활용하여 질문에 답하는지 확인합니다.

    예를 들어 foundation model 문서를 요약해 달라고 요청하거나 문서에 설명된 개념에 대해 질문할 수 있습니다.

반환할 것으로 예상되는 답변을 찾을 수 없는 경우 벡터 인덱스 자산의 구성을 검토하고 조정할 수 있습니다. 벡터 인덱스 관리하기를 참조하세요.

접지 문서

추가하는 상황별 정보에는 제품 설명서, 회사 정책 세부정보, 업계 성과 데이터, 특정 주제와 관련된 사실 및 수치 또는 사용 사례에 중요한 모든 콘텐츠가 포함될 수 있습니다. 접지 문서에는 다른 곳에서 사용하고 싶지 않은 독점적인 비즈니스 자료도 포함될 수 있습니다.

다음 표는 접지 문서로 추가할 수 있는 파일 유형을 표시합니다.

테이블 1. 접지 문서에 대해 지원되는 파일 유형
지원되는 파일 유형 최대 총 파일 크기
docx 10MB
PDF(M) 50MB
pptx 300MB
TXT 5MB

 

프롬프트에 하나 이상의 파일을 추가할 수 있습니다. 근거 문서 세트에 허용되는 총 파일 크기는 세트의 파일 유형에 따라 다릅니다. 허용되는 총 파일 크기가 가장 작은 파일 유형은 모든 접지 문서의 크기 한계를 결정합니다. 예를 들어, 세트에 PPTX 파일 3개가 포함된 경우 파일 크기 제한은 PPTX 파일에 허용되는 최대 크기인 300MB입니다. 파일 세트에 PPTX 파일 2개와 TXT 파일 1개가 포함된 경우, TXT 파일에 대한 제한이 적용되므로 파일 크기 제한은 5MB입니다.

업로드한 이미지로 채팅하기

멀티모달 foundation model 제출하는 입력에 추가할 이미지를 업로드합니다. 이미지를 추가한 후 이미지 콘텐츠에 대해 질문할 수 있습니다.

주: 채팅에 이미지를 업로드하는 것은 멀티모달 파운데이션 모델을 사용할 수 있는 지역에서만 지원됩니다. 자세한 내용은 지역별 이용 가능 여부를 참조하세요.

권장 시스템 프롬프트 추가와 같이 모델을 추적하고 부적절한 콘텐츠를 차단하는 데 도움이 되는 foundation model 제공업체의 제안을 검토하고 구현해야 합니다. 시스템 프롬프트를 편집하는 방법에 대한 자세한 내용은 챗 템플릿를 참조하세요.

이미지 요구 사항은 다음과 같습니다:

  • 채팅당 하나의 이미지 추가
  • 지원되는 파일 형식은 PNG 또는 JPEG입니다
  • 크기는 최대 4MB입니다
  • 이미지 한 장은 이미지 크기에 따라 약 1,200~3,000개의 토큰으로 계산됩니다

이미지로 채팅하려면 다음 단계를 완료하세요:

  1. 채팅 모드의 프롬프트 랩에서 이미지를 텍스트로 변환할 수 있는 foundation model 선택한 다음 프롬프트에 사용할 모델 매개변수를 지정합니다.

  2. 문서 업로드 아이콘 ' 문서 업로드 아이콘'을 클릭한 다음 이미지 추가를 선택합니다.

    이미지 파일을 찾아 업로드하거나 프로젝트에서 추가할 이미지 파일이 있는 데이터 자산을 선택합니다.

  3. 추가 를 클릭하십시오.

  4. 이미지에 대한 질문을 입력한 다음 프롬프트를 제출합니다.

    이미지에 대해 알고 싶은 내용을 구체적으로 작성하세요.

  5. 선택 사항: 프롬프트를 프롬프트 템플릿 또는 프롬프트 세션으로 저장합니다.

    주: 이미지가 추가된 채팅은 프롬프트 노트북으로 저장할 수 없습니다.

    자세한 내용은 작업 저장하기를 참조하세요.

추가한 이미지는 프로젝트와 연결된 IBM Cloud Object Storage 버킷에 데이터 자산으로 저장됩니다.

다음 기초 모델과 이미지에 대해 채팅하는 데 사용되는 샘플 프롬프트를 참조하세요:

프로그래매틱 대안

또한 watsonx.ai 채팅 API를 사용하여 foundation model 이미지에 대한 메시지를 표시할 수도 있습니다. 자세한 내용은 채팅 API를 사용하여 애플리케이션에 생성 채팅 기능 추가하기를 참조하세요.

Llama 3.2 11B 비전 모델 프롬프트

다음 예제에서는 검색 증강 생성(RAG) 패턴의 다이어그램이 ' Explain the process that is shown in the image 명령어와 함께 llama-3-2-11b-vision-instruct foundation model 제출됩니다.

이미지-텍스트 생성 foundation model RAG 패턴의 다이어그램을 설명합니다.

llama-3-2-11b-vision-instruct foundation model 다음과 같은 포괄적인 설명으로 응답합니다:

이미지는 사용자가 챗봇 또는 대화형 AI 시스템과 상호작용하는 과정을 보여줍니다. 단계별 분석은 다음과 같습니다.

  1. 사용자 입력: 사용자가 질문을 하거나 입력을 제공하여 대화를 시작합니다.

  2. 질문: 사용자의 쿼리를 시스템에서 수신한 다음 처리합니다.

  3. 검색: 시스템이 지식창고 또는 데이터베이스를 검색하여 사용자의 질문과 관련된 관련 정보를 찾습니다.

  4. 최상위 검색 결과: 시스템이 검색 프로세스에서 상위 검색 결과를 가져옵니다.

  5. 입력 = 지시 사항 + 검색 결과 + 질문: 시스템은 사용자의 입력(질문), 검색 결과, 추가 컨텍스트 또는 지침을 결합하여 사용자의 의도를 종합적으로 파악합니다.

  6. 기초 모델: 이 시스템은 방대한 양의 텍스트 데이터에 대해 사전 학습된 대규모 언어 모델인 foundation model 활용합니다. 이 모델은 문맥에 맞는 정확한 응답을 생성하는 데 사용됩니다.

  7. 사실에 입각한 답변: foundation model 결합된 입력을 처리하고 검색 결과와 사용자 입력을 기반으로 사실에 입각한 답변을 생성합니다.

요약하면, 이 이미지는 자연어 처리(NLP), 머신 러닝 및 지식 검색을 조합하여 사용자의 질문에 사실에 입각한 답변을 제공하는 챗봇 또는 대화형 AI 시스템과 상호작용하는 사용자의 모습을 보여줍니다.

Llama 3.2 90B 비전 모델 프롬프트

이 예는 텍스트로 제공하는 지침이 foundation model 출력의 품질에 어떤 영향을 미치는지 보여줍니다.

llama-3-2-90b-vision-instruct foundation model 제출되는 프롬프트에는 수익 차트 이미지에 사용할 수 있는 효과적인 대체 텍스트를 보여주는 이미지가 포함되어 있습니다.

이미지에 대한 효과적인 대체 텍스트의 예를 보여주는 다이어그램입니다.

명령이 구체적일 때 foundation model 유용한 응답을 생성합니다.

명령어
대체 이미지 텍스트에 대한 이미지의 의미는 무엇인가요?
응답
이 이미지는 시각 장애인을 위해 이미지에 대한 간결하고 유익한 설명을 제공하기 위해 대체 텍스트를 사용하는 방법을 보여줍니다. 막대형 차트의 샘플 대체 텍스트는 "과거 평균 대비 월별 일일 매출을 보여주는 막대형 차트"로 이미지에 포함된 필수 정보를 효과적으로 전달합니다. 이 접근 방식은 시각적 능력에 관계없이 모든 사용자가 차트에 표시된 데이터에 액세스하고 이해할 수 있도록 보장합니다.

모델에 일반적인 지시를 내리면 foundation model 이미지의 시각적 요소를 자세히 설명하지만 이미지에서 전달되는 정보를 항상 해석하는 것은 아닙니다.

명령어

이미지를 설명합니다.

응답

이 답변에서 발췌한 내용처럼 시각적 요소를 자세히 설명하고 더미 이미지에서 전달되는 정보를 설명하려고 시도하지만 표현하고자 하는 더 큰 아이디어를 포착하지 못합니다:

이미지를 보면 전반적으로 지난 1년간 매출이 크게 성장했으며 2월에 눈에 띄게 증가한 것을 알 수 있습니다. 월 평균 매출을 강조하는 분홍색 선은 매출 추세에 대한 컨텍스트를 제공하여 시청자가 회사의 성과를 빠르게 이해할 수 있도록 합니다.

라마 가드 비전 모델을 사용하여 이미지 안전성 확인

이 예는 입력으로 제출된 이미지와 첨부된 텍스트의 안전성을 분류하는 llama-guard-3-11b-vision을 보여 줍니다. 안전하지 않은 것으로 분류되는 콘텐츠 유형에 대한 자세한 내용은 모델 카드를 참조하세요.

llama-guard-3-11b-vision foundation model 사용에 대한 참고 사항:

  • 모델을 찾으려면 모델 필드 드롭다운 메뉴에서 모든 파운데이션 모델 보기를 선택합니다. 작업>채팅 옵션을 지우고 모양>이미지 옵션을 선택하여 검색 필터를 변경합니다.

  • foundation model 대한 시스템 프롬프트를 수정하지 마십시오.

이미지-텍스트 생성 foundation model 푹신한 강아지 사진을 안전한 것으로 분류합니다.

스크린샷은 강아지 이미지가 safe로 정확하게 분류되어 있음을 보여줍니다.

이 모델은 콘텐츠의 안전성을 평가할 때 프롬프트의 이미지와 텍스트를 모두 고려합니다. 예를 들어, 다음 스크린샷은 무해한 건물 이미지와 함께 불법으로 건물에 들어가는 방법에 대한 조언을 요청하는 해당 텍스트가 표시되어 있습니다.

이미지-텍스트 생성 foundation model 침입 방법을 묻는 텍스트가 있는 건물 이미지를 안전하지 않은 것으로 분류합니다.

S2 카테고리는 비폭력 범죄에 대한 언급을 식별합니다. llama-guard-3-11b-vision foundation model 인식하도록 학습된 카테고리에 대한 자세한 내용은 라마가드 3 문서를 참조하세요.

텍스트 전용 프롬프트를 제출하는 방법을 보여주는 샘플 프롬프트는 샘플 프롬프트를 참조하세요: 안전을 위해 프롬프트 분류하기를 참조하세요.

Pixtral-12b 모델 프롬프트하기

다음 예제에서는 기존 AI 모델과 파운데이션 모델의 차이점을 설명하는 다이어그램이 ' What information does this image convey? 명령어와 함께 pixtral-12b foundation model 제출됩니다.

이미지-텍스트 생성 foundation model 다양한 유형의 AI 모델에 대한 다이어그램을 설명합니다.

pixtral-12b foundation model 다음과 같은 포괄적인 설명으로 응답합니다:

이 이미지는 기존 AI 모델과 기초 모델을 대조하여 각각의 메커니즘과 기능을 강조합니다.

기존 AI 모델 이미지 왼쪽에는 기존 AI 모델이 그려져 있습니다. 이러한 모델은 다음과 같이 작동합니다:

  1. 훈련: 각 모델은 특정 유형의 데이터(문서, 데이터베이스, 스프레드시트 등 다양한 아이콘으로 표시됨)에 대해 학습됩니다.
  2. 모델: 각 데이터 유형은 고유한 모델(model_1, model_2, model_3 등)을 생성합니다.
  3. 작업: 각 모델은 녹색 체크 표시로 표시된 특정 작업에 특화되어 있습니다.

파운데이션 모델 이미지의 오른쪽에는 파운데이션 모델이 설명되어 있습니다:

  1. 방대한 외부 데이터: 파운데이션 모델은 데이터베이스, 문서, 코드 등 다양한 아이콘으로 표시되는 방대한 양의 다양한 외부 데이터로 학습됩니다. 하나의 기초 모델: 이 모델은 방대한 외부 데이터로 학습되어 다양한 작업을 처리할 수 있습니다.
  2. 프롬프트: 프롬프트: 작업은 모델의 응답을 안내하는 프롬프트를 사용하여 수행됩니다.
  3. 작업: foundation model 다음과 같은 여러 작업을 처리할 수 있습니다:
    • 번역
    • 텍스트 생성
    • 코드 생성기
    • 사실에 입각한 질문과 답변

요약

  • 기존 AI 모델: 특정 데이터 세트에 대해 학습한 후 특정 작업에 특화되어 있습니다.
  • 기초 모델: 방대하고 다양한 데이터 세트에 대해 학습되어 프롬프트를 사용하여 단일 모델로 여러 작업을 처리할 수 있습니다.

자세히 알아보기

상위 주제: 프롬프트 랩