0 / 0
영어 버전 문서로 돌아가기
사용자 지정 foundation model 배포 계획
마지막 업데이트 날짜: 2025년 2월 06일
사용자 지정 foundation model 배포 계획

watsonx.ai 추론하기 위한 사용자 지정 foundation model 배포할 때 고려 사항과 요구 사항을 검토하세요.

사용자 지정 foundation model 배포할 준비를 할 때 다음 계획 고려 사항을 검토하세요:

사용자 지정 파운데이션 모델에 대한 요구 사항 및 사용 참고 사항

배포 가능한 사용자 지정 모델은 이러한 요구 사항을 충족해야 합니다:

  • 사용자 지정 모델을 업로드하고 사용하는 것은 watsonx.ai의 표준 요금제에서만 사용할 수 있습니다.

  • 모델은 텍스트 생성 추론(TGI) 표준과 호환되어야 하며 지원되는 모델 아키텍처 유형으로 구축되어야 합니다.

  • 모델의 파일 목록에는 config.json 파일이 포함되어야 합니다.

  • 모델은 지원되는 트랜스포머 라이브러리와 함께 safetensors 형식이어야 하며 tokenizer.json 파일을 포함해야 합니다.

    중요:
    • 사용자 정의 foundation model 지원되는 ' transformers ' 라이브러리와 함께 저장되어 있는지 확인해야 합니다. 사용자 지정 foundation model 대한 model.safetensors 파일이 메타데이터 헤더에서 지원되지 않는 데이터 형식을 사용하는 경우 배포가 실패할 수 있습니다. 자세한 내용은 watsonx.ai 런타임 문제 해결을 참조하세요.
    • 사용자 지정 foundation model 배포하려는 프로젝트 또는 공간에 연결된 watsonx.ai 런타임 인스턴스가 있는지 확인하세요. 프로젝트 또는 스페이스에서 관리 탭을 열어 이를 확인합니다.

지원되는 모델 아키텍처

다음 표에는 watsonx.ai 사용하여 추론을 위한 사용자 지정 모델로 배포할 수 있는 모델 아키텍처가 나와 있습니다. 모델 아키텍처는 지원되는 양자화 방법, 병렬 텐서, 배포 구성 크기 및 소프트웨어 사양에 대한 정보와 함께 나열되어 있습니다.

참고:

Two software specifications are available for your deployments: watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1. The watsonx-cfm-caikit-1.1 specification is better in terms of performance, but it's not available with every model architecture.

지원되는 모델 아키텍처, 양자화 방법, 병렬 텐서, 배포 구성 크기 및 소프트웨어 사양
모델 아키텍처 유형 기초 모델 예 정량화 방법 병렬 텐서multiGpu 배포 구성 소프트웨어 스펙
bloom bigscience/bloom-3b, bigscience/bloom-560m 해당사항 없음 소형, 중형, 대형 watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1
codegen Salesforce/codegen-350M-mono, Salesforce/codegen-16B-mono 해당사항 없음 아니오 소형 watsonx-cfm-caikit-1.0
exaone lgai-exaone/exaone-3.0-7.8B-Instruct 해당사항 없음 아니오 소형 watsonx-cfm-caikit-1.1
falcon 해당사항 없음 소형, 중형, 대형 watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1
gemma google/gemma-2b 해당사항 없음 소형, 중형, 대형 watsonx-cfm-caikit-1.1
gemma2 google/gemma-2-9b 해당사항 없음 소형, 중형, 대형 watsonx-cfm-caikit-1.1
gpt_bigcode bigcode/starcoder, bigcode/gpt_bigcode-santacoder gptq 소형, 중형, 대형 watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1
gpt-neox rinna/japanese-gpt-neox-small, EleutherAI/pythia-12b, databricks/dolly-v2-12b 해당사항 없음 소형, 중형, 대형 watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1
gptj EleutherAI/gpt-j-6b 해당사항 없음 아니오 소형 watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1
granite ibm-granite/granite-3.0-8b-instruct, ibm-granite/granite-3b-code-instruct-2k, granite-8b-code-instruct, granite-7b-lab 해당사항 없음 아니오 소형 watsonx-cfm-caikit-1.1
llama DeepSeek-R1 (distilled variant), meta-llama/Meta-Llama-3-8B, meta-llama/Meta-Llama-3.1-8B-Instruct, llama-2-13b-chat-hf, TheBloke/Llama-2-7B-Chat-AWQ, ISTA-DASLab/Llama-2-7b-AQLM-2Bit-1x16-hf gptq 소형, 중형, 대형 watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1
mistral mistralai/Mistral-7B-v0.3, neuralmagic/OpenHermes-2.5-Mistral-7B-marlin 해당사항 없음 아니오 소형 watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1
mixtral TheBloke/Mixtral-8x7B-v0.1-GPTQ, mistralai/Mixtral-8x7B-Instruct-v0.1 gptq 아니오 소형 watsonx-cfm-caikit-1.1
mpt mosaicml/mpt-7b, mosaicml/mpt-7b-storywriter, mosaicml/mpt-30b 해당사항 없음 아니오 소형 watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1
mt5 google/mt5-small, google/mt5-xl 해당사항 없음 아니오 소형 watsonx-cfm-caikit-1.0
nemotron nvidia/Minitron-8B-Base 해당사항 없음 소형, 중형, 대형 watsonx-cfm-caikit-1.1
olmo allenai/OLMo-1B-hf, allenai/OLMo-7B-hf 해당사항 없음 소형, 중형, 대형 watsonx-cfm-caikit-1.1
persimmon adept/persimmon-8b-base, adept/persimmon-8b-chat 해당사항 없음 소형, 중형, 대형 watsonx-cfm-caikit-1.1
phi microsoft/phi-2, microsoft/phi-1_5 해당사항 없음 소형, 중형, 대형 watsonx-cfm-caikit-1.1
phi3 microsoft/Phi-3-mini-4k-instruct 해당사항 없음 소형, 중형, 대형 watsonx-cfm-caikit-1.1
qwen 해당사항 없음 소형, 중형, 대형 watsonx-cfm-caikit-1.1
qwen2 Qwen/Qwen2-7B-Instruct-AWQ AWQ 소형, 중형, 대형 watsonx-cfm-caikit-1.1
t5 google/flan-t5-large, google/flan-t5-small 해당사항 없음 소형, 중형, 대형 watsonx-cfm-caikit-1.0
중요:
  • IBM는 지원되지 않는 아키텍처로 파운데이션 모델을 배포한 결과 발생하는 배포 실패를 지원하지 않습니다.
  • llama 3.1 모델의 배포가 실패할 수 있습니다. 이 문제를 해결하려면 문제 해결에 나와 있는 단계를 참조하세요.
  • It is not possible to deploy codegen, mt5, and t5 type models with the watsonx-cfm-caikit-1.1 software specification.
  • 모델에서 병렬 텐서를 지원하지 않는 경우 사용할 수 있는 유일한 구성은 Small입니다. 모델이 Small 구성이 지원하는 것보다 더 많은 매개 변수로 학습된 경우 실패합니다. 즉, 일부 사용자 지정 모델을 배포할 수 없습니다. 제한 사항에 대한 자세한 내용은 리소스 활용 가이드라인를 참조하세요.

사용자 지정 foundation model 위한 필수 세부 정보 수집하기

  1. foundation model 콘텐츠 폴더에 ' config.json ' 파일이 있는지 확인합니다. 배포 서비스는 클라우드 스토리지에 업로드된 후 foundation model 콘텐츠 폴더에 ' config.json ' 파일이 있는지 확인합니다.

  2. ' config.json ' 파일을 열어 foundation model 지원되는 아키텍처를 사용하는지 확인합니다.

  3. foundation model 대한 파일 목록을 확인하여 ' tokenizer.json 파일이 있는지, 모델 콘텐츠가 ' .safetensors ' 형식인지 확인합니다.

    중요:

    사용자 정의 foundation model 지원되는 ' transformers ' 라이브러리와 함께 저장되어 있는지 확인해야 합니다. 사용자 지정 foundation model 대한 model.safetensors 파일이 메타데이터 헤더에서 지원되지 않는 데이터 형식을 사용하는 경우 배포가 실패할 수 있습니다. 자세한 내용은 watsonx.ai 런타임 문제 해결을 참조하세요.

예시를 참조하세요:

Hugging Face 저장된 falcon-40b 모델의 경우 파일 및 버전을 클릭하여 파일 구조를 확인하고 ' config.json'을 확인합니다:

Hugging Face 호스팅되는 foundation model 내에서 config.json 파일을 확인합니다

이 예제 모델에서는 지원되는 falcon 아키텍처 버전을 사용합니다.

foundation model 지원되는 아키텍처 확인

이 예제 모델에는 tokenizer.json 파일이 포함되어 있으며 .safetensors 형식입니다:

foundation model 파일 목록

모델이 이러한 요구 사항을 충족하지 않으면 모델 자산을 생성하고 모델을 배포할 수 없습니다.

리소스 활용 가이드라인

사용자 정의 foundation model 지원하기 위해 세 가지 구성을 사용할 수 있습니다: Small, ' Medium' , ' Large' . 사용자 지정 foundation model 가장 적합한 구성을 결정하려면 다음 가이드라인을 참조하세요:

  • Small 구성을 테스트 및 검증을 거쳐 26B 매개변수 아래의 더블바이트 정밀도 모델에 할당합니다.
  • 테스트 및 검증을 거쳐 27B와 53B 매개변수 사이의 더블바이트 정밀도 모델에 Medium 구성을 할당할 수 있습니다.
  • 테스트 및 유효성 검사를 거쳐 54B와 106B 매개변수 사이의 더블 바이트 정밀도 모델에 Large 구성을 할당합니다.
팁:

테스트 및 유효성 검사 단계에서 선택한 구성이 실패하면 사용 가능한 다음 상위 구성을 살펴보는 것이 좋습니다. 예를 들어 Medium 구성이 실패하면 Small 구성을 시도해 보세요. 현재 Large 구성이 사용 가능한 가장 높은 구성입니다.

하드웨어 구성 및 예제 모델
구성 적합한 모델의 예
소형 llama-3-8b
llama-2-13b
starcoder-15.5b
mt0-xxl-13b
jais-13b
gpt-neox-20b
flan-t5-xxl-11b
flan-ul2-20b
allam-1-13b
중간 codellama-34b
대형 llama-3-70b
llama-2-70b

사용자 지정 파운데이션 모델에 대한 제한 및 제한 사항

watsonx.ai을 사용하여 사용자 정의 파운데이션 모델을 배포하고 사용하는 방법에 대한 제한 사항에 유의하세요.

사용자 지정 기초 모델 배포 시 제한 사항

맞춤형 foundation model 배포에 대한 높은 수요와 이를 수용하기 위한 제한된 리소스로 인해, watsonx.ai IBM Cloud 계정당 소형 모델 4개, 중형 모델 2개 또는 대형 모델 1개로 배포 제한이 있습니다. 이러한 제한을 초과하여 사용자 지정 foundation model 가져오려고 하면 알림이 표시되고 설문조사를 통해 피드백을 공유하라는 메시지가 표시됩니다. 이를 통해 고객의 요구 사항을 파악하고 향후 용량 업그레이드 계획을 세우는 데 도움이 됩니다.

중요: 요청된 한도 증액은 보장되지 않으며 사용 가능한 용량에 따라 달라질 수 있습니다.

사용자 지정 foundation model 배포 사용에 대한 제한 사항

사용자 지정 파운데이션 모델을 watsonx.ai:로 배포한 후 사용할 때는 다음 제한 사항에 유의하세요

  • 사용자 지정 foundation model 조정할 수 없습니다.
  • 사용자 지정 foundation model 대한 프롬프트 템플릿을 평가하거나 추적하는 데는 watsonx.governance 사용할 수 없습니다.
  • 사용자 지정 foundation model 프롬프트할 수는 있지만 사용자 지정 모델에 대한 프롬프트 템플릿을 저장할 수는 없습니다.

이 환경을 개선할 수 있도록 도와주세요

지금 피드백을 공유하려면 이 링크를 클릭하세요. 여러분의 피드백은 향후 용량 업그레이드를 계획하고 전반적인 사용자 지정 foundation model 배포 환경을 개선하는 데 필수적입니다. 협조해 주셔서 감사합니다!

다음 단계

사용자 지정 foundation model 다운로드 및 스토리지 설정하기

상위 주제: 사용자 지정 foundation model 배포