0 / 0
영어 버전 문서로 돌아가기
Watson Machine Learning 플랜 및 컴퓨팅 사용

Watson Machine Learning 플랜 및 컴퓨팅 사용

AutoAI 모델을 훈련하거나 기계 학습 모델을 실행하거나 배치된 모델을 스코어링할 때 용량 단위 시간 (CUH) 으로 측정되는 Watson Machine Learning 리소스를 사용합니다. 기초 모델에서 추론 서비스를 실행할 때 자원 단위 (RU) 로 측정되는 Watson Machine Learning 자원을 사용합니다. 이 주제에서는 선택할 수 있는 다양한 계획, 포함되는 서비스 및 컴퓨팅 자원을 계산하는 방법에 대해 설명합니다.

Cloud Pak for Data as a Service 및 watsonx 의 Watson Machine Learning

중요:

Watson Machine Learning 플랜에는 watsonx.ai에 대한 세부사항이 포함되어 있습니다. Watsonx.ai 는 생성 AI에 대한 작업을 수행하기 위한 통합 도구의 스튜디오이며, 기반 모델 및 머신 러닝 모델로 구동됩니다. Cloud Pak for Data as a Service를 사용하는 경우, 자원 단위를 사용하는 측정 프롬프트 추론 및 기초 모델에 대한 작업의 세부사항은 사용자의 플랜에 적용되지 않습니다.

watsonx.ai에 대한 자세한 정보는 다음을 참조하십시오.

watsonx 및 Cloud Pak for Data as a Service모두에 대해 사용으로 설정된 경우 두 플랫폼 간에 전환할 수 있습니다.

Watson Machine Learning 플랜 선택

계획 비교를 보고 세부사항을 고려하여 사용자의 요구에 맞는 계획을 선택하십시오.

Watson Machine Learning 플랜

Watson Machine Learning 플랜은 Watson Machine Learning 으로 훈련하고 배치하는 모델에 대해 청구되는 방법과 기본 모델에서 사용하는 프롬프트에 대해 청구되는 방법을 제어합니다. 필요에 따라 플랜을 선택하십시오.

  • Lite는 용량이 제한된 무료 계획입니다. Watson Machine Learning을 평가하고 기능을 사용해 보려면 이 플랜을 선택하십시오. Lite 플랜은 watsonx에서 기본 모델 튜닝 실험 실행을 지원하지 않습니다.
  • 필수사항 은 사용자의 요구에 맞게 모델을 빌드, 배치 및 관리할 수 있는 유연성을 제공하는 종량과금제 플랜입니다.
  • 표준 은 조직의 모든 기계 학습 요구사항을 지원하도록 설계된 고용량 엔터프라이즈 플랜입니다. 용량 단위 시간은 정액 요금으로 제공되는 반면, 자원 단위 이용은 종량제로 제공됩니다.

계획 세부사항 및 가격 결정에 대해서는 IBM Cloud 머신 러닝을 참조하십시오.

용량 단위 시간 (CUH), 토큰 및 자원 단위 (RU)

측정 및 청구 목적으로 기계 학습 모델 및 배치 또는 기반 모델은 다음 단위로 측정됩니다.

  • 용량 단위 시간 (CUH) 은 사용 및 청구 목적으로 단위 시간당 계산 자원 소비를 측정합니다. CUH는 Foundation Model 추론을 제외한 모든 Watson Machine Learning 활동을 측정합니다.

  • 자원 단위 (RU) 는 기초 모델 추론 소비를 측정합니다. 추론은 프롬프트에 대한 응답으로 출력을 생성하기 위해 기초 모델을 호출하는 프로세스입니다. 각 RU는 1,000개 토큰과 같습니다. 토큰은 기초 모델 프롬프트의 입력 또는 출력에 사용되는 기본 텍스트 단위 (일반적으로 4자또는 0.75 단어) 입니다. 사용 요구사항에 해당하는 플랜을 선택하십시오. 토큰에 대한 세부사항은 토큰 및 토큰화를 참조하십시오.

  • 비율 한계 는 지정된 Watson Machine Learning 플랜 인스턴스의 기초 모델에 대해 처리되는 초당 추론 요청 수를 모니터하고 제한합니다. 무료 라이트 플랜보다 유료 플랜의 비율 한계가 더 높습니다.

CUH 또는 RU 이용에 대해 측정되는 것은?

용량 단위 시간 (CUH) 또는 자원 단위 (RU) 로 측정된 자원은 도구에서 작업하는 데 사용되지 않고 실행 중인 자산에 사용됩니다. 즉, 실험을 정의하는 데에는 소비 비용이 없습니다.AutoAI, 하지만 실험 파이프라인을 교육하기 위해 실험을 실행하는 데에는 요금이 부과됩니다. 마찬가지로 배치 영역을 작성하거나 배치 작업을 정의하는 데는 비용이 부과되지 않지만 배치 작업을 실행하거나 배치된 자산에 대해 추론하는 데는 비용이 부과됩니다. Jupyter 노트북, RStudio 자산 및 Bash 스크립트와 같이 지속적으로 실행되는 자산은 활성 상태인 동안 자원을 이용합니다.

Watson Machine Learning 플랜 세부사항

Lite 플랜은 watsonx.ai의 기능을 평가할 수 있도록 충분한 무료 리소스를 제공합니다. 그런 다음 계획 기능 및 용량을 기반으로 조직의 요구사항과 일치하는 유료 계획을 선택할 수 있습니다.

테이블 1. 플랜 세부사항
기능 계획 라이트 필수 표준
CUH의 Machine Learning 사용법 매월 20 CUH CUH 비율을 기반으로 한 CUH 청구에 소비 시간을 곱한 값 매월 2500 CUH
토큰 또는 자원 단위 (RU) 에서 기초 모델 추론 매월 50 ,000개 토큰 사용량에 대해 청구됨 (1000개의 토큰 = 1 RU) 사용량에 대해 청구됨 (1000개의 토큰 = 1 RU)
배치당 최대 병렬 Decision Optimization 일괄처리 작업 2 5 100년
공간별로 유지되는 배치 작업 100년 1000 3000
유휴 배치 시간 1일 3일 3일
HIPAA 지원 해당사항 없음 해당사항 없음 댈러스 지역만
IBM Cloud 계정에서 사용으로 설정되어야 함
플랜 ID당 비율 한계 초당 2개의 추론 요청 초당 8개의 추론 요청 초당 8개의 추론 요청
맞춤형 기초 모델 지원 사용할 수 없음 사용할 수 없음 구성별로 청구됨

참고: Essentials에서 Standard로 업그레이드하는 경우에는 Essentials 플랜으로 되돌릴 수 없습니다. 새 계획을 작성해야 합니다.

모든 계획의 경우:

  • 입력 및 출력을 포함하여 프롬프트 랩 추론에 기본 모델 추론 자원 단위 (RU) 를 사용할 수 있습니다. 즉, 입력에 대해 입력하는 프롬프트가 생성된 출력에 추가로 계산됩니다. (watsonx 전용)
  • 기반 모델 추론은 댈러스, 프랑크푸르트, 런던 및 도쿄 데이터 센터에서 사용 가능합니다. (watsonx 전용)
  • Tuning Studio 의 기초 모델 튜닝은 댈러스, 프랑크푸르트, 런던 및 도쿄 데이터 센터에서 사용 가능합니다. (watsonx 전용)
  • 모델 클래스는 RU 비율을 결정합니다. RRU당 가격은 모델 클래스에 따라 다릅니다. (watsonx 전용)
  • 교육을 위한 CUH (Capacity-unit-hour) 비율 이용은 교육 도구, 하드웨어 스펙 및 런타임 환경을 기반으로 합니다.
  • 배치에 대한 용량 단위 시간 (CUH) 비율 이용은 배치 유형, 하드웨어 스펙 및 소프트웨어 스펙을 기반으로 합니다.
  • Watson Machine Learning은 각 단일 배치 공간에 대해 보유된 배치 작업의 수를 제한합니다. 한계를 초과하는 경우 기존 작업을 삭제하거나 계획을 업그레이드할 때까지 새 배치 작업을 작성할 수 없습니다. 기본적으로, 작업 메타데이터는 30일 후 자동 삭제됩니다. 작업 작성 시 이 값을 대체할 수 있습니다. 작업 관리를 참조하십시오.
  • 유휴 시간은 스코어링 요청 간에 배포가 활성 상태인 것으로 간주하는 시간을 의미합니다. 배치가 주어진 기간 동안 스코어링 요청을 받지 않는 경우 배치가 비활성 또는 유휴 상태라 간주되어 SPSS를 제외한 모든 프레임워크에 대한 청구가 중지됩니다.
  • 계획은 최소한 명시된 비율 한계를 허용하며 실제 비율 한계는 명시된 한계보다 높을 수 있습니다. 예를 들어, Lite 플랜은 오류를 발행하지 않고 초당 3개이상의 요청을 처리할 수 있습니다. 유료 플랜이 있고 실수로 비율 한계에 도달했다고 생각되는 경우 IBM 지원 센터에 문의하여 도움을 받으십시오.

계획 세부사항 및 가격 결정에 대해서는 IBM Cloud 머신 러닝을 참조하십시오.

자원 단위 계량 (watsonx)

자원 단위 청구는 기초 모델에 대한 청구 클래스의 비율을 자원 단위 (RU) 수로 곱한 값을 기반으로 합니다. 자원 단위는 기초 모델 추론의 입력 및 출력에서 1000개의 토큰과 같습니다. 세 가지 기본 모델 청구 클래스에는 서로 다른 RU 비율이 있습니다. 텍스트 문자열을 벡터화하는 임베드 모델은 다른 비율로 청구됩니다.

모델 클래스별 자원 단위 청구 비율

모델 청구 클래스 RUhhh당 가격
클래스 1 $0.0006
클래스 2 $0.0018
클래스 3 $0.0050
클래스 C1 $0.0001
클래스 5 $0.00025
클래스 7 $0.035
미스트랄 라지 $0.01

기초 모델의 자원 단위 청구 비율

다음 모델의 경우 청구 비율은 입력 및 출력 토큰에 대해 동일합니다.

테이블 2. 기초 모델 청구 세부사항
모델 출처 Billing 클래스 RUhhh당 가격
granite-13b-instruct-v2 IBM 클래스 1 RU당 $0.0006
granite-13b-chat-v2 IBM 클래스 1 RU당 $0.0006
granite-7b-lab IBM 클래스 1 RU당 $0.0006
granite-8b-japanese IBM 클래스 1 RU당 $0.0006
granite-20b-multilingual IBM 클래스 1 RU당 $0.0006
granite-3b-code-instruct IBM 클래스 1 RU당 $0.0006
granite-8b-code-instruct IBM 클래스 1 RU당 $0.0006
granite-20b-code-instruct IBM 클래스 1 RU당 $0.0006
granite-34b-code-instruct IBM 클래스 1 RU당 $0.0006
allam-1-13b-instruct 써드 파티 클래스 2 RU당 $0.0018
codellama-34b-instruct-hf 써드 파티 클래스 2 RU당 $0.0018
elyza-japanese-llama-2-7b-instruct 써드 파티 클래스 2 RU당 $0.0018
flan-t5-xl-3b 오픈소스 클래스 1 RU당 $0.0006
flan-t5-xxl-11b 오픈소스 클래스 2 RU당 $0.0018
flan-ul2-20b 오픈소스 클래스 3 RU당 $0.0050
jais-13b-chat 오픈소스 클래스 2 RU당 $0.0018
llama-3-8b-instruct 써드 파티 클래스 1 RU당 $0.0006
llama-3-70b-instruct 써드 파티 클래스 2 RU당 $0.0018
llama-2-13b-chat 써드 파티 클래스 1 RU당 $0.0006
llama-2-70b-chat 써드 파티 클래스 2 RU당 $0.0018
llama2-13b-dpo-v7 써드 파티 클래스 2 RU당 $0.0018
merlinite-7b 오픈소스 클래스 1 RU당 $0.0006
미스트랄-대형 써드 파티 미스트랄 라지 $0.01 RU당
mixtral-8x7b-instruct-v01 오픈소스 클래스 1 RU당 $0.0006
mixtral-8x7b-instruct-v01-q 오픈소스 클래스 1 RU당 $0.0006
mt0-xxl-13b 오픈소스 클래스 2 RU당 $0.0018

다음 모델의 경우 입력 토큰과 출력 토큰의 청구 요율이 다릅니다.

테이블 2. 입력 및 출력 요율이 다른 경우 기초 모델 청구 세부사항
모델 출처 입력 토큰 출력 토큰
llama-3-405b-instruct 메타 3등급: $0.0050 RU당 7등급: $0.035 RU당

임베드 모델에 대한 자원 단위 청구 비율

모델을 임베드하면 문장이 벡터로 변환되어 유사한 텍스트를 보다 정확하게 비교하고 검색할 수 있습니다.

테이블 3. 모델 청구 세부사항 임베드
모델 출처 Billing 클래스 RUhhh당 가격
slate.125m.english.rtrvr IBM 클래스 C1 RU당 $0.0001
slate.30m.english.rtrvr IBM 클래스 C1 RU당 $0.0001
all-MiniLM-L12-v2 오픈소스 클래스 C1 RU당 $0.0001
multilingual-e5-large 오픈소스 클래스 C1 RU당 $0.0001

생성 AI 모델에 대한 참고사항

  • 신속하게 조정된 기초 모델은 기본 기초 모델과 동일한 청구 클래스에 지정됩니다. 예를 들어, 클래스 1기초 모델을 즉시 조정하는 경우 조정된 모델을 추론하는 비용은 클래스 1청구 비율로 측정됩니다. 조정된 기본 모델에 대한 정보는 Tuning Studio를 참조하십시오.
  • 각 모델에 대한 자세한 정보는 지원되는 기초 모델을 참조하십시오.
  • 각 모델의 지역 지원에 대한 정보는 기초 모델의 지역 가용성을 참조하십시오.
참고: 이 문서 사이트에 대해 생성 AI 검색 및 응답 앱을 사용할 때 토큰을 이용하지 않습니다.

용량 단위 시간 측정 (watsonx 및 Watson Machine Learning)

CUH 이용은 태스크에 적용하는 계산 하드웨어 자원과 소프트웨어 스펙 및 모델 유형과 같은 기타 요인의 영향을 받습니다.

자산 유형별 CUH 소비율

테이블 3. 자산 유형별 CUH 소비율
자산 유형 용량 유형 시간당 용량 단위
AutoAI 실험 vCPU 8개 및 32GB RAM 20
Decision Optimization 교육 2 vCPU 및 8GB RAM
4 vCPU 및 16GB RAM
8 vCPU 및 32GB RAM
16 vCPU 및 64GB RAM
6
7
9
13
Decision Optimization 배치 2 vCPU 및 8GB RAM
4 vCPU 및 16GB RAM
8 vCPU 및 32GB RAM
16 vCPU 및 64GB RAM
30
40
50
60
Machine Learning 모델
(훈련, 평가 또는 스코어링)
1 vCPU 및 4GB RAM
2 vCPU 및 8GB RAM
4 vCPU 및 16GB RAM
8 vCPU 및 32GB RAM
16 vCPU 및 64GB RAM
0.5
1
2
4
8
기본 모델 튜닝 실험
(watsonx 전용)
NVIDIA A100 80GB GPU 43

배치 및 프레임워크 유형별 CUH 소비량

CUH 소비량은 다음 공식을 사용하여 계산합니다.

표 4. 배치 및 프레임워크 유형별 CUH 소비량
배치 유형 프레임워크 CUH 계산
온라인 AutoAI, AI 기능, SPSS, Scikit-Learn 사용자 정의 라이브러리, Tensorflow, RShiny 배치 활성 지속 기간 (시간) * 노드 수 * CUH_rate_for_capacity_type_framework
온라인 Spark, PMML, Scikit-Learn, Pytorch, XGBoost 성과 지속 기간 (시간) * 노드 수 * CUH_rate_for_capacity_type_framework
일괄처리 모든 프레임워크 작업 지속 기간 (시간) * 노드 수 * CUH_rate_for_capacity_type_framework

예를 들어, 15분동안 실행되는 Decision Optimization 일괄처리 배치 작업을 고려해 보십시오. 자원 이용은 다음과 같은 방식으로 계산됩니다. 15분 = 0.25 시간, 두 개의 노드에서, 두 개의 vCPU 및 8GB RAM이 있습니다. 이 조합의 결과로 CUH 비율이 30이 되므로 작업이 실행될 때마다 0.25 * 2 * 30 (15 CUH와 같음) 을 이용합니다.

자원 사용량 모니터링

프로젝트 또는 공간에서 소유하거나 공동 작업하는 자산의 리소스 사용량을 추적할 수 있습니다. 계정 소유자 또는 관리자인 경우 전체 계정에 대한 CUH, RU 사용량 또는 시간당 청구 요금을 추적할 수 있습니다.

프로젝트의 리소스 사용량 추적

프로젝트에서 CUH 또는 RU 소비 또는 시간당 사용량을 모니터링하려면 다음 안내를 따르세요.

  1. 프로젝트의 관리 탭으로 이동하십시오.

  2. 자원 을 클릭하여 프로젝트 또는 공간의 자산에 대한 자원 이용 요약을 검토하거나 특정 자산에 대한 자원 이용 세부사항을 검토하십시오.

    프로젝트의 자원 추적

계정의 리소스 사용량 추적

IBM Cloud 계정 소유자 또는 관리자 또는 Watson Machine Learning 서비스 소유자인 경우 환경 런타임 페이지에서 계정의 런타임 사용을 추적할 수 있습니다. 자세한 내용은 모니터링 자원을 참조하십시오.

노트북에서 기계 학습을 위한 CUH 이용 추적

노트북에서 용량 단위 시간을 계산하려면 다음을 사용하십시오.

CP =  client.service_instance.get_details()
CUH = CUH["entity"]["usage"]["capacity_units"]["current"]/(3600*1000)
print(CUH)

예를 들어,

'capacity_units': {'current': 19773430}

19773430/(3600*1000)

5.49 CUH 리턴

세부사항은 IBM Watson Machine Learning API 문서의 서비스 인스턴스 섹션을 참조하십시오.

자세히 알아보기

상위 주제: Watson Machine Learning

일반적인 AI 검색 및 응답
이러한 응답은 제품 문서의 컨텐츠를 기반으로 하는 watsonx.ai 의 대형 언어 모델에 의해 생성됩니다. 자세히 알아보기