Watson Machine Learning 플랜 및 컴퓨팅 사용 | IBM Cloud Pak for Data as a Service

영어 버전 문서로 돌아가기

Watson Machine Learning 플랜 및 컴퓨팅 사용

AutoAI 모델을 훈련하거나 기계 학습 모델을 실행하거나 배치된 모델을 스코어링할 때 용량 단위 시간 (CUH) 으로 측정되는 Watson Machine Learning 리소스를 사용합니다. 기초 모델에서 추론 서비스를 실행할 때 자원 단위 (RU) 로 측정되는 Watson Machine Learning 자원을 사용합니다. 이 주제에서는 선택할 수 있는 다양한 계획, 포함되는 서비스 및 컴퓨팅 자원을 계산하는 방법에 대해 설명합니다.

Cloud Pak for Data as a Service 및 watsonx 의 Watson Machine Learning

중요:

Watson Machine Learning 플랜에는 watsonx.ai에 대한 세부사항이 포함되어 있습니다. Watsonx.ai 는 생성 AI에 대한 작업을 수행하기 위한 통합 도구의 스튜디오이며, 기반 모델 및 머신 러닝 모델로 구동됩니다. Cloud Pak for Data as a Service를 사용하는 경우, 자원 단위를 사용하는 측정 프롬프트 추론 및 기초 모델에 대한 작업의 세부사항은 사용자의 플랜에 적용되지 않습니다.

watsonx 및 Cloud Pak for Data as a Service모두에 대해 사용으로 설정된 경우 두 플랫폼 간에 전환할 수 있습니다.

Watson Machine Learning 플랜 선택

계획 비교를 보고 세부사항을 고려하여 사용자의 요구에 맞는 계획을 선택하십시오.

Watson Machine Learning 플랜
CUH (Capacity Unit Hours), 토큰 및 RU (Resource Units)
Watson Machine Learning 플랜 세부사항
용량 단위 시간 측정
CUH및 RU 사용 모니터링

Watson Machine Learning 플랜

Watson Machine Learning 플랜은 Watson Machine Learning 으로 훈련하고 배치하는 모델에 대해 청구되는 방법과 기본 모델에서 사용하는 프롬프트에 대해 청구되는 방법을 제어합니다. 필요에 따라 플랜을 선택하십시오.

Lite는 용량이 제한된 무료 계획입니다. Watson Machine Learning을 평가하고 기능을 사용해 보려면 이 플랜을 선택하십시오. Lite 플랜은 watsonx에서 기본 모델 튜닝 실험 실행을 지원하지 않습니다.
필수사항 은 사용자의 요구에 맞게 모델을 빌드, 배치 및 관리할 수 있는 유연성을 제공하는 종량과금제 플랜입니다.
표준 은 조직의 모든 기계 학습 요구사항을 지원하도록 설계된 고용량 엔터프라이즈 플랜입니다. 용량 단위 시간은 정액 요금으로 제공되는 반면, 자원 단위 이용은 종량제로 제공됩니다.

계획 세부사항 및 가격 결정에 대해서는 IBM Cloud 머신 러닝을 참조하십시오.

용량 단위 시간 (CUH), 토큰 및 자원 단위 (RU)

측정 및 청구 목적으로 기계 학습 모델 및 배치 또는 기반 모델은 다음 단위로 측정됩니다.

용량 단위 시간 (CUH) 은 사용 및 청구 목적으로 단위 시간당 계산 자원 소비를 측정합니다. CUH는 Foundation Model 추론을 제외한 모든 Watson Machine Learning 활동을 측정합니다.
자원 단위 (RU) 는 기초 모델 추론 소비를 측정합니다. 추론은 프롬프트에 대한 응답으로 출력을 생성하기 위해 기초 모델을 호출하는 프로세스입니다. 각 RU는 1,000개 토큰과 같습니다. 토큰은 기초 모델 프롬프트의 입력 또는 출력에 사용되는 기본 텍스트 단위 (일반적으로 4자또는 0.75 단어) 입니다. 사용 요구사항에 해당하는 플랜을 선택하십시오.
비율 한계 는 지정된 Watson Machine Learning 플랜 인스턴스의 기초 모델에 대해 처리되는 초당 추론 요청 수를 모니터하고 제한합니다. 무료 라이트 플랜보다 유료 플랜의 비율 한계가 더 높습니다.

Watson Machine Learning 플랜 세부사항

Lite 플랜은 watsonx.ai의 기능을 평가할 수 있도록 충분한 무료 리소스를 제공합니다. 그런 다음 계획 기능 및 용량을 기반으로 조직의 요구사항과 일치하는 유료 계획을 선택할 수 있습니다.

테이블 1. 플랜 세부사항
기능 계획	Lite	에센셜	표준
CUH의 Machine Learning 사용법	매월 20 CUH	CUH 비율을 기반으로 한 CUH 청구에 소비 시간을 곱한 값	매월 2500 CUH
토큰 또는 자원 단위 (RU) 에서 기초 모델 추론	매월 50 ,000개 토큰	사용량에 대해 청구됨 (1000개의 토큰 = 1 RU)	사용량에 대해 청구됨 (1000개의 토큰 = 1 RU)
배치당 최대 병렬 Decision Optimization 일괄처리 작업	2	5	100년
공간별로 유지되는 배치 작업	100년	1000	3000
유휴 배치 시간	1일	3일	3일
HIPAA 지원	해당사항 없음	해당사항 없음	댈러스 지역만 IBM Cloud 계정에서 사용으로 설정되어야 함
플랜 ID당 비율 한계	초당 2개의 추론 요청	초당 8개의 추론 요청	초당 8개의 추론 요청

참고: Essentials에서 Standard로 업그레이드하는 경우에는 Essentials 플랜으로 되돌릴 수 없습니다. 새 계획을 작성해야 합니다.

모든 계획의 경우:

입력 및 출력을 포함하여 프롬프트 랩 추론에 기본 모델 추론 자원 단위 (RU) 를 사용할 수 있습니다. 즉, 입력에 대해 입력하는 프롬프트가 생성된 출력에 추가로 계산됩니다. (watsonx 전용)
기초 모델 추론은 댈러스, 프랑크푸르트 및 도쿄 데이터 센터에서만 사용 가능합니다. (watsonx 전용)
튜닝 스튜디오의 기초 모델 튜닝은 댈러스, 프랑크푸르트 및 도쿄 데이터 센터에서만 사용 가능합니다. (watsonx 전용)
세 가지 모델 클래스가 RU 비율을 결정합니다. RRU당 가격은 모델 클래스에 따라 다릅니다. (watsonx 전용)
교육을 위한 CUH (Capacity-unit-hour) 비율 이용은 교육 도구, 하드웨어 스펙 및 런타임 환경을 기반으로 합니다.
배치에 대한 용량 단위 시간 (CUH) 비율 이용은 배치 유형, 하드웨어 스펙 및 소프트웨어 스펙을 기반으로 합니다.
Watson Machine Learning은 각 단일 배치 공간에 대해 보유된 배치 작업의 수를 제한합니다. 한계를 초과하는 경우 기존 작업을 삭제하거나 계획을 업그레이드할 때까지 새 배치 작업을 작성할 수 없습니다. 기본적으로, 작업 메타데이터는 30일 후 자동 삭제됩니다. 작업 작성 시 이 값을 대체할 수 있습니다. 작업 관리를 참조하십시오.
유휴 시간은 스코어링 요청 간에 배포가 활성 상태인 것으로 간주하는 시간을 의미합니다. 배치가 주어진 기간 동안 스코어링 요청을 받지 않는 경우 배치가 비활성 또는 유휴 상태라 간주되어 SPSS를 제외한 모든 프레임워크에 대한 청구가 중지됩니다.
계획은 최소한 명시된 비율 한계를 허용하며 실제 비율 한계는 명시된 한계보다 높을 수 있습니다. 예를 들어, Lite 플랜은 오류를 발행하지 않고 초당 3개이상의 요청을 처리할 수 있습니다. 유료 플랜이 있고 실수로 비율 한계에 도달했다고 생각되는 경우 IBM 지원 센터에 문의하여 도움을 받으십시오.

계획 세부사항 및 가격 결정에 대해서는 IBM Cloud 머신 러닝을 참조하십시오.

자원 단위 계량 (watsonx)

자원 단위 청구는 기초 모델에 대한 청구 클래스의 비율을 자원 단위 (RU) 수로 곱한 값을 기반으로 합니다. 자원 단위는 기초 모델 추론의 입력 및 출력에서 1000개의 토큰과 같습니다. 세 가지 기본 모델 청구 클래스에는 서로 다른 RU 비율이 있습니다. 텍스트 문자열을 벡터화하는 임베드 모델은 다른 비율로 청구됩니다.

기초 모델의 자원 단위 청구 비율

테이블 2. 기초 모델 청구 세부사항
모델	출처	Billing 클래스	RUhhh당 가격
granite-13b-instruct-v2	IBM	클래스 1	RU당 $0.0006
granite-13b-chat-v2	IBM	클래스 1	RU당 $0.0006
granite-8b-japanese	IBM	클래스 1	RU당 $0.0006
granite-20b-multilingual	IBM	클래스 1	RU당 $0.0006
codellama-34b-instruct-hf	오픈 소스	클래스 2	RU당 $0.0018
elyza-japanese-llama-2-7b-instruct	오픈 소스	클래스 2	RU당 $0.0018
flan-t5-xl-3b	오픈 소스	클래스 1	RU당 $0.0006
flan-t5-xxl-11b	오픈 소스	클래스 2	RU당 $0.0018
flan-ul2-20b	오픈 소스	클래스 3	RU당 $0.0050
jais-13b-chat	오픈 소스	클래스 2	RU당 $0.0018
llama-3-8b-instruct	오픈 소스	클래스 1	RU당 $0.0006
llama-3-70b-instruct	오픈 소스	클래스 2	RU당 $0.0018
llama-2-13b-chat	오픈 소스	클래스 1	RU당 $0.0006
llama-2-70b-chat	오픈 소스	클래스 2	RU당 $0.0018
llama2-13b-dpo-v7	오픈 소스	클래스 2	RU당 $0.0018
mixtral-8x7b-instruct-v01	오픈 소스	클래스 1	RU당 $0.0006
mixtral-8x7b-instruct-v01-q	오픈 소스	클래스 1	RU당 $0.0006
mt0-xxl-13b	오픈 소스	클래스 2	RU당 $0.0018
starcoder-15.5b	오픈 소스	클래스 2	RU당 $0.0018
merlinite-7b	오픈 소스	클래스 1	RU당 $0.0006
granite-7b-lab	IBM	클래스 1	RU당 $0.0006

임베드 모델에 대한 자원 단위 청구 비율

모델을 임베드하면 문장이 벡터로 변환되어 유사한 텍스트를 보다 정확하게 비교하고 검색할 수 있습니다.

테이블 3. 모델 청구 세부사항 임베드
모델	출처	Billing 클래스	RUhhh당 가격
slate.125m.english.rtrvr	IBM	클래스 C1	RU당 $0.0001
slate.30m.english.rtrvr	IBM	클래스 C1	RU당 $0.0001

용량 단위 시간 측정 (watsonx 및 Watson Machine Learning)

CUH 이용은 태스크에 적용하는 계산 하드웨어 자원과 소프트웨어 스펙 및 모델 유형과 같은 기타 요인의 영향을 받습니다.

자산 유형별 CUH 소비율

테이블 3. 자산 유형별 CUH 소비율
자산 유형	용량 유형	시간당 용량 단위
AutoAI 실험	vCPU 8개 및 32GB RAM	20
Decision Optimization 교육	2 vCPU 및 8GB RAM 4 vCPU 및 16GB RAM 8 vCPU 및 32GB RAM 16 vCPU 및 64GB RAM	6 7 9 13
Decision Optimization 배치	2 vCPU 및 8GB RAM 4 vCPU 및 16GB RAM 8 vCPU 및 32GB RAM 16 vCPU 및 64GB RAM	30 40 50 60
Machine Learning 모델 (훈련, 평가 또는 스코어링)	1 vCPU 및 4GB RAM 2 vCPU 및 8GB RAM 4 vCPU 및 16GB RAM 8 vCPU 및 32GB RAM 16 vCPU 및 64GB RAM	0.5 1 2 4 8
기본 모델 튜닝 실험 (watsonx 전용)	NVIDIA A100 80GB GPU	43

배치 및 프레임워크 유형별 CUH 소비량

배치에 대한 CUH 이용은 다음 공식을 사용하여 계산됩니다.

표 4. 배치 및 프레임워크 유형별 CUH 소비량
배치 유형	프레임워크	CUH 계산
온라인	AutoAI, Python 함수 및 스크립트, SPSS, Scikit-Learn 사용자 정의 라이브러리, Tensorflow, RShiny	deployment_active_duration * no_of_nodes * CUH_rate_for_capacity_type_framework
온라인	Spark, PMML, Scikit-Learn, Pytorch, XGBoost	score_duration_in_seconds * no_of_nodes * CUH_rate_for_capacity_type_framework
일괄처리	모든 프레임워크	job_duration_in_seconds * no_of_nodes * CUH_rate_for_capacity_type_framework

자원 사용량 모니터링

소유하고 있거나 프로젝트 또는 공간에서 협업하는 자산에 대한 CUH 또는 RU 사용을 추적할 수 있습니다. 계정 소유자 또는 관리자인 경우 전체 계정에 대한 CUH 또는 RU 사용을 추적할 수 있습니다.

프로젝트에서 CUH 또는 RU 사용 추적

프로젝트에서 CUH 또는 RU 이용을 모니터하려면 다음을 수행하십시오.

프로젝트의 관리 탭으로 이동하십시오.
자원 을 클릭하여 프로젝트 또는 공간의 자산에 대한 자원 이용 요약을 검토하거나 특정 자산에 대한 자원 이용 세부사항을 검토하십시오.

계정의 CUH 사용 추적

IBM Cloud 계정 소유자 또는 관리자 또는 Watson Machine Learning 서비스 소유자인 경우 환경 런타임 페이지에서 계정의 런타임 사용을 추적할 수 있습니다. 자세한 내용은 모니터링 자원을 참조하십시오.

노트북에서 기계 학습을 위한 CUH 이용 추적

노트북에서 용량 단위 시간을 계산하려면 다음을 사용하십시오.

CP =  client.service_instance.get_details()
CUH = CUH["entity"]["usage"]["capacity_units"]["current"]/(3600*1000)
print(CUH)

예를 들어,

'capacity_units': {'current': 19773430}

19773430/(3600*1000)

5.49 CUH 리턴

세부사항은 IBM Watson Machine Learning API 문서의 서비스 인스턴스 섹션을 참조하십시오.

자세한 정보

상위 주제: Watson Machine Learning