다음 팁에 따라 watsonx.ai 런타임으로 작업할 때 발생할 수 있는 일반적인 문제를 해결하세요.
watsonx.ai 런타임 서비스 인스턴스 문제 해결
AutoAI 문제 해결
- RAG 실험을 위한AutoAI 추론 노트북이 모델 한계를 초과합니다
- 서비스 ID 자격 증명으로 AutoAI 실험을 훈련하는 데 실패함
- AutoAI 시계열 모델에 대한 예측 요청이 너무 많은 새 관측값으로 인해 시간 초과될 수 있습니다
- AutoAI 실험을 위한 학습 데이터에 클래스 멤버가 부족합니다
- Cloud Pak for Data watsonx.ai 필요한 자산을 열 수 없습니다
전개 문제점 해결
watsonx.ai 런타임 서비스 인스턴스 문제 해결
다음 팁에 따라 watsonx.ai 런타임 서비스 인스턴스로 작업할 때 발생할 수 있는 일반적인 문제를 해결하세요.
비활성 watsonx.ai 런타임 인스턴스
증상
Prompt Lab 생성 버튼을 클릭하여 foundation model 추론 요청을 제출하려고 하면 다음과 같은 오류 메시지가 표시됩니다:
'code': 'no_associated_service_instance_error',
'message': 'WML instance {instance_id} status is not active, current status: Inactive'
가능한 원인
' watsonx.ai 프로젝트와 관련 ' watsonx.ai 런타임 서비스 인스턴스 간의 연결이 끊어졌습니다.
가능한 솔루션
' watsonx.ai 프로젝트와 관련 ' watsonx.ai 런타임 서비스 인스턴스 간의 연결을 다시 만들거나 새로 고칩니다. 이를 수행하려면 다음 단계를 완료하십시오.
- 주 메뉴에서 프로젝트를 확장한 다음 모든 프로젝트 보기를 클릭합니다.
- watsonx.ai 프로젝트를 클릭합니다.
- 관리 탭에서 서비스 및 통합을 클릭합니다.
- 적절한 watsonx.ai 런타임 서비스 인스턴스가 나열되면 인스턴스를 선택한 다음 제거를 클릭하여 일시적으로 연결을 해제합니다. 제거를 확인합니다.
- 서비스 연동을 클릭합니다.
- 목록에서 적절한 watsonx.ai 런타임 서비스 인스턴스를 선택한 다음 연결을 클릭합니다.
AutoAI 문제 해결
다음 팁에 따라 AutoAI 작업할 때 발생할 수 있는 일반적인 문제를 해결하세요.
이상 징후 예측으로 AutoAI 시계열 실험 실행 실패
시계열 실험 결과의 이상 징후를 예측하는 기능은 더 이상 지원되지 않습니다. 기존 실험을 실행하려고 하면 누락된 런타임 라이브러리로 인해 오류가 발생합니다. 예를 들어 다음과 같은 오류가 표시될 수 있습니다:
The selected environment seems to be invalid: Could not retrieve environment. CAMS error: Missing or invalid asset id
이 동작은 이상 징후 예측을 위한 런타임이 지원되지 않으므로 예상되는 동작입니다. 이 문제에 대한 해결 방법은 없습니다.
RAG 실험을 위한 AutoAI 추론 노트북이 모델 한계를 초과합니다
때때로 AutoAI RAG 실험을 위해 생성된 추론 노트북을 실행할 때 이 오류가 발생할 수 있습니다:
MissingValue: No "model_limits" provided. Reason: Model <model-nam> limits cannot be found in the model details.
이 오류는 실험에 사용된 foundation model 추론하기 위한 토큰 제한이 누락되었음을 나타냅니다. 문제를 해결하려면 ' default_inference_function
' 함수를 찾아 ' get_max_input_tokens
'를 모델의 최대 토큰으로 바꾸세요. 예를 들어,
model = ModelInference(api_client=client, **params['model"])
# model_max_input_tokens = get+max_input_tokens(model=model, params=params)
model_max_input_tokens = 4096
모델의 최대 토큰 값은 watsonx.ai 제공되는 지원되는 기초 모델 표에서 확인할 수 있습니다.
서비스 ID 자격 증명으로 AutoAI 실험을 훈련하는 데 실패함
serviceID, 대한 API 키를 사용하여 AutoAI 실험을 훈련하는 경우 이 오류와 함께 훈련이 실패할 수 있습니다:
User specified in query parameters does not match user from token.
이 문제를 해결하는 한 가지 방법은 사용자 자격 증명으로 실험을 실행하는 것입니다. 서비스에 대한 자격 증명으로 실험을 실행하려면 다음 단계에 따라 서비스 ID에 대한 역할 및 정책을 업데이트하세요.
- IBM CloudserviceID 엽니다.
- 새 serviceID 만들거나 다음 액세스 정책으로 기존 ID를 업데이트합니다:
- API 키 검토자, 사용자 API 키 작성자, 뷰어, 운영자 및 편집자 역할이 있는 모든 IAM 계정 관리 서비스입니다. 이상적으로는 이 ServiceId 대해 새 어피케이를 생성하는 것이 가장 좋습니다. ' '
- 업데이트된 정책은 다음과 같습니다:
- 업데이트된 serviceID 대한 자격 증명을 사용하여 교육을 다시 실행합니다.
AutoAI 시계열 모델에 대한 예측 요청이 너무 많은 새 관측값으로 인해 시간 초과될 수 있습니다
전달된 새 관측값이 너무 많으면 배포된 AutoAI 시계열 모델에 대한 예측 요청이 시간 초과될 수 있습니다. 이러한 문제점을 해결하려면 다음 중 하나를 수행하십시오.
- 새로운 관찰 횟수를 줄입니다.
- 새로운 관찰을 추가하여 실험에 사용된 학습 데이터를 확장합니다. 그런 다음 업데이트된 학습 데이터로 AutoAI 시계열 실험을 다시 실행합니다.
AutoAI 실험에 대한 훈련 데이터에 클래스 멤버가 충분하지 않음
AutoAI 실험에 대한 훈련 데이터에는 각 클래스에 대해 최소 4개의 멤버가 있어야 합니다. 훈련 데이터에 클래스의 멤버 수가 충분하지 않은 경우 다음 오류가 발생합니다.
ERROR: ingesting data Message id: AC10011E. Message: Each class must have at least 4 members. The following classes have too few members: ['T'].
문제를 해결하려면 훈련 데이터를 업데이트하여 클래스를 제거하거나 더 많은 멤버를 추가하십시오.
Cloud Pak for Data watsonx.ai 필요한 자산을 열 수 없습니다
Cloud Pak for Data 컨텍스트에서 작업하는 경우, watsonx.ai 같이 다른 제품 컨텍스트가 필요한 에셋은 열 수 없습니다. 예를 들어, watsonx.ai 사용하여 RAG 패턴에 대한 AutoAI 실험을 생성하는 경우, Cloud Pak for Data 컨텍스트에 있을 때는 해당 자산을 열 수 없습니다. AutoAI 실험의 경우 에셋 목록에서 학습 유형을 확인할 수 있습니다. 유형 머신 러닝으로 실험을 열 수 있지만 유형 검색 증강 생성은 열 수 없습니다.
전개 문제점 해결
다음 팁에 따라 watsonx.ai 런타임 배포 작업 시 발생할 수 있는 일반적인 문제를 해결하세요.
대형 데이터 볼륨을 입력으로 사용하는 일괄처리 배치가 실패할 수 있음
대량의 데이터를 입력 소스로 사용하는 일괄처리 작업을 스코어링하는 경우 내부 제한시간 설정으로 인해 작업이 실패할 수 있습니다. 이 문제점의 증상은 다음 예제와 유사한 오류 메시지일 수 있습니다.
Incorrect input data: Flight returned internal error, with message: CDICO9999E: Internal error occurred: Snowflake sQL logged error: JDBC driver internal error: Timeout waiting for the download of #chunk49(Total chunks: 186) retry=0.
일괄처리 배치를 스코어링할 때 제한시간 초과가 발생하는 경우 장기 실행 작업을 처리하도록 데이터 소스 조회 레벨 제한시간 한계를 구성해야 합니다.
데이터 소스에 대한 조회 레벨 제한시간 정보는 다음과 같습니다.
데이터 소스 | 쿼리 레벨 시간 제한 | 기본 시간 한계 | 기본 시간 한계 수정 |
---|---|---|---|
Apache Cassandra | 예 | 10초 | 기본 시간 제한을 변경하려면 Apache Cassandra 구성 파일 또는 Apache Cassandra 연결 URL read_timeout_in_ms 및 write_timeout_in_ms 매개 변수를 설정하세요. |
Cloud Object Storage | 아니오 | 해당사항 없음 | 해당사항 없음 |
Db2 | 예 | 해당사항 없음 | 클라이언트가 실행을 취소하고 애플리케이션에 제어를 리턴하기 전에 쿼리 실행이 완료되기를 기다리는 시간 (초) 을 지정하려면 QueryTimeout 매개변수를 설정하십시오. |
Hive via Execution Engine for Hadoop | 예 | 60분 (3600초) | 연결 URL hive.session.query.timeout 속성을 설정하여 기본 시간 제한을 변경합니다. |
Microsoft SQL Server | 예 | 30초 | QUERY_TIMEOUT 서버 구성 옵션을 설정하여 기본 시간 한계를 변경하십시오. |
MongoDB | 예 | 30초 | 기본 시간 한계를 변경하려면 조회 옵션에서 maxTimeMS 매개변수를 설정하십시오. |
MySQL | 예 | 0초 (기본 시간 제한 없음) | 연결 URL 또는 JDBC 드라이버 속성에서 timeout 속성을 설정하여 쿼리 시간 제한을 지정합니다. |
Oracle | 예 | 30초 | Oracle JDBC 드라이버에서 QUERY_TIMEOUT 매개변수를 설정하여 조회가 자동으로 취소되기 전에 실행할 수 있는 최대 시간을 지정하십시오. |
PostgreSQL | 아니오 | 해당사항 없음 | queryTimeout 특성을 설정하여 조회를 실행할 수 있는 최대 시간을 지정하십시오. queryTimeout 특성의 기본값은 0 입니다. |
Snowflake | 예 | 6시간 | queryTimeout 매개변수를 설정하여 기본 시간 한계를 변경하십시오. |
일괄처리 배치가 실패하지 않도록 하려면 데이터 세트를 파티션하거나 해당 크기를 줄이십시오.
파일 업로드에 대한 보안
watsonx.ai Studio 또는 watsonx.ai 런타임 UI를 통해 업로드하는 파일은 잠재적인 악성 콘텐츠의 유효성을 검사하거나 스캔하지 않습니다. 컨텐츠의 보안을 보장하기 위해 업로드하기 전에 모든 파일에서 바이러스 백신 애플리케이션과 같은 보안 소프트웨어를 실행하는 것이 좋습니다.
업그레이드 후 소프트웨어 사양이 제한된 배포가 실패함
최신 버전의 IBM Cloud Pak for Data 업그레이드하고 FIPS 모드에서 제한된 소프트웨어 사양을 사용하여 생성한 R Shiny 애플리케이션 자산을 배포하는 경우 배포가 실패합니다.
예를 들어, ' shiny-r3.6
' 및 ' shiny-r4.2
' 소프트웨어 사양을 사용하는 배포는 IBM Cloud Pak for Data 버전 4.7.0 4.8.4 이상으로 업그레이드한 후 실패합니다. 오류 메시지가 나타날 수 있습니다.Error 502 - Bad Gateway
.
배포 실패를 방지하려면 최신 소프트웨어 사양을 사용하도록 배포된 자산의 제한된 사양을 업데이트하세요. 자세한 내용은 오래된 소프트웨어 사양 또는 프레임워크 관리를 참조하세요. 더 이상 필요하지 않은 경우 애플리케이션 배포를 삭제할 수도 있습니다.
배포 공간에서 SPSS Modeler 흐름에 대한 작업 만들기가 실패합니다
배포 공간에서 SPSS Modeler 흐름에 대한 일괄 작업을 구성하는 과정에서 데이터 자산과 해당 연결의 자동 매핑이 실패할 수 있습니다.
데이터 자산 및 연결의 자동 매핑 오류를 해결하려면 다음 단계를 따르세요:
만들기를 클릭하여 진행 상황을 저장하고 새 작업 구성 대화 상자에서 종료합니다.
배포 공간에서 작업 탭을 클릭하고 SPSS Modeler 흐름 작업을 선택하여 작업의 세부 정보를 검토합니다.
작업 세부 정보 페이지에서 편집 아이콘 ' '을 클릭하여 데이터 자산 및 연결의 매핑을 수동으로 업데이트합니다.
데이터 자산 및 연결 매핑을 업데이트한 후 새 작업 대화 상자에서 작업 설정을 구성하는 프로세스를 다시 시작할 수 있습니다. 자세한 내용은 SPSS Modeler 흐름에 대한 배포 작업 만들기를 참조하십시오
배포 공간에서 사용자 지정 foundation model 배포 실패
배포 공간에서 사용자 지정 foundation model 대한 배포를 만들 때 여러 가지 이유로 인해 배포가 실패할 수 있습니다. 배포 공간에서 사용자 지정 파운데이션 모델을 배포할 때 발생할 수 있는 일반적인 문제를 해결하려면 다음 팁을 따르세요.
사례 1: 매개변수 값이 범위를 벗어남
배포 공간에서 사용자 지정 foundation model 대한 배포를 생성할 때는 기본 모델 매개변수 값이 지정된 범위 내에 있는지 확인해야 합니다. 자세한 내용은 사용자 지정 파운데이션 모델의 속성 및 매개변수를 참조하세요. 지정된 범위를 벗어나는 값을 입력하면 오류가 발생할 수 있습니다.
예를 들어, ' max_new_tokens
파라미터의 값은 ' max_sequence_length
' 보다 작아야 합니다. 기본 모델 파라미터 값을 업데이트할 때 ' max_new_tokens
값을 ' max_sequence_length
' 값(2048)보다 크거나 같은 값으로 입력하면 오류가 발생할 수 있습니다.
다음 이미지는 오류 메시지 예시를 보여줍니다: Value must be an integer between 20 and 1000000000000000 and be greater than 'Max New Tokens'
.
모델 파라미터의 기본값으로 인해 오류가 발생하는 경우 관리자에게 문의하여 watsonxaiifm CR에서 모델의 레지스트리를 수정하세요.
사례 2: 지원되지 않는 데이터 유형
사용자 지정 foundation model 지원하는 데이터 유형을 선택했는지 확인해야 합니다. 기본 모델 매개변수 값을 업데이트할 때 배포된 모델의 데이터 유형을 지원되지 않는 데이터 유형으로 업데이트하면 배포가 실패할 수 있습니다.
예를 들어, ' LLaMA-Pro-8B-Instruct-GPTQ
' 모델은 ' float16
데이터 유형만 지원합니다. ' LLaMA-Pro-8B-Instruct-GPTQ
' 모델을 ' float16
' Enum
'과 함께 배포한 다음 ' Enum
' 매개 변수를 ' float16
'에서 ' bfloat16
'으로 업데이트하면 배포가 실패합니다.
사용자 지정 foundation model 대해 선택한 데이터 유형으로 인해 오류가 발생하는 경우, 배포 생성 중에 사용자 지정 foundation model 데이터 유형을 재정의하거나 관리자에게 문의하여 watsonxaiifm CR에서 모델의 레지스트리를 수정할 수 있습니다.
사례 3: 매개변수 값이 너무 큽니다
' max_sequence_length
' 및 ' max_new_token
' 매개변수에 매우 큰 값을 입력하면 오류가 발생할 수 있습니다. 예를 들어 ' max_sequence_length
'의 값을 ' 1000000000000000
'로 설정하면 다음과 같은 오류 메시지가 표시됩니다:
사용자 지정 foundation model 배포하지 못했습니다. '(미리 채우기) max_sequence_길이(1000000000000000)에 비해 최대 배치 무게(19596417433)가 충분히 크지 않아서 작업이 실패했습니다. 조작을 재시도하십시오. 문제가 지속되면, IBM 지원 부서에 문의하십시오.
모델 구성 파일(config.json
)에 정의된 값보다 작은 값을 파라미터에 입력해야 합니다.
사례 4: ' model.safetensors
파일이 지원되지 않는 라이브러리와 함께 저장됨
사용자 지정 foundation model ' model.safetensors
' 파일이 메타데이터 헤더에서 지원되지 않는 데이터 형식을 사용하는 경우 배포가 실패할 수 있습니다.
예를 들어 ' OccamRazor/mpt-7b-storywriter-4bit-128g
사용자 지정 foundation model Hugging Face 배포 공간으로 가져와서 온라인 배포를 만들면 배포가 실패할 수 있습니다. 이는 ' OccamRazor/mpt-7b-storywriter-4bit-128g
' 모델의 ' model.safetensors
파일이 지원되지 않는 라이브러리인 ' save_pretrained
'와 함께 저장되어 있기 때문입니다. 다음 오류 메시지가 수신될 수 있습니다.
'NoneType' 개체에 'get' 속성이 없기 때문에 작업이 실패했습니다.
사용자 정의 foundation model 지원되는 ' transformers
' 라이브러리와 함께 저장되어 있는지 확인해야 합니다.
사례 5: Llama 3.1 모델 배포 실패
Llama 3.1 모델 배포에 실패한 경우 모델의 ' config.json
' 파일 내용을 편집해 보세요:
- '
eos_token_id
항목을 찾습니다. - 항목의 값을 배열에서 정수로 변경합니다.
그런 다음 모델을 다시 배포해 보세요.
주문형 배포 기반 모델은 배포 공간에 배포할 수 없습니다
배포 공간에는 주문형 배포 foundation model 인스턴스 하나만 배포할 수 있습니다. 선택한 모델이 이미 배포된 경우 모델이 배포된 배포 공간은 비활성화됩니다.
모델에 더 많은 리소스가 필요한 경우 배포를 확장하여 배포된 모델 자산의 사본을 더 추가할 수 있습니다.