SPSS 모델의 일괄 배포를 위한 입력 세부 정보를 지정할 때는 다음 규칙을 따르세요.
데이터 유형 요약 테이블:
데이터 | 설명 |
---|---|
유형 | 데이터 참조, 인라인 |
파일 형식 | CSV |
데이터 원본
입력 또는 출력 데이터 참조:
- 공간의 로컬 또는 관리 자산
- 다음과 같은 소스의 연결된(원격) 자산:
참고:
- Cloud Object Storage 또는 Cloud Object Storage(인프라)유형의 연결의 경우 액세스 키 및 시크릿 키를 구성해야 합니다(HMAC 신임 정보라고도 함).
- SPSS 배치의 경우 다음 데이터 소스는 FIPS (Federal Information Processing Standard) 를 준수하지 않습니다.
- Cloud Object Storage
- Cloud Object Storage (infrastructure)
- 스토리지 볼륨
- 입력 및 출력 데이터 참조에 제공된 테이블 이름은 무시됩니다. SPSS 모델에서 참조되는 테이블 이름은 일괄 배포 중에 사용됩니다.
- SQL PushBack 을 사용하여 IBM SPSS Modeler 조작에 대한 SQL문을 생성하십시오. 이 조작은 데이터베이스에 "푸시백" 하거나 데이터베이스에서 실행하여 성능을 향상시킬 수 있습니다. SQL 푸시백은 다음에서만 지원됩니다.
- Db2
- SQL Server
- Netezza Performance Server
일괄 배포에 연결된 데이터 사용
SPSS Modeler 흐름에는 데이터 가져오기 및 내보내기 노드가 여러 개 있을 수 있습니다. 노드가 데이터베이스 연결을 사용하는 경우 데이터 소스 및 대상의 테이블 이름으로 노드를 구성해야 합니다. 이러한 테이블 이름은 나중에 배치 작업에 사용됩니다. 데이터 가져오기에는 데이터 자산 노드를, 데이터 내보내기에는 데이터 자산 내보내기 노드를 사용합니다. 노드를 구성할 때는 연결에서 테이블 이름을 선택하고 프로젝트에서 데이터 자산을 선택하지 마세요. 모델을 저장하고 배포하기 전에 노드와 테이블 이름을 설정하여 watsonx.ai 런타임에 배포하세요.
배포 공간에 모델을 배포할 때 노드가 배포 공간에서 지원되는 데이터베이스에 연결되는지 확인합니다. 모델의 일괄 배포에서 연결 세부 정보는 입력 및 출력 데이터 참조에서 선택되지만 입력 및 출력 테이블 이름은 SPSS Modeler 모델에서 선택됩니다. 연결된 데이터 참조에 제공된 입력 및 출력 테이블 이름은 무시됩니다.
SPSS 연결을 사용하는 Cloud Object Storage 모델을 일괄 배포하려면 SPSS 모델에 단일 입력 및 출력 데이터 자산 노드가 있는지 확인합니다.
입력 및 출력 소스의 지원되는 조합
배치 작업 입력 및 출력에 대해 호환 가능한 데이터 소스 및 대상을 지정해야 합니다. 호환되지 않는 데이터 소스 및 대상을 지정하면 일괄 작업을 실행하려고 할 때 오류가 발생합니다.
다음 조합이 일괄처리 작업에 대해 지원됩니다.
SPSS 모델 입력/출력 | 일괄처리 배치 작업 입력 | 일괄처리 배치 작업 출력 |
---|---|---|
파일 | 로컬, 관리 또는 참조된 데이터 자산 또는 연결 자산 (파일) | 원격 데이터 자산 또는 연결 자산(파일) 또는 이름 |
데이터베이스 | 원격 데이터 자산 또는 연결 자산(데이터베이스) | 원격 데이터 자산 또는 연결 자산(데이터베이스) |
다중 입력 지정
스키마가 없는 SPSS 모델 배포에 대해 여러 입력을 지정하는 경우 input_data_references
에 각 요소에 대한 ID를 지정합니다.
자세한 정보는 SPSS 작업에 여러 데이터 소스 사용을 참조하십시오.
이 예제에서 작업을 작성할 때 ID가 sample_db2_conn
, sample_teradata_conn
및 sample_googlequery_conn
인 세 개의 입력 항목을 제공하고 각 입력에 대해 필요한 연결 데이터를 선택하십시오.
{
"deployment": {
"href": "/v4/deployments/<deploymentID>"
},
"scoring": {
"input_data_references": [{
"id": "sample_db2_conn",
"name": "DB2 connection",
"type": "data_asset",
"connection": {},
"location": {
"href": "/v2/assets/<asset_id>?space_id=<space_id>"
},
},
{
"id": "sample_teradata_conn",
"name": "Teradata connection",
"type": "data_asset",
"connection": {},
"location": {
"href": "/v2/assets/<asset_id>?space_id=<space_id>"
},
},
{
"id": "sample_googlequery_conn",
"name": "Google bigquery connection",
"type": "data_asset",
"connection": {},
"location": {
"href": "/v2/assets/<asset_id>?space_id=<space_id>"
},
}],
"output_data_references": {
"id": "sample_db2_conn",
"type": "data_asset",
"connection": {},
"location": {
"href": "/v2/assets/<asset_id>?space_id=<space_id>"
},
}
}
프로그래밍 방식으로 데이터 참조 지정
입력 및 출력 데이터 참조를 프로그래밍 방식으로 지정하는 경우:
- 데이터 소스 참조
type
은(는) 자산 유형에 따라 다릅니다. 배치 공간에 데이터 자산 추가의 데이터 소스 참조 유형 섹션을 참조하십시오. - SPSS 작업은 다중 데이터 소스 입력과 단일 출력을 지원합니다. 스키마가 모델을 저장할 때 모델의 메타데이터에 없는 경우
id
을 수동으로 입력하고 각 연결에 대한 데이터 자산을 선택해야 합니다. 모델의 메타데이터에 스키마가 제공된 경우 메타데이터를 사용하여id
이름이 자동으로 채워집니다. watsonx.ai Studio에서 해당 'id
에 대한 데이터 자산을 선택합니다. 자세한 정보는 SPSS 작업에 여러 데이터 소스 사용을 참조하십시오. - 로컬 또는 관리 대상 자산을 출력 데이터 참조로 작성하려면 데이터 자산이 지정된 이름으로 작성되도록
output_data_reference
에 대해name
필드를 지정해야 합니다. 기존 로컬 데이터 자산을 참조하는href
은 지정할 수 없습니다.
지원되는 데이터베이스를 참조하는 연결된 데이터 자산은 input_data_references
가 이러한 소스 중 하나도 참조하는 경우에만 output_data_references
에서 작성할 수 있습니다.
Python 클라이언트를 사용하여 작업을 만드는 경우, 배포 작업 페이로드의 입력/출력 데이터 참조를 위해 SPSS 모델 모델의 데이터 노드에서 참조되는 연결 이름을
id
필드에, 데이터 자산 href를location.href
에 제공해야 합니다. 예를 들어, 다음과 같이 작업 페이로드를 구성할 수 있습니다.job_payload_ref = { client.deployments.ScoringMetaNames.INPUT_DATA_REFERENCES: [{ "id": "DB2Connection", "name": "drug_ref_input1", "type": "data_asset", "connection": {}, "location": { "href": <input_asset_href1> } },{ "id": "Db2 WarehouseConn", "name": "drug_ref_input2", "type": "data_asset", "connection": {}, "location": { "href": <input_asset_href2> } }], client.deployments.ScoringMetaNames.OUTPUT_DATA_REFERENCE: { "type": "data_asset", "connection": {}, "location": { "href": <output_asset_href> } } }
상위 주제: 프레임워크별 일괄처리 배치 입력 세부사항