Python 용 autoai-lib 라이브러리에는 IBM watsonx.ai 런타임 AutoAI 실험과 상호 작용하는 데 도움이 되는 함수 집합이 포함되어 있습니다. autoai-lib 라이브러리를 사용하면
파이프라인 작성 시 발생하는 데이터 변환을 검토하고 편집할 수 있습니다. 마찬가지로 autoai-ts-libs 라이브러리를 사용하여 시계열 실험을 위한 파이프라인 노트북과 상호작용할 수 있습니다.
Python 에 대한 autoai-lib 또는 autoai-ts-libs 설치
Copy link to section
사용자 정의 라이브러리 설치 의 지시사항에 따라 autoai-lib 또는 autoai-ts-libs를 설치하십시오.
Python에 대한 autoai-lib 및 autoai-ts-libs 사용
Copy link to section
autoai-lib 및 autoai-ts-libs 라이브러리( Python )에는 AutoAI 실험과 상호 작용하는 데 도움이 되는 기능이 포함되어 있습니다. autoai-lib 라이브러리를 사용하여 분류 및 회귀 파이프라인 작성 시 발생하는 데이터 변환을 검토하고 편집할 수 있습니다. autoai-ts-libs 라이브러리를 사용하여 시계열 (예측) 파이프라인 작성 시 발생하는 데이터 변환을 검토할 수 있습니다.
사용자의 요구사항에 맞게 라이브러리 로거 autoai_libs 를 구성할 수 있습니다. 예를 들어, 핸들러를 정의 및 첨부하거나 필터를 구성하여 경고 및 오류 처리와 같은 로그 세부사항을 사용자 정의할 수 있습니다.
구성을 업데이트하지 않으면 로깅에 대한 기본 동작을 얻게 됩니다. 예를 들어, 심각도 경고 이상 (경고, 오류 및 위험) 의 메시지는 특별한 형식 없이 stderr (표준 오류) 에 인쇄됩니다. 예를 들어, 경고 메시지는 특수 형식이 없는 WARNING 으로 표시됩니다. 로깅을 구성하는 방법에 대한 자세한 내용과 예제를 보려면 autoai-lib 설명서를 참조하세요.
autoai-lib 기능
Copy link to section
autoai-lib 라이브러리를 가져온 후 작성되는 인스턴스화된 프로젝트 오브젝트는 다음 기능을 노출합니다.
문자열 압축의 유형. 'string' 은 문자열에서 공백을 제거하고 'hash' 는 int 해시를 작성합니다. 기본값은 'string' 입니다. 'hash' 는 문자열이 있는 열에 사용되며 cat_imp_strategy = ' most_빈번함 '
dtypes_list
(문자열은 'char_str', 'int_str', 'float_str', 'float_num', 'float_int_num', 'int_num','boolean', 'Unknown' 중 하나임) 입력 numpy 배열 X의 각 열의 유형을 나타내는 문자열을 포함하는 목록입니다. 없음인 경우 열 유형을 검색합니다. 기본값은 없음입니다.
misslist_list
목록에는 입력 numpy 배열 X의 각 컬럼에 대한 누락된 값 목록이 포함되어 있습니다. 없는 경우 각 컬럼의 누락된 값이 발견됩니다. 기본값은 없음입니다.
missing_values_reference_list
입력 numpy 배열 X에 있는 누락값의 참조 목록
activate_flag
이 변환기가 활성 상태임을 표시하는 플래그입니다. false이면 transform(X)는 수정하지 않은 상태로 입력 numpy 배열 X를 출력합니다.
numpy 배열과 각 열에 대해 알려진 값의 참조 목록이 주어지면 특수 값(일반적으로 np.nan)으로 참조 목록의 파트가 아닌
값을 대체합니다. 이 방법은 일반적으로 훈련 데이터 세트의 해당 열에 표시되지 않은 테스트 데이터 세트의 열에 대한 레이블을 제거하는 데 사용됩니다.
문자열, 선택사항, 기본값=”mean”. 결측값에 대한 대체 전략. -mean: 각 열의 평균을 사용하여 대체합니다. 숫자 데이터에만 사용할 수 있습니다. - median: 각 열의 중앙값을 사용하여 대체합니다. 숫자 데이터에만 사용할 수 있습니다. - most_frequent: 각 열에서 가장 자주 사용되는 값을 사용하여 대체합니다. 문자열 또는 숫자 데이터와 함께 사용됩니다. - constant: fill_value로 대체합니다. 문자열 또는 숫자 데이터와 사용할 수 있습니다.
missing_values
숫자, 문자열, np.nan(기본값) 또는 없음. 누락값을 위한 플레이스홀더입니다. missing_values의 모든 발생이 대체됩니다.
sklearn_version_family
버전 019 및 020dev와의 역호환성을 위한 sklearn 버전을 나타내는 문자열. 현재 사용되지 않습니다. 기본값은 없음입니다.
activate_flag
이 변환기가 활성 상태임을 표시하는 플래그입니다. false이면 transform(X)는 수정하지 않은 상태로 입력 numpy 배열 X를 출력합니다.
autoai_libs.transformers.exportable.CatEncoder()
Copy link to section
이 메소드는 범주형 인코더에 대한 랩퍼입니다. 인코딩 매개변수가 'ordinal'인 경우, 내부적으로는 현재 sklearn OrdinalEncoder를 사용합니다. 인코딩 파라미터가 내부적으로 'onehot' 또는 'onehot-dense'인 경우 sklearn OneHotEncoder 사용합니다
str, 'onehot', 'onehot-dense' 또는 'ordinal' 사용할 인코딩 유형 (기본값은 'ordinal') 'onehot': one-hot aka one-of-K 스킴 (또는 'dummy' 인코딩) 을 사용하여 기능을 인코딩하십시오. 이 인코딩은 각 범주에 대한 2진 열을 작성하고 희소 행렬을 리턴합니다. 'onehot-dense': 'onehot' 과 동일하지만 희소 행렬 대신 밀집 배열을 리턴합니다. 'ordinal': 기능을 순서 정수로 인코딩합니다. 결과는 기능당 정수 (0-n_categories-1) 의 단일 열입니다.
categories
'auto' 또는 값의 목록/배열 목록입니다. 기능별 카테고리 (고유 값): 'auto': 훈련 데이터에서 자동으로 카테고리 판별 list : categories[i] 는 i열에서 예상되는 카테고리를 보유합니다. 전달된 범주는 정렬되어야 하며 문자열과 숫자 값을 혼합할 수 없습니다. 사용된 카테고리는 encoder.categories_ 속성에서 찾을 수 있습니다.
dtype
숫자 유형으로, 기본값은 np.float64입니다. 출력으로 원하는 dtype입니다.
handle_unknown
'error'(기본값) 또는 'ignore'입니다. 변환 도중 알 수 없음 카테고리 기능이 있는 경우 오류를 발생시키는지 또는 무시하는지 여부(기본값은 발생). 이 매개변수가 '무시' 로 설정되고 변환 중에 알 수 없는 카테고리가 발견되면 이 기능에 대한 결과로 생성되는 자주 사용되는 인코딩된 열은 모두 0입니다. 역변환에서 알 수 없는 범주는 없음으로 표시됩니다. 알 수 없는 카테고리를 무시하는 것은 encoding='ordinal'에 대해 지원되지 않습니다.
sklearn_version_family
버전 019 및 020dev와의 역호환성을 위한 sklearn 버전을 나타내는 문자열. 현재 사용되지 않습니다. 기본값은 없음입니다.
activate_flag
이 변환기가 활성 상태임을 표시하는 플래그입니다. false이면 transform(X)는 수정하지 않은 상태로 입력 numpy 배열 X를 출력합니다.
목록에는 입력 numpy 배열 X의 각 열 유형을 나타내는 문자열이 포함되어 있습니다 (문자열은 'char_str', 'int_str', 'float_str', 'float_num', 'float_int_num', 'int_num', 'Boolean', 'Unknown').
missing_values_reference_list
누락값의 참조 목록
activate_flag
이 변환기가 활성 상태임을 표시하는 플래그입니다. false이면 transform(X)는 수정하지 않은 상태로 입력 numpy 배열 X를 출력합니다.
num_imp_strategy: string, optional (기본값 = mean). 대치 전략: - "평균인 경우 축에 있는 평균을 사용하여 결측값을 대체합니다. -" 중위수인 경우 축에 있는 중위수를 사용하여 결측값을 대체합니다. - " most_빈도값인 경우 축에 있는 가장 자주 사용되는 값을 사용하여 결측값을 대체합니다.
missing_values
정수 또는 “NaN”, 선택사항(기본값=”NaN”). 누락값을 위한 플레이스홀더입니다. Missing_values의 모든 발생이 전치됩니다 np.nan 인코딩된 누락 값의 경우 문자열 값 “NaN”을 사용합니다 activate_flag: 이 변환기가 활성 상태임을 나타내는 플래그입니다. false이면 transform(X)는 수정하지 않은 상태로 입력 numpy 배열 X를 출력합니다.
부울, 선택사항, 기본값 True. False인 경우 복사를 피하고 대신 제위치에서 스케일링을 수행합니다. 이 조치는 항상 작동하지 않습니다. 예를 들어, 인플레이스에서 데이터가 NumPy 배열 또는 scipy.sparse CSR 매트릭스가 아닌 경우 사본이 여전히 리턴될 수 있습니다.
num_scaler_with_mean
부울, 기본값 True. True인 경우 스케일링 전 데이터를 중심에 배치합니다. 희소 행렬을 중심으로 하면 밀집 행렬을 빌드해야 하므로 희소 행렬에서 시도할 때 예외가 발생합니다. 일반적으로 이 행렬은 메모리에 맞추기에는 너무 커질 수 있습니다.
num_scaler_with_std
부울, 기본값 True. True인 경우 단위 변량(또는 동등하게 단위 표준 편차)으로 데이터를 스케일링합니다.
use_scaler_flag
부울. 이 변환기가 활성 상태임을 표시하는 플래그입니다. false이면 transform(X)는 수정하지 않은 상태로 입력 numpy 배열 X를 출력합니다. 기본값은 True입니다.
각 매개변수에 대해 허용 가능한 입력 데이터 유형에 해당하는 arg_count 목록으로 구성되는 목록. 이전 예제에서 `arg_count=1``이후 결과는 외부 목록 내의 하나의 목록이며 'numeric' 이라고 하는 단일 유형을 포함합니다. 다른 경우에는 특정 케이스 'int' 또는 더 구체적인 'int64' 일 수 있습니다.
feat_constraints_list
상기 입력 특징들의 선택에 부과될 수 있는 일부 제약들에 대응하는 arg_count 리스트들의 리스트
tgraph
tgraph 오브젝트는 호출 TGraph () 여야 합니다. 오브젝트 이 매개변수는 선택적이며 없음을 전달할 수 있지만, 이로 인해 캐싱 부족으로 인해 일부 비효율성이 누락될 수 있습니다.
apply_all
applyAll = True만 사용하십시오. 이는 변환기가 지정된 기준과 일치하는 모든 기능 (또는 기능 세트) 을 열거하고 제공된 기능을 각각에 적용함을 의미합니다.
변환기와 추정기의 조합은 AutoAI 시계열 시스템에 의해 각 파이프라인에 대해 설계되고 선택됩니다. 생성된 파이프라인 노트북의 변환기 또는 평가자를 변경하면 예기치 않은 결과 또는 장애가 발생할 수 있습니다. 생성된 파이프라인에 대한 노트북을 변경하지 않는 것이 좋습니다. 따라서 현재 autoai-ts-libs 라이브러리에 대한 함수의 스펙을 제공하지 않습니다.