영어 버전 문서로 돌아가기binningnode 특성
binningnode 특성
마지막 업데이트 날짜: 2024년 10월 07일
구간화 노드는 하나 이상의 기존 연속형(숫자 범위) 필드의 값을 기반으로 새 명목형(세트) 필드를 자동으로 작성합니다. 예를 들어, 연속형 수입 필드를 평균값에서의 편차로서 수입 그룹을 포함하는 새 범주형 필드로 변환할 수 있습니다. 새 필드에 대한 구간을 작성한 후 절단점을 기반으로 파생 노드를 생성할 수 있습니다.
예
node = stream.create("binning", "My node")
node.setPropertyValue("fields", ["Na", "K"])
node.setPropertyValue("method", "Rank")
node.setPropertyValue("fixed_width_name_extension", "_binned")
node.setPropertyValue("fixed_width_add_as", "Suffix")
node.setPropertyValue("fixed_bin_method", "Count")
node.setPropertyValue("fixed_bin_count", 10)
node.setPropertyValue("fixed_bin_width", 3.5)
node.setPropertyValue("tile10", True)
binningnode 특성 |
데이터 유형 | 특성 설명 |
---|---|---|
fields |
[field1 field2 ... 필드] | 변환을 보류 중인 연속형(숫자 범위) 필드입니다. 다중 필드를 동시에 구간화할 수 있습니다. |
method |
FixedWidth EqualCount Rank SDev Optimal |
새 필드 구간(범주)에 대한 절단점 판별에 사용하는 방법입니다. |
recalculate_bins |
Always IfNecessary |
노드가 실행될 때마다 구간이 재계산되고 데이터가 관련 구간에 위치되는지 여부 또는 데이터가 기존 구간 및 추가된 모든 신규 구간에만 추가됨을 지정합니다. |
fixed_width_name_extension |
문자열 | 기본 확장자는 _BIN입니다. |
fixed_width_add_as |
Suffix Prefix |
확장자가 필드 이름의 끝에(접미문자) 또는 시작에(접두문자) 추가되는지 여부를 지정합니다. 기본 확장자는 income_BIN입니다. |
fixed_bin_method |
Width Count |
|
fixed_bin_count |
정수 | 새 필드의 고정 너비 구간(범주)의 수를 판별하는 데 사용하는 정수를 지정합니다. |
fixed_bin_width |
실수 | 구간의 너비 계산을 위한 값(정수 또는 실수)입니다. |
equal_count_name_ extension |
문자열 | 기본 확장자는 _TILE입니다. |
equal_count_add_as |
Suffix Prefix |
표준 p-분위수를 사용하여 생성되는 필드 이름에 사용하는 확장자(접미문자 또는 접두문자)를 지정합니다. 기본 확장자는 _TILE 더하기 N으로, N은 분위수 번호입니다. |
tile4 |
플래그 | 각각이 케이스 중 25%를 포함하는 4개의 분위수 구간을 생성합니다. |
tile5 |
플래그 | 5개의 5분위수 구간을 생성합니다. |
tile10 |
플래그 | 10개의 십분위수 구간을 생성합니다. |
tile20 |
플래그 | 20개의 20분위수 구간을 생성합니다. |
tile100 |
플래그 | 100개의 백분위수 구간을 생성합니다. |
use_custom_tile |
플래그 | |
custom_tile_name_extension |
문자열 | 기본 확장자는 _TILEN입니다. |
custom_tile_add_as |
Suffix Prefix |
|
custom_tile |
정수 | |
equal_count_method |
RecordCount ValueSum |
RecordCount 메소드는 각 빈(bin)에 동일한 수의 레코드를 지정하려고 하는 반면, ValueSum 은(는) 각 빈(bin)의 값 합계가 동일하도록 레코드를 지정합니다. |
tied_values_method |
Next Current Random |
연결된 값 데이터를 입력할 구간을 지정하십시오. |
rank_order |
Ascending Descending |
이 특성에는 Ascending (가장 낮은 값이 1로 표시됩니다) 또는 Descending (가장 높은 값이 1로 표시됩니다)이(가) 포함됩니다. |
rank_add_as |
Suffix Prefix |
이 옵션은 순위, 분수순위, 퍼센트 순위에 적용됩니다. |
rank |
플래그 | |
rank_name_extension |
문자열 | 기본 확장자는 _RANK입니다. |
rank_fractional |
플래그 | 새 필드의 값이 비결측 케이스의 가중치 합계로 나눈 순위와 동일한 케이스의 순위를 생성합니다. 분수순위는 0 - 1의 범위에 들어갑니다. |
rank_fractional_name_ extension |
문자열 | 기본 확장자는 _F_RANK입니다. |
rank_pct |
플래그 | 각 순위를 유효한 값을 갖는 레코드 수로 나누고 100을 곱합니다. 퍼센트 분수순위는 1 - 100의 범위에 들어갑니다. |
rank_pct_name_extension |
문자열 | 기본 확장자는 _P_RANK입니다. |
sdev_name_extension |
문자열 | |
sdev_add_as |
Suffix Prefix |
|
sdev_count |
One Two Three |
|
optimal_name_extension |
문자열 | 기본 확장자는 _OPTIMAL입니다. |
optimal_add_as |
Suffix Prefix |
|
optimal_supervisor_field |
필드 | 구간화를 위해 선택된 필드가 관련된 감독 필드로 선택된 필드입니다. |
optimal_merge_bins |
플래그 | 작은 케이스 빈도를 갖는 모든 구간이 더 크고 이웃한 구간에 추가되도록 지정합니다. |
optimal_small_bin_threshold |
정수 | |
optimal_pre_bin |
플래그 | 데이터 세트의 사전 구간화가 발생함을 표시합니다. |
optimal_max_bins |
정수 | 지나치게 큰 수의 구간 작성을 피하기 위한 상한을 지정합니다. |
optimal_lower_end_point |
Inclusive Exclusive |
|
optimal_first_bin |
Unbounded Bounded |
|
optimal_last_bin |
Unbounded Bounded |