0 / 0

연속 대상에 대한 모델링 자동화

마지막 업데이트 날짜: 2025년 2월 12일
연속 대상에 대한 모델링 자동화

이 튜토리얼에서는 자동 숫자 노드를 사용하여 부동산의 과세 대상 가치 예측과 같은 연속적인(숫자 범위) 결과에 대한 다양한 모델을 자동으로 생성하고 비교합니다. 단일 노드를 사용하여 일련의 후보 모델을 추정하고 비교할 수 있으며 나중에 분석할 수 있도록 모델의 서브세트를 생성할 수 있습니다. 이 노드는 자동 분류기 노드와 동일한 방식으로 작동하지만 플래그 또는 명목상 대상이 아닌 연속 대상에 대해 작동합니다.

노드는 최선의 후보 모델들을 단일 통합(앙상블) 모델 너깃으로 결합합니다. 이 접근법은 자동화의 간편함에 더해 하나의 모델에서 얻을 수 있는 것보다 더 정확한 예측을 얻을 수 있는 여러 모델을 결합하는 장점을 결합합니다.

이 예에서는 부동산 세금 조정 및 평가를 담당하는 가상의 지방 자치체에 초점을 맞춥니다. 이 목표를 보다 정확하게 달성하기 위해 건물 유형, 지역, 크기 및 기타 알려진 요소를 기반으로 부동산 가치를 예측하는 모델을 구축합니다.

튜토리얼 미리보기

비디오 보기 비디오를 시청하면 이 학습서의 단계를 미리 볼 수 있습니다. 동영상에 나오는 사용자 인터페이스와 약간의 차이가 있을 수 있습니다. 이 비디오는 글로 된 튜토리얼의 보조 자료로 제작되었습니다. 이 비디오는 이 문서에 있는 개념과 작업을 시각적으로 배울 수 있는 방법을 제공합니다.

튜토리얼을 사용해 보세요

이 학습서에서는 다음 태스크를 완료합니다.

모델러 흐름 및 데이터 세트 샘플

이 자습서에서는 샘플 프로젝트의 연속 대상에 대한 자동화된 모델링 흐름을 사용합니다. 사용된 데이터 파일은 property_values_train.csv. 다음 이미지는 샘플 모델러의 흐름을 보여줍니다.

그림 1. 모델러 흐름 샘플
자동 숫자 예제 플로우

데이터 파일에는 예측하려는 대상 필드 또는 값인 ' taxable_value이라는 이름의 필드가 포함되어 있습니다. 다른 필드에는 지역, 건물 유형, 실내 부피 등의 정보가 포함되어 있으며 예측 변수로 사용될 수 있습니다.

필드 이름 레이블
property_id 특성 ID
neighborhood 구/군/시 내의 영역
building_type 건물 유형
year_built 건설 연도
volume_interior 내부 볼륨
volume_other 차고 및 추가 건물 볼륨
lot_size 건축 용지 크기
taxable_value 과세 가격
다음 이미지는 샘플 데이터 집합을 보여줍니다.
그림 2. 샘플 데이터 세트
샘플 데이터 세트

작업 1: 샘플 프로젝트 열기

샘플 프로젝트에는 여러 데이터 세트와 샘플 모델러 흐름이 포함되어 있습니다. 샘플 프로젝트가 아직 없다면, 튜토리얼 항목을 참고하여 샘플 프로젝트를 만드십시오. 그런 다음 다음 단계에 따라 샘플 프로젝트를 엽니다:

  1. watsonx탐색 메뉴 ( 탐색 메뉴 )에서 프로젝트(Projects) > 모든 프로젝트 보기(View all Projects)를 선택합니다.
  2. SPSS Modeler 프로젝트를 클릭합니다.
  3. 자산 탭을 클릭하면 데이터 세트와 모델러 흐름을 볼 수 있습니다.

체크포인트 아이콘 진행 상황 확인

다음 이미지는 프로젝트 자산 탭을 보여줍니다. 이제 이 튜토리얼과 관련된 샘플 모델러 플로우로 작업할 준비가 되었습니다.

샘플 프로젝트

맨 위로 돌아가기

작업 2: 데이터 자산 및 유형 노드 살펴보기

연속 대상에 대한 자동화된 모델링에는 여러 노드가 포함됩니다. 데이터 자산유형 노드를 검토하려면 다음 단계를 따르세요:

  1. ' 자산 탭에서 ' 연속 타겟을 위한 자동화된 모델링 모델러 플로우를 열고 캔버스가 로드될 때까지 기다립니다.
  2. property_values_train.csv 노드를 더블클릭합니다. 이 노드는 프로젝트의 property_values_train.csv 파일을 가리키는 데이터 에셋 노드입니다.
  3. 파일 형식 속성을 검토합니다.
  4. 선택 사항입니다: 데이터 미리 보기를 클릭하여 전체 데이터 집합을 확인합니다.
  5. 유형 노드를 두 번 클릭합니다.
  6. Taxable_value 필드에 대해 역할을 Target으로 설정합니다. 다른 필드는 예측자로 사용됩니다.
    그림 3. 측정 수준 및 역할 설정
    역할 설정
  7. 선택 사항입니다: 데이터 미리 보기를 클릭하여 필터링된 데이터 집합을 확인합니다.

체크포인트 아이콘 진행 상황 확인

다음 이미지는 Type 노드를 보여줍니다. 이제 모델링 노드를 구성할 준비가 되었습니다.

유형 노드

맨 위로 돌아가기

작업 3: 모델링 노드 구성하기

이 예제에서는 연속 숫자 범위에 대한 다양한 접근 방식을 시도하기 위해 모델을 추정하고 비교하는 자동 숫자 모델링 노드를 사용합니다. 모델링 노드를 구성하려면 다음 단계를 따르세요:

  1. 과세 대상 값 노드를 두 번 클릭하여 해당 속성을 확인합니다.
  2. 기본 사항 섹션을 확장하고 다음 속성을 설정합니다:
    1. 필드별 순위 모델의 경우 상관관계를 선택합니다.
    2. 사용할 모델 수 필드에 ' 3'을 입력합니다. 이렇게 하면 노드를 실행할 때 세 가지 최상의 모델이 빌드됩니다.
    그림 4. 자동 숫자 노드 기본 사항 섹션
    기본 속성 설정
  3. 전문가 섹션을 펼칩니다. 6개의 알고리즘이 선택되며, 노드는 각 알고리즘에 대해 단일 모델을 추정하여 총 6개의 모델을 추정하게 됩니다. (또는 각 모델 유형에 대한 다중 변량을 비교하도록 해당 설정을 수정할 수 있습니다.) 기본 섹션에서 사용할 모델 수 속성을 ' 3 '로 설정했기 때문에 노드는 6개 알고리즘의 정확도를 계산하여 가장 정확한 3개가 포함된 단일 모델 너겟을 빌드합니다.
    그림 5. 자동 숫자 노드 전문가 섹션
    전문가 속성 설정
  4. 기본 설정을 보려면 앙상블 섹션을 펼칩니다. 이 예제에서는 연속 타겟을 사용하므로 개별 모델의 점수를 평균하여 앙상블 점수를 생성합니다.
    그림 6. 자동 숫자 노드 앙상블 섹션
    앙상블 옵션

체크포인트 아이콘 진행 상황 확인

다음 이미지는 모델링 노드를 보여줍니다. 이제 모델을 비교할 준비가 되었습니다.

모델링 노드

맨 위로 돌아가기

작업 4: 모델 비교

이제 빌드할 세 가지 모델을 지정했으므로 다음 단계에 따라 모델을 생성하고 비교합니다:

  1. Taxable_value 노드에 마우스를 갖다 대고 실행 아이콘 실행 아이콘 을 클릭합니다.
  2. 출력 및 모델 창에서 taxable_value라는 이름의 결과를 클릭하여 결과를 확인합니다.

    실행 중에 생성되는 각 모델에 대한 세부 정보를 볼 수 있습니다. (대규모 데이터 집합에서 수백 개의 모델을 추정하는 실제 상황에서는 흐름을 실행하는 데 많은 시간이 걸릴 수 있습니다.) 이 표에는 모델링 노드에서 생성된 모델 세트가 포함되어 있습니다.

  3. 개별 모델을 자세히 살펴보려면 추정기 열에서 모델 이름을 클릭하면 개별 모델 결과를 확인할 수 있습니다.
    1. 모델 정보 페이지를 확인합니다. 이 표에는 장착된 모델 유형, 대상 필드, 입력 기능의 수, 활성화 기능 및 결과 네트워크의 크기에 대한 정보가 포함되어 있습니다.
    2. 모델에 대한 다른 페이지를 확인합니다.
    3. 모델 세부사항을 닫으십시오.

    기본적으로 모델은 자동 숫자 노드의 속성에서 측정값으로 상관관계를 선택했기 때문에 정확도(상관관계)를 기준으로 정렬됩니다. 순위의 목적상, 정확도의 절대값이 사용되며, 1에 가까운 값은 더 강한 관계를 나타냅니다.

    해당 열의 헤더를 클릭하여 다른 열에서 정렬할 수 있습니다.

    이러한 결과를 기준으로 모두 세 개의 가장 정확한 모델을 사용하기로 결정했습니다. 여러 모델의 예측을 결합하면 개별 모델의 한계를 피할 수 있어 전체적인 정확도가 높아질 수 있습니다.

  4. 사용 열에서 세 가지 모델이 모두 선택되어 있는지 확인합니다.
  5. 모델 보기: taxable_value 창을 닫습니다.

체크포인트 아이콘 진행 상황 확인

다음 이미지는 모델 비교 표를 보여줍니다. 이제 모델 분석을 실행할 준비가 되었습니다.

모델 결과

맨 위로 돌아가기

작업 5: 분석 노드 실행

이제 세 가지 모델의 비교를 확인했으므로 다음 단계에 따라 모델 분석을 실행할 수 있습니다:

  1. 분석 노드 위에 마우스를 올려놓고 실행 아이콘을 클릭하세요. 실행 아이콘.
  2. 출력 및 모델 창에서 분석이라는 이름의 출력 결과를 클릭하여 결과를 확인합니다.

    앙상블 모델에 의해 생성된 평균 점수는 ' $XR-taxable_value'이라는 필드에 추가되며, 상관관계는 0.934 세 가지 개별 모델의 점수보다 높습니다. 앙상블 점수는 또한 평균 절대 오차가 낮으며 다른 데이터 세트에 적용했을 때 개별 모델보다 더 나은 성능을 보일 수 있습니다.

체크포인트 아이콘 진행 상황 확인

다음 이미지는 분석 노드의 모델 비교를 보여줍니다.

분석 결과

맨 위로 돌아가기

요약

이 예제 ' 플래그 대상에 대한 자동화된 모델링 흐름에서는 ' 자동 숫자 ' 노드를 사용하여 여러 가지 모델을 비교하고 가장 정확한 모델 세 개를 선택한 다음, 이를 앙상블된 자동 숫자 모델 너겟 내의 흐름에 추가했습니다.

앙상블 모델은 개별 모델 중 두 모델보다 더 나은 성능을 보였으며 다른 데이터 세트에 적용하면 더 나은 성능을 보일 수 있습니다. 프로세스를 최대한 자동화하는 것이 목표라면, 이 접근 방식은 특정 모델의 세부 사항을 깊이 파고들지 않고도 대부분의 상황에서 강력한 모델을 얻는 데 도움이 됩니다.

다음 단계

이제 다른 SPSS® Modeler 튜토리얼을 시도해 볼 준비가 되었습니다.