SQL 푸시백의 작동 방식

마지막 업데이트 날짜: 2025년 4월 16일
SQL 최적화 SPSS Modeler

SQL 생성의 주요 대상은 데이터 가져오기 노드 다음에 오는 흐름의 초기 부분입니다. 언제 SPSS Modeler 는 SQL로 컴파일할 수 없는 노드를 찾습니다, SPSS Modeler 는 데이터베이스에서 데이터를 추출하여 처리합니다.

흐름 준비 및 실행 중에 SQL을 생성하는 프로세스는 다음과 같이 진행됩니다:

  • SPSS Modeler 플로우를 재정렬하여 다운스트림 노드를 안전이 입증된 "SQL 영역"으로 이동합니다.
  • SPSS Modeler 는 가져오기 노드에서 터미널 노드로 이동하면서 점진적으로 SQL 식을 구성합니다.
    • 이 단계는 다음 중 하나에 도달하면 중지됩니다 SPSS Modeler 가 SQL로 변환할 수 없는 노드에 도달하거나 흐름의 터미널 노드(예: 테이블 노드 또는 그래프 노드)가 SQL로 변환되는 경우 중지됩니다.
    • 성능을 최적화하기 위해 해당 노드의 출력이 이후 노드에서 다운스트림으로 사용되지 않는 경우 노드는 SQL 생성 프로세스에서 제외될 수 있습니다. 예를 들어, 파생 노드가 다운스트림 Matrix 노드에서 사용되지 않는 새 열을 생성하는 경우 파생 노드는 SQL 생성에서 제외됩니다. SQL 생성이 끝날 때 파생 노드 옆에 SQL 아이콘이 나타나지 않습니다.
      그림 1. 노드를 제외한 SQL 생성
      SQL 생성 프로세스에서 필요하지 않은 노드를 건너뛰는 방법의 예입니다. 이미지에는 SQL 아이콘이 있는 데이터 자산 노드, SQL 아이콘이 없는 파생 노드, SQL 아이콘이 있는 매트릭스 노드가 나와 있습니다.
    • 노드 및 선행자에 SQL 등가물이 있으면 이 단계의 마지막에서 각 노드에 SQL문 레이블이 지정됩니다.
  • SQL의 유효성을 확인합니다. SPSS Modeler 는 가장 복잡한 SQL 등가물이 있는 노드에서 가져오기 노드로 역방향으로 작동합니다. 검증된 SQL이 실행을 위해 선택됩니다.
  • 모든 작업에서 SQL을 생성한 노드는 흐름 캔버스에서 노드 옆에 SQL 아이콘으로 강조 표시됩니다. 결과에 따라 데이터베이스 실행을 최대한 활용하기 위해 적절한 경우 플로우를 추가로 재구성할 수 있습니다.

개선되는 부분

SQL 푸시백은 여러 데이터 작업의 성능을 개선합니다:

조인(키로 병합)
작업을 결합하면 데이터베이스 내의 최적화가 증가할 수 있습니다.
집계
통합, 분포 및 웹 노드는 모두 통합을 사용하여 결과를 생성합니다. 요약 데이터는 원 데이터보다 훨씬 적인 대역폭을 사용합니다.
선택사항
특정 기준에 따라 레코드를 선택하면 레코드 양이 줄어듭니다.
정렬
레코드를 정렬하는 것은 데이터베이스에서 보다 효율적으로 수행될 수 있는 자원 집약적인 활동입니다.
필드 파생
데이터베이스에서 보다 효율적으로 새 필드가 생성됩니다.
필드 프로젝션
이 소프트웨어는 데이터베이스에서 후속 처리에 필요한 필드만 추출하므로, 대역폭 및 메모리 요구 사항이 최소화됩니다. 플랫 파일의 여분의 필드에도 동일한 사항이 적용됩니다. 소프트웨어가 여분의 필드를 읽어야 하지만, 이 필드에 대한 저장 공간이 할당되지 않습니다.
점수화
의사결정 트리, 규칙 세트, 선형 회귀 및 요소 생성 모형에서 SQL이 생성될 수 있습니다.