영어 버전 문서로 돌아가기SQL 푸시백의 작동 방식
SQL 최적화(SPSS Modeler)
마지막 업데이트 날짜: 2024년 10월 04일
데이터베이스 가져오기 노드에서 비롯되는 플로우의 초기 단편은 SQL 생성의 주요 목표입니다. 노드를 SQL로 컴파일할 수 없는 경우, 데이터베이스에서 데이터가 추출되고 후속 처리가 수행됩니다.
플로우를 준비하는 동안 그리고 실행 전에 SQL 생성 프로세스는 다음과 같이 발생합니다.
- 소프트웨어가 플로우를 다시 정렬하여 다운스트림 노드를 안전이 입증된 "SQL 구역"으로 이동합니다.
- 가져오기 노드에서 터미널 노드 방향으로 작업하면서 SQL 표현식이 증분식으로 구성됩니다. 노드를 SQL로 변환할 수 없거나 터미널 노드(예: 테이블 노드 또는 그래프 노드)가 SQL로 변환되면 이 단계가 중지됩니다. 노드 및 선행자에 SQL 등가물이 있으면 이 단계의 마지막에서 각 노드에 SQL문 레이블이 지정됩니다.
- 가장 복잡한 SQL 등가물이 있는 노드에서 다시 가져오기 노드 방향으로 작업하면서 SQL의 유효성을 확인합니다. 검증된 SQL이 실행을 위해 선택됩니다.
- 모든 조작이 SQL을 생성한 노드는 플로우 캔버스의 노드 옆에 있는 SQL 아이콘으로 강조표시됩니다. 결과를 기준으로 하여 데이터베이스 실행의 장점을 충분히 활용할 수 있도록 플로우를 추가로 재구성할 수도 있습니다.
개선되는 부분
SQL 푸시백은 수많은 데이터 작업의 성능을 개선합니다.
- 결합(키 기준으로 합치기). 작업을 결합하면 데이터베이스 내의 최적화가 증가할 수 있습니다.
- 집계. 통합, 분포 및 웹 노드는 모두 통합을 사용하여 결과를 생성합니다. 요약 데이터는 원 데이터보다 훨씬 적인 대역폭을 사용합니다.
- 선택영역. 특정 기준에 따라 레코드를 선택하면 레코드 양이 줄어듭니다.
- 정렬 중. 레코드를 정렬하는 것은 데이터베이스에서 보다 효율적으로 수행될 수 있는 자원 집약적인 활동입니다.
- 필드 파생. 데이터베이스에서 보다 효율적으로 새 필드가 생성됩니다.
- 필드 프로젝션. 이 소프트웨어는 데이터베이스에서 후속 처리에 필요한 필드만 추출하므로, 대역폭 및 메모리 요구 사항이 최소화됩니다. 플랫 파일의 여분의 필드에도 동일한 사항이 적용됩니다. 소프트웨어가 여분의 필드를 읽어야 하지만, 이 필드에 대한 저장 공간이 할당되지 않습니다.
- 점수화. 의사결정 트리, 규칙 세트, 선형 회귀 및 요소 생성 모형에서 SQL이 생성될 수 있습니다.