0 / 0
영어 버전 문서로 돌아가기

표본 노드

마지막 업데이트 날짜: 2025년 2월 12일
표본 노드(SPSS Modeler)

표본 노드를 사용하여 분석할 레코드 서브세트를 선택하거나 삭제할 레코드 비율을 지정할 수 있습니다. 계층화, 클러스터 및 비무작위 (구조화된) 샘플을 포함하여 다양한 샘플 유형이 지원됩니다.

표본추출은 다음과 같은 여러 가지 이유로 사용될 수 있습니다.

  • 데이터 서브세트에서 모형을 추정하여 성능을 개선하기 위해서 사용됩니다. 샘플에서 추정되는 모델은 종종 전체 데이터 세트에서 파생된 모델만큼 정확합니다. 또한 향상된 성능을 사용하여 시도할 수 있는 것보다 더 많은 방법으로 실험할 수 있는 경우에는 훨씬 더 정확할 수 있습니다.
  • 분석할 관련 레코드 또는 트랜잭션 그룹을 선택하기 위해서 사용됩니다. 예를 들어, 온라인 장바구니에서 모든 항목을 선택하거나 특정 인접 항목에서 모든 특성을 선택하는 것이 있습니다.
  • 품질 보장, 사기 방지 또는 보안 등의 목적으로 임의 검사를 수행하기 위해 단위 또는 케이스를 식별하기 위해서 사용됩니다.
참고: 검증 목적으로 데이터를 학습 및 검정 표본으로 파티션만 하면 되는 경우에는 파티션 노드를 대신 사용하십시오. 자세한 정보는 파티션 노드를 참조하십시오.

샘플 유형

군집 표본. 개별 단위가 아니라 표본 그룹 또는 군집입니다. 예를 들어, 한 학생당 하나의 레코드가 있는 데이터 파일이 있다고 가정합니다. 학교별로 군집하고 샘플 크기가 50%인 경우, 학교의 50%가 선택되고 선택된 각 학교의 모든 학생이 선택됩니다. 다른 학교의 학생들은 무시됩니다. 평균적으로 약 50%의 학생이 선택될 것으로 예상하지만, 학교의 크기가 다양하기 때문에 백분율이 정확하지 않을 수 있습니다. 이와 유사하게, 장바구니 항목을 트랜잭션 ID 기준으로 군집화하여 선택된 트랜잭션의 모든 항목이 유지되는지 확인할 수 있습니다.

층화 표본. 모그룹 밀도 또는 계층의 겹치지 않는 하위 그룹 내에서 표본을 독립적으로 선택합니다. 예를 들어, 여성 및 남성이 동일한 비율로 선택되도록 하거나 도시 인구의 모든 지역 또는 사회 경제적 그룹이 표시되도록 할 수 있습니다. 각 계층에 대해 다른 표본 크기를 지정할 수도 있습니다 (예를 들어, 한 그룹이 원래 데이터에서 아래로 표시된다고 생각하는 경우).

계통 또는 n중1 표본추출. 임의선택이 어려운 경우 계통적(고정된 간격) 또는 순차적으로 단위를 표본추출할 수 있습니다.

표본추출 가중치. 표본추출 가중치는 복합 표본을 그릴 때 자동으로 계산되며 각 표본 단위가 원 데이터에서 나타내는 "빈도"와 거의 일치합니다. 따라서 표본에 대한 가중치 합계가 원 데이터의 크기를 추정해야 합니다.

샘플링 프레임

표본추출 프레임은 표본 또는 연구에 포함되는 케이스의 잠재적 소스를 정의합니다. 때때로 모집단의 모든 구성원을 식별하고 이들 중 하나를 샘플에 포함시키는 것이 가능합니다. 예를 들어, 생산 라인에서 나오는 항목을 표본추출하는 경우입니다. 가능한 모든 케이스에 액세스할 수 없는 경우가 더 많습니다. 예를 들어, 선거가 끝날 때까지 누가 선거에 투표할 것인지 확신할 수 없습니다. 이 경우, 일부 등록된 사람들이 투표하지 않더라도 선거 등록부를 표본추출 프레임으로 사용할 수 있습니다. 그리고 어떤 사람들은 당신이 등록부를 확인했을 때 명단에 없었음에도 불구하고 투표를 할 수도 있습니다. 표본추출 프레임 내에 없는 사람은 표본추출에 포함될 가능성이 없습니다. 표본추출 프레임이 평가하려고 시도하는 모집단의 성격에 충분히 근접한지 여부는 실생활의 각 케이스에서 반드시 다루어야 하는 안건입니다.