명목 회귀분석으로도 알려져 있는 로지스틱 회귀분석은 입력 필드의 값을 기반으로 레코드를 분류하는 통계 기법입니다. 이는 선형 회귀와 비슷하지만, 숫자 대신 범주형 대상 필드를 사용합니다. 이항 모델(두 개의 이산형 범주를 포함하는 목표의 경우) 및 다항 모델(셋 이상의 범주를 포함하는 목표의 경우)이 모두 지원됩니다.
로지스틱 회귀분석은 각 출력 필드 범주와 연관된 확률에 입력 필드 값을 상관시키는 방정식 세트를 작성하여 작동합니다. 모델이 생성된 후 이를 사용하여 새 데이터에 대한 확률을 추정할 수 있습니다. 각 레코드의 경우 가능한 각 출력 범주에 대해 소속 확률이 계산됩니다. 확률이 가장 높은 목표 범주는 해당 레코드의 예측된 출력 값으로 지정됩니다.
이항 예. 통신사업자가 경쟁자에게 빠져나가고 있는 고객 수에 대해 걱정하고 있습니다. 서비스 이용 데이터를 사용하여 이항 모델을 작성하고 이를 통해 다른 제공자로 이전될 가능성이 있는 고객을 예측하고 가능한 한 많은 고객을 보유하도록 제안을 사용자 정의할 수 있습니다. 대상은 서로 다른 2개의 범주(전송될 수도 있고, 전송되지 않을 수도 있음)를 포함하므로 이항 모델이 사용됩니다.
다항 예. 통신 제공업체가 서비스 사용 패턴을 기준으로 고객층을 세그먼트화하여 고객을 4개의 그룹으로 범주화했습니다. 인구통계 데이터를 사용하여 소속그룹을 예측하면 다항 모델을 작성하여 잠재 고객을 그룹으로 분류하고 개별 고객에 대한 제안을 사용자 정의할 수 있습니다.
요구사항. 하나 이상의 입력 필드와 둘 이상의 범주를 포함하는 정확히 하나의 범주형 대상 필드. 이항 모델의 경우 대상의 측정 수준은 Flag
이어야 합니다. 다항 모델의 경우 대상의 측정 수준은 Flag
또는 둘 이상의 범주가 있는 Nominal
일 수 있습니다. Both
또는 None
로 설정된 필드는 무시됩니다. 모델에 사용된 필드는 유형이 완전히 인스턴스화되어 있어야 합니다.
강도. 로지스틱 회귀 모형은 종종 꽤 정확합니다. 이 모델은 기호 및 숫자 입력 필드를 처리할 수 있습니다. 이들은 차선 추측을 쉽게 식별할 수 있도록 모든 목표 범주에 대한 예측 확률을 제공할 수 있습니다. 로지스틱 모델은 소속그룹이 범주형 필드인 경우에 가장 효과적입니다. 소속그룹이 연속 범위 필드의 값에 기반하는 경우(예: 높은 IQ 대 낮은 IQ) 값의 전체 범위에서 제공하는 더 다양한 정보를 활용하도록 선형 회귀를 사용하는 방법을 고려해야 합니다. 또한 필드선택이나 트리 모델과 같은 다른 접근 방식이 대형 데이터 세트에서 더 빠르게 이 작업을 수행할 수 있어도 로지스틱 모델도 자동 필드선택을 수행할 수 있습니다. 마지막으로 로지스틱 모델은 많은 분석가와 데이터 마이너가 자세히 이해하고 있기 때문에 일부는 이를 다른 모델링 기법을 비교할 수 있는 기준선으로 사용할 수 있습니다.
큰 데이터 세트를 처리할 때 고급 출력 옵션인 우도비 검정을 사용하지 않으면 성능을 크게 향상시킬 수 있습니다.