개념 및 범주 마이닝

마지막 업데이트 날짜: 2025년 2월 12일
개념 및 범주 마이닝(SPSS Modeler)

텍스트 마이닝 노드는 언어 및 빈도 기법을 사용하여 텍스트에서 핵심 개념을 추출하고 이러한 개념과 다른 데이터로 범주를 작성합니다. 이 노드를 사용하여 텍스트 데이터 컨텐츠를 탐색하거나 개념 모델 너깃 또는 범주 모델 너깃을 생성할 수 있습니다.

텍스트 마이닝 노드
이 노드를 실행할 때 내부 언어 추출 엔진은 자연어 처리 방법을 사용하여 개념, 패턴 및 범주를 추출하고 구성합니다. 텍스트 마이닝 노드의 특성에서 두 가지 빌드 모드를 사용할 수 있습니다.
  • 직접 생성 (개념 모델 너깃) 모드는 노드를 실행할 때 개념 또는 범주 모델 너깃을 자동으로 생성합니다.
  • 대화형 작성 (범주 모델 너깃) 은 보다 쉽게 사용할 수 있는 탐색적 접근 방식입니다. 이 모드를 사용하여 개념을 추출하고 범주를 작성하며 언어 자원을 세분화할 뿐만 아니라 텍스트 링크 분석을 실행하고 군집을 탐색할 수도 있습니다. 이 빌드 모드는 텍스트 분석 워크벤치를 실행합니다.

또한 텍스트 마이닝 노드를 사용하여 두 개의 텍스트 마이닝 모델 너깃 중 하나를 생성할 수 있습니다.

  • 개념 모델 너깃 은 구조화되거나 구조화되지 않은 텍스트 데이터에서 중요한 개념을 발견하고 추출합니다.
  • 범주 모델 너깃 - 문서 및 레코드를 스코어링하고 범주에 지정합니다. 범주는 추출된 개념(및 패턴)으로 구성됩니다.

모델 너깃에서 추출된 개념 및 패턴과 범주를 모두 인구 통계와 같은 기존의 구조화된 데이터와 결합하여 더 나은 집중적인 의사결정을 내릴 수 있습니다. 예를 들어, 고객이 온라인 계정 관리 작업을 완료하기 위한 1차적인 장애로 로그인 문제를 자주 나열하는 경우, "로그인 문제"를 모델에 통합하기 원할 수 있습니다.

데이터 소스 및 언어 자원

텍스트 마이닝 모델링 노드는 가져오기 노드의 텍스트 데이터를 승인합니다.

텍스트 마이닝 노드에서 직접 사용자 정의 템플리트 및 텍스트 분석 패키지를 업로드하여 추출 프로세스에서 사용할 수도 있습니다.

개념 및 개념 모델 너깃

추출 프로세스 중에 텍스트 데이터를 스캔하고 분석하여 중요한 단일 단어 (예: election 또는 peace) 및 단어 구문 (예: presidential election, election of the president또는 peace treaties) 을 식별합니다. 이러한 단어와 문구를 통틀어 용어라고 부릅니다. 언어 자원을 사용하여 관련 용어가 추출되고 유사한 용어가 개념이라고 하는 리드 용어 아래에 그룹화됩니다.

이 그룹화는 개념이 여러 기본 용어를 나타낼 수 있음을 의미합니다. 예를 들어, salary 개념은 직원 만족도 설문조사에서 추출되었습니다. salary와 연관된 레코드를 보면 salary 가 항상 텍스트에 표시되지는 않지만 대신 특정 레코드에 wage, wagessalaries용어와 유사한 내용이 포함되어 있음을 알 수 있습니다. 이러한 용어는 salary 아래에 그룹화됩니다. 추출 엔진이 이들을 유사한 것으로 간주하거나 처리 규칙이나 언어학적 자원을 기반으로 이들이 동의어라고 판별했기 때문입니다. 이 경우, 이러한 용어를 포함하고 있는 모든 문서 또는 레코드는 salary라는 단어를 포함하고 있는 것으로 간주됩니다.

개념 아래에 그룹화된 용어를 보려면 Text Analytics Workbench에서 개념을 탐색하거나 개념 모델에 표시되는 동의어를 볼 수 있습니다.

개념 모델 너깃 에는 개념을 포함하는 레코드 또는 문서를 식별하는 데 사용할 수 있는 개념 세트가 포함되어 있습니다 (동의어 또는 그룹화된 용어 포함). 개념 모델은 다음 두 가지 방법으로 사용할 수 있습니다.
  • 원래 소스 텍스트에서 발견된 개념을 탐색하고 분석하거나 관심있는 문서를 빠르게 식별합니다.
  • 이 모델을 새 텍스트 레코드 또는 문서에 적용하여 새 문서/레코드에서 동일한 주요 개념을 빠르게 식별합니다. 예를 들어, 콜 센터의 스크래치 패드 데이터에서 주요 개념의 실시간 감지에 모델을 적용할 수 있습니다.

범주 및 범주 모델 너깃

상위 레벨 개념 또는 주제를 나타내는 범주 를 작성하여 텍스트에 표시된 주요 아이디어, 지식 및 태도를 캡처할 수 있습니다. 범주는 개념, 유형, 규칙 등의 디스크립터 세트로 구성됩니다. 이러한 디스크립터를 함께 사용하여 레코드 또는 문서가 범주에 속하는지 여부를 식별합니다. 문서나 레코드를 스캔하여 그의 텍스트 중 하나가 디스크립터와 매치하는지 확인할 수 있습니다. 일치가 발견되면 문서가 해당 카테고리에 지정됩니다. 이 프로세스를 분류라고 합니다.

범주는 SPSS Modeler의 강력한 자동화 기술 세트를 사용하여 자동으로 작성할 수 있습니다. 또한 데이터와 관련하여 가질 수 있는 추가적인 통찰력을 사용하거나 둘의 조합을 사용하여 수동으로 빌드할 수도 있습니다. 또한 이 노드의 모델 설정을 통해 텍스트 분석 패키지의 사전 작성된 범주 세트를 로드할 수도 있습니다. 카테고리를 수동으로 작성하거나 카테고리를 세분화하는 작업은 Text Analytics Workbench를 통해서만 수행할 수 있습니다.

범주 모델 너깃에는 범주 세트와 자체 디스크립터가 함께 포함되어 있습니다. 모델을 사용하여 각 문서 또는 레코드의 텍스트를 기반으로 문서 또는 레코드 세트를 분류할 수 있습니다. 모든 문서나 레코드를 읽고 디스크립터 매치가 발견된 각 범주에 지정합니다. 이 방법으로 문서나 레코드가 둘 이상의 범주에 지정될 수 있습니다. 예를 들어, 범주 모델 너깃을 사용하여 개방형 설문조사 응답 또는 블로그 항목 세트에서 필수 아이디어를 볼 수 있습니다.