0 / 0
영어 버전 문서로 돌아가기

텍스트 분석으로 텍스트 데이터 마이닝

마지막 업데이트 날짜: 2025년 2월 12일
SPSS Modeler 텍스트 분석을 통한 텍스트 데이터 마이닝

SPSS Modeler 텍스트 처리에 특화된 노드를 제공합니다. 텍스트 분석 노드는 고급 언어 기술과 자연어 처리(NLP)를 사용하는 강력한 텍스트 분석 기능을 제공합니다. 다양한 비정형 텍스트 데이터를 빠르게 처리하고 핵심 개념을 추출할 수 있습니다. 텍스트 분석은 이러한 개념을 카테고리로 구성하고 그룹화할 수도 있습니다.

조직 내에서 보유한 데이터의 약 80%는 보고서, 웹 페이지, 이메일, 콜센터 메모와 같은 텍스트 문서 형식입니다. 텍스트는 조직이 고객의 행동을 더 잘 이해할 수 있도록 하는 주요 요인입니다. NLP를 통합하는 시스템은 복합 구문을 포함하여 개념을 지능적으로 추출할 수 있습니다. 또한 의미와 컨텍스트를 사용하여, 기본적인 언어에 대한 지식을 통해 제품, 조직, 또는 사람과 같은, 관련 그룹으로 용어를 분류할 수 있습니다. 결과적으로, 신속하게 필요성에 대한 정보의 관련성을 판별할 수 있습니다. 이렇게 추출된 개념과 범주를 인구 통계와 같은 기존 구조화된 데이터와 결합하여 SPSS Modeler 모델링에 적용하면 보다 집중력 있는 의사 결정을 내릴 수 있습니다.

언어학적 시스템은 지식에 민감하며 사전에 더 많은 정보가 포함될수록 결과의 품질이 높아집니다. Text Analytics는 용어 및 동의어 사전, 라이브러리, 템플리트와 같은 언어학적 자원 세트를 제공합니다. 이 노드를 사용하면 이러한 언어학적 자원을 상황에 맞게 개발하고 세분화 할 수 있습니다. 언어학적 자원의 미세한 조정은 종종 반복적 프로세스로, 정확한 개념 검색 및 범주화에 필요합니다. CRM 및 유전체학과 같은, 사용자 정의 템플리트, 라이브러리 및 특정 도메인용 사전도 포함됩니다.

시작하기 위한 팁

이 동영상은 이 설명서의 개념과 작업을 시각적으로 학습할 수 있는 방법을 제공합니다.

동영상 고지 사항: 이 동영상의 일부 사소한 단계와 그래픽 요소는 플랫폼에 따라 다를 수 있습니다.

  
https://video.ibm.com/embed/channel/23952663/video/spss-text-analytics-workbench

애플리케이션

일반적으로 추가 탐색할 주요 요소를 식별하기 위해 많은 양의 문서를 일상적으로 검토해야 하는 사람이라면 누구나 Text Analytics를 사용하면 도움이 됩니다. 구체적인 적용 예는 다음과 같습니다.

  • 과학 및 의학 연구. 특허 보고서, 저널 기사, 프로토콜 서적 같은 보조 연구 자료를 탐색하십시오. 이전에 알려진 연관(예: 특정 제품과 연관된 의사)을 식별하여 추가 탐색을 위한 길을 표시하십시오. 약물 발견 프로세스에서 소비되는 시간을 최소화하십시오. 유전자 연구에서의 도움으로 사용하십시오.
  • 투자 연구. 일일 분석 보고서, 뉴스 기사 및 회사 보도 자료를 검토하여 핵심 전략 포인트 또는 시장 변동을 식별하십시오. 이러한 정보의 추세 분석은 해당 기간 동안 회사 또는 산업에 대한 새로운 이슈나 기회를 드러냅니다.
  • 사기 발견. 이상 항목을 발견하고 많은 양의 텍스트에서 위험 신호를 발견하려면 금융 및 건강 관리 사기에서 사용하십시오.
  • 시장 조사. 개방형 설문조사 응답에서 핵심 주제를 식별하기 위해 시장 조사 과정에서 사용하십시오.
  • 블로그 및 웹 피드 분석. 뉴스 피드, 블로그 등에서 발견된 핵심 아이디어를 사용하여 모델을 탐색 및 작성하십시오.
  • CRM. 이메일, 트랜잭션, 설문조사 같은 모든 고객 접촉 지점의 데이터를 사용하여 모델을 작성하십시오.

노드

SPSS Modeler 다양한 표준 노드와 함께 텍스트 마이닝 노드로 작업하여 텍스트 분석의 강력한 기능을 흐름에 통합할 수도 있습니다. 이 노드는 노드 팔레트의 Text Analytics 아래에서 사용 가능합니다.
  • 언어 식별자 노드는 소스 텍스트를 스캔하여 어떤 언어로 작성되었는지 판별한 다음 새 필드에 표시하는 프로세스 노드입니다. 이 노드는 주로 많은 양의 데이터와 함께 사용되도록 디자인되었으며 데이터 소스에 두 언어 이상 사용된 경우에 하나의 언어로만 처리하고자 할 때 특히 유용합니다.
  • 텍스트 링크 분석 노드는 개념을 추출하며 텍스트 내에서 알려진 패턴을 바탕으로 개념 사이의 관계를 식별합니다. 패턴 추출을 사용하여 개념 간의 관계와 이러한 개념에 첨부된 의견 또는 규정자를 찾아낼 수 있습니다. 텍스트 링크 분석(TLA) 노드는 텍스트에서 패턴을 식별하고 추출한 다음 패턴 결과를 플로우의 데이터 세트에 추가하는 보다 직접적인 방법을 제공합니다. 하지만 텍스트 마이닝 모델링 노드를 통해 텍스트 분석 워크벤치 세션을 사용하여 TLA를 수행할 수도 있습니다.
  • 텍스트 마이닝 노드는 언어 방법을 사용하여 텍스트에서 핵심 개념을 추출하고, 이들 개념 및 기타 데이터로 범주를 작성할 수 있게 하고, 알려진 패턴을 바탕으로 개념 사이의 관계 및 연관을 식별하는 기능(텍스트 링크 분석이라고 부름)을 제공합니다. 이 노드를 사용하여 텍스트 데이터 컨텐츠를 탐색하거나 개념 모델 또는 범주 모델을 생성할 수 있습니다. 개념 및 범주를 인구 통계 같은 기존의 구조화된 데이터와 결합하고 모델링에 적용할 수 있습니다.