0 / 0
영어 버전 문서로 돌아가기

추출 작동 방법

마지막 업데이트 날짜: 2025년 2월 12일
추출 작동 방법(SPSS Modeler)

응답에서 주요 개념 및 아이디어를 추출하는 동안 Text Analytics는 언어학적 기반 텍스트 분석을 사용합니다. 이 접근 방법은 통계 기반 시스템의 속도와 비용 효율성을 제공합니다. 그러나 인간의 개입은 덜 요구하면서 훨씬 더 높은 수준의 정확도를 제공합니다. 언어학적 기반 텍스트 분석은 자연어 처리로 알려지고 계산 언어학으로도 알려진 연구 분야를 기반으로 합니다.

추출 프로세스의 작동 방법을 이해하면 언어학적 자원(라이브러리, 유형, 동의어 등)을 세부 조정할 때 중요한 결정을 내리는 데 도움이 됩니다. 추출 프로세스의 단계는 다음을 포함합니다.

  • 소스 데이터를 표준 형식으로 변환
  • 후보 용어 식별
  • 동의어의 동등 클래스 및 통합 식별
  • 유형 지정
  • 색인화
  • 패턴 및 이벤트 추출 매치

1단계. 소스 데이터를 표준 형식으로 변환

이 첫 번째 단계에서, 사용자가 가져오는 데이터가 추가 분석에 사용될 수 있는 균일한 형식으로 변환됩니다. 이 변환은 내부적으로 수행되므로 원래 데이터를 변경하지 않습니다.

2단계. 후보 용어 식별

언어학적 추출 중에 후보 용어의 식별에서 언어학적 자원의 역할을 이해하는 것이 중요합니다. 언어학적 자원은 추출이 실행될 때마다 사용됩니다. 이들은 템플리트, 라이브러리 및 컴파일된 자원의 양식으로 존재합니다. 라이브러리에는 단어 목록, 관계 및 추출을 지정하거나 조정하는 데 사용되는 기타 정보가 포함됩니다. 컴파일된 자원은 보거나 편집할 수 없습니다. 그러나 나머지 자원 (템플리트) 은 템플리트 편집기에서 편집할 수 있습니다. 또는 Text Analytics Workbench 세션에 있는 경우에는 자원 편집기에서 편집할 수 있습니다.

컴파일된 자원은 추출 엔진의 핵심 내부 구성요소입니다. 이러한 자원에는 품사 코드(명사, 동사, 형용사, 부사, 분사, 등위 접속사, 관사 또는 전치사)의 기본 양식 목록을 포함하는 일반 사전을 포함합니다. 자원은 또한 다음과 같은 <Location>, <Organization> 또는 <Person> 유형에 많은 추출된 용어를 지정하는 데 사용되는 예약된 내장된 유형을 포함합니다.

컴파일된 자원 외에, 여러 개의 라이브러리가 제품과 함께 제공되며 컴파일된 자원에서 유형 및 개념 정의를 보완하고 동의어를 제공하는 데 사용될 수 있습니다. 이러한 라이브러리 및 사용자가 작성하는 사용자 정의 라이브러리는 몇몇 사전으로 구성됩니다. 여기에는 유형 사전, 대체 사전(동의어 및 선택적 요소) 및 제외 사전이 포함됩니다.

데이터를 가져오고 변환한 후 추출 엔진은 추출할 후보 용어를 식별하기 시작합니다. 후보 용어는 텍스트에서 개념을 식별하는 데 사용되는 단어나 단어 그룹입니다. 텍스트 처리 중에 컴파일된 자원에 없는 단일 단어 (uni-terms) 는 후보 용어 추출로 간주됩니다. 후보 복합 단어 (다중 용어) 는 품사 패턴 추출기를 사용하여 식별됩니다. 예를 들어, 형용사 명사 품사 패턴을 따르는 다중 용어 sports car에는 두 개의 컴포넌트가 있습니다. 형용사 형용사 명사 품사 패턴을 따르는 다중 용어 fast sports car에는 세 개의 구성요소가 있습니다.

주: 앞에서 언급한 컴파일된 일반 사전의 용어는 관심이 없거나 단일 용어로 언어적으로 모호할 수 있는 모든 단어의 목록을 나타냅니다. 이러한 단어는 단일 용어를 식별할 때 추출에서 제외됩니다. 그러나 품사를 판별하거나 더 긴 후보 복합 단어 (다중 용어) 를 볼 때 다시 평가됩니다.

마지막으로, 작업 제목 등과 같은 대문자 글자 문자열을 처리할 때는 이러한 특수 패턴을 추출할 수 있도록 특수 알고리즘이 사용됩니다.

3단계. 동의어의 동등 클래스 및 통합 식별

후보 단일 용어 및 다중 용어가 식별된 후, 소프트웨어는 알고리즘 세트를 사용하여 이들을 비교하고 등가 클래스를 식별합니다. 동등 클래스는 한 구문으로 된 기본 양식이거나 동일한 구문의 두 개의 변형이 있는 단일 양식입니다. 등가 클래스에 구문을 지정하는 목적은 예를 들어, president of the companycompany president 항목이 별도의 개념으로 처리되지 않는지 확인하기 위한 것입니다. 등가 클래스—즉, president of the company 또는 company president 항목이 리드 용어로 사용되는지 여부에 사용할 개념을 판별하려면 추출 엔진이 나열된 순서대로 다음 규칙을 적용합니다.

  • 라이브러리의 사용자 지정 양식.
  • 텍스트의 전체 본문에서 가장 자주 사용되는 양식.
  • 텍스트의 전체 본문에서 가장 짧은 양식(일반적으로 기본 양식에 해당함).

4단계. 유형 지정

다음으로 유형은 추출된 개념에 지정됩니다. 유형은 개념의 시맨틱 그룹화입니다. 이 단계에서는 컴파일된 자원과 라이브러리 둘 모두가 사용됩니다. 유형은 상위 레벨 개념, 긍정적 및 부정적 단어, 이름, 장소, 조직 등을 포함합니다. 추가 유형은 사용자가 정의할 수 있습니다.

5단계. 색인화

전체 레코드 또는 문서 세트는 텍스트 위치와 각 등가 클래스의 대표 용어 간에 포인터를 설정하여 색인화됩니다. 여기에서는 후보 개념의 모든 굴절된 양식 인스턴스가 후보 기본 양식으로서 색인화되는 것으로 가정합니다. 각 기본 양식에 대해 글로벌 빈도가 계산됩니다.

6단계. 패턴 및 이벤트 추출 매치

Text Analytics는 유형과 개념뿐만 아니라 이들 간의 관계도 찾아낼 수 있습니다. 이 도구와 함께 여러 알고리즘과 라이브러리를 사용할 수 있으며 유형과 개념 간의 관계 패턴을 추출할 수 있습니다. 이들은 특정 의견(예: 제품 반응) 또는 사람이나 개체 간의 관계 링크(예: 정치적 그룹과 게놈 사이의 링크)를 찾아내려고 시도할 때 특히 유용합니다.