범주화 작동 방법
Text Analytics에서 범주 모델을 작성할 때 범주 작성을 위해 선택할 수 있는 여러 가지 기술이 있습니다. 모든 데이터 세트는 고유하므로 기술의 수와 이를 적용하는 순서는 변경될 수 있습니다.
사용자의 결과 해석이 다른 사람의 해석과 다를 수 있으므로 어떤 기술이 텍스트 데이터에 대해 최상의 결과를 내는지를 보려면 여러 기술을 실험해야 할 수도 있습니다. Text Analytics에서는 워크벤치 세션에 범주 모델을 작성하고 여기서 범주를 추가로 탐색하고 미세 조정할 수 있습니다.
이 문서에서 범주 작성은 하나 이상의 내장된 기술을 통해 범주 정의 및 분류를 생성하는 것을 의미하고, 범주화는 각 레코드 또는 문서마다 고유 식별자(이름/ID/값)를 범주 정의에 지정하는 기준이 되는 스코어링 또는 레이블 지정 프로세스를 의미합니다.
범주 작성 동안에 추출된 개념 및 유형은 범주의 구성 요소로서 사용됩니다. 범주를 작성할 때 레코드 또는 문서가 범주의 정의 요소와 매치되는 텍스트를 포함하고 있는 경우 자동으로 범주에 지정됩니다.
Text Analytics는 문서 또는 레코드를 빠르게 범주화하는 데 도움이 되는 여러 가지 자동화된 범주 작성 기술을 제공합니다.
그룹화 기술
사용 가능한 각각의 기술은 특정 유형의 데이터 및 상황에 적합하지만, 동일한 분석에서 기술을 결합하여 전체 범위의 문서 또는 레코드를 캡처하는 것이 종종 도움이 됩니다. 다중 범주에서 개념을 확인하거나 중복 범주를 찾을 수 있습니다.
시맨틱 네트워크. 이 기술은 광범위한 단어 색인 관계에서 각 개념의 가능한 의미를 식별하여 시작한 다음 관련된 개념을 그룹화하여 범주를 작성합니다. 이 기술은 개념이 시맨틱 네트워크에 알려져 있고 너무 애매하지 않을 경우에 가장 좋습니다. 텍스트에 네트워크에 알려지지 않은 용어나 특수화된 전문용어가 포함된 경우에는 덜 유용합니다. 한 예제에서, granny smith apple
개념은 gala apple
및 winesap apple
에 그룹화될 수 있으며, 이는 이 개념이 granny smith의 동위이기 때문입니다. 다른 예에서, 개념 animal
은 cat
및 kangaroo
와 그룹화될 수 있습니다. 이들은 animal
의 하위어이기 때문입니다. 이 기술은 영어 텍스트에만 사용 가능합니다.
개념 포함. 이 기술은 다른 개념에서 단어의 서브세트 또는 수퍼세트인 단어를 포함하는지 여부를 기초로 다항어 개념(복합어)을 그룹화하여 범주를 작성합니다. 예를 들어, seat
개념은 safety seat
, seat belt
, seat belt buckle
에 그룹화됩니다.