0 / 0
영어 버전 문서로 돌아가기
호텔 만족도를 위한 텍스트 분석
마지막 업데이트 날짜: 2024년 12월 12일
호텔 만족도를 위한 텍스트 분석

이 튜토리얼은 텍스트 처리에 특화된 노드를 사용하여 텍스트를 분석하는 데 도움이 됩니다. 예를 들어 감성 분석을 수행할 수 있습니다.

이 튜토리얼에서는 호텔 매니저가 호텔에 대한 리뷰를 분석하여 고객의 생각을 확인하고자 합니다. 검토에서는 호텔 직원, 편안함, 청결, 가격 및 기타 관심 분야에 대한 의견을 표시합니다.

그림 1. 긍정적 의견의 차트
긍정적인 의견의 차트입니다. 위치, 예산 및 호텔 편의시설과 같은 용어 및 구문을 표시합니다. 이러한 용어는 중요도에 따라 크기가 달라집니다. 그들은 중심에 있고 가장 큰 가장 중요한 용어를 배열했습니다.
그림 2. 부정적 의견의 차트
부정적인 의견의 차트입니다. 위치, 예산 및 호텔 편의시설과 같은 용어 및 구문을 표시합니다. 이러한 용어는 중요도에 따라 크기가 달라집니다. 그들은 중심에 있고 가장 큰 가장 중요한 용어를 배열했습니다.

튜토리얼을 사용해 보세요

이 학습서에서는 다음 태스크를 완료합니다.

모델러 흐름 및 데이터 세트 샘플

이 튜토리얼에서는 샘플 프로젝트의 호텔 만족도 플로우를 사용합니다. 플로우는 텍스트 분석 노드를 사용하여 호텔에 대한 가상 검토를 분석합니다. 사용된 데이터 파일은 hotelSatisfaction.csv입니다. 다음 이미지는 샘플 모델러의 흐름을 보여줍니다.

완료된 플로우
다음 이미지는 샘플 데이터 집합을 보여줍니다.
샘플 데이터 세트

작업 1: 샘플 프로젝트 열기

샘플 프로젝트에는 여러 데이터 세트와 샘플 모델러 흐름이 포함되어 있습니다. 아직 샘플 프로젝트가 없는 경우 튜토리얼 주제를 참조하여 샘플 프로젝트를 만드세요. 그런 다음 다음 단계에 따라 샘플 프로젝트를 엽니다:

  1. ' watsonx'의 탐색 메뉴 ' 탐색 메뉴'에서 프로젝트 > 모든 프로젝트 보기를 선택합니다.
  2. SPSS Modeler 프로젝트를 클릭합니다.
  3. 자산 탭을 클릭하면 데이터 세트와 모델러 흐름을 볼 수 있습니다.

체크포인트 아이콘 진행 상황 확인

다음 이미지는 프로젝트 자산 탭을 보여줍니다. 이제 이 튜토리얼과 관련된 샘플 모델러 플로우로 작업할 준비가 되었습니다.

alt 텍스트

맨 위로 돌아가기

작업 2: 데이터 자산 노드 살펴보기

호텔 만족도에는 여러 노드가 포함되어 있습니다. 데이터 자산 노드를 검토하려면 다음 단계를 따르세요:

  1. 자산 탭에서 호텔 만족도 모델러 플로우를 열고 캔버스가 로드될 때까지 기다립니다.
  2. hotelSatisfaction.csv 노드를 두 번 클릭합니다. 이 노드는 프로젝트의 hotelSatisfaction.csv 파일을 가리키는 데이터 에셋 노드입니다.
  3. 파일 형식 속성을 검토합니다.
  4. 선택 사항입니다: 데이터 미리 보기를 클릭하여 전체 데이터 집합을 확인합니다.

체크포인트 아이콘 진행 상황 확인

다음 이미지는 데이터 자산 노드를 보여줍니다. 이제 텍스트 마이닝 노드를 살펴볼 준비가 되었습니다.

필터 노드

맨 위로 돌아가기

작업 3: 텍스트 마이닝 노드 검사하기

텍스트 마이닝은 텍스트 데이터에서 관련 개념과 패턴을 식별하는 반복적인 프로세스입니다. 텍스트 마이닝 노드를 실행하면 추출 엔진이 텍스트 데이터를 읽고 관련 개념을 식별한 후 각각에 유형을 할당합니다. 그런 다음 텍스트 분석 워크벤치를 사용하여 추출 결과를 검토하여 추출 프로세스를 미세 조정할 수 있습니다. 텍스트 마이닝 노드를 다시 실행하여 새 결과를 생성한 다음 새 결과를 평가할 수 있습니다. 데이터 자산 노드와 텍스트 마이닝 노드 사이에 있는 유형 노드에 주목하세요. 유형 노드는 데이터 집합의 필드를 올바르게 식별하는 데 필요합니다. 텍스트 마이닝 노드를 검사하려면 다음 단계를 따르세요:

  1. 댓글(텍스트 마이닝) 노드를 두 번 클릭하여 해당 속성을 확인합니다.
  2. 필드 섹션에서 이러한 속성을 설정합니다:
    1. 텍스트 필드에서 댓글을 선택합니다.
    2. ID 필드에서 ID를 선택합니다.
      참고: 텍스트 필드만 필수 입력 사항입니다.
      그림 3. 텍스트 마이닝 노드 특성
      텍스트 마이닝 노드 빌드 속성. 창에 텍스트 필드 및 ID 필드와 같은 일부 필드 설정이 표시됩니다.
  3. 모델 섹션에서 선택한 텍스트 분석 패키지가 호텔 만족도(영어)/주제 + 의견인지 확인합니다.

    텍스트 분석 패키지(TAP)는 미리 정의된 라이브러리와 고급 언어 및 비언어적 리소스의 집합으로, 하나 이상의 사전 정의된 카테고리 세트와 함께 번들로 제공됩니다. 애플리케이션과 관련된 텍스트 분석 패키지가 없는 경우, 대신 리소스 템플릿을 선택할 수 있습니다. 리소스 템플릿은 특정 도메인이나 용도에 맞게 미세 조정된 사전 정의된 라이브러리와 고급 언어 및 비언어적 리소스의 집합입니다.

  4. 모델 빌드 섹션에서 이러한 속성을 설정합니다:
    1. 빌드 모드 필드가 대화형으로 빌드(카테고리 모델 너겟)로 설정되어 있는지 확인합니다. 나중에 노드를 실행할 때 이 옵션은 추출 결과를 탐색하고 미세 조정할 수 있는 대화형 인터페이스인 텍스트 분석 워크벤치를 시작합니다.
    2. 필드별 세션 시작이 개념 및 텍스트 링크 추출로 설정되어 있는지 확인합니다. 개념 추출 옵션은 개념만 추출하는 반면, TLA 추출은 개념과 주제(예: 서비스, 인력, 음식)와 의견 사이의 연결인 텍스트 링크를 모두 출력합니다.
  5. 전문가 섹션을 펼치고 최소 단어 문자 길이에 맞춤법 허용 옵션이 맞춤법 제한이 ' 5'로 선택되어 있는지 확인합니다. 이 옵션은 맞춤법이 자주 틀리는 단어나 맞춤법이 유사한 단어를 하나의 개념으로 그룹화하는 퍼지 그룹화 기술을 적용합니다. 퍼지 그룹화 알고리즘은 추출된 단어에서 이중 또는 삼중 자음과 모든 모음(첫 모음 제외)을 일시적으로 제거합니다. 그런 다음 비교하여 동일한지 확인합니다. 예를 들어 ' location '과 ' locattoin '는 그룹화됩니다.

    그림 4. 텍스트 마이닝 노드 전문가 속성.
    텍스트 마이닝 노드 전문가 속성. 텍스트 마이닝 노드에 대한 속성 설정이 표시됩니다. 몇 가지 주요 설정 그룹은 설정, 모델 빌드, 전문가입니다. 전문가 그룹화에는 최소 어근 문자 제한에 맞춤법 수용, 단위어 추출, 비언어적 개체 추출, 대문자 알고리즘, 가능한 경우 부분 및 전체 인명을 함께 그룹화, 복합 명사 그룹화 시 파생어 사용 등의 설정에 대한 확인란이 있습니다.
  6. 저장 을 클릭하십시오.
  7. 댓글(텍스트 마이닝) 노드 위로 마우스를 가져간 후 실행 아이콘 ' 실행 아이콘'을 클릭합니다.
  8. 출력 및 모델 창에서 댓글이라는 이름이 있는 결과를 클릭하여 텍스트 분석 워크벤치를 엽니다.

체크포인트 아이콘 진행 상황 확인

다음 이미지는 텍스트 분석 워크벤치를 보여줍니다. 이제 결과를 조정할 준비가 되었습니다.

텍스트 분석 워크벤치

맨 위로 돌아가기

작업 4: 텍스트 분석 워크벤치에서 결과 조정하기

텍스트 분석 워크벤치에는 추출 결과와 텍스트 분석 패키지에 포함된 카테고리 모델이 포함되어 있습니다. 추출된 결과를 탐색 및 미세 조정하고, 카테고리를 구축 및 세분화하고, 카테고리 모델 너겟을 구축할 수 있는 대화형 워크벤치입니다. 텍스트 분석 워크벤치에서 결과를 조정하려면 다음 단계를 따르세요:

개념

  1. 개념 탭을 클릭합니다.

    추출 과정에서 텍스트 데이터를 분석하여 ' airport ' 또는 ' location' 와 같은 흥미롭거나 관련성 있는 단일 단어와 ' airport pick-up' 과 같은 단어 구문을 식별합니다. 이러한 단어와 문구를 통틀어 용어라고 부릅니다. 언어 리소스를 사용하여 관련 용어가 추출되고 유사한 용어가 개념이라는 리드 용어 아래에 그룹화됩니다.

    이러한 방식으로 하나의 개념이 여러 개의 기본 용어를 나타낼 수 있습니다. 텍스트에서 해당 용어가 사용되는 방식과 사용 중인 언어 리소스에 따라 다릅니다.

  2. 필터 아이콘 ' 필터 아이콘'을 클릭합니다
  3. 필터를 사용하여 개념의 하위 집합을 선택할 수도 있습니다. 다음 이미지에는 다양한 옵션이 나와 있습니다:

    그림 5. 텍스트 분석 워크벤치 - 필터 옵션
    텍스트 분석 워크벤치 - 필터 옵션

    필터를 제거하고 모든 개념을 표시하려면 필터 지우기를 클릭합니다.

    취소를 클릭하여 필터 창을 닫습니다.

텍스트 링크

  1. 텍스트 링크 탭을 클릭합니다.

    텍스트 링크 분석 (TLA)은 텍스트에서 발견되는 추출된 개념 및 관계와 TLA 규칙을 비교하는 패턴 매칭 기술입니다. 텍스트 링크 탭에서 텍스트 데이터에서 발견되는 TLA 패턴을 작성하고 탐색할 수 있습니다.

  2. 유형 패턴 (예: <서비스> + <긍정적> )을 선택하면 문서의 텍스트 미리 보기를 볼 수 있습니다. 문서 미리 보기 의 텍스트가 잘린 경우 전체 문서 보기 아이콘 ' 전체 문서 보기 아이콘 '을 클릭하여 전체 텍스트를 표시합니다.
    텍스트 분석 워크벤치 - 텍스트 링크 탭. 텍스트 링크 탭에 유형 패턴을 표시합니다. 측면에는 세 개의 열이 있는 표가 있는 미리보기 창이 있습니다. 세 개의 열은 항목, 문서 미리보기, 카테고리 경로입니다.

카테고리

  1. 카테고리 탭을 클릭합니다.

    카테고리를 만들고 관리할 수 있습니다. 텍스트 데이터에서 개념과 유형을 추출한 후에는 개념 포함, 의미 네트워크(영어만 해당) 등의 기술을 사용하거나 수동으로 카테고리를 자동으로 구축할 수 있습니다.

    이 예제 흐름은 텍스트 분석 패키지 템플릿을 사용하므로 카테고리 모델이 이미 채워져 있습니다.

  2. 모두 채점을 클릭하여 문서 또는 기록에 점수를 매깁니다. 카테고리를 만들거나 업데이트할 때마다 특정 카테고리의 설명자와 일치하는 텍스트가 있는지 확인할 수 있습니다. 일치가 발견되면 문서 또는 레코드가 해당 범주에 지정됩니다. 그 결과 전부는 아니더라도 대부분의 문서나 레코드가 카테고리의 설명자를 기준으로 카테고리에 할당됩니다.
  3. 예를 들어, 호텔 시설 > 청결도 > 부정 > 청소되지 않음과 같이 카테고리를 확장합니다.
  4. 미리보기 탭과 설명자 탭에서 문서를 보고 소스 데이터를 확인합니다.

체크포인트 아이콘 진행 상황 확인

다음 이미지는 청결도 카테고리의 문서 미리 보기를 보여줍니다. 이제 모델을 구축할 준비가 되었습니다.

채움 노드

맨 위로 돌아가기

작업 5: 모델 구축

추출 프로세스 조정을 마치면 사용자 정의 및 구축한 카테고리에서 카테고리 모델을 생성할 수 있습니다. 다음 단계에 따라 모델을 빌드하고 배포합니다:

  1. 모델 생성을 클릭하여 카테고리 모델을 생성합니다.
    모델 생성 버튼을 보여주는 이미지
  2. 작성을 클릭하여 카테고리 모델을 생성할지 확인합니다.
  3. 성공! 메시지 흐름으로 돌아가기를 클릭합니다.
  4. 저장 후 종료를 클릭하여 변경 사항과 텍스트 마이닝 노드를 플로우에 저장합니다.
    생성된 카테고리 모델 너겟이 흐름 캔버스에 표시됩니다.
    그림 6. 생성된 카테고리 모델 너겟
    생성된 카테고리 모델 너겟. 텍스트 마이닝 노드와 카테고리 모델 너겟이 있는 플로우를 표시합니다.
  5. 예제 플로우에서 두 개의 만족도 모델 노드를 확인할 수 있습니다. 이제 텍스트 분석 워크벤치에서 카테고리 모델을 검증하고 생성했으므로, 이를 플로우에 배포하고 동일한 데이터 세트에 점수를 매기거나 새로운 데이터에 점수를 매길 수 있습니다. 각 모델마다 채점 시 다른 모드를 사용합니다.
    그림 7. 스코어링에 대해 두 가지 모드가 있는 예제 플로우
    스코어링에 대해 두 가지 모드가 있는 예제 플로우
  6. 첫 번째 만족도 모델 노드를 두 번 클릭합니다.
    1. 설정 섹션을 확장하여 이 노드가 카테고리를 필드 채점 모드로 사용하는지 확인합니다. 이 채점 모드에서는 입력된 수만큼의 출력 레코드가 있습니다.
    2. 데이터 미리 보기를 클릭합니다. 이제 각 레코드에 모델 탭에서 선택한 모든 카테고리에 대해 하나의 새 필드가 포함된 것을 볼 수 있습니다. 각 필드에 대해 참과 거짓에 대한 플래그 값(예: True/False 또는 1/0)을 입력하십시오. 이 플로우에서 값은 10으로 설정되어 결과를 집계하고 양수, 음수, 혼합(양수 및 음수 모두) 또는 점수(의견 없음)의 응답 수를 계산합니다.

      그림 8. 모델 결과 - 필드로서의 카테고리(1).
      모델 결과 - 필드로서의 카테고리. ID, 댓글, 성별, 이유, 부정, 긍정, 반대, 계속, 감정 열이 있는 테이블입니다. ID 열의 항목은 숫자입니다. 댓글 열의 항목에는 텍스트에서 추출한 짧은 문구가 표시됩니다. 예를 들어, 한 항목에는 매우 조용하지만 매우 비싸다고 적혀 있습니다. 이유 열의 항목에는 여행이 비즈니스 여행인지 레저 여행인지를 표시합니다. 부정 및 긍정 감성어는 각 짧은 문구에 대한 부정 및 긍정 감성어의 개수를 표시합니다. 감성은 리뷰가 긍정적인지(긍정 열에 숫자만 표시), 부정적인지(부정 열에 숫자만 표시) 또는 혼합(부정과 긍정 열 모두에 숫자 표시)인지 여부를 표시합니다.
    3. 미리보기 창을 닫으십시오.
    4. 취소를 클릭하십시오.
  7. 두 번째 만족도 모델 노드를 두 번 클릭합니다.
    1. 설정 섹션을 확장하여 이 노드가 카테고리를 레코드 채점 모드로 사용하는지 확인합니다. 각 ' category, document 쌍에 대해 새 레코드가 생성됩니다. 일반적으로 출력에는 입력에 있는 것보다 더 많은 레코드가 있습니다.
    2. 데이터 미리 보기를 클릭합니다. 입력 필드와 함께 어떤 종류의 모델인지에 따라 데이터에 새 필드도 추가되는 것을 볼 수 있습니다.

      그림 9. 모델 결과 - 레코드로서의 카테고리 (2).
      모델 결과 - 레코드로 분류합니다. ID, 댓글, 성별, 이유, 카테고리, 감정 열이 있는 테이블입니다. ID 열의 항목은 숫자입니다. 댓글 열의 항목에는 텍스트에서 추출한 짧은 문구가 표시됩니다. 예를 들어, 한 항목에는 매우 조용하지만 매우 비싸다고 적혀 있습니다. 이유 열의 항목에는 여행이 비즈니스 여행인지 레저 여행인지를 표시합니다. 부정 및 긍정 감성어는 각 짧은 문구에 대한 부정 및 긍정 감성어의 개수를 표시합니다. 감성은 리뷰가 긍정적인지(긍정 열에 숫자만 표시), 부정적인지(부정 열에 숫자만 표시) 또는 혼합(부정과 긍정 열 모두에 숫자 표시)인지 여부를 표시합니다.
    3. 미리보기 창을 닫으십시오.
    4. 취소를 클릭하십시오.

체크포인트 아이콘 진행 상황 확인

다음 이미지는 문서 미리 보기를 사용한 만족도 모델을 보여줍니다. 이제 댓글을 시각화할 준비가 되었습니다.

모델 노드

맨 위로 돌아가기

작업 6: 댓글 시각화하기

댓글을 시각화하여 게스트가 호텔에 대해 어떤 점을 높이 평가하는지 빠르게 파악할 수 있습니다. 워드 클라우드 차트를 만들려면 다음 단계를 따르세요:

  1. 긍정적인 댓글을 선택합니다:
    1. 팔레트에서 작업 기록 섹션을 펼칩니다.
    2. 선택 노드를 캔버스로 드래그합니다.
    3. 감정 도출 슈퍼노드를 선택 노드에 연결합니다.
    4. 선택 노드를 두 번 클릭하여 해당 속성을 확인합니다.
    5. 모드에서 포함을 선택합니다.
    6. 조건에' Sentiment = "Pos"'을 입력합니다.
    7. 저장 을 클릭하십시오.
  2. 차트를 추가합니다:
    1. 팔레트에서 그래프 섹션을 펼칩니다.
    2. 차트 노드를 캔버스로 드래그합니다.
    3. 선택 노드를 차트 노드에 연결합니다.
  3. 워드 클라우드 차트를 작성합니다:
    1. 차트 노드를 두 번 클릭하여 해당 속성을 확인합니다.
    2. 차트 작성기 시작을 클릭합니다.
    3. 시각화할 열의 경우 댓글을 선택합니다.
    4. 모든 차트 유형 목록을 표시하고 워드 클라우드를 선택합니다.

      그림 10. 모든 차트 유형
      모든 차트 유형
  4. 완료했으면 흐름으로 돌아가기를 클릭합니다.

체크포인트 아이콘 진행 상황 확인

다음 이미지는 워드 클라우드 차트를 보여줍니다. 이제 텍스트 링크 분석 노드를 살펴볼 준비가 되었습니다.

워드 클라우드 차트

맨 위로 돌아가기

작업 7: 텍스트 링크 분석 노드 검토하기

때로는 점수를 매기기 위해 카테고리 모델을 만들 필요가 없을 수도 있습니다. 텍스트 링크 분석 노드는 텍스트 마이닝의 개념 추출에 패턴 매칭 기술을 추가합니다. 텍스트 링크 분석 노드는 알려진 패턴을 기반으로 텍스트 데이터의 개념 간의 관계를 식별합니다. 이러한 관계는 고객이 제품에 대해 어떻게 느끼는지, 어떤 회사가 함께 비즈니스를 수행 중인지, 또는 유전자 또는 약품 사이의 관계를 설명할 수 있습니다. 텍스트 링크 분석 노드를 검토하려면 다음 단계를 따르세요:
텍스트 링크 분석 노드
  1. 텍스트 링크 분석 노드를 두 번 클릭하여 해당 속성을 확인합니다.
  2. 필드 섹션에서 이러한 속성을 설정합니다:
    1. 텍스트 필드에서 댓글을 선택합니다.
    2. ID 필드에서 ID를 선택합니다.
      참고: 텍스트 필드만 필수 입력 사항입니다.

      그림 11. 텍스트 링크 분석 노드 필드 속성.
      텍스트 링크 분석 노드 필드 속성. ID 필드, 텍스트 필드, 언어 필드, 문서 유형, 텍스트 유니티 및 단락 모드 설정과 같은 필드 설정이 표시됩니다.
  3. 다음에서 리소스 복사 섹션에서 선택한 리소스 템플릿이 호텔 만족도(영어)인 것을 확인합니다.

    리소스 템플릿은 특정 도메인이나 용도에 맞게 미세 조정된 사전 정의된 라이브러리와 고급 언어 및 비언어적 리소스의 집합입니다.

  4. 전문가 섹션을 펼치고 최소 단어 문자 길이에 맞춤법 허용 옵션이 맞춤법 제한이 ' 5'로 선택되어 있는지 확인합니다.

    그림 12. 텍스트 링크 분석 노드 전문가 속성.
    텍스트 링크 분석 노드 전문가 속성. 최소 어근 문자 제한에 맞춤법 수용, 단위어 추출, 비언어적 개체 추출, 대문자 알고리즘, 가능한 경우 부분 및 전체 인명을 함께 그룹화, 복합 명사 그룹화 시 파생어 사용 등의 설정에 대한 확인란이 표시됩니다.
  5. 저장 을 클릭하십시오.
  6. 원시 TLA 출력 노드 위로 마우스를 가져간 후 실행 아이콘 ' 실행 아이콘'을 클릭합니다.
  7. 출력 및 모델 창에서 원시 TLA 출력이라는 이름의 결과를 클릭하여 결과를 확인합니다.

    그림 13. 원시 TLA 출력.
    원시 TLA 출력. Concept1, Type1, Concept2, Type2, ID 및 일치하는 텍스트와 같은 열이 있는 테이블입니다. 개념 열의 항목은 방 또는 주차 등의 단어입니다. 유형 열의 항목은 예산 또는 서비스와 같은 단어입니다. 행은 개념이 유형 또는 다른 개념과 어떻게 연관되어 있는지 보여줍니다. 각 행에는 이러한 단어가 텍스트에 어떻게 표시되는지도 표시됩니다.

    그림 14. TLA 노드에서 감정 계산하기.
    TLA 노드에서 감정 계산하기. ID, Comments, Pos_Count_Sum, Neg_Count_Sum 열이 있는 테이블입니다. ID 열의 항목은 각 행의 숫자입니다. 댓글 열의 항목에는 텍스트에서 추출한 짧은 문구가 표시됩니다. 예를 들어 한 항목에는 편안한 객실, 뛰어난 조식, 멋진 서비스라고 적혀 있습니다. Pos_Count_Sum 및 Neg_Count_Sum 열의 항목은 각 짧은 문구에 대한 긍정 또는 부정 감성어의 개수를 세는 숫자를 표시합니다. 예를 들어, 이전 문구의 경우 긍정적인 감성어 세 개를 계산했습니다.

체크포인트 아이콘 진행 상황 확인

다음 이미지는 완성된 플로우를 보여줍니다.

완료된 플로우

맨 위로 돌아가기

요약

호텔 만족도 흐름은 호텔 관리자가 호텔 리뷰를 분석하여 호텔 직원, 편안함, 청결, 가격 및 기타 관심 분야에 대한 고객의 의견을 확인할 수 있는 방법을 보여 줍니다. 이 흐름은 텍스트 마이닝 노드 또는 텍스트 링크 분석 노드를 사용하여 텍스트 데이터를 분석하는 두 가지 방법을 보여줍니다.

다음 단계

이제 다른 SPSS® Modeler 튜토리얼을 사용해 볼 준비가 되었습니다.

일반적인 AI 검색 및 응답
이러한 응답은 제품 문서의 컨텐츠를 기반으로 하는 watsonx.ai 의 대형 언어 모델에 의해 생성됩니다. 자세히 알아보기