AutoAI's 텍스트 분석 기능을 사용하여 실험의 텍스트 분석을 수행합니다. 예를 들면, 기본 감성 분석을 수행하여 텍스트 주석을 기반으로 하는 결과를 예상하십시오.
텍스트 분석 개요
텍스트 분석 기능을 사용하는 실험을 작성하는 경우, AutoAI 프로세스는 word2vec
알고리즘을 사용하여 텍스트를 벡터로 변환한 후 벡터를 비교하여 예측 열에 대한 영향을 설정합니다.
word2vec
알고리즘은 텍스트의 코퍼스를 입력으로 사용하고 벡터 세트를 출력합니다. 텍스트를 숫자 표현으로 변환하여 유사한 단어를 발견하고 비교할 수 있습니다. 충분한 데이터를 훈련한 경우, word2vec
은(는) 단어의 의미 또는 다른 단어와의 관계에 대해 정확한 예측을 수행할 수 있습니다. 예측을 사용하여 텍스트를 분석하고 감성 분석 애플리케이션에서 의미를 추측할 수 있습니다.
실험 훈련의 기능 엔지니어링 단계 중에 word2vec
알고리즘을 사용하여 텍스트 열에 대해 20개의 기능이 생성됩니다. 텍스트 기능의 자동 감지는 열의 고유 값 수 및 레코드의 토큰 수(최소값 = 3)를 분석하는 것을 기반으로 합니다. 고유 값의 수가 5로 나눈 값의 수보다 작으면 열은 텍스트로 처리되지 않습니다.
실험이 완료되면 파이프라인 상세 정보 페이지에서 기능 엔지니어링 결과를 검토할 수 있습니다. 또한 변환을 검토하고 변환의 시각화를 확인할 수 있는 노트북으로 파이프라인을 저장할 수도 있습니다.
예: 고객 주석 분석
이 예제에서 가상의 자동차 렌탈 회사에 대한 주석은 새 주석을 입력할 때 만족도 등급을 예측하는 모델을 훈련하는 데 사용됩니다.
이 짧은 비디오를 시청하고 이 예제를 보고 비디오 아래의 텍스트 기능에 대한 자세한 정보를 읽으십시오.
이 비디오는 이 문서의 개념 및 태스크를 학습하기 위한 시각적 방법을 제공합니다.
동영상 대본 시간 대본 00:00 이 비디오에서는 AutoAI 실험을 작성하여 텍스트 파일에 대한 심리 분석을 수행하는 방법을 볼 수 있습니다. 00:09 텍스트 기능 엔지니어링을 사용하여 실험에서 텍스트 분석을 수행할 수 있습니다. 00:15 예를 들면, 기본 감성 분석을 수행하여 텍스트 주석을 기반으로 하는 결과를 예상하십시오. 00:22 프로젝트에서 시작하여 새 AutoAI 실험 프로젝트에 자산을 추가합니다. 00:29 이름, 설명을 제공하고, 머신 러닝 서비스를 선택한 다음 실험을 작성하십시오. 00:38 AutoAI 실험 빌더가 표시되면 데이터 세트를 추가할 수 있습니다. 00:43 이 경우 데이터 세트는 프로젝트에 이미 데이터 자산으로 저장되어 있습니다. 00:48 실험에 추가할 자산을 선택하십시오. 00:53 계속하기 전에 데이터를 미리보십시오. 00:56 이 데이터 세트에는 두 개의 열이 있습니다. 00:59 첫 번째는 고객의 주석을 포함하고 두 번째는 "충족되지 않음" 또는 "만족"의 경우 0을 포함합니다. 01:08 이는 시계열 예측이 아니므로 해당 옵션에 대해 "아니오"를 선택하십시오. 01:13 그런 다음 이 예제에서 "만족"인 예측할 열을 선택하십시오. 01:19 AutoAI는 만족 열이 2진 분류 모델에 적합하도록 두 개의 가능한 값을 포함하고 있다고 결정합니다. 01:28 긍정적인 클래스는 "만족"의 경우 1입니다. 01:32 실험을 사용자 정의하려는 경우 실험 설정을 여십시오. 01:36 데이터 소스 패널에서 텍스트 기능 엔지니어링에 대한 몇 가지 옵션을 볼 수 있습니다. 01:41 텍스트 열을 자동으로 선택하거나 텍스트 기능 엔지니어링에 열을 수동으로 지정하여 더 많은 제어를 실행할 수 있습니다. 01:52 또한 텍스트 기능 엔지니어링 중에 각 열에 대해 작성할 벡터 수를 선택할 수 있습니다. 01:58 더 낮은 숫자는 더 빠르고 더 높은 수는 더 정확하지만 더 느립니다. 02:03 이제 변환 및 진행상태를 보려면 실험을 실행하십시오. 02:09 텍스트 분석 기능을 사용하는 실험을 작성하는 경우, AutoAI 프로세스는 word2vec 알고리즘을 사용하여 텍스트를 벡터로 변환한 후 벡터를 비교하여 예측 열에 대한 영향을 설정합니다. 02:23 실험 훈련의 기능 엔지니어링 단계 중에 word2vec 알고리즘을 사용하여 텍스트 열에 대해 20개의 기능이 생성됩니다. 02:33 실험이 완료되면 파이프라인 상세 정보 페이지에서 기능 엔지니어링 결과를 검토할 수 있습니다. 02:40 기능 요약 패널에서 텍스트 변환을 검토할 수 있습니다. 02:45 AutoAI가 열 요소에 알고리즘 함수를 적용하여 여러 개의 텍스트 기능을 만들었다는 것을 알 수 있으며, 이 기능이 예측 출력에 가장 많이 기여하는 기능을 표시하는 기능이 중요합니다. 02:59 이 파이프라인을 모델 또는 노트북으로 저장할 수 있습니다. 03:03 노트북에는 해당 변환의 변환 및 시각화를 확인하는 코드가 포함되어 있습니다. 03:09 이 경우에는 모델을 작성합니다. 03:13 모델을 보려면 링크를 사용하십시오. 03:16 이제 모델을 배치 공간으로 프로모션하십시오. 03:23 여기에 모델 세부사항이 있으며 여기서 모델을 배치할 수 있습니다. 03:28 이 경우에는 온라인 배치가 됩니다. 03:36 해당 작업이 완료되면 배치를 여십시오. 03:39 테스트 앱에서 하나 이상의 주석을 지정하여 분석할 수 있습니다. 03:46 그런 다음 "예측"을 클릭하십시오. 03:49 첫 번째 고객은 서비스에 만족하지 않을 것으로 예상됩니다. 03:54 그리고 두 번째 고객은 서비스에 만족할 것으로 예상됩니다. 03:59 Cloud Pak for Data as a Service 문서에서 더 많은 동영상을 보십시오.
임대 경험에 대한 검토 주석 열 (Customer_service) 이 포함된 데이터 세트와 2진 만족도 등급 (만족도) 이 포함된 열 (0은 부정적 주석을 나타내고 1은 긍정적 주석을 나타냄) 이 제공된 경우, 새 피드백이 입력될 때 만족도 등급을 예측하도록 실험이 훈련됩니다.
텍스트 변환 실험 훈련
데이터 세트를 로드하고 예측 열 (만족) 을 지정하면 실험 설정 에서 텍스트 기능 엔지니어링 사용 옵션을 선택합니다.
텍스트 분석 실험을 조정하기 위한 일부 세부사항은 다음과 같습니다.
- 텍스트 열을 자동으로 선택하는 기본 선택사항을 승인하거나 텍스트 기능 엔지니어링에 대한 열을 수동으로 지정하여 더 많은 제어를 실행할 수 있습니다.
- 실험이 실행되면
word2vec
알고리즘을 사용하여 텍스트 열에 대해 기본값인 20개의 기능이 생성됩니다. 해당 값을 편집하여 기능 수를 늘리거나 줄일 수 있습니다. 더 정확한 모델을 생성하는 벡터가 많을수록 더 정확한 모델이 되지만 훈련 시간이 더 길어집니다. - 나머지 옵션은 모든 유형의 실험에 적용되므로 최종 훈련 데이터를 처리하는 방법을 미세 조정할 수 있습니다.
진행 중인 변환을 보려면 실험을 실행하십시오.
파이프라인의 이름을 선택한 후 기능 요약 을 클릭하여 텍스트 변환을 검토하십시오.
실험 파이프라인을 노트북으로 저장하고 변환을 시각화로 검토할 수도 있습니다.
텍스트 변환 모델 배치 및 스코어링
이 모델을 스코어링할 때 새 주석을 입력하여 주석의 결과가 긍정적 또는 부정적 만족 등급인지 여부에 대한 신뢰도 점수가 있는 예측을 가져오십시오.
예를 들어, "자동차를 가져오는 데 거의 3시간이 걸렸다. 신뢰도 95% 로 만족도 0을 예측하는 말도 안 되는 '예측' 이었다.
다음 단계
상위 주제: AutoAI 모델 빌드