도구 선택 | IBM Cloud Pak for Data as a Service

영어 버전 문서로 돌아가기

도구 선택

Cloud Pak for Data as a Service의 핵심 서비스는 초보자부터 전문가에 이르기까지 데이터 준비, 분석 및 모델링에 대한 모든 레벨의 경험이 있는 사용자에게 다양한 도구를 제공합니다. 올바른 도구는 가지고 있는 데이터의 유형, 수행하려는 태스크 및 원하는 자동화의 양에 따라 다릅니다.

프로젝트에서 사용하는 도구 및 해당 도구에 필요한 서비스를 보려면 도구 및 서비스 맵을 여십시오.

적절한 도구를 고르려면 이러한 요인을 고려하십시오.

사용자가 가지고 있는 데이터의 유형

구분된 파일의 표 형식 데이터 또는 원격 데이터 소스의 관계형 데이터
이미지 파일
문서의 텍스트 (구조화되지 않은) 데이터

수행해야 하는 태스크 유형

데이터 준비: 데이터를 정리하고 쉐이핑하고 시각화하고 구성하며 유효성 검증합니다.
데이터 분석: 데이터에서 패턴과 관계를 식별하고 인사이트를 표시합니다.
모델 빌드: 모델을 빌드, 훈련, 테스트 및 배치하여 예측을 하거나 의사결정을 최적화합니다.

얼마나 많은 자동화를 원하십니까

코드 편집기 도구: 모두 Spark를 사용하여 Python 또는 R로 코드를 작성하는 데 사용합니다.
그래픽 빌더 도구: 빌더에서 메뉴 및 끌어서 놓기 기능을 사용하여 시각적으로 프로그램을 프로그램합니다.
자동화된 빌더 도구: 제한된 사용자 입력이 필요한 자동 태스크를 구성하는 데 사용합니다.

적절한 도구를 찾으십시오.

표 형식 또는 관계형 데이터용 도구
텍스트 형식 데이터용 도구
이미지 데이터용 도구
도구에 액세스

표 형식 또는 관계형 데이터용 도구

태스크별 표 형식 또는 관계형 데이터용 도구:

표 형식 또는 관계형 데이터용 도구
도구	도구 유형	데이터 준비	데이터 분석	모델 빌드
Jupyter 노트북 편집기	코드 편집기	✓	✓	✓
연합 학습	코드 편집기			✓
RStudio	코드 편집기	✓	✓	✓
Data Refinery	그래픽 빌더	✓	✓
마스킹 플로우	자동화된 빌더	✓
Watson Query	그래픽 빌더	✓
DataStage	그래픽 빌더	✓
SPSS Modeler	그래픽 빌더	✓	✓	✓
Decision Optimization 모델 빌더	그래픽 빌더 및 코드 편집기	✓		✓
AutoAI	자동화된 빌더	✓		✓
Metadata import	자동화된 빌더	✓
메타데이터 강화	자동화된 빌더	✓	✓
데이터 품질 규칙	자동화된 빌더 및 코드 편집기		✓
IBM Match 360 with Watson(베타)	자동화된 빌더	✓
Watson Pipelines	그래픽 빌더	✓	✓	✓

텍스트 데이터용 도구

텍스트 데이터에 대해 작업하는 모델을 빌드하기 위한 도구:

텍스트 데이터용 도구
도구	코드 편집기	그래픽 빌더
Jupyter 노트북 편집기	✓
RStudio	✓
SPSS Modeler		✓
Watson Pipelines		✓

이미지 데이터용 도구

이미지를 분류하는 모델을 빌드하기 위한 도구:

이미지 데이터용 도구
도구	코드 편집기	그래픽 빌더
Jupyter 노트북 편집기	✓
RStudio	✓
Watson Pipelines		✓

도구에 액세스

도구를 사용하려면 해당 도구와 관련된 자산을 작성하거나 해당 도구에 대한 기존 자산을 열어야 합니다. 자산을 작성하려면 새 자산 또는 자산 가져오기 를 클릭한 후 원하는 자산 유형을 선택하십시오. 이 표에는 각 도구에 대해 선택하는 자산 유형이 표시되어 있습니다.

도구 대 자산 유형 맵핑
사용하려는 도구	선택하는 자산 유형
Jupyter 노트북 편집기	Jupyter 노트북 편집기
Data Refinery	Data Refinery 플로우
마스킹 플로우	마스킹 플로우
DataStage	DataStage 플로우
SPSS Modeler	모델러 플로우
Decision Optimization 모델 빌더	Decision Optimization
AutoAI	AutoAI 실험
연합 학습	연합 학습 실험
Metadata import	Metadata import
메타데이터 강화	메타데이터 강화
데이터 품질 규칙	데이터 품질 규칙
IBM Match 360 with Watson(베타)	마스터 데이터 구성

RStudio로 노트북을 편집하려면 IDE > RStudio 실행을 클릭하십시오.

Jupyter 노트북 편집기

Jupyter 노트북 편집기를 사용하여 코드를 실행하여 데이터를 준비, 시각화 및 분석하거나 모델을 빌드 및 훈련시킬 수 있는 노트북을 작성하십시오.

필수 서비스: Watson Studio
데이터 형식: 모두
데이터 크기: 모두
데이터를 준비하고 분석하거나 모델을 빌드할 수 있는 방법: 모두 Spark를 사용하여 Python 또는 R로 코드를 작성하십시오.; 코드에 서식있는 텍스트와 매체를 포함합니다.; 원하는 방법으로 모든 유형의 데이터 작업; 사전 설치 사용 또는 다른 오픈 소스 및 IBM 라이브러리 및 패키지 설치; 코드 실행 스케줄; 파일, URL또는 자원 허브에서 노트북을 가져옵니다.; 외부적으로 노트북의 읽기 전용 사본 공유.
시작하기: 노트북을 작성하려면 새 자산 > Jupyter 노트북 편집기를 클릭하십시오.
자세히 알아보기: 공개 데이터 세트 로드 및 분석 동영상; 노트북에 대한 동영상; 샘플 노트북; 노트북 관련 문서

Data Refinery

Data Refinery를 사용하여 그래픽 플로우 편집기로 표 형식의 데이터를 준비하고 시각화하십시오. Data Refinery 플로우를 데이터에 대해 일련의 정렬된 오퍼레이션으로 작성한 다음 실행합니다.

필수 서비스: Watson Studio 또는 IBM Knowledge Catalog
데이터 형식: 표 형식: Avro, CSV, JSON, Microsoft Excel (xls및 xlsx 형식. 연결 및 연결된 데이터 자산을 제외한 첫 번째 시트 전용.), Parquet, "sas7bdat" 확장자가 있는 SAS (읽기 전용), TSV (읽기 전용) 또는 구분된 텍스트 데이터 자산; 관계형: 관계형 데이터 소스의 테이블
데이터 크기: 모두
데이터를 준비할 수 있는 방법: 60개 이상의 오퍼레이션으로 데이터 정리, 쉐이핑, 구성; 정제된 데이터를 새 데이터 세트로 저장하거나 원래 데이터 업데이트; 데이터를 유효성 검증하기 위한 데이터 프로파일링; 코드 오퍼레이션, 함수, 논리 연산자를 사용하여 데이터를 조작하기 위해 대화식 템플리트 사용; 데이터에 대한 반복 오퍼레이션 스케줄
데이터를 분석할 수 있는 방법: 여러 시각화 차트 내의 패턴, 연결, 관계 식별
시작하기: Data Refinery 플로우를 작성하려면 새 자산 > Data Refinery를 클릭하십시오. Data Refinery 타일은 그래픽 빌더 섹션에 있습니다.
자세히 알아보기: Data Refinery에 대한 문서; Data Refinery에 대한 동영상; 데이터 쉐이핑 동영상

Watson Query

Watson Query 를 사용하여 여러 데이터 소스를 데이터 소스 또는 데이터베이스의 단일 자체 밸런싱 콜렉션에 연결하십시오.

데이터 형식: 관계형: 관계형 데이터 소스의 테이블
데이터 크기: 모두
데이터를 준비할 수 있는 방법: 다중 데이터 소스에 대한 연결.; 가상 테이블 작성.
시작하기: 가상 테이블을 작성하려면 데이터 > Data virtualization를 클릭하십시오. 서비스 메뉴에서 가상화 > 가상화 > 테이블을 클릭하십시오.
자세히 알아보기: Watson Query 문서

DataStage

그래픽 플로우 편집기로 표 형식의 데이터를 준비하고 시각화하려면 DataStage를 사용하십시오. 사용자는 데이터에 대한 순서 지정된 오퍼레이션의 세트로서 DataStage 플로우를 작성하고 실행합니다.

필요한 서비스: DataStage
데이터 형식: 표 형식: Avro, CSV, JSON, Parquet, TSV(읽기 전용) 또는 구분된 텍스트 파일; 관계형: 관계형 데이터 소스의 테이블
데이터 크기: 모두
데이터를 준비할 수 있는 방법: 고성능 DataStage 병렬 엔진에서 실행할 Orchestrate 코드를 생성하는 그래픽 데이터 상호작용 플로우를 디자인합니다.; 결합, 퍼넬, 체크섬, 병합, 수정, 중복 제거 및 정렬과 같은 오퍼레이션을 수행합니다.
시작하기: DataStage 플로우를 작성하려면 새 자산 > DataStage를 클릭하십시오. DataStage 타일은 그래픽 빌더 섹션에 있습니다.
자세히 알아보기: DataStage 문서

SPSS Modeler

SPSS Modeler 를 사용하여 데이터를 준비하고 그래픽 빌더에서 플로우 편집기를 사용하여 모델을 빌드 및 훈련하기 위한 플로우를 작성하십시오.

필수 서비스: Watson Studio
데이터 형식: 관계형: 관계형 데이터 소스의 테이블; 표 형식: Excel 파일(.xls 또는 .xlsx), CSV 파일 또는 SPSS 통계 파일(.sav); 텍스트: 지원되는 관계형 테이블 또는 파일
데이터 크기: 모두
데이터를 준비할 수 있는 방법: 자동 데이터 준비 기능 사용; 데이터를 조작하기 위한 SQL문 작성; 데이터 정리, 쉐이핑, 샘플링, 정렬 및 파생
데이터를 분석할 수 있는 방법: 40개 이상의 그래프로 데이터 시각화; 텍스트 필드의 자연어 식별
모델을 빌드할 수 있는 방법: 예측 모델 빌드.; 40개 이상의 모델링 알고리즘 중에서 선택.; 자동 모델링 기능 사용; 시계열 또는 지리공간 데이터 모델링; 텍스트 데이터 분류; 텍스트 데이터의 개념 간 관계 식별
시작하기: SPSS Modeler 플로우를 작성하려면 새 자산 > SPSS Modeler를 클릭하십시오.
자세히 알아보기: SPSS Modeler - 엔터프라이즈 데이터 과학 파워하우스 동영상을 위한 새로운 UI; SPSS Modeler에 대한 문서

Decision Optimization 모델 빌더(Decision Optimization model builder)

Decision Optimization을 사용하여 Decision Optimization 모델러 또는 Jupyter 노트북에서 최적화 모델을 빌드하고 실행합니다.

필수 서비스: Watson Studio
데이터 형식: 표 형식: CSV 파일
데이터 크기: 모두
데이터를 준비할 수 있는 방법: 관련 데이터를 시나리오로 가져와서 편집하십시오.
모델을 빌드할 수 있는 방법: 규범적 의사 결정 최적화 모델을 빌드하십시오.; Python DOcplex, OPL 또는 자연어 표현식으로 모델을 작성하고 가져오고 편집하십시오.; 노트북에서 모델을 작성하고 가져오고 편집하십시오.
모델을 해결하는 방법: CPLEX 엔진을 사용하여 의사결정 최적화 모델을 실행하고 해결하십시오.; 여러 시나리오에 대한 솔루션을 조사하고 비교하십시오.; 하나 이상의 시나리오에 대한 데이터 및 솔루션을 시각화하도록 테이블, 차트 및 메모를 작성하십시오.
시작하기: Decision Optimization 모델을 작성하려면 새 자산 > Decision Optimization을 클릭하거나 노트북의 경우 새 자산 > Jupyter 노트북 편집기를 클릭하십시오.
자세히 알아보기: Decision Optimization; Decision Optimization에 대한 문서

AutoAI 도구

AutoAI 도구를 사용하여 표 형식 데이터를 자동으로 분석하고 예측 모델링 문제에 맞게 사용자 정의된 후보 모델 파이프라인을 생성하십시오.

필수 서비스: Watson Machine Learning; Watson Studio
데이터 형식: 표 형식: CSV 파일
데이터 크기: 모델 유형에 따라 다릅니다. 세부사항은 AutoAI 개요 를 참조하십시오.
데이터를 준비할 수 있는 방법: 데이터를 자동으로 변환합니다 (예: 결측값 대치 및 텍스트를 스칼라 값으로 변환).
모델을 빌드할 수 있는 방법: 이진 분류, 다중 클래스 분류 또는 회귀 모델을 훈련합니다.; AutoAI 훈련 스테이지 시퀀스를 보여주는 트리 인포그래픽을 봅니다.; 교차 유효성 검증 점수로 순위가 매겨진 모델 파이프라인의 리더보드를 생성합니다.; 파이프라인을 모델로 저장합니다.
시작하기: AutoAI 실험을 작성하려면 새 자산 > AutoAI를 클릭하십시오.
자세히 알아보기: AutoAI에 대한 문서

연합 학습

분산 데이터를 사용하여 공통 모델을 훈련시키려면 연합 학습 도구를 사용하십시오. 데이터는 결합되거나 공유되지 않으므로 데이터 무결성을 유지하는 동시에 모든 참여 당사자에게 집계된 데이터를 기반으로 하는 모델을 제공합니다.

필수 서비스: Watson Studio; Watson Machine Learning
데이터 형식: 모두
데이터 크기: 임의의 크기
모델을 빌드할 수 있는 방법: 훈련 프레임워크를 선택합니다.; 공통 모델을 구성합니다.; 공통 모델을 훈련하기 위한 파일을 구성합니다.; 원격 당사자가 해당 데이터를 훈련합니다.; 공통 모델을 배치합니다.
시작하기: 실험을 작성하려면 새 자산 > 연합 학습을 누르십시오.
자세히 알아보기: Federated Learning에 대한 문서

Metadata import

데이터 자산에 대한 기술 및 프로세스 메타데이터를 자동으로 발견하고 프로젝트 또는 카탈로그로 가져오려면 메타데이터 가져오기 도구를 사용하십시오.

필요한 서비스: IBM Knowledge Catalog
데이터 형식: 모두
데이터 크기: 임의의 크기
데이터를 준비할 수 있는 방법: 연결로부터 데이터 소스로 데이터 자산을 가져옵니다.
시작하기: 메타데이터를 가져오려면 새 자산 > Metadata import를 클릭하십시오.
자세히 알아보기: 메타데이터 가져오기에 대한 문서; IBM Knowledge Catalog에 대한 비디오

메타데이터 강화

메타데이터 인리치먼트 도구를 사용하여 데이터 자산을 자동으로 프로파일링하고 프로젝트의 데이터 품질을 분석합니다.

필요한 서비스: IBM Knowledge Catalog
데이터 형식: 관계형 및 구조화: 관계형 및 비관계형 데이터 소스의 테이블 및 파일; 표 형식: Avro, CSV 또는 Parquet 파일
데이터 크기: 임의의 크기
데이터를 준비하고 분석할 수 있는 방법: 프로젝트의 데이터 자산 선택 세트를 프로파일링하고 분석합니다.
시작하기: 데이터를 강화하려면 새 자산 > 메타데이터 강화를 클릭하십시오.
자세히 알아보기: 메타데이터 강화에 대한 문서

데이터 품질 규칙

데이터 품질 도구를 사용하여 프로젝트의 데이터 품질을 분석하는 규칙을 작성하십시오.

필요한 서비스: IBM Knowledge Catalog
데이터 형식: 관계형 및 구조화: 관계형 및 비관계형 데이터 소스의 테이블 및 파일; 표 형식: Avro, CSV 또는 Parquet 파일
데이터 크기: 임의의 크기
데이터를 준비하고 분석할 수 있는 방법: 프로젝트에서 선택된 데이터 자산 세트의 품질을 분석합니다.
시작하기: 데이터 품질 규칙을 작성하려면 새 자산 > 데이터 품질 규칙을 클릭하십시오.
자세히 알아보기: 데이터 품질 규칙에 대한 문서

IBM Match 360 with Watson

IBM Match 360 with Watson을 사용하여 고객의 디지털 트윈을 표시하는 마스터 데이터 엔티티를 작성합니다. 데이터를 모델링 및 맵핑한 다음 일치 알고리즘을 실행하여 마스터 데이터 엔티티를 작성합니다. 조직의 요구사항을 충족하도록 일치하는 알고리즘을 사용자 정의하고 조정하십시오.

필수 서비스: IBM Match 360 with Watson IBM Knowledge Catalog
데이터 크기: 최대 1,000,000개의 레코드(베타 릴리스 플랜의 경우)
데이터를 준비할 수 있는 방법: 사용자 조직의 소스에서 데이터 모델링 및 맵핑합니다.; 사용자 정의 가능한 일치 알고리즘을 실행하여 마스터 데이터 엔티티를 작성합니다.; 마스터 데이터 엔티티와 연관된 레코드를 보고 편집합니다.
시작하기: IBM Match 360 구성 자산을 작성하려면 새 자산 > 마스터 데이터 구성을 클릭하십시오.
자세히 알아보기: Documentation about IBM Match 360 with Watson

RStudio IDE

RStudio IDE를 사용하여 데이터를 분석하거나 R 코드를 작성하여 Shiny 애플리케이션을 작성하십시오.

필요한 서비스: Watson Studio
데이터 형식: 모두
데이터 크기: 임의의 크기
데이터를 준비하고 분석하며 모델을 빌드할 수 있는 방법: 코드를 R에 작성합니다.; Shiny 앱을 작성합니다.; 오픈 소스 라이브러리와 패키지를 사용합니다.; 코드에 서식있는 텍스트와 매체를 포함합니다.; 데이터를 준비합니다.; 데이터를 시각화합니다.; 데이터에서 인사이트를 발견합니다.; 오픈 소스 라이브러리를 사용하여 모델을 빌드하고 훈련합니다.; Git 저장소에 Shiny 앱을 공유합니다.
시작하기: RStudio를 사용하려면 IDE 실행 > RStudio를 클릭하십시오.
자세히 알아보기: RStudio에 대한 문서; RStudio IDE 개요 동영상; RStudio에 대한 동영상

마스킹 플로우

마스킹된 사본 또는 마스크된 데이터 서브세트를 카탈로그에서 준비하려면 마스킹 플로우 도구를 사용하십시오. 데이터는 데이터 보호 규칙으로 고급 마스킹 옵션을 사용하여 익명화됩니다.

필요한 서비스: IBM Knowledge Catalog
데이터 형식: 관계형: 관계형 데이터 소스의 테이블
데이터 크기: 임의의 크기
데이터를 준비하고 분석하거나 모델을 빌드할 수 있는 방법: 관리되는 카탈로그에서 프로젝트로 데이터 자산을 가져옵니다.; 마스킹 플로우 작업 정의를 작성하여 데이터 보호 규칙으로 마스킹할 데이터를 지정합니다.; 복사된 데이터의 크기를 줄이도록 선택적으로 데이터를 서브세트 처리합니다.; 마스킹 플로우 작업을 실행하여 마스킹된 사본을 대상 데이터베이스 연결로 로드합니다.
시작하기: IBM Knowledge Catalog 의 전제조건 단계가 완료되었는지확인하십시오. 데이터를 개인화하려면 다음 태스크 중 하나를 수행하십시오.

새 자산 > 마스킹 플로우를 클릭하십시오.
개별 데이터 자산에 대한 메뉴 옵션을 클릭하여 해당 자산을 직접 마스킹하십시오.

자세히 알아보기: 데이터 마스킹에 대한 문서

Watson Pipelines

파이프라인 캔버스 편집기를 사용하여 데이터를 준비, 시각화 및 분석하거나 모델을 빌드 및 훈련하기 위한 플로우를 작성하십시오.

데이터 형식: 모두
데이터 크기: 모두
데이터를 준비하고 분석하거나 모델을 빌드할 수 있는 방법: 각각 자체 로그를 포함하는 다양한 노드를 사용하십시오.; 노트북을 플로우에 통합하여 Python 또는 R 코드를 실행하십시오.; 원하는 방법으로 모든 유형의 데이터 작업; 플로우의 실행을 스케줄하십시오.; 마운트된 PVC, 프로젝트에서 데이터를 가져오거나 Github에서 데이터를 수집하십시오.; Python 코드를 사용하여 사용자 정의 구성요소를 작성하십시오.; 원하는 데이터 품질을 모니터하도록 파이프라인을 조건화하십시오.; 플로우의 상태를 최신 상태로 유지하기 위해 이메일 또는 메시지를 발송하려면 웹훅을 사용하십시오.
시작하기: 새 파이프라인을 작성하려면 새 자산 > 파이프라인을 클릭하십시오.

데이터 시각화

데이터 시각화를 사용하여 데이터에서 인사이트를 발견합니다. 시각화를 사용하여 다른 관점에서 데이터를 탐색함으로써 해당 데이터 내에서 패턴, 연결 및 관계를 식별하고 대량의 정보를 빠르게 이해할 수 있습니다.

데이터 형식: 표 형식: Avro, CSV, JSON, Parquet, TSV, SAV, Microsoft Excel .xls 및 .xlsx 파일, SAS, 구분된 텍스트 파일 및 연결된 데이터. 지원되는 데이터 원본에 대한 자세한 정보는 커넥터를 참조하십시오.
데이터 크기: 한계 없음
시작하기: 시각화를 작성하려면 프로젝트의 자산 유형 목록에서 데이터 자산 을 클릭하고 데이터 자산을 선택하십시오. 시각화 탭을 클릭하고 차트 유형을 선택하십시오.
자세히 알아보기: 데이터 시각화

상위 주제: 프로젝트