Data Refinery 플로우 관리 | IBM Cloud Pak for Data as a Service

최신 변환이 아님

이 페이지의 변환은 최신 버전을 나타내지 않습니다. 최신 업데이트는 영어 버전 문서를 참조하십시오.

영어 버전 문서로 돌아가기

Data Refinery 플로우 관리

Data Refinery 플로우는 데이터를 정리, 쉐이핑 및 향상하기 위한 순서화된 단계 집합입니다. 데이터 세트에 오퍼레이션을 적용 하여 데이터를 세분화 할 때 실시간으로 수정하고 나중에 사용할 수 있도록 저장할 수 있는 사용자 정의된 Data Refinery 플로우를 동적으로 빌드합니다.

다음은 데이터를 세분화하는 동안 수행할 수 있는 조치입니다.

Data Refinery 플로우에 대한 작업

Data Refinery 플로우 저장
Data Refinery 플로우에 대한 작업 실행 또는 스케줄
Data Refinery 플로우 이름 바꾸기

단계

단계 실행 취소 또는 다시 실행
단계 편집, 복제, 삽입 또는 삭제
"스냅샷 보기" 에서 Data Refinery 플로우 단계 보기
Data Refinery 플로우 데이터를 CSV 파일로 내보내기

데이터 세트에 대한 작업

Data Refinery 플로우 소스 변경
샘플 크기 편집
소스 특성 편집
Data Refinery 플로우의 대상 변경
대상 특성 편집
Data Refinery 플로우 대상의 이름 변경

프로젝트 페이지에 대한 조치

작업을 계속하기 위해 Data Refinery 플로우 다시 열기
Data Refinery 플로우 복제
Data Refinery 플로우 삭제
Data Refinery 플로우를 영역으로 승격

Data Refinery 플로우에 대한 작업

Data Refinery 플로우 저장

Data Refinery 도구 모음에서 Data Refinery 플로우 저장 아이콘 을 클릭하여 Data Refinery 플로우를 저장하십시오. Data Refinery 플로우는 작업 중인 프로젝트에 저장됩니다. 나중에 계속해서 데이터 세트를 세분화할 수 있도록 Data Refinery 플로우를 저장하십시오.

Data Refinery 플로우의 기본 출력은 데이터 자산 source-file-name_shaped.csv로 저장됩니다. 예를 들어, 소스 파일이 mydata.csv인 경우 Data Refinery 플로우의 기본 이름 및 출력은 mydata_csv_shaped입니다. 이름을 편집하고 Data Refinery 플로우의 대상 변경으로 확장자를 추가할 수 있습니다.

Data Refinery 플로우에 대한 작업 실행 또는 스케줄링

Data Refinery는 세분화하는 데 시간이 걸리고 다루기 힘든 큰 데이터 세트를 지원합니다. 사용자가 신속하고 효율적으로 작업할 수 있도록 Data Refinery가 데이터 세트의 샘플 행 서브세트에서 작동됩니다. 샘플 크기는 1MB 또는 10,000행입니다. Data Refinery 플로우에 대한 작업을 실행할 때 전체 데이터 세트가 처리됩니다. 작업 실행 시에 런타임을 선택하고 1회용 또는 반복 스케줄을 추가할 수 있습니다.

Data Refinery의 Data Refinery 도구 모음에서 작업 아이콘 작업 실행 또는 스케줄 아이콘 을 클릭한 후 작업 저장 및 작성 또는 작업 저장 및 보기를 선택하십시오.

Data Refinery 플로우를 저장한 후에는 프로젝트 페이지에서 이를 위한 작업을 작성할 수도 있습니다. 자산 탭으로 이동하여 Data Refinery 플로우를 선택하고 오버플로우 메뉴 () 에서 새 작업 을 선택하십시오.

작업 세부사항을 보거나 작업을 편집하거나 실행하려면 관리 또는 편집기 역할이 있어야 합니다. 프로젝트의 뷰어 역할을 사용하여 작업 세부사항만 볼 수 있습니다.

작업에 대한 자세한 정보는 Data Refinery에서 작업 작성을 참조하십시오.

Data Refinery 플로우 제거

Data Refinery 도구 모음에서 정보 분할창 정보 아이콘 을 여십시오. 또는 플로우 설정 설정 아이콘 을 열고 일반 탭으로 이동하십시오.

단계

단계 실행 취소 또는 다시 실행

도구 모음에서 실행 취소 ( 실행 취소 아이콘 ) 아이콘 또는 다시 실행 ( 다시 실행 아이콘 ) 아이콘을 클릭하십시오.

단계 편집, 복제, 삽입 또는 삭제

단계 분할창에서 변경하려는 조작에 대한 단계에서 오버플로우 메뉴 () 를 클릭하십시오. 조치 (편집, 복제, 앞에 단계 삽입, 뒤에 단계 삽입또는 삭제) 를 선택하십시오.

편집을 선택하면 Data Refinery 가 편집 모드로 전환되고 명령행 또는 오퍼레이션 분할창에 편집할 오퍼레이션을 표시합니다. 편집된 오퍼레이션을 적용하십시오.

복제를 선택하면 복제된 단계가 선택된 단계 뒤에 삽입됩니다.

참고:

중복 조치는 결합 또는 결합 조작에 사용할 수 없습니다.

Data Refinery 는 Data Refinery 플로우를 업데이트하여 변경사항을 반영하고 모든 오퍼레이션을 다시 실행합니다.

"스냅샷 보기" 에서 Data Refinery 플로우 단계 보기

특정 시점에서 데이터가 어떻게 보이는지 확인하려면 이전 단계를 클릭하여 Data Refinery를 스냅샷 보기에 넣으십시오. 예를 들어, 데이터 소스를 클릭하면 세분화를 시작하기 전에 데이터가 표시되는 모양을 볼 수 있습니다. 오퍼레이션 단계를 클릭하면 해당 오퍼레이션이 적용된 후 데이터가 어떻게 보이는지 확인할 수 있습니다. 스냅샷 보기를 종료하려면 y의 x단계 보기 를 클릭하거나 스냅샷 보기로 들어가도록 선택한 동일한 단계를 클릭하십시오.

Data Refinery 플로우 데이터를 CSV 파일로 내보내기

Data Refinery 플로우 작업을 저장하거나 실행하지 않고 Data Refinery 플로우의 현재 단계에서 CSV 파일로 데이터를 내보내려면 도구 모음에서 내보내기 ( 내보내기 아이콘 ) 를 클릭하십시오. 예를 들어, 진행 중인 Data Refinery 플로우의 빠른 출력을 원하는 경우 이 옵션을 사용하십시오. 데이터를 내보내면 CSV 파일이 작성되어 Data Refinery 플로우의 현재 단계에서 컴퓨터의 Downloads 폴더 (또는 사용자 지정 다운로드 위치) 에 다운로드됩니다. 스냅샷 보기에 있는 경우 CSV 파일의 출력은 클릭한 단계에 있습니다. 데이터의 샘플 (서브세트) 을 보는 경우 샘플 데이터만 출력에 표시됩니다.

데이터 세트에 대한 작업

Data Refinery 플로우 소스 변경

Data Refinery 플로우의 소스를 변경합니다. 동일한 Data Refinery 플로우를 실행하지만 소스 데이터 세트가 다릅니다. 소스를 변경할 수 있는 두 가지 방법이 있습니다.

단계 분할창에서 데이터 소스옆에 있는 오버플로우 메뉴 () 를 클릭하고 편집을 선택한 후 다른 소스 데이터 세트를 선택하십시오.
플로우 설정에서: 동일한 위치에서 둘 이상의 데이터 소스를 변경하려는 경우 이 방법을 사용할 수 있습니다. 예를 들어, 결합 또는 결합 조작의 경우입니다. 도구 모음에서 플로우 설정 을 여십시오. 소스 데이터 세트 탭으로 이동하여 데이터 소스 옆에 있는 오버플로우 메뉴 () 를 클릭하십시오. 데이터 소스 바꾸기를 선택한 후 다른 소스 데이터 세트를 선택하십시오.

최상의 결과를 위해 새 데이터 세트에 원래 데이터 세트와 호환되는 스키마가 있어야 합니다(예: 열 이름, 열 수 및 데이터 유형). 새 데이터 세트에 다른 스키마가 있는 경우 스키마에 대해 작동하지 않는 조작은 오류를 표시합니다. 오퍼레이션을 편집 또는 삭제하거나 소스를 보다 호환 가능한 스키마가 있는 소스로 변경할 수 있습니다.

샘플 크기 편집

Data Refinery 플로우에 대한 작업을 실행할 때 전체 데이터 세트에서 오퍼레이션이 수행됩니다. 그러나 Data Refinery에서 대화식으로 오퍼레이션을 적용할 때 데이터 세트의 크기에 따라 데이터의 샘플만 표시됩니다.

Data Refinery 플로우 작업의 결과에 더 가까운 결과를 보려면 샘플 크기를 늘리십시오. 그러나 Data Refinery에서 결과를 보는 데 시간이 더 오래 걸릴 수 있습니다. 최대값은 10 ,000개 행 또는 1MB중 먼저 오는 행의 최상위 행 수입니다. 더 빠른 결과를 보려면 샘플 크기를 줄이십시오. 데이터의 크기와 조작의 수 및 복잡도에 따라 샘플 크기를 실험하여 데이터 세트에 가장 적합한 것을 확인할 수 있습니다.

도구 모음에서 플로우 설정 설정 아이콘 을 여십시오. 소스 데이터 세트 탭으로 이동하여 데이터 소스 옆에 있는 오버플로우 메뉴 () 를 클릭하고 샘플 편집을 선택하십시오.

소스 특성 편집

사용 가능한 특성은 데이터 소스에 따라 다릅니다. 데이터 자산 및 다른 종류의 연결에서 데이터에 대해 다른 특성을 사용할 수 있습니다. 추론된 파일 형식이 올바르지 않은 경우에만 파일 형식을 변경하십시오. 파일 형식을 변경하면 소스는 새 형식으로 읽혀지지만 소스 파일은 변경되지 않습니다. 형식 소스 특성 변경은 반복 프로세스일 수 있습니다. 옵션을 적용한 후 데이터를 조사하십시오.

도구 모음에서 플로우 설정 설정 아이콘 을 여십시오. 소스 데이터 세트 탭으로 이동하여 데이터 소스 옆에 있는 오버플로우 메뉴 () 를 클릭하고 형식 편집을 선택하십시오.

중요: 소스 특성을 편집하는 경우 주의하십시오. 올바르지 않은 선택사항은 데이터를 읽거나 Data Refinery 플로우 작업을 손상시킬 때 예기치 않은 결과를 생성할 수 있습니다. Data Refinery 플로우의 결과를 주의깊게 검사하십시오.

Data Refinery 플로우의 대상 변경

기본적으로 Data Refinery 의 대상은 작업 중인 프로젝트에서 데이터 자산으로 저장됩니다.

대상 위치를 변경하려면 도구 모음에서 플로우 설정 설정 아이콘 을 여십시오. 대상 데이터 세트 탭으로 이동하여 대상 선택을 클릭하고 다른 대상 위치를 선택하십시오.

대상 특성 편집

사용 가능한 특성은 데이터 소스에 따라 다릅니다. 데이터 자산 및 다른 종류의 연결에서 데이터에 대해 다른 특성을 사용할 수 있습니다.

대상 데이터 세트의 특성을 변경하려면 도구 모음에서 플로우 설정 설정 아이콘 를 여십시오. 대상 데이터 세트 탭으로 이동하여 특성 편집을 클릭하십시오.

Data Refinery 플로우 대상의 이름 변경

대상 데이터 세트의 이름은 대상 특성을 편집할 때 변경할 수 있는 필드에 포함됩니다.

기본적으로 Data Refinery 의 대상은 프로젝트에서 데이터 자산 source-file-name_shaped.csv 로 저장됩니다. 예를 들어, 소스가 mydata.csv인 경우 Data Refinery 플로우의 기본 이름 및 출력은 데이터 자산 mydata_csv_shaped입니다.

연결의 대상 데이터 세트에는 여러 특성 및 이름 지정 규칙이 적용됩니다. 예를 들어, 데이터 세트가 Cloud Object Storage에 있는 경우 데이터 세트는 버킷 및 파일 이름 필드에서 식별됩니다. 데이터 세트가 Db2 데이터베이스에 있는 경우, 데이터 세트는 스키마 이름 및 테이블 이름 필드에서 식별됩니다.

중요: 대상 특성을 편집하는 경우 주의하십시오. 올바르지 않은 선택사항은 예기치 않은 결과를 생성하거나 Data Refinery 플로우 작업을 손상시킬 수 있습니다. Data Refinery 플로우의 결과를 주의깊게 검사하십시오.

프로젝트 페이지의 조치

작업을 계속하기 위해 Data Refinery 플로우 다시 열기

Data Refinery 플로우를 다시 열어 데이터 세분화를 계속하려면 프로젝트의 자산 탭으로 이동하십시오. 자산 유형아래에서 플로우를 펼치고 Data Refinery 플로우를 클릭하십시오. Data Refinery 플로우 이름을 클릭하십시오.

Data Refinery 플로우 복제

Data Refinery 플로우의 사본을 작성하려면 프로젝트의 자산 탭으로 이동하여 플로우를 펼치고 Data Refinery 플로우를 클릭하십시오. Data Refinery 플로우를 선택한 후 오버플로우 메뉴 () 에서 복제 를 선택하십시오. Data Refinery 플로우가 "original-name copy 1" 로 Data Refinery 플로우 목록에 추가됩니다.

Data Refinery 플로우 삭제

Data Refinery 플로우를 삭제하려면 프로젝트의 자산 탭으로 이동하여 플로우를 펼치고 Data Refinery 플로우를 클릭하십시오. Data Refinery 플로우를 선택한 후 오버플로우 메뉴 () 에서 삭제 를 선택하십시오.

Data Refinery 플로우를 영역으로 승격

배치 영역은 프로젝트와는 별도의 환경에서 관련 자산 세트를 관리하는 데 사용됩니다. 영역을 사용하여 Watson Machine Learning의 배치 작업을 위한 데이터를 준비합니다. 여러 프로젝트의 Data Refinery 플로우를 단일 영역으로 승격할 수 있습니다. 영역에서 Data Refinery 플로우를 편집할 수 없으므로 승격하기 전에 Data Refinery 플로우의 단계를 완료하십시오.

Data Refinery 플로우를 영역으로 승격하려면 프로젝트의 자산 탭으로 이동하여 플로우를 펼치고 Data Refinery 플로우를 클릭하십시오. Data Refinery 플로우를 선택하십시오. Data Refinery 플로우에 대한 오버플로우 메뉴 () 를 클릭한 후 승격을 선택하십시오. Data Refinery 플로우 및 기타 종속 데이터에 대한 소스 파일도 승격됩니다.

영역에서 Data Refinery 플로우에 대한 작업을 작성하거나 실행하려면 영역의 자산 탭으로 이동하여 Data Refinery 플로우로 아래로 스크롤하고 오버플로우 메뉴 () 에서 새 작업 ( 작업 실행 또는 스케줄 아이콘 ) 을 선택하십시오. 이미 작업을 작성한 경우 작업 탭으로 이동하여 작업을 편집하거나 작업 실행 세부사항을 보십시오. Data Refinery 플로우 작업의 모양 출력은 공간의 자산 탭에서 사용할 수 있습니다. 작업 세부사항을 보거나 작업을 편집하거나 실행하려면 관리 또는 편집기 역할이 있어야 합니다. 프로젝트의 뷰어 역할을 사용하면 작업 세부사항만 볼 수 있습니다. Watson Machine Learning에서 쉐이핑된 출력을 작업의 입력 데이터로 사용할 수 있습니다.

제한사항:

Data Refinery 플로우를 프로젝트에서 영역으로 승격하고 Data Refinery 플로우의 대상이 연결된 데이터 자산인 경우 연결된 데이터 자산을 수동으로 승격해야 합니다. 이 조치를 수행하면 공간에서 Data Refinery 플로우 작업을 실행할 때 연결된 데이터 자산의 데이터가 업데이트됩니다. 그렇지 않으면 Data Refinery 플로우 작업을 성공적으로 실행할 때 영역에 새 데이터 자산이 작성됩니다.

공백에 대한 정보는 배치 공간을 참조하십시오.

상위 주제: 데이터 정제