Data Refinery 플로우 관리

Data Refinery 플로우는 데이터를 정리, 쉐이핑 및 향상하기 위한 순서화된 단계 집합입니다. 데이터 세트에 조작을 적용하여 데이터 정제를 사용하면 실시간으로 수정할 수 있고 나중에 사용할 수 있도록 저장할 수 있는 사용자 정의된 데이터 정제 플로우를 동적으로 빌드합니다.

Data Refinery 플로우 저장

Data Refinery 도구 모음에서 Data Refinery 플로우 저장 아이콘 저장 아이콘을(를) 클릭하여 Data Refinery 플로우를 저장하십시오. Data Refinery 플로우는 작업 중인 프로젝트에 저장됩니다. 나중에 계속해서 데이터 세트를 세분화할 수 있도록 Data Refinery 플로우를 저장하십시오.

Data Refinery 플로우의 기본 출력은 데이터 자산 파일 source-file-name_shaped.csv로 저장됩니다. 예를 들어, 소스 파일이 mydata.csv인 경우 Data Refinery 플로우의 기본 이름 및 출력은 mydata_csv_shaped입니다. 이름을 편집하고 Data Refinery 플로우의 대상 변경으로 확장자를 추가할 수 있습니다.

Data Refinery 플로우에 대한 작업 실행 또는 스케줄링

{: #jobs}Data Refinery는 세분화하는 데 시간이 걸리고 다루기 힘든 큰 데이터 세트를 지원합니다. 사용자가 신속하고 효율적으로 작업할 수 있도록 Data Refinery가 데이터 세트의 샘플 행 서브세트에서 작동됩니다. 샘플 크기는 1MB 또는 10,000행입니다. Data Refinery 플로우에 대한 작업을 실행할 때 전체 데이터 세트가 처리됩니다. 작업 실행 시에 런타임을 선택하고 1회용 또는 반복 스케줄을 추가할 수 있습니다.

Data Refinery에서, 데이터 정제 도구 모음에서 작업 아이콘 작업 아이콘 실행 또는 스케줄을(를) 클릭한 후 작업 저장 및 작성 또는 작업 저장 및 보기를 선택하십시오.

Data Refinery 플로우를 저장한 후에는 프로젝트 페이지에서 이를 위한 작업을 작성할 수도 있습니다. 자산 탭으로 이동하여 Data Refinery 플로우를 선택하고 오버플로우 메뉴에서 작업 작성을 선택하십시오(오버플로우 메뉴).

작업 세부사항을 보거나 작업을 편집하거나 실행하려면 관리 또는 편집기 역할이 있어야 합니다. 프로젝트의 뷰어 역할을 사용하여 작업 세부사항만 볼 수 있습니다.

작업에 대한 자세한 정보는 프로젝트의 작업을 참조하십시오.

작업을 계속하기 위해 Data Refinery 플로우 다시 열기

{: #reopen} Data Refinery 플로우를 다시 열고 데이터를 계속 정제하려면 프로젝트의 자산 탭으로 이동하십시오. Data Refinery 플로우 이름을 클릭하십시오.

Data Refinery 플로우 소스 변경

{: #change}Data Refinery 플로우의 소스를 변경합니다. 동일한 Data Refinery 플로우를 실행하지만 소스 데이터 세트가 다릅니다. Data Refinery의 단계 분할창에서 데이터 소스 옆에 있는 오버플로우 메뉴(오버플로우 메뉴)를 클릭하고 편집을 선택한 후 다른 소스 데이터 세트를 선택하십시오.
소스 편집

최상의 결과를 위해 새 데이터 세트에 원래 데이터 세트와 호환되는 스키마가 있어야 합니다(예: 열 이름, 열 수 및 데이터 유형). 새 데이터 세트에 다른 스키마가 있는 경우 스키마에 대해 작동하지 않는 조작은 오류를 표시합니다. 오퍼레이션을 편집 또는 삭제하거나 소스를 보다 호환 가능한 스키마가 있는 소스로 변경할 수 있습니다.

Data Refinery 플로우의 대상 변경

  1. Data Refinery에서 정보 분할창 정보 아이콘을(를) 열고 세부 사항 탭을 클릭하십시오.
  2. 편집 단추를 클릭하십시오.
  3. IDATA REFINERY 플로우 출력 분할창에서 편집 아이콘을 클릭하여 다음 특성을 변경하십시오.
  • 대상 위치 (대상 데이터 세트는 소스 데이터 세트와 다른 데이터 세트여야 함)
  • 데이터 자산 이름 및 설명
  • 관계형 데이터베이스 대상 전용: 기존 데이터 세트의 데이터 겹쳐쓰기 여부를 선택하십시오. (대상 데이터 세트가 관계형 데이터베이스에 없는 경우 대상 데이터는 항상 겹쳐쓰기됩니다.)
  • 파일 형식
  • 열 헤더 정보
  • 인코딩(UTF-8 또는 SJIS)

Data Refinery 플로우를 영역으로 승격

배치 영역은 프로젝트와는 별도의 환경에서 관련 자산 세트를 관리하는 데 사용됩니다. 영역을 사용하여 Watson Machine Learning의 배치 작업을 위한 데이터를 준비합니다. 여러 프로젝트의 Data Refinery 플로우를 단일 영역으로 승격할 수 있습니다. 영역에서 Data Refinery 플로우를 편집할 수 없으므로 승격하기 전에 Data Refinery 플로우의 단계를 완료하십시오.

공간으로의 Data Refinery 플로우를 승격하려면 프로젝트의 자산 탭으로 이동하여 Data Refinery 플로우에 대한 오버플로우 메뉴(오버플로우 메뉴)를 클릭한 후 승격을 선택하십시오. Data Refinery 플로우 및 기타 종속 데이터에 대한 소스 파일도 승격됩니다.

공간에서 Data Refinery 플로우에 대한 작업을 작성하거나 실행하려면, 공간의 자산 탭을 이동하고, Data Refinery 플로우로 화면이동한 후 오버플로우 메뉴에서 작업 작성(작업 아이콘 실행 또는 스케줄)을 선택하십시오(오버플로우 메뉴). 작업을 이미 작성한 경우 작업 탭으로 이동하여 작업을 편집하거나 작업 실행 세부사항을 보십시오. Data Refinery 플로우 작업의 모양 출력은 공간의 자산 탭에서 사용할 수 있습니다. 작업 세부사항을 보거나 작업을 편집하거나 실행하려면 관리 또는 편집기 역할이 있어야 합니다. 프로젝트의 뷰어 역할을 사용하면 작업 세부사항만 볼 수 있습니다. Watson Machine Learning에서 쉐이핑된 출력을 작업의 입력 데이터로 사용할 수 있습니다.

제한사항: 대상 연결된 데이터 자산을 수동으로 승격 프로젝트에서 공간으로 Data Refinery 플로우를 승격하고 Data Refinery 플로우의 대상이 연결된 데이터 자산인 경우, 연결된 데이터 자산을 수동으로 승격해야 합니다. 이 조치를 수행하면 공간에서 Data Refinery 플로우 작업을 실행할 때 연결된 데이터 자산의 데이터가 업데이트됩니다. 그렇지 않으면 Data Refinery 플로우 작업을 성공적으로 실행할 때 영역에 새 데이터 자산이 작성됩니다.

공백에 대한 정보는 배치 공간을 참조하십시오.

Data Refinery 플로우 제거

  1. Data Refinery에서 정보 분할창 정보 아이콘을(를) 열고 세부 사항 탭을 클릭하십시오.
  2. Data Refinery 이름 옆에 있는 편집 아이콘을 클릭하십시오.
  3. 정보 아이콘 저장을 클릭하십시오.

Data Refinery 플로우 복제

Data Refinery 플로우의 사본을 작성하려면 프로젝트로 이동하십시오. 자산 탭을 클릭하십시오. Data Refinery 플로우를 선택한 후 오버플로우 메뉴에서 복제를 선택하십시오(오버플로우 메뉴). Data Refinery 플로우가 Data Refinery 플로우 목록에 "original-name copy 1"로 추가됩니다.

Data Refinery 플로우 삭제

{: #remove}Data Refinery 플로우를 삭제하려면 프로젝트로 이동하십시오. 자산 탭을 클릭하십시오. Data Refinery 플로우를 선택한 후 오버플로우 메뉴에서 삭제를 선택하십시오(오버플로우 메뉴).

상위 주제: 데이터 정제