Data Refinery 플로우는 데이터를 정리, 쉐이핑 및 향상하기 위한 순서화된 단계 집합입니다. 데이터 세트에 오퍼레이션을 적용 하여 데이터를 세분화 할 때 실시간으로 수정하고 나중에 사용할 수 있도록 저장할 수 있는 사용자 정의된 Data Refinery 플로우를 동적으로 빌드합니다.
다음은 데이터를 세분화하는 동안 수행할 수 있는 조치입니다.
Data Refinery 플로우에 대한 작업
단계
- 단계 실행 취소 또는 다시 실행
- 단계 편집, 복제, 삽입 또는 삭제
- "스냅샷 보기" 에서 Data Refinery 플로우 단계 보기
- Data Refinery 플로우 데이터를 CSV 파일로 내보내기
데이터 세트에 대한 작업
- Data Refinery 플로우 소스 변경
- 샘플 크기 편집
- 소스 특성 편집
- Data Refinery 플로우의 대상 변경
- 대상 특성 편집
- Data Refinery 플로우 대상의 이름 변경
프로젝트 페이지에 대한 조치
- 작업을 계속하기 위해 Data Refinery 플로우 다시 열기
- Data Refinery 플로우 복제
- Data Refinery 플로우 삭제
- Data Refinery 플로우를 영역으로 승격
- 프로젝트 자산과 함께 Data Refinery 흐름 데이터 내보내기
Data Refinery 플로우에 대한 작업
Data Refinery 플로우 저장
Data Refinery 도구 모음에서 저장 Data Refinery 흐름 아이콘 을 클릭하여 데이터 정제소 흐름을 저장합니다. Data Refinery 플로우는 작업 중인 프로젝트에 저장됩니다. 나중에 계속해서 데이터 세트를 세분화할 수 있도록 Data Refinery 플로우를 저장하십시오.
Data Refinery 플로우의 기본 출력은 데이터 자산 source-file-name_shaped.csv로 저장됩니다. 예를 들어, 소스 파일이 mydata.csv
인 경우 Data Refinery 플로우의 기본 이름 및 출력은 mydata_csv_shaped
입니다. 이름을 편집하고 Data Refinery 플로우의 대상 변경으로 확장자를 추가할 수 있습니다.
Data Refinery 플로우에 대한 작업 실행 또는 스케줄링
Data Refinery는 세분화하는 데 시간이 걸리고 다루기 힘든 큰 데이터 세트를 지원합니다. 사용자가 신속하고 효율적으로 작업할 수 있도록 Data Refinery가 데이터 세트의 샘플 행 서브세트에서 작동됩니다. 샘플 크기는 1MB 또는 10,000행입니다. Data Refinery 플로우에 대한 작업을 실행할 때 전체 데이터 세트가 처리됩니다. 작업 실행 시에 런타임을 선택하고 1회용 또는 반복 스케줄을 추가할 수 있습니다.
Data Refinery의 Data Refinery 도구 모음에서 작업 아이콘 을 클릭한 다음 작업 저장 및 생성 또는 작업 저장 및 보기를 선택합니다.
Data Refinery 플로우를 저장한 후에는 프로젝트 페이지에서 이를 위한 작업을 작성할 수도 있습니다. 자산 탭으로 이동하여 Data Refinery 플로우를 선택하고, 오버플로 아이콘 에서 새 작업를 선택합니다.
작업 세부사항을 보거나 작업을 편집하거나 실행하려면 관리 또는 편집기 역할이 있어야 합니다. 프로젝트의 뷰어 역할을 사용하여 작업 세부사항만 볼 수 있습니다.
작업에 대한 자세한 정보는 Data Refinery에서 작업 작성을 참조하십시오.
Data Refinery 플로우 제거
Data Refinery 도구 모음에서 정보 창 을 엽니다. 또는 흐름 설정 아이콘 을 클릭하고 일반 탭으로 이동합니다.
단계
단계 실행 취소 또는 다시 실행
도구 모음에서 실행 취소 아이콘 또는 다시 실행 아이콘 을 클릭합니다.
단계 편집, 복제, 삽입 또는 삭제
단계 창에서 변경하려는 작업의 단계에 있는 오버플로 아이콘 을 클릭합니다. 조치 (편집, 복제, 앞에 단계 삽입, 뒤에 단계 삽입또는 삭제) 를 선택하십시오.
편집을 선택하면 Data Refinery 가 편집 모드로 전환되고 명령행 또는 오퍼레이션 분할창에 편집할 오퍼레이션을 표시합니다. 편집된 오퍼레이션을 적용하십시오.
복제를 선택하면 복제된 단계가 선택된 단계 뒤에 삽입됩니다.
중복 조치는 결합 또는 결합 조작에 사용할 수 없습니다.
Data Refinery 는 Data Refinery 플로우를 업데이트하여 변경사항을 반영하고 모든 오퍼레이션을 다시 실행합니다.
"스냅샷 보기" 에서 Data Refinery 플로우 단계 보기
특정 시점에서 데이터가 어떻게 보이는지 확인하려면 이전 단계를 클릭하여 Data Refinery를 스냅샷 보기에 넣으십시오. 예를 들어, 데이터 소스를 클릭하면 세분화를 시작하기 전에 데이터가 표시되는 모양을 볼 수 있습니다. 오퍼레이션 단계를 클릭하면 해당 오퍼레이션이 적용된 후 데이터가 어떻게 보이는지 확인할 수 있습니다. 스냅샷 보기를 종료하려면 y의 x단계 보기 를 클릭하거나 스냅샷 보기로 들어가도록 선택한 동일한 단계를 클릭하십시오.
Data Refinery 플로우 데이터를 CSV 파일로 내보내기
도구 모음에서 내보내기 아이콘 을 클릭하여 Data Refinery 흐름 작업을 저장하거나 실행하지 않고 현재 단계의 데이터를 CSV 파일로 내보내려면 Data Refinery 흐름에서 데이터를 내보냅니다. 예를 들어, 진행 중인 Data Refinery 플로우의 빠른 출력을 원하는 경우 이 옵션을 사용하십시오. 데이터를 내보내면 CSV 파일이 작성되어 Data Refinery 플로우의 현재 단계에서 컴퓨터의 Downloads 폴더 (또는 사용자 지정 다운로드 위치) 에 다운로드됩니다. 스냅샷 보기에 있는 경우 CSV 파일의 출력은 클릭한 단계에 있습니다. 데이터의 샘플 (서브세트) 을 보는 경우 샘플 데이터만 출력에 표시됩니다.
CSV 파일에 입력 필드에 악성 페이로드(예: 수식)가 포함되어 있는 경우 이러한 항목이 실행될 수 있습니다.
프로젝트 에셋을 내보내서 Data Refinery 플로우를 내보낼 수도 있습니다. 자세한 내용은 프로젝트 에셋 내보내기를 참조하세요.
데이터 세트에 대한 작업
Data Refinery 플로우 소스 변경
Data Refinery 플로우의 소스를 변경합니다. 동일한 Data Refinery 플로우를 실행하지만 소스 데이터 세트가 다릅니다. 소스를 변경할 수 있는 두 가지 방법이 있습니다.
단계 창에서 데이터 원본 옆의 오버플로 아이콘 ' '을 클릭하고 편집을 선택한 다음 다른 원본 데이터 집합을 선택합니다.
' '플로우 설정에서: 동일한 위치에서 둘 이상의 데이터 소스를 변경하려는 경우 이 방법을 사용할 수 있습니다. 예를 들어, 결합 또는 결합 조작의 경우입니다. 도구 모음에서 플로우 설정 아이콘 ' '을 클릭합니다. 소스 데이터 집합 탭으로 이동하여 데이터 원본 옆에 있는 오버플로 아이콘 ' '을 클릭합니다. 데이터 소스 바꾸기를 선택한 후 다른 소스 데이터 세트를 선택하십시오.
최상의 결과를 위해 새 데이터 세트에 원래 데이터 세트와 호환되는 스키마가 있어야 합니다(예: 열 이름, 열 수 및 데이터 유형). 새 데이터 세트에 다른 스키마가 있는 경우 스키마에 대해 작동하지 않는 조작은 오류를 표시합니다. 오퍼레이션을 편집 또는 삭제하거나 소스를 보다 호환 가능한 스키마가 있는 소스로 변경할 수 있습니다.
대상에 대한 연결을 선택하는 경우, Data Refinery 지원되는 데이터 소스 목록에 있는 연결만 사용할 수 있습니다.
샘플 크기 편집
Data Refinery 플로우에 대한 작업을 실행할 때 전체 데이터 세트에서 오퍼레이션이 수행됩니다. 그러나 Data Refinery에서 대화식으로 오퍼레이션을 적용할 때 데이터 세트의 크기에 따라 데이터의 샘플만 표시됩니다.
Data Refinery 플로우 작업의 결과에 더 가까운 결과를 보려면 샘플 크기를 늘리십시오. 그러나 Data Refinery에서 결과를 보는 데 시간이 더 오래 걸릴 수 있습니다. 최대값은 10 ,000개 행 또는 1MB중 먼저 오는 행의 최상위 행 수입니다. 더 빠른 결과를 보려면 샘플 크기를 줄이십시오. 데이터의 크기와 조작의 수 및 복잡도에 따라 샘플 크기를 실험하여 데이터 세트에 가장 적합한 것을 확인할 수 있습니다.
도구 모음에서 플로우 설정 아이콘 ' '을 클릭합니다. 소스 데이터 집합 탭으로 이동하여 데이터 원본 옆에 있는 오버플로 아이콘 ' '을 클릭하고 샘플 편집을 선택합니다.
소스 특성 편집
사용 가능한 특성은 데이터 소스에 따라 다릅니다. 데이터 자산 및 다른 종류의 연결에서 데이터에 대해 다른 특성을 사용할 수 있습니다. 추론된 파일 형식이 올바르지 않은 경우에만 파일 형식을 변경하십시오. 파일 형식을 변경하면 소스는 새 형식으로 읽혀지지만 소스 파일은 변경되지 않습니다. 형식 소스 특성 변경은 반복 프로세스일 수 있습니다. 옵션을 적용한 후 데이터를 조사하십시오.
도구 모음에서 플로우 설정 아이콘 ' '을 클릭합니다. 소스 데이터 집합 탭으로 이동하여 데이터 원본 옆에 있는 오버플로 아이콘 ' '을 클릭하고 형식 편집을 선택합니다.
Data Refinery 플로우의 대상 변경
기본적으로 Data Refinery 의 대상은 작업 중인 프로젝트에서 데이터 자산으로 저장됩니다.
대상 위치를 변경하려면 도구 모음에서 플로우 설정 아이콘 ' '을 클릭합니다. 대상 데이터 세트 탭으로 이동하여 대상 선택을 클릭하고 다른 대상 위치를 선택하십시오.
대상에 대한 연결을 선택하는 경우, Data Refinery 지원되는 데이터 소스 목록에 있는 연결만 사용할 수 있습니다. 이러한 연결 중 일부는 Data Refinery 흐름의 소스로만 사용할 수 있습니다.
대상 특성 편집
사용 가능한 특성은 데이터 소스에 따라 다릅니다. 데이터 자산 및 다른 종류의 연결에서 데이터에 대해 다른 특성을 사용할 수 있습니다.
대상 데이터 집합의 속성을 변경하려면 도구 모음에서 흐름 설정 아이콘 ' '을 클릭합니다. 대상 데이터 세트 탭으로 이동하여 특성 편집을 클릭하십시오.
Data Refinery 플로우 대상의 이름 변경
대상 데이터 세트의 이름은 대상 특성을 편집할 때 변경할 수 있는 필드에 포함됩니다.
기본적으로 Data Refinery 의 대상은 프로젝트에서 데이터 자산 source-file-name_shaped.csv 로 저장됩니다. 예를 들어, 소스가 mydata.csv
인 경우 Data Refinery 플로우의 기본 이름 및 출력은 데이터 자산 mydata_csv_shaped
입니다.
연결의 대상 데이터 세트에는 여러 특성 및 이름 지정 규칙이 적용됩니다. 예를 들어, 데이터 세트가 Cloud Object Storage에 있는 경우 데이터 세트는 버킷 및 파일 이름 필드에서 식별됩니다. 데이터 세트가 Db2 데이터베이스에 있는 경우, 데이터 세트는 스키마 이름 및 테이블 이름 필드에서 식별됩니다.
자세한 내용은 Target 연결 옵션을 참조하십시오.
프로젝트 페이지의 조치
작업을 계속하기 위해 Data Refinery 플로우 다시 열기
Data Refinery 플로우를 다시 열어 데이터 세분화를 계속하려면 프로젝트의 자산 탭으로 이동하십시오. 자산 유형아래에서 플로우를 펼치고 Data Refinery 플로우를 클릭하십시오. Data Refinery 플로우 이름을 클릭하십시오.
Data Refinery 플로우 복제
Data Refinery 플로우의 사본을 작성하려면 프로젝트의 자산 탭으로 이동하여 플로우를 펼치고 Data Refinery 플로우를 클릭하십시오. Data Refinery 흐름을 선택한 다음 오버플로 아이콘 ' '에서 복제를 선택합니다. Data Refinery 플로우가 Data Refinery 플로우 목록에 "original-name copy 1"로 추가됩니다.
Data Refinery 플로우 삭제
Data Refinery 플로우를 삭제하려면 프로젝트의 자산 탭으로 이동하여 플로우를 펼치고 Data Refinery 플로우를 클릭하십시오. Data Refinery 흐름을 선택한 다음, 오버플로 아이콘 ' '에서 삭제를 선택합니다.
Data Refinery 플로우를 영역으로 승격
배치 영역은 프로젝트와는 별도의 환경에서 관련 자산 세트를 관리하는 데 사용됩니다. 공간을 사용하여 watsonx.ai Runtime의 배포 작업을 위한 데이터를 준비합니다. 여러 프로젝트의 Data Refinery 플로우를 단일 영역으로 승격할 수 있습니다. 영역에서 Data Refinery 플로우를 편집할 수 없으므로 승격하기 전에 Data Refinery 플로우의 단계를 완료하십시오.
Data Refinery 플로우를 영역으로 승격하려면 프로젝트의 자산 탭으로 이동하여 플로우를 펼치고 Data Refinery 플로우를 클릭하십시오. Data Refinery 플로우를 선택하십시오. Data Refinery 흐름의 오버플로 아이콘 ' '을 클릭한 다음 승격을 선택합니다. Data Refinery 플로우 및 기타 종속 데이터에 대한 소스 파일도 승격됩니다.
스페이스에서 Data Refinery 흐름에 대한 작업을 만들거나 실행하려면 스페이스의 자산 탭으로 이동하여 Data Refinery 흐름까지 아래로 스크롤한 다음 오버플로 아이콘 ' '에서 새 작업 아이콘 ' '을 클릭합니다. 작업을 이미 작성한 경우 작업 탭으로 이동하여 작업을 편집하거나 작업 실행 세부사항을 보십시오. Data Refinery 플로우 작업의 모양 출력은 공간의 자산 탭에서 사용할 수 있습니다. 작업 세부사항을 보거나 작업을 편집하거나 실행하려면 관리 또는 편집기 역할이 있어야 합니다. 프로젝트의 뷰어 역할을 사용하면 작업 세부사항만 볼 수 있습니다. 모양이 지정된 출력은 watsonx.ai 런타임에서 작업의 입력 데이터로 사용할 수 있습니다.
Data Refinery 플로우를 프로젝트에서 영역으로 승격하고 Data Refinery 플로우의 대상이 연결된 데이터 자산인 경우 연결된 데이터 자산을 수동으로 승격해야 합니다. 이 조치를 수행하면 공간에서 Data Refinery 플로우 작업을 실행할 때 연결된 데이터 자산의 데이터가 업데이트됩니다. 그렇지 않으면 Data Refinery 플로우 작업을 성공적으로 실행할 때 영역에 새 데이터 자산이 작성됩니다.
공백에 대한 정보는 배치 공간을 참조하십시오.
프로젝트 에셋과 함께 Data Refinery 흐름 데이터 내보내기
프로젝트 에셋을 내보내서 Data Refinery 플로우를 내보낼 수도 있습니다. 자세한 내용은 프로젝트 에셋 내보내기를 참조하세요.
상위 주제: 데이터 정제