데이터 통합 유스 케이스
볼륨의 유입 및 서로 다른 데이터 소스에 대처하기 위해 엔터프라이즈는 데이터 통합 프로세스에 자동화 및 인텔리전스를 구축해야 합니다. Cloud Pak for Data as a Service 은 분산된 환경에서 데이터를 동적으로 지능적으로 조정하여 데이터 소비자에게 즉시 사용 가능한 정보의 고성능 네트워크를 생성하는 플랫폼 및 도구를 제공합니다.
이 비디오를 보면 Cloud Pak for Data에서 데이터 통합 솔루션을 구현하는 데 필요한 데이터 패브릭 유스 케이스를 확인할 수 있습니다.
이 비디오는 이 문서에서 개념 및 태스크를 학습하는 시각적 방법을 제공합니다.
해결 과제
데이터 유형 및 볼륨이 증가함에 따라 엔터프라이즈는 다음과 같은 데이터 통합 문제에 직면합니다.
- 엔터프라이즈에서 데이터 가져오기
- 프로세스는 데이터가 사내 구축 환경, 클라우드 또는 하이브리드 환경에 상주하는지 여부에 관계없이 임의의 애플리케이션 또는 시스템에서 데이터를 수집할 수 있어야 합니다.
- 여러 소스에서 데이터 통합
- 데이터 엔지니어는 여러 데이터 소스의 데이터를 하나의 파일 또는 가상 테이블로 단일 데이터 세트로 결합할 수 있어야 합니다.
- 사용자가 데이터를 사용할 수 있도록 설정
- 데이터 엔지니어는 각 통합 데이터 세트를 단일 카탈로그에 게시할 수 있어야 하며 데이터를 이용해야 하는 모든 사용자는 이에 대한 셀프 서비스 액세스 권한이 있어야 합니다.
이러한 과제를 해결하고 Cloud Pak for Data as a Service을 사용하여 데이터를 통합할 수 있습니다.
예제: 골든 뱅크의 과제
데이터 엔지니어링 팀이 데이터 통합을 구현하기 때문에 골든 뱅크의 사례를 따르십시오. 골든 뱅크에는 세 개의 외부 데이터 소스에 저장된 많은 양의 고객 및 모기지 데이터가 있습니다. 렌더는 이 정보를 사용하여 모기지 애플리케이션을 승인 또는 거부해야 하는지 여부를 결정하는 데 도움이 됩니다. 은행은 다른 소스의 데이터를 통합한 후 변환된 데이터를 공유할 수 있는 단일 출력 파일로 전달하려고 합니다.
프로세스
엔터프라이즈에 대한 데이터 통합 솔루션을 구현하기 위해 조직은 다음 프로세스를 따를 수 있습니다.
Cloud Pak for Data as a Service 의 DataStage, Watson Query, Data Replication및 Watson Knowledge Catalog 서비스는 조직에서 데이터 통합 솔루션을 구현하는 데 필요한 모든 도구 및 프로세스를 제공합니다.
1. 데이터 통합
Cloud Pak for Data as a Service를 통해 데이터 엔지니어는 워크로드 및 데이터 정책을 사용하여 데이터 통합을 최적화하고 데이터를 효율적으로 액세스하고 작업하며 데이터가 단일 데이터 소스에서 온 것처럼 다양한 소스, 유형 및 클라우드에서 가상화된 데이터를 결합할 수 있습니다. 프로세스의 이 단계에서 원시 데이터는 추출, 수집, 가상화된 및 사용 가능하고 고품질의 데이터로 변환되며, 이 데이터는 탐색하고 AI 수명 주기에서 조정할 수 있는 고품질의 데이터로 변환됩니다.
당신이 사용할 수 있는 것 | 수행할 수 있는 작업 | 다음 경우에 사용 |
---|---|---|
Watson Query | 여러 데이터 소스를 하나로 조회합니다. 데이터 엔지니어는 다양한 관계형 데이터 소스의 데이터를 결합, 결합 또는 필터링할 수 있는 가상 데이터 테이블을 작성할 수 있습니다. 데이터 엔지니어는 결과 조합된 데이터를 카탈로그에서 데이터 자산으로 사용 가능하게 할 수 있습니다. 예를 들어, 결합된 데이터를 사용하여 대시보드, 노트북 및 플로우를 피드하여 데이터를 탐색할 수 있습니다. |
여러 소스의 데이터를 결합하여 뷰를 생성해야 합니다. 카탈로그에서 데이터 자산으로 사용 가능한 결합된 데이터를 작성해야 합니다. |
DataStage | 데이터 엔지니어는 데이터를 이동하고 변환하는 복합 ETL 데이터 파이프라인을 설계하고 실행할 수 있습니다. | 복잡한 데이터 플로우를 설계하고 실행해야 합니다. 플로우는 대량의 데이터를 처리하고 광범위한 데이터 소스에 연결하여 데이터를 통합 및 변환하고 이를 배치 또는 실시간으로 대상 시스템에 전달해야 합니다. |
Data Refinery | 다양한 데이터 소스 연결에서 데이터를 액세스 및 세분화합니다. 결과 데이터 세트를 데이터 과학자가 분석하고 탐색하는 데 사용할 수 있도록 데이터를 결합, 결합, 필터 또는 마스크할 수 있는 스냅샷으로 구체화합니다. 결과 데이터 세트를 카탈로그에서 사용할 수 있도록 합니다. |
데이터를 쉐이프하거나 정리하려면 데이터를 시각화해야 합니다. 분석을 위해 많은 양의 원시 데이터를 준비하는 프로세스를 단순화하려고 합니다. |
Data Replication | 여러 사이트에서 데이터 통합 워크로드를 분배하십시오. 데이터의 지속적인 가용성을 제공합니다. |
데이터가 여러 사이트에 분산되어 있습니다. 지속적으로 사용할 수 있도록 데이터가 필요합니다. |
예제: 골든 뱅크의 데이터 통합
골든 뱅크의 리스크 분석가들은 각 신용 점수 범위에 대한 대출자들에게 제공하는 것을 추천하는 일일 금리를 계산한다. 데이터 엔지니어는 DataStage 하여 모기지 신청자의 개인 식별 정보와 함께 익명화된 모기지 애플리케이션 데이터를 집계합니다. DataStage 각 신청자의 신용 점수 정보, 신청자의 총 부채 및 금리 찾아보기 테이블을 포함하여 이 정보를 통합합니다. 그런 다음 데이터 엔지니어는 카탈로그에 공개할 수 있고 대부 및 분석가가 사용할 수 있는 대상 출력 .csv 파일에 데이터를 로드합니다.
데이터 수명 주기 자동화하기
팀은 Watson Pipelines으로 데이터 라이프사이클을 자동화하고 단순화할 수 있습니다.
당신이 사용할 수 있는 것 | 수행할 수 있는 작업 | 다음 경우에 사용 |
---|---|---|
Watson Pipelines | 파이프라인을 사용하여 데이터 수집 및 통합을 자동화하는 반복 가능하고 스케줄된 플로우를 작성하십시오. | 데이터 통합 플로우의 일부 또는 모든 단계를 자동화하려고 합니다. |
예제: 골든 은행의 자동화된 데이터 수명 주기
골든 뱅크의 데이터 과학자는 파이프라인을 사용하여 데이터 통합 라이프사이클을 자동화하여 데이터를 최신 상태로 유지할 수 있습니다.
데이터 통합을 위한 학습서
Tutorial | 설명 | 학습서에 대한 전문 지식 |
---|---|---|
데이터 통합 | 데이터를 추출, 필터, 결합 및 변환합니다. | DataStage 놓기 인터페이스를 사용하여 데이터를 변환하십시오. |
외부 데이터 가상화 | 외부 소스에서 데이터 테이블을 가상화하고 결합합니다. | 데이터를 가상화하려면 Watson Query 인터페이스를 사용하십시오. |
데이터 복제 | 소스 데이터베이스와 대상 데이터베이스 간에 거의 실시간 및 지속적인 복제를 설정합니다. | Data Replication 도구를 사용하여 데이터를 복제하십시오. |
데이터 통합으로 오케스트레이션 및 AI 파이프라인 | 데이터를 준비하고 모델을 훈련하는 엔드-투-엔드 파이프라인을 작성합니다. | Watson Pipelines 끌어서 놓기 인터페이스를 사용하여 파이프라인을 작성하십시오. |
자세한 정보
상위 주제: 데이터 패브릭 솔루션 개요