데이터 통합 유스 케이스
볼륨 및 이종 데이터 소스의 유입에 대처하기 위해 기업은 데이터 통합 프로세스에 자동화 및 인텔리전스를 구축해야 합니다. Cloud Pak for Data as a Service 는 분산된 환경에서 데이터를 동적으로 지능적으로 조정하여 데이터 이용자가 즉시 사용할 수 있는 정보의 고성능 네트워크를 작성할 수 있는 플랫폼 및 도구를 제공합니다.
Cloud Pak for Data에서 데이터 통합 솔루션을 구현하기 위한 데이터 패브릭 유스 케이스를 보려면 이 비디오를 보십시오.
이 비디오는 이 문서의 개념 및 태스크를 학습하기 위한 시각적 방법을 제공합니다.
해결 과제
데이터 유형 및 볼륨이 증가함에 따라 기업은 다음과 같은 데이터 통합 문제에 직면하게 되었습니다.
- 엔터프라이즈 전체에서 데이터 수집
- 프로세스는 데이터가 온프레미스, 클라우드 또는 하이브리드 환경에 있는지 여부에 관계없이 애플리케이션 또는 시스템에서 데이터를 수집할 수 있어야 합니다.
- 여러 소스의 데이터 통합
- 데이터 엔지니어는 여러 데이터 소스의 데이터를 파일 또는 가상 테이블로 단일 데이터 세트에 결합할 수 있어야 합니다.
- 사용자가 데이터를 사용할 수 있도록 설정
- 데이터 엔지니어는 각 통합 데이터 세트를 단일 카탈로그에 공개할 수 있어야 하며 데이터를 이용해야 하는 모든 사용자는 자체 서비스 액세스 권한이 있어야 합니다.
Cloud Pak for Data as a Service를 사용하여 이러한 문제를 해결하고 데이터를 통합할 수 있습니다.
예: Golden Bank의 과제
데이터 엔지니어링 팀이 데이터 통합을 구현하므로 Golden Bank의 사례를 따르십시오. 골든 은행에는 세 개의 외부 데이터 소스에 저장되는 대량의 고객 및 모기지 데이터가 있습니다. 대출 기관은 이 정보를 사용하여 모기지 애플리케이션을 승인해야 하는지 또는 거부해야 하는지 여부를 결정하는 데 도움을 줍니다. 은행은 다른 소스의 데이터를 통합한 후 변환된 데이터를 공유할 수 있는 단일 출력 파일로 전달하려고 합니다.
프로세스
엔터프라이즈에 대한 데이터 통합 솔루션을 구현하기 위해 조직은 다음 프로세스를 따를 수 있습니다.
Cloud Pak for Data as a Service 의 DataStage, Watson Query, Data Replication및 IBM Knowledge Catalog 서비스는 조직에서 데이터 통합 솔루션을 구현하는 데 필요한 모든 도구 및 프로세스를 제공합니다.
1. 데이터 통합
Cloud Pak for Data as a Service를 사용하는 데이터 패브릭 아키텍처를 사용하는 데이터 엔지니어는 워크로드 및 데이터 정책을 사용하여 데이터에 효율적으로 액세스하고 작업하며 데이터가 단일 데이터 소스의 데이터인 것처럼 다른 소스, 유형 및 클라우드의 가상화된 데이터를 결합하여 데이터 통합을 최적화할 수 있습니다. 이 프로세스 단계에서는 원시 데이터를 추출하고, 수집하고, 가상화하고, 이용할 수 있는 고품질 데이터로 변환한 후 AI 라이프사이클에서 조정합니다.
사용할 수 있는 항목 | 수행할 수 있는 작업 | 다음 경우에 사용 |
---|---|---|
Watson Query | 여러 데이터 소스를 하나로 조회합니다. 데이터 엔지니어는 다양한 관계형 데이터 소스에서 데이터를 결합, 결합 또는 필터링할 수 있는 가상 데이터 테이블을 작성할 수 있습니다. 데이터 엔지니어는 카탈로그에서 데이터 자산으로 사용 가능한 결과 결합 데이터를 작성할 수 있습니다. 예를 들어, 데이터를 탐색할 수 있도록 결합된 데이터를 사용하여 대시보드, 노트북 및 플로우를 피드할 수 있습니다. |
보기를 생성하려면 여러 소스의 데이터를 결합해야 합니다. 결합된 데이터를 카탈로그의 데이터 자산으로 사용할 수 있도록 해야 합니다. |
DataStage | 데이터 엔지니어는 데이터를 이동하고 변환하는 복잡한 ETL 데이터 파이프라인을 디자인하고 실행할 수 있습니다. | 복잡한 데이터 플로우를 설계하고 실행해야 합니다. 플로우는 대량의 데이터를 처리하고 광범위한 데이터 소스에 연결하며 데이터를 통합 및 변환하고 일괄처리 또는 실시간으로 대상 시스템에 전달해야 합니다. |
Data Refinery | 다양한 데이터 소스 연결에서 데이터에 액세스하고 이를 세분화하십시오. 결과 데이터 세트를 데이터 과학자가 분석하고 탐색할 수 있도록 데이터를 결합, 결합, 필터링 또는 마스크할 수 있는 시간 내에 스냅샷으로 구체화하십시오. 결과 데이터 세트를 카탈로그에서 사용 가능하게 하십시오. |
데이터를 쉐이핑하거나 정리하려는 경우 데이터를 시각화해야 합니다. 분석을 위해 대량의 원시 데이터를 준비하는 프로세스를 단순화하려고 합니다. |
Data Replication | 여러 사이트에 데이터 통합 워크로드를 분배합니다. 데이터의 지속적인 가용성을 제공합니다. |
데이터가 여러 사이트에 분산되어 있습니다. 데이터를 지속적으로 사용할 수 있어야 합니다. |
예: Golden Bank의 데이터 통합
골든 은행의 위험 분석가는 각 신용평점 범위에 대해 대출자에게 제안하는 일일 이자율을 계산합니다. 데이터 엔지니어는 DataStage 를 사용하여 익명화된 모기지 애플리케이션 데이터를 모기지 신청자의 개인 식별 정보와 함께 집계합니다. DataStage 는 각 신청자에 대한 신용평점 정보, 신청자의 총 부채 및 이자율 룩업 테이블을 포함하여 이 정보를 통합합니다. 그런 다음 데이터 엔지니어는 카탈로그에 공개하고 대출 기관 및 분석가가 사용할 수 있도록 공유할 수 있는 대상 출력 .csv 파일에 데이터를 로드합니다.
데이터 라이프사이클 자동화
팀은 오케스트레이션 파이프라인을 사용하여 데이터 라이프사이클을 자동화하고 단순화할 수 있습니다.
사용할 수 있는 항목 | 수행할 수 있는 작업 | 다음 경우에 사용 |
---|---|---|
오케스트레이션 파이프라인 | 파이프라인을 사용하여 데이터 수집 및 통합을 자동화하는 반복 가능하고 스케줄된 플로우를 작성하십시오. | 데이터 통합 플로우의 일부 또는 모든 단계를 자동화하려고 합니다. |
예: Golden Bank의 자동화된 데이터 라이프사이클
Golden Bank의 데이터 과학자는 파이프라인을 사용하여 데이터 통합 라이프사이클을 자동화하여 데이터를 최신 상태로 유지할 수 있습니다.
데이터 통합 학습서
Tutorial | 설명 | 학습서에 대한 전문 지식 |
---|---|---|
데이터 통합 | 데이터를 추출, 필터, 결합 및 변환합니다. | DataStage 끌어서 놓기 인터페이스를 사용하여 데이터를 변환하십시오. |
외부 데이터 가상화 | 외부 소스에서 데이터 테이블을 가상화하고 결합합니다. | Watson Query 인터페이스를 사용하여 데이터를 가상화하십시오. |
데이터 복제 | 소스 및 대상 데이터베이스 간에 거의 실시간으로 연속 복제를 설정합니다. | Data Replication 도구를 사용하여 데이터를 복제하십시오. |
데이터 통합으로 AI 파이프라인 조정 | 데이터를 준비하고 모델을 훈련하는 엔드-투-엔드 파이프라인을 작성합니다. | 오케스트레이션 파이프라인 끌어서 놓기 인터페이스를 사용하여 파이프라인을 작성하십시오. |
자세한 정보
상위 주제: 유스 케이스