0 / 0
영어 버전 문서로 돌아가기
데이터 통합 유스 케이스

데이터 통합 유스 케이스

볼륨 및 이종 데이터 소스의 유입에 대처하기 위해 기업은 데이터 통합 프로세스에 자동화 및 인텔리전스를 구축해야 합니다. Cloud Pak for Data as a Service 는 분산된 환경에서 데이터를 동적으로 지능적으로 조정하여 데이터 이용자가 즉시 사용할 수 있는 정보의 고성능 네트워크를 작성할 수 있는 플랫폼 및 도구를 제공합니다.

Cloud Pak for Data에서 데이터 통합 솔루션을 구현하기 위한 데이터 패브릭 유스 케이스를 보려면 이 비디오를 보십시오.

이 비디오는 이 문서의 개념 및 태스크를 학습하기 위한 시각적 방법을 제공합니다.

해결 과제

데이터 유형 및 볼륨이 증가함에 따라 기업은 다음과 같은 데이터 통합 문제에 직면하게 되었습니다.

엔터프라이즈 전체에서 데이터 수집
프로세스는 데이터가 온프레미스, 클라우드 또는 하이브리드 환경에 있는지 여부에 관계없이 애플리케이션 또는 시스템에서 데이터를 수집할 수 있어야 합니다.
여러 소스의 데이터 통합
데이터 엔지니어는 여러 데이터 소스의 데이터를 파일 또는 가상 테이블로 단일 데이터 세트에 결합할 수 있어야 합니다.
사용자가 데이터를 사용할 수 있도록 설정
데이터 엔지니어는 각 통합 데이터 세트를 단일 카탈로그에 공개할 수 있어야 하며 데이터를 이용해야 하는 모든 사용자는 자체 서비스 액세스 권한이 있어야 합니다.

Cloud Pak for Data as a Service를 사용하여 이러한 문제를 해결하고 데이터를 통합할 수 있습니다.

예: Golden Bank의 과제

데이터 엔지니어링 팀이 데이터 통합을 구현하므로 Golden Bank의 사례를 따르십시오. 골든 은행에는 세 개의 외부 데이터 소스에 저장되는 대량의 고객 및 모기지 데이터가 있습니다. 대출 기관은 이 정보를 사용하여 모기지 애플리케이션을 승인해야 하는지 또는 거부해야 하는지 여부를 결정하는 데 도움을 줍니다. 은행은 다른 소스의 데이터를 통합한 후 변환된 데이터를 공유할 수 있는 단일 출력 파일로 전달하려고 합니다.

프로세스

엔터프라이즈에 대한 데이터 통합 솔루션을 구현하기 위해 조직은 다음 프로세스를 따를 수 있습니다.

  1. 데이터 통합
  2. 데이터 공유
  3. 데이터 라이프사이클 자동화

Cloud Pak for Data as a Service 의 DataStage, Watson Query, Data Replication및 IBM Knowledge Catalog 서비스는 조직에서 데이터 통합 솔루션을 구현하는 데 필요한 모든 도구 및 프로세스를 제공합니다.

데이터 통합 유스 케이스의 플로우를 표시하는 이미지

1. 데이터 통합

Cloud Pak for Data as a Service를 사용하는 데이터 패브릭 아키텍처를 사용하는 데이터 엔지니어는 워크로드 및 데이터 정책을 사용하여 데이터에 효율적으로 액세스하고 작업하며 데이터가 단일 데이터 소스의 데이터인 것처럼 다른 소스, 유형 및 클라우드의 가상화된 데이터를 결합하여 데이터 통합을 최적화할 수 있습니다. 이 프로세스 단계에서는 원시 데이터를 추출하고, 수집하고, 가상화하고, 이용할 수 있는 고품질 데이터로 변환한 후 AI 라이프사이클에서 조정합니다.

사용할 수 있는 항목 수행할 수 있는 작업 다음 경우에 사용
Watson Query 여러 데이터 소스를 하나로 조회합니다. 데이터 엔지니어는 다양한 관계형 데이터 소스에서 데이터를 결합, 결합 또는 필터링할 수 있는 가상 데이터 테이블을 작성할 수 있습니다.

데이터 엔지니어는 카탈로그에서 데이터 자산으로 사용 가능한 결과 결합 데이터를 작성할 수 있습니다. 예를 들어, 데이터를 탐색할 수 있도록 결합된 데이터를 사용하여 대시보드, 노트북 및 플로우를 피드할 수 있습니다.
보기를 생성하려면 여러 소스의 데이터를 결합해야 합니다.

결합된 데이터를 카탈로그의 데이터 자산으로 사용할 수 있도록 해야 합니다.
DataStage 데이터 엔지니어는 데이터를 이동하고 변환하는 복잡한 ETL 데이터 파이프라인을 디자인하고 실행할 수 있습니다. 복잡한 데이터 플로우를 설계하고 실행해야 합니다. 플로우는 대량의 데이터를 처리하고 광범위한 데이터 소스에 연결하며 데이터를 통합 및 변환하고 일괄처리 또는 실시간으로 대상 시스템에 전달해야 합니다.
Data Refinery 다양한 데이터 소스 연결에서 데이터에 액세스하고 이를 세분화하십시오.

결과 데이터 세트를 데이터 과학자가 분석하고 탐색할 수 있도록 데이터를 결합, 결합, 필터링 또는 마스크할 수 있는 시간 내에 스냅샷으로 구체화하십시오.

결과 데이터 세트를 카탈로그에서 사용 가능하게 하십시오.
데이터를 쉐이핑하거나 정리하려는 경우 데이터를 시각화해야 합니다.

분석을 위해 대량의 원시 데이터를 준비하는 프로세스를 단순화하려고 합니다.
Data Replication 여러 사이트에 데이터 통합 워크로드를 분배합니다.

데이터의 지속적인 가용성을 제공합니다.
데이터가 여러 사이트에 분산되어 있습니다.

데이터를 지속적으로 사용할 수 있어야 합니다.

예: Golden Bank의 데이터 통합

골든 은행의 위험 분석가는 각 신용평점 범위에 대해 대출자에게 제안하는 일일 이자율을 계산합니다. 데이터 엔지니어는 DataStage 를 사용하여 익명화된 모기지 애플리케이션 데이터를 모기지 신청자의 개인 식별 정보와 함께 집계합니다. DataStage 는 각 신청자에 대한 신용평점 정보, 신청자의 총 부채 및 이자율 룩업 테이블을 포함하여 이 정보를 통합합니다. 그런 다음 데이터 엔지니어는 카탈로그에 공개하고 대출 기관 및 분석가가 사용할 수 있도록 공유할 수 있는 대상 출력 .csv 파일에 데이터를 로드합니다.


2. 데이터 공유

카탈로그는 팀이 고객 데이터를 이해하고 올바른 사용을 위해 올바른 데이터를 사용할 수 있도록 하는 데 도움을 줍니다. 데이터 과학자 및 기타 유형의 사용자는 기업의 액세스 및 데이터 보호 정책을 준수하면서 필요한 통합 데이터를 사용할 수 있습니다. 카탈로그의 데이터 자산을 프로젝트에 추가할 수 있으며, 여기서 데이터를 준비, 분석 및 모델링하기 위해 협업합니다.

사용할 수 있는 항목 수행할 수 있는 작업 다음 경우에 사용
Catalogs IBM Knowledge Catalog 의 카탈로그를 사용하여 조직의 협업자 간에 공유할 자산을 구성하십시오.

AI 기반 시맨틱 검색 및 권장사항을 활용하여 사용자가 필요한 사항을 찾을 수 있도록 지원하십시오.
사용자는 고품질 데이터를 쉽게 이해하고, 협업하고, 강화하고, 액세스해야 합니다.

비즈니스 사용자 간의 데이터 및 협업에 대한 가시성을 높이려고 합니다.

물리적 형식 또는 위치를 이해하지 않고 이동하거나 복사하지 않고도 데이터를 보고, 액세스하고, 조작하고, 분석할 수 있는 사용자가 필요합니다.

사용자는 등급을 지정하고 검토하여 자산을 개선해야 합니다.

예: Golden Bank의 카탈로그

골든 은행의 거버넌스 팀 리더는 "모기지 승인 카탈로그" 라는 카탈로그를 작성하고 데이터 스튜워드 및 데이터 과학자를 카탈로그 협업자로 추가합니다. 데이터 스튜워드는 작성한 데이터 자산을 카탈로그에 공개합니다. 데이터 과학자는 카탈로그에서 데이터 스튜어드가 관리하는 데이터 자산을 찾아 해당 자산을 프로젝트에 복사합니다. 프로젝트에서 데이터 과학자는 데이터를 세분화하여 모델 훈련을 준비할 수 있습니다.


데이터 라이프사이클 자동화

팀은 오케스트레이션 파이프라인을 사용하여 데이터 라이프사이클을 자동화하고 단순화할 수 있습니다.

사용할 수 있는 항목 수행할 수 있는 작업 다음 경우에 사용
오케스트레이션 파이프라인 파이프라인을 사용하여 데이터 수집 및 통합을 자동화하는 반복 가능하고 스케줄된 플로우를 작성하십시오. 데이터 통합 플로우의 일부 또는 모든 단계를 자동화하려고 합니다.

예: Golden Bank의 자동화된 데이터 라이프사이클

Golden Bank의 데이터 과학자는 파이프라인을 사용하여 데이터 통합 라이프사이클을 자동화하여 데이터를 최신 상태로 유지할 수 있습니다.

데이터 통합 학습서

Tutorial 설명 학습서에 대한 전문 지식
데이터 통합 데이터를 추출, 필터, 결합 및 변환합니다. DataStage 끌어서 놓기 인터페이스를 사용하여 데이터를 변환하십시오.
외부 데이터 가상화 외부 소스에서 데이터 테이블을 가상화하고 결합합니다. Watson Query 인터페이스를 사용하여 데이터를 가상화하십시오.
데이터 복제 소스 및 대상 데이터베이스 간에 거의 실시간으로 연속 복제를 설정합니다. Data Replication 도구를 사용하여 데이터를 복제하십시오.
데이터 통합으로 AI 파이프라인 조정 데이터를 준비하고 모델을 훈련하는 엔드-투-엔드 파이프라인을 작성합니다. 오케스트레이션 파이프라인 끌어서 놓기 인터페이스를 사용하여 파이프라인을 작성하십시오.

자세한 정보

상위 주제: 유스 케이스

일반적인 AI 검색 및 응답
이러한 응답은 제품 문서의 컨텐츠를 기반으로 하는 watsonx.ai 의 대형 언어 모델에 의해 생성됩니다. 자세히 알아보기