0 / 0
영어 버전 문서로 돌아가기
데이터 통합 유스 케이스

데이터 통합 유스 케이스

볼륨의 유입 및 서로 다른 데이터 소스에 대처하기 위해 엔터프라이즈는 데이터 통합 프로세스에 자동화 및 인텔리전스를 구축해야 합니다. Cloud Pak for Data as a Service 은 분산된 환경에서 데이터를 동적으로 지능적으로 조정하여 데이터 소비자에게 즉시 사용 가능한 정보의 고성능 네트워크를 생성하는 플랫폼 및 도구를 제공합니다.

이 비디오를 보면 Cloud Pak for Data에서 데이터 통합 솔루션을 구현하는 데 필요한 데이터 패브릭 유스 케이스를 확인할 수 있습니다.

이 비디오는 이 문서에서 개념 및 태스크를 학습하는 시각적 방법을 제공합니다.

해결 과제

데이터 유형 및 볼륨이 증가함에 따라 엔터프라이즈는 다음과 같은 데이터 통합 문제에 직면합니다.

엔터프라이즈에서 데이터 가져오기
프로세스는 데이터가 사내 구축 환경, 클라우드 또는 하이브리드 환경에 상주하는지 여부에 관계없이 임의의 애플리케이션 또는 시스템에서 데이터를 수집할 수 있어야 합니다.
여러 소스에서 데이터 통합
데이터 엔지니어는 여러 데이터 소스의 데이터를 하나의 파일 또는 가상 테이블로 단일 데이터 세트로 결합할 수 있어야 합니다.
사용자가 데이터를 사용할 수 있도록 설정
데이터 엔지니어는 각 통합 데이터 세트를 단일 카탈로그에 게시할 수 있어야 하며 데이터를 이용해야 하는 모든 사용자는 이에 대한 셀프 서비스 액세스 권한이 있어야 합니다.

이러한 과제를 해결하고 Cloud Pak for Data as a Service을 사용하여 데이터를 통합할 수 있습니다.

예제: 골든 뱅크의 과제

데이터 엔지니어링 팀이 데이터 통합을 구현하기 때문에 골든 뱅크의 사례를 따르십시오. 골든 뱅크에는 세 개의 외부 데이터 소스에 저장된 많은 양의 고객 및 모기지 데이터가 있습니다. 렌더는 이 정보를 사용하여 모기지 애플리케이션을 승인 또는 거부해야 하는지 여부를 결정하는 데 도움이 됩니다. 은행은 다른 소스의 데이터를 통합한 후 변환된 데이터를 공유할 수 있는 단일 출력 파일로 전달하려고 합니다.

프로세스

엔터프라이즈에 대한 데이터 통합 솔루션을 구현하기 위해 조직은 다음 프로세스를 따를 수 있습니다.

  1. 데이터 통합
  2. 데이터 공유
  3. 데이터 수명 주기 자동화

Cloud Pak for Data as a Service 의 DataStage, Watson Query, Data Replication및 Watson Knowledge Catalog 서비스는 조직에서 데이터 통합 솔루션을 구현하는 데 필요한 모든 도구 및 프로세스를 제공합니다.

데이터 통합 유스 케이스의 플로우를 표시하는 이미지

1. 데이터 통합

Cloud Pak for Data as a Service를 통해 데이터 엔지니어는 워크로드 및 데이터 정책을 사용하여 데이터 통합을 최적화하고 데이터를 효율적으로 액세스하고 작업하며 데이터가 단일 데이터 소스에서 온 것처럼 다양한 소스, 유형 및 클라우드에서 가상화된 데이터를 결합할 수 있습니다. 프로세스의 이 단계에서 원시 데이터는 추출, 수집, 가상화된 및 사용 가능하고 고품질의 데이터로 변환되며, 이 데이터는 탐색하고 AI 수명 주기에서 조정할 수 있는 고품질의 데이터로 변환됩니다.

당신이 사용할 수 있는 것 수행할 수 있는 작업 다음 경우에 사용
Watson Query 여러 데이터 소스를 하나로 조회합니다. 데이터 엔지니어는 다양한 관계형 데이터 소스의 데이터를 결합, 결합 또는 필터링할 수 있는 가상 데이터 테이블을 작성할 수 있습니다.

데이터 엔지니어는 결과 조합된 데이터를 카탈로그에서 데이터 자산으로 사용 가능하게 할 수 있습니다. 예를 들어, 결합된 데이터를 사용하여 대시보드, 노트북 및 플로우를 피드하여 데이터를 탐색할 수 있습니다.
여러 소스의 데이터를 결합하여 뷰를 생성해야 합니다.

카탈로그에서 데이터 자산으로 사용 가능한 결합된 데이터를 작성해야 합니다.
DataStage 데이터 엔지니어는 데이터를 이동하고 변환하는 복합 ETL 데이터 파이프라인을 설계하고 실행할 수 있습니다. 복잡한 데이터 플로우를 설계하고 실행해야 합니다. 플로우는 대량의 데이터를 처리하고 광범위한 데이터 소스에 연결하여 데이터를 통합 및 변환하고 이를 배치 또는 실시간으로 대상 시스템에 전달해야 합니다.
Data Refinery 다양한 데이터 소스 연결에서 데이터를 액세스 및 세분화합니다.

결과 데이터 세트를 데이터 과학자가 분석하고 탐색하는 데 사용할 수 있도록 데이터를 결합, 결합, 필터 또는 마스크할 수 있는 스냅샷으로 구체화합니다.

결과 데이터 세트를 카탈로그에서 사용할 수 있도록 합니다.
데이터를 쉐이프하거나 정리하려면 데이터를 시각화해야 합니다.

분석을 위해 많은 양의 원시 데이터를 준비하는 프로세스를 단순화하려고 합니다.
Data Replication 여러 사이트에서 데이터 통합 워크로드를 분배하십시오.

데이터의 지속적인 가용성을 제공합니다.
데이터가 여러 사이트에 분산되어 있습니다.

지속적으로 사용할 수 있도록 데이터가 필요합니다.

예제: 골든 뱅크의 데이터 통합

골든 뱅크의 리스크 분석가들은 각 신용 점수 범위에 대한 대출자들에게 제공하는 것을 추천하는 일일 금리를 계산한다. 데이터 엔지니어는 DataStage 하여 모기지 신청자의 개인 식별 정보와 함께 익명화된 모기지 애플리케이션 데이터를 집계합니다. DataStage 각 신청자의 신용 점수 정보, 신청자의 총 부채 및 금리 찾아보기 테이블을 포함하여 이 정보를 통합합니다. 그런 다음 데이터 엔지니어는 카탈로그에 공개할 수 있고 대부 및 분석가가 사용할 수 있는 대상 출력 .csv 파일에 데이터를 로드합니다.


2. 데이터 공유

카탈로그는 팀이 고객 데이터를 이해하고 올바른 데이터를 올바른 사용에 사용할 수 있도록 지원합니다. 데이터 과학자 및 기타 유형의 사용자는 기업 액세스 및 데이터 보호 정책을 준수하면서 필요한 통합 데이터를 스스로 활용할 수 있습니다. 카탈로그에서 데이터 자원을 프로젝트에 추가하여 데이터를 준비, 분석 및 모델링하기 위해 협업합니다.

당신이 사용할 수 있는 것 수행할 수 있는 작업 다음 경우에 사용
Catalogs Watson Knowledge Catalog 의 카탈로그를 사용하여 조직의 협력자 간에 공유할 자산을 구성할 수 있습니다.

AI 기반 시맨틱 검색 및 권장사항을 활용하여 사용자가 필요한 사항을 찾을 수 있도록 합니다.
사용자는 고품질의 데이터를 쉽게 이해하고, 협업하고, 보강하고, 액세스할 필요가 있습니다.

비즈니스 사용자 간에 데이터 및 협업의 가시성을 향상시키려고 합니다.

사용자는 실제 형식 또는 위치를 이해하지 않고도 데이터를 보고, 액세스하고, 조작하고, 분석할 필요가 없습니다.

사용자가 등급별로 자산을 향상시키고 검토해야 합니다.

예제: 골든 뱅크의 카탈로그

골든 뱅크의 거버넌스 팀 리더는 카탈로그 "담보 승인 카탈로그" 를 작성하고 데이터 스튜어드 및 데이터 과학자를 카탈로그 협력자로 추가합니다. 데이터는 카탈로그에 작성된 데이터 자산을 공개합니다. 데이터 과학자는 데이터 자산을 기준으로 데이터 자산을 카탈로그에서 찾고 해당 자산을 프로젝트에 복사합니다. 데이터 과학자들은 그들의 프로젝트에서 데이터를 정제하여 모델 훈련에 대비할 수 있다.


데이터 수명 주기 자동화하기

팀은 Watson Pipelines으로 데이터 라이프사이클을 자동화하고 단순화할 수 있습니다.

당신이 사용할 수 있는 것 수행할 수 있는 작업 다음 경우에 사용
Watson Pipelines 파이프라인을 사용하여 데이터 수집 및 통합을 자동화하는 반복 가능하고 스케줄된 플로우를 작성하십시오. 데이터 통합 플로우의 일부 또는 모든 단계를 자동화하려고 합니다.

예제: 골든 은행의 자동화된 데이터 수명 주기

골든 뱅크의 데이터 과학자는 파이프라인을 사용하여 데이터 통합 라이프사이클을 자동화하여 데이터를 최신 상태로 유지할 수 있습니다.

데이터 통합을 위한 학습서

Tutorial 설명 학습서에 대한 전문 지식
데이터 통합 데이터를 추출, 필터, 결합 및 변환합니다. DataStage 놓기 인터페이스를 사용하여 데이터를 변환하십시오.
외부 데이터 가상화 외부 소스에서 데이터 테이블을 가상화하고 결합합니다. 데이터를 가상화하려면 Watson Query 인터페이스를 사용하십시오.
데이터 복제 소스 데이터베이스와 대상 데이터베이스 간에 거의 실시간 및 지속적인 복제를 설정합니다. Data Replication 도구를 사용하여 데이터를 복제하십시오.
데이터 통합으로 오케스트레이션 및 AI 파이프라인 데이터를 준비하고 모델을 훈련하는 엔드-투-엔드 파이프라인을 작성합니다. Watson Pipelines 끌어서 놓기 인터페이스를 사용하여 파이프라인을 작성하십시오.

자세한 정보

상위 주제: 데이터 패브릭 솔루션 개요

일반적인 AI 검색 및 응답
이러한 응답은 제품 문서의 컨텐츠를 기반으로 하는 watsonx.ai 의 대형 언어 모델에 의해 생성됩니다. 자세히 알아보기