0 / 0
영어 버전 문서로 돌아가기
식별 관계
마지막 업데이트 날짜: 2024년 7월 05일
식별 관계

데이터 자산 간의 주요 관계를 식별하거나 열에서 겹치거나 중복된 데이터를 식별하려면 관계 분석을 실행하십시오.

관계는 관련 정보를 포함하는 데이터 자산 간의 연결입니다. 하나의 데이터 자산에 있는 키 값이 하나 이상의 다른 데이터 자산에 있는 키 값에 해당함을 표시하여 이러한 관계를 작성합니다. 이러한 연결을 식별하면 데이터가 서로 조화를 이루는 방법을 찾는 데 도움이 됩니다.

키 관계 분석은 관계형 데이터베이스의 두 데이터 자산 간에 일대다 관계가 있는 1차 및 외부 키 쌍을 식별합니다. 기본 키는 데이터 자산의 각 레코드를 고유하게 식별하는 열 또는 열 세트입니다. 외부 키는 다른 데이터 자산의 기본 키 열을 참조하는 한 데이터 자산의 열 또는 열 세트입니다. 관계 정보를 사용하여 데이터 자산을 결합할 수 있는 방법을 판별할 수 있습니다.

겹침 은 둘 이상의 소스에서 컨텐츠를 사용할 수 있는 경우입니다. 겹침 분석은 하나의 데이터 자산 내에서 또는 데이터 자산 간에 열 값을 비교하여 데이터 자산에서 동일하거나 유사한 구조를 찾습니다. 따라서 겹침 분석은 데이터가 고유한지 또는 유사한지 여부와 데이터가 얼마나 겹칠 수 있는지를 판별하는 데 도움이 됩니다.

관계 분석 결과는 누적됩니다. 분석을 실행할 때마다 분석은 새 관계를 추가하거나 이전 분석 실행에서 식별된 관계를 업데이트합니다.

전제조건

관계 분석을 실행하려면 DataStage 서비스를 배치해야 합니다.

메타데이터 강화의 일부로 실행되는 모든 조작에는 보안 권한 부여를 위한 신임 정보가 필요합니다. 일반적으로 사용자 API키는 중단 없이 이러한 장기 실행 조작을 실행하는 데 사용됩니다. 키 관계 분석 또는 겹침 분석을 실행하려고 할 때 신임 정보를 사용할 수 없는 경우 API키를 작성하도록 프롬프트가 표시됩니다. 그런 다음 해당 API키가 태스크 신임 정보로 저장됩니다. 사용자 API키 관리를 참조하십시오.

데이터 소스에 대한 연결이 잠겨 있으면 개인 신임 정보를 입력하도록 요청됩니다. 이 일회성 단계는 사용자를 위해 연결을 영구적으로 잠금 해제합니다.

먼저 자산 프로파일을 작성하지 않고 상세 관계 분석을 실행할 수 있습니다. 딥 키 또는 겹침 관계 분석은 열 값의 도수 분포와 같은 프로파일 정보에 의존하지 않습니다. 대신 열 데이터를 직접 분석합니다.

키 관계 분석 실행

키 관계 분석을 실행하여 단일 열 키 관계 또는 복합 키 관계를 식별하십시오. 분석은 잠재적 관계 후보를 판별하고 각 잠재적 관계에 대한 신뢰도를 기반으로 데이터 자산 간의 최상의 관계를 제안합니다. 관계의 신뢰도를 계산하기 위해 다음 정보가 고려됩니다.

  • 외부 키에 있는 기본 키의 값 수
  • 외부 키에 있는 오펀 값의 수입니다.
  • 기본 키와 외부 키 사이의 열 이름 간 유사성
  • 데이터 자산에서 열의 위치입니다.

다음과 같이 서로 다른 데이터 유형의 컬럼 간에 관계를 발견할 수 있습니다.

  • 데이터 유형 BIGINT및 SMALLINT
  • 데이터 유형 BIGINT및 DECIMAL
  • 데이터 유형 BIGINT및 CHAR
  • 데이터 유형 BIGINT및 VARCHAR
  • 데이터 유형 DECIMAL및 VARCHAR
  • 데이터 유형 CHAR및 VARCHAR
  • 데이터 유형 VARCHAR및 LONG VARCHAR

정의된 제안 임계값을 초과하는 신뢰도가 있는 쌍은 자산의 후보 관계로 나열됩니다. 관계 자동 할당을 활성화할 수도 있습니다. 임계값에 대한 자세한 내용은 다음을 참조하세요. 주요 관계 .

이 유형의 관계 분석은 선택된 데이터 자산의 단일 열에서 열 이름과 프로파일된 데이터의 유사성을 확인합니다. 심층 분석을 실행하지 않으면 기본 강화 설정에 설정된 임계값이 적용됩니다.

심층 분석을 실행하도록 선택하면 실제 열 데이터를 검사하여 기본 및 외부 키를 식별합니다. 복합 키 관계를 식별하거나 전체 데이터 자산 대신 데이터 샘플에서 분석을 실행하도록 선택할 수도 있습니다. 심층 분석의 경우 강화 설정에 정의된 임계값이 적용되지 않습니다. 대신, 개별 분석 실행마다 임계값을 설정할 수 있습니다.

심층 분석은 기본 키 관계 분석보다 완료하는 데 시간이 더 오래 걸립니다. 복합 키를 식별하도록 선택하는 경우 처리 시간이 상당히 증가합니다. 분석은 며칠 이상 실행될 수 있습니다. 열의 데이터 유형이 키 분석을 허용하는 경우 인접 이 바로 옆에 있음을 의미하는 인접한 열만 검사하거나, 데이터 유형이 키 분석을 허용하지 않기 때문에 사이에 있는 열을 건너뛰는 경우에는 인접한 열만 검사합니다.

하나 이상의 자산에 대한 키 관계 분석을 실행하려면 다음을 수행하십시오.

  1. 메타데이터 강화 자산을 여십시오.

  2. 자산 탭에서 필요에 따라 자산을 선택하십시오.

  3. 도구 모음에서 강화 > 관계 식별 을 선택하십시오. 기본 분석 유형은 입니다.

    일반적으로 선택한 데이터 자산의 여러 열에서 이 유형의 관계 분석을 실행합니다. 기본적으로 복합 키 길이는 2로 설정됩니다.

    심층적인 키 관계 분석은 실제 열 데이터를 확인하므로 시간이 많이 걸리는 프로세스입니다. 전체 데이터 자산 대신 데이터 샘플에 대한 분석을 실행할 수 있습니다.

    키 관계에 대한 기본 강화 설정은 적용되지 않습니다. 심층 관계 분석에는 제안 및 자동 할당에 대한 다양한 기본 설정이 적용됩니다.

    • 기본 제안 임계값은 25%입니다.
    • 관계 자동 할당이 활성화되었습니다. 기본 할당 임계값은 90%입니다.

    각 개별 분석 실행에 대해 이러한 기본 설정을 덮어쓸 수 있습니다.

    데이터 자산의 단일 열에서 단순 키 관계 분석을 실행하기 위해 관계 설정 인리치먼트 옵션을 사용할 수 있습니다.

  4. 실행을 클릭하십시오.

키 관계 지정, 지정 해제 또는 제거

키 관계 분석이 완료되면 여기에서 관계를 보고 관리할 수 있습니다.

  • 자산 세부사항 패널의 탭에서 후보 관계가 발견된 경우 더하기 아이콘이 표시됩니다. 더하기 아이콘을 클릭하고 이 자산에 대해 제안된 관계를 확인한 후 가장 적합한 관계를 지정하십시오. 이 자산에 대한 관계를 지정 해제하거나 제거할 수도 있습니다.

  • 인리치먼트 영역의 키 관계 보기 링크가 활성 상태입니다. 탭에서 발견된 모든 키 관계 목록을 보려면 링크를 클릭하십시오. 제안된 관계를 확인하고 지정하거나 관계를 지정 해제하십시오. 제안 및 지정된 관계를 제거할 수도 있습니다.

    지정된 기본 키와의 관계만 보려면 기본 키로 목록을 필터링하십시오.

    키 관계 테이블에서 각 키 관계의 그래픽 보기를 열어 관계를 확인하고 관리할 수도 있습니다. 키의 오버플로우 메뉴에서 다이어그램 열기를 선택하거나 세부사항 보기 를 선택한 후 측면 패널에서 다이어그램 보기 를 클릭하십시오.

관계를 지정 해제하면 해당 상태가 제안됨으로 재설정됩니다. 관계를 제거하면 완전히 제거됩니다. 분석을 재실행할 때 제거된 관계를 다시 제안할 수 있습니다.

겹침 분석 실행

겹침 분석을 실행하여 하나 이상의 데이터 자산 열에서 겹치거나 잠재적으로 중복되는 데이터를 식별하십시오.

하나 이상의 자산에 대한 키 관계 분석을 실행하려면 다음을 수행하십시오.

  1. 메타데이터 강화 자산을 여십시오.

  2. 자산 탭에서 필요에 따라 자산을 선택하십시오.

  3. 도구 모음에서 강화 > 관계 식별 을 선택하십시오.

  4. 분석 유형으로 겹침 을 선택하십시오. 선택적으로 샘플링 설정을 조정할 수 있습니다. 기본적으로 데이터 자산의 모든 레코드가 분석되므로 시간이 오래 걸릴 수 있습니다. 더 낮은 비율의 데이터를 선택할 수 있습니다. 샘플 크기를 줄이면 샘플에 포함된 레코드가 무작위로 선택됩니다.

    기본 강화 설정은 적용되지 않습니다. 제안 및 자동 할당에 대한 다양한 기본 설정이 중복 분석에 적용됩니다.

    • 기본 제안 임계값은 25%입니다.
    • 관계 자동 할당이 활성화되었습니다. 기본 할당 임계값은 90%입니다.

    각 개별 분석 실행에 대해 이러한 기본 설정을 덮어쓸 수 있습니다.

겹침 분석 결과 확인

분석 결과를 보고 열 데이터가 관련되는 방식을 판별하십시오.

겹침 관계를 확인 및 관리하려면 다음을 수행하십시오.

  1. 인리치먼트 영역에서 키 관계 보기 링크를 클릭하십시오. 겹침 탭에서 발견된 각 관계에 대해 다음 정보를 볼 수 있습니다.

    • 기본 자산 및 쌍으로 구성된 자산
    • 관계 상태
    • 구별 값의 최대 수
    • 공통 열 값의 총 수 및 백분율
  2. 자세한 정보를 보려면 항목을 펼치십시오.

    • 겹치는 데이터를 표시하는 기본 열 및 열 쌍의 이름

    • 기본 및 열 쌍에 대한 겹침 유형:

      동일함
      기본 열과 쌍체 열의 값이 동일합니다. 둘 다에 대한 백분율은 100% 및 100%입니다.
      서브세트
      이 열의 모든 값은 다른 열에 있지만 다른 열에는 더 많은 값이 포함되어 있습니다. 첫 번째 열의 백분율은 100%이지만 다른 열의 백분율은 100% 미만입니다.
      수퍼세트
      다른 열의 모든 값은 이 열에 있지만 이 열의 모든 값이 다른 열에 있는 것은 아닙니다. 다른 열의 백분율은 100%이지만 첫 번째 열의 백분율은 100% 미만입니다.
      겹침
      열의 일부 값에는 일부 겹침이 있지만 두 열의 모든 값이 공통적인 것은 아닙니다. 둘 다 백분율이 100% 미만입니다.
    • 기본 열에 있는 중복 제거 값의 총 수와 열 쌍에 공통되는 값의 수 및 백분율

    • 열 쌍에 있는 중복 제거 값의 총 수와 기본 열에 공통되는 값의 수 및 백분율

  3. 필요에 따라 관계를 지정하십시오.

작업 실행 세부사항 액세스

측면 패널에서 일반 메타데이터 강화를 위한 작업 세부사항에 액세스할 수 있는 동안 프로젝트의 작업 탭으로 이동하여 관계 분석 작업을 확인해야 합니다. 작업의 유형은 메타데이터 인리치먼트 자산에 대한 키 분석입니다. 작업 이름은 metadata_enrichment ment_name (관계 발견) 패턴을 따릅니다.

자세한 정보

상위 주제: 데이터 자산 강화

일반적인 AI 검색 및 응답
이러한 응답은 제품 문서의 컨텐츠를 기반으로 하는 watsonx.ai 의 대형 언어 모델에 의해 생성됩니다. 자세히 알아보기