각 프로파일에는 여러 레벨의 정보가 포함되어 있습니다.
정보는 다음과 같이 그룹화됩니다.
고급 프로파일링의 결과가 출력 테이블에 기록되면 실제 데이터 유형에 관계없이 값이 문자열로 저장됩니다. 이 경우 데이터 클래스, 형식 또는 유형을 정렬할 때 문자열 정렬 순서가 적용됩니다.
통계
통계 탭은 열에서 분석된 데이터의 구조에 대한 요약 및 해당 구조 정보에 대한 다른 유형의 시각화를 제공합니다. 정확하게 표시되는 정보는 열에 연속형 (양적) 또는 명목 (질적) 데이터가 포함되는지 여부에 따라 다릅니다.
차트
열의 데이터 유형에 따라 서로 다른 유형의 시각화 중에서 선택할 수 있습니다.
명목 데이터:
- 막대형 차트
- 비율 또는 원형 차트
- 파레토 차트
연속 데이터:
- 히스토그램 차트
- 상자 플롯 차트
- Quantile-quantile (Q-Q) 플롯 차트
모든 유형의 데이터에 대해 분포 차트를 사용할 수 있습니다. 분산 테이블은 일반적으로 컬럼 및 해당 개수에서 최소한 가장 자주 사용되는 값 (또는 간격) 을 나열합니다. 테이블은 형식, 유형 또는 데이터 클래스와 같은 기타 정보를 표시할 수 있습니다. 특정 값을 포함하는 개별 행을 보려면 행 표시를 클릭하십시오.
문자열 값과 같은 숫자가 아닌 값의 분포 통계는 실제로 저장된 값 수에 관계없이 처음 100개의 고유 값만 표시합니다. 출력 테이블의 모든 값에 액세스하려면 표준 데이터베이스 쿼리 또는 .
막대 또는 막대 그래프 차트에는 오버레이 컬럼을 선택하여 현재 보고 있는 컬럼의 각 값 내에서 해당 값이 분산되는 방법을 볼 수 있는 옵션이 있습니다. 예를 들어, 판매된 베이킹 제품이 있는 열이 있고 오버레이 열 계절을 선택하는 경우 특정 베이커리 제품의 판매가 계절별로 어떻게 다른지 확인할 수 있습니다. 오버레이 열의 경우 명목 데이터를 포함하는 데이터 자산의 모든 열에서 선택할 수 있습니다.
요약
요약 타일은 선택된 열의 데이터에 대한 일반 정보를 제공합니다.
- 데이터 소스에 정의된 컬럼의 데이터 유형
- 분석을 통해 추론된 데이터 유형
- 해당 열에 있는 다른 데이터 형식의 수
- 해당 열에 대해 가장 자주 추론된 형식
- 지정된 데이터 클래스
- 데이터 측정 유형 (
nominal
또는continuous
) - 검사된 행 수 (즉, 값 수)
기본 통계
기본 통계는 선택한 컬럼에 있는 값의 분산 및 분산에 대한 일반 정보를 제공합니다. 열의 데이터 형식에 따라 통계가 약간 다릅니다. 예를 들어 데이터 유형 문자열 열에 대한 통계에는 최소 길이, 최대 길이 및 평균 길이 값이 있는 반면, 데이터 유형 정수 열에 대한 통계에는 최소값, 최대값 및 평균 값이 있습니다.
측도 | 설명 | 이 유형의 데이터에 대해 표시됩니다. |
---|---|---|
카디널리티 | 공백 및 널 (null) 을 포함하여 열에 있는 고유 중복 제거 값의 백분율입니다. 컬럼에 있는 구별 값의 총 수를 해당 컬럼에 있는 값의 총 수로 나누어 계산합니다. | 연속형 |
구분 | 컬럼의 샘플링된 데이터에 존재하는 다른 값의 수입니다. | 연속형 |
엔트로피 | 이 값은 열이 보유하는 정보의 양을 정량화합니다. 보다 일반적으로 entropy 를 사용하여 이벤트 및 랜덤 변수의 정보를 수량화할 수 있습니다. 이 양은 변수에 있는 서로 다른 값의 수뿐만 아니라 예기치 않은 값의 양을 기준으로 추정됩니다. | 명목형 |
지니 | 무작위로 선택할 때 특정 요소가 잘못 분류되는 확률의 정도 및 Gini 계수의 변동입니다. Gini 색인은 0에서 1까지 다양할 수 있습니다. 여기서 0은 모든 요소가 특정 클래스에 속하거나 하나의 클래스만 존재함을 표시합니다. Gini 색인이 1이면 모든 요소가 다양한 클래스에 무작위로 분산되어 있음을 나타냅니다. 0.5 값은 요소가 일부 클래스에 균일하게 분산되어 있음을 표시합니다. | 명목형 |
최대 | 숫자변수의 가장 큰 값 | 연속형 |
평균 | 합계를 값 수로 나눈 산술 평균 | 연속형 |
중앙값 | 값의 절반이 위와 아래에 있는 값입니다. 짝수 개의 값이 있는 경우 중앙값은 정렬될 때 두 중간 값의 평균입니다. 중위수는 이상값의 영향을 받지 않습니다. | 연속형 |
최소 | 숫자변수의 가장 작은 값 | 연속형 |
누락 | 값이 없는 샘플의 행 수입니다. | 연속형 명목형 |
모드 | 컬럼에서 가장 자주 발생하는 값입니다. 동일한 빈도로 여러 값이 발생하는 경우 각 값은 모드입니다. | 연속형 명목형 |
이상치 | 열에 있는 대부분의 다른 값과 멀리 떨어져 있는 열 데이터의 값 수입니다. | 연속형 |
범위 | 열의 최대값과 최소값 사이의 차이입니다. | 연속형 |
합계 | 값이 있는 모든 열에서 값의 합계 또는 총계입니다. | 연속형 |
고유 | 현재 컬럼에 한 번만 표시되는 구별 값의 수입니다. | 연속형 명목형 |
유효함 | 유효한 것으로 간주되는 값의 수입니다. 이는 비어 있거나 누락된 열 값이 제외됨을 의미합니다. | 연속형 명목형 |
고급 인사이트
선택된 컬럼에 있는 값의 분산 및 분산에 대한 깊이 정보를 제공합니다. 이 정보는 연속 데이터에 대해서만 표시됩니다.
측도 | 설명 |
---|---|
25번째 백분위수 | 발견된 값의 25% 미만 및 75% 이상인 값입니다. |
75번째 백분위수 | 발견된 값의 25% 이상이고 75% 이하인 값입니다. |
첨도 | 이상값이 있는 범위의 측도입니다 (분포의꼬리 ). 초과 첨도는 정규 분포에 대한 분포의 꼬리입니다. 정규 분포의 경우 첨도 통계 값은 0입니다. 양(+)의 첨도는
데이터가 정규 분포보다 더 극단적인 이상치를 나타냄을 표시합니다. 음의 첨도는 데이터가 정규 분포보다 덜 극단적인 이상치를 나타냄을 표시합니다. 중간 첨도가 있는 분포 (중간 꼬리) 는 중간치입니다. 낮은 첨도 (얇은 꼬리) 를 갖는 분포는 플라니쿠틱 (platykurtic) 이다. |
평균 표준 오류 | 데이터의 표본 평균 (평균) 이 실제 모집단 평균에서 얼마나 멀리 떨어져 있는지에 대한 측도입니다. |
표준 편차 | 평균에 대한 산포 측도입니다. 낮은 표준 편차를 사용하는 경우 값은 일반적으로 평균에 근접합니다. 높은 표준 편차를 사용하면 값의 범위가 더 넓어집니다. |
왜도 | 분포의 비대칭 측도입니다. 분배는 왼쪽과 오른쪽이 미러 이미지가 아닌 경우 비대칭입니다. 분포에는 오른쪽 (또는 양수), 왼쪽 (또는 음수) 또는 0왜도 (대칭 분포) 가 있을 수 있습니다. |
분산 | 평균에 대한 산포 측도입니다. 모집단 평균 또는 표본 평균에서 무작위 변수의 제곱 편차에 대한 기대값입니다. |
데이터 클래스
데이터 클래스 지정에 대해 다음 정보가 표시됩니다.
선택된 데이터 클래스. 열에 지정된 데이터 클래스입니다. 수동으로 변경하지 않는 한 발견된 데이터 클래스와 동일합니다.
발견된 데이터 클래스-분석에 의해 발견된 열에 대해 가장 일치하는 데이터 클래스입니다.
지정된 데이터 클래스의 신뢰도 점수 입니다. 데이터 클래스의 신뢰도는 데이터 클래스와 일치하는 널이 아닌 값의 백분율입니다. 여러 데이터 클래스가 열 레벨에서 발견되고 지정되는 보다 일반적인 ID입니다. 값 레벨에서 보다 구체적인 데이터 클래스를 식별할 수 없는 경우 이러한 데이터 클래스가 지정됩니다. 일반 식별자는 항상 100%의 신뢰도를 가지며 다음과 같은 데이터 클래스를 포함합니다: 코드, 식별자, 표시기, 수량 및 텍스트
분석 중에 내림차순으로 발견된 모든 데이터 클래스의 목록으로, 맨 위에 최상의 일치 (가장 높은 신뢰도) 가 표시됩니다. 각 데이터 클래스에 대해 신뢰도 점수 및 데이터 클래스 우선순위가 표시됩니다.
발견된 각 데이터 클래스에 대해 데이터 클래스의 범위에 따라 추가 정보가 표시될 수 있습니다.
열 데이터를 기반으로 일치가 수행되는 데이터 클래스의 경우, 이 특정 데이터 클래스의 기준과 일치하는 열 값이 나열됩니다. 개수 (%) 열은 특정 값을 포함하는 샘플의 행 수와 해당 값을 갖는 행의 백분율을 표시합니다. 또한 각 일치 값의 형식이 표시됩니다.
열 이름을 기준으로 매칭이 수행되는 데이터 클래스와 일반 데이터 클래스인 코드, 식별자, 표시기, 수량 및 텍스트의 경우 추가 정보가 표시되지 않습니다. 이러한 데이터 클래스는 데이터 값이 특정 데이터 클래스 식별을 허용하지 않을 때 사용됩니다. 일반 데이터 클래스의 신뢰도는 항상 100%입니다.
자세한 정보는 데이터 클래스를 참조하십시오.
형식
열에 대해 추론된 형식, 발견된 형식 수 및 발견된 모든 형식의 목록이 표시됩니다.
형식은 데이터 값의 문자 패턴을 나타냅니다. 모든 영문자는 문자의 대소문자에 따라 대문자 또는 소문자 A로 표시됩니다. 모든 숫자 문자는 숫자 9로 표시됩니다. 공백 및 특수 문자는 표시된 대로 표시됩니다.
발견된 형식 목록은 특정 형식을 가진 값의 수와 해당 형식을 가진 값의 전체 백분율을 표시합니다. 패턴과 일치하는 값을 보려면 항목을 클릭하십시오. 값 목록에 모든 값이 포함되지 않거나 비어 있을 수도 있도록 표시를 위해 100개의 값만 검색됩니다.
유형
다음 정보가 표시됩니다.
- 데이터 소스에 정의된 컬럼의 데이터 유형
- 분석을 통해 추론된 데이터 유형
- 해당 열에 있는 값의 최소 길이
- 해당 컬럼에 있는 값의 최대 길이
- 열 값의 평균 길이
- 컬럼의 모든 데이터 유형 목록
데이터 유형은 컬럼에 특정 유형 (예: 정수, 문자열 또는 날짜 유형) 의 데이터가 포함되는지 여부를 설명합니다.
일반적으로 대부분 또는 모든 컬럼 값이 동일한 데이터 유형이므로 컬럼의 최적 데이터 유형은 명확합니다. 그러나 목록에 여러 다른 데이터 유형이 포함된 경우 추론된 데이터 유형의 빈도 수를 확인하십시오. 해당 빈도 수가 테이블의 행 수에 비해 낮은 경우 올바르지 않은 데이터 값으로 인해 잘못된 데이터 유형이 추론될 수 있습니다.
자세한 정보
상위 주제: 메타데이터 강화 결과 검토