Translation not up to date
Tüm veri varlığı ve analiz edilen veri varlığının içerdiği tüm sütunlar için bir veri kalitesi puanı görüntülenir. Veri kalitesi puanları, tüm varlık ve sütunlarında çalıştırılan veri kalitesi denetimlerinin sonuçlarına göre hesaplanır.
Aşağıdaki veri kalitesi denetimi tipleri veri kalitesi puanları sağlar:
Önceden tanımlanmış veri kalitesi denetimleri
Bu denetimler, meta veri zenginleştirmesinin bir parçası olarak kalite analizini çalıştırdığınızda çalıştırılır. Her denetim varlığın tamamında çalıştırılır, ancak denetimin tipine bağlı olarak tüm sütunlarına ilişkin sonuçları döndürmeyebilir.
Önceden tanımlanmış her veri kalitesi denetimi bir veri kalitesi boyutuyla ilişkilendirilir.
Tanımlama tabanlı veri kalitesi kuralları (Veri kalitesi tanımlarından kurallar oluşturma)
Veri kalitesi kuralları, veri kaynağınızdaki belirli koşulları doğrulayabilir. Bunlar el ile ya da bir zamanlamada otomatik olarak çalıştırılabilir.
Bir veri kalitesi kuralı, kuralın yapılandırmasına bağlı olarak birden çok boyuta katkıda bulunabilir. Bir kural için boyut ayarlanmadıysa, sonuçları Yokboyut puanı olarak yakalanır.
Her bir denetim için, sonuçlarının genel veri kalitesi puanına katkıda bulunup bulunmadığını belirleyebilirsiniz. Bkz. Veri kalitesi analizi sonuçları.
Watson Veri API 'sini kullanarak tek tek varlıklar için veri kalitesi puanlarını da alabilirsiniz.
Veri kalitesi puanlarının nasıl hesaplandığı
Sütun puanı , sütun için kullanılabilir boyut puanlarının ağırlıklı ortalaması olarak hesaplanır; bu, en az bir veri kalitesi denetiminin çalıştırıldığı ve sonuç döndürüldüğü tüm boyutların puanları anlamına gelir.
Varlık güvenilirliği boyutu dışında bir boyut puanı, bir sorunun olasılık sayısının (1 sıklık) olduğu veri kalitesinin bu boyut için aradığı tüm sorunların olasılık sayıları çarpılarak hesaplanır. Örneğin, bir sütunda aynı boyut için bildirilen 2 farklı kalite sorunu olduğunu varsayın. Sorun 1,% 10 sıklığı ve% 20 sıklığı ile 2 çıkışı ile ortaya çıkar. Bu nedenle, o sütundaki bir değerin olmama olasılığının 1. sorunu %90 'dır. 2. sayı için %80 'dir. Bu nedenle, sütunun o boyutta herhangi bir kalite sorunu olma olasılığı %72 'dir ve bu şu şekilde hesaplanır:
(1.0 - 0.1) × (1.0 - 0.2) = 0.9 × 0.8 = 0.72
Varlık güvenilirliği boyutu için boyut puanı, üye olarak olası eşleşme sorunları olan kayıtları olmayan belirli varlık tipinin varlık yüzdesini temsil eder.
Varlık puanları (genel puan ya da boyut puanları), sütunlarının karşılık gelen puanlarının ağırlıklı ortalaması olarak hesaplanır.
Projelerde, Genel puana katkıda bulunan ayarını değiştirerek puanların hesaplanmasında dikkate alınanları değiştirebilirsiniz. Bu ayar varsayılan olarak açıktır. Sütun düzeyinde ya da varlık düzeyinde belirli denetimlerin sonuçlarını ve tüm sütunların sonuçlarını dışlayabilirsiniz.
Projelerde kalite puanları şu durumlarda yeniden hesaplanır:
- Veri kalitesi analizi, meta veri zenginleştirmesi bağlamında çalıştırılır.
- Varlıkta var olan ya da yeni veri kalitesi kuralları çalıştırılır.
- Puanlara katkıda bulunan bir veri kalitesi kuralı silinir.
- Genel puana katkıda bulunanlar ayarı değiştirilir.
- Bir IBM Match 360 varlık veri varlığı güncellenir.
Kataloglarda, varlık yeniden yayınlandığında kalite puanları değişir.
Puan hesaplama örneği
Bir veri varlığının ID, NAME, EMAIL, PHONE ve SALARY kolonlarını içerdiğini varsayın. Tüm sütunlar ve tüm sorun tipleri genel puanlara (varsayılan ayar) katkıda bulunur.
Başlangıçta, varlıkta veri kalitesi denetimi çalıştırılmadığından kullanılabilir veri kalitesi puanları yok. Veri kalitesi bilgileri oluşturmak için:
IBM Match 360 analizi veri varlığı üzerinde çalışır ve şu sorunları tanımlar:
Veri varlığı için %10 eşleşen varlıklar. Bu bilgiler, Varlık güvenilirliğiveri kalitesi boyutu için dikkate alınır.
Varlık düzeyinde aşağıdaki puanlar hesaplanır:
Boyut puanı
Varlık güvenilirliği: (1- 0.1) = %90Genel Puan: %90
Meta veri zenginleştirmesinin bir parçası olarak veri kalitesi analizini çalıştırın. Kalite analizi şu sorunları tanımlar:
- Completenessveri kalitesi boyutu için dikkate alınan değerler eksik:
- NAME kolonundaki değerlerin %3 'ü
- EMAIL sütunundaki değerlerin %5 'i
- PHONE sütunundaki değerlerin %3 'ü
- Veri kalitesi boyutu Geçerlilikiçin dikkate alınan veri sınıfı ihlalleri:
- EMAIL sütunundaki değerlerin %10 'u
- PHONE sütunundaki değerlerin %6 'sı
- Tutarlılıkveri kalitesi boyutu için dikkate alınan aykırı değer ya da şüpheli değerler:
- NAME kolonundaki değerlerin %4 'ü
- SALARY kolonundaki değerlerin %1 'i
Bu bulgular, tek tek sütunlar için aşağıdaki puanlarla sonuçlanır:
- Sütun Tanıtıcısı
- Boyut puanları
Varlık güvenilirliği: %90 (değişmedi)
Tamlık: %100 ( Beklenmeyen eksik değerler denetimi herhangi bir sorun bulmadı.)
Geçerlilik: %100 (Önceden tanımlanmış Geçerlilik denetimlerinden hiçbiri herhangi bir sorun bulamadı.)
Tutarlılık: %100 (Önceden tanımlanmış Tutarlılık denetimlerinin herhangi bir sorunu buldu.) - Genel sütun puanı: (%90 + %100 + %100 + %100) /4 = 97.5
- Boyut puanları
- Sütun adı
- Boyut puanları
Varlık güveni: %90 (değişmedi)
Tamlık: %100-%3 = 97%
Geçerlilik: %100
Tutarlılık: %100-%4 = %96 - Genel sütun puanı: (%90 + 97% + %100 + %96) /4 = 95.75
- Boyut puanları
- Sütun EMAIL
- Boyut puanları
Varlık güveni: %90 (değişmedi)
Tamlık: %100-%5 %95
Geçerlilik: %100-%10 = %90
Tutarlılık: %100 - Genel sütun puanı: (%90 + %95 + %90 + %100) /4 = 93.75
- Boyut puanları
- Kolon PHONE
- Boyut puanları
Varlık güveni: %90 (değişmedi)
Tamlık: %100-%3 = 97%
Geçerlilik: %100-%6 = 94
Tutarlılık: %100 - Genel sütun puanı: (%90 + 97% + 94% + %100) /4 = 95.25
- Boyut puanları
- Kolon SALARY
- Boyut puanları
Varlık güveni: %90 (değişmedi)
Tamlık: %100
Geçerlilik: %100
Tutarlılık: %100-%1 = %99 - Genel sütun puanı: (%90 + %100 + %100 + %99) /4 = 97.25
- Boyut puanları
Bu puanlardan, varlık düzeyindeki puanlar hesaplanır:
Boyut puanları
Varlık güveni: (90% + 90% + 90% + 90% + 90%) /5 = 90%
Tamlık: (%100 + 97% + 95% + 100%) /5 = 97.8%
Geçerlilik: (%100 + 100% + 90% + 94% + 100%) /5 = 96.8%
Tutarlılık: (%100 + 96% + 100% + 100% + 99%) /5 = 99%Genel Puan: (97.5% + 95.75% + 93.75% + 95.25% + 97.25%) /5 = 95.9%
- Completenessveri kalitesi boyutu için dikkate alınan değerler eksik:
Verili bir ad ve soyadı içerdiğini doğrulamak için NAME kolonuna uygulanan Name_Complete veri kalitesi kuralını çalıştırın. Kural, Completenessveri kalitesi boyutuna bağlıdır. Bu kural, NAME sütununda %1 ihlal bildiriyor.
NAME sütununun puanları aşağıdaki gibi değişir. Diğer sütunların puanları değişmeden kalır.
- Boyut puanları
Varlık güveni: %90 (değişmedi)
Tamlık: (1-0.03) × (1-0.01) = 0.9603 = 96.03%
Geçerlilik: %100 (değişmedi)
Tutarlılık: %96 (değişmedi) - Genel puan: (%90 + 96.03% + %100 + %96) /4 = 95.5
Bu değişiklikler varlık puanlarını da değiştirir.
- Boyut puanları
Varlık güveni: %90 (değişmedi)
Tamlık: (%100 + 96% + 95% + 97% + %100) /5 = 97.6%
Geçerlilik: 96.8% (değişmedi)
Tutarlılık: %99 (değişmedi) - Genel puan: (97.5% + 95.5% + 93.75% + 95.25% + 97.25%) /5 = 95.85%
- Boyut puanları
Telefon numarasının, adrese karşılık gelen ülke koduna ve önekine sahip olduğunu doğrulamak için PHONE sütununa uygulanan ek bir veri kalitesi kuralı olan Phone_Valid komutunu çalıştırın. Kural, Geçerlilikveri kalitesi boyutuna bağlıdır. Bu kural, PHONE sütunundaki %2 ihlal bildiriyor.
PHONE sütununun puanları aşağıdaki gibi değişir. Diğer sütunların puanları değişmeden kalır.
- Boyut puanları
Varlık güveni: %90 (değiştirilmedi)
Tamlık: %97 (değiştirilmedi)
Geçerlilik: (1.0-0.06) × (1.0-0.02) = 0.9212 = 92.12%
Tutarlılık: %100 - Genel puan: (%90 + 97 + 92.12% + %100) /4 = 94.78
Bu değişiklikler, varlık puanlarının değiştirilmesiyle de sonuçlanır.
- Boyut puanları
Varlık güveni: %90 (değişmedi)
Tamlık: 97.6% (değiştirilmedi)
Geçerlilik: (%100 + %100 + %90 + 92.12% + %100) /5 = 96.42%
Tutarlılık: %99 (değiştirilmedi) - Genel puan: = (97.5% + 95.5% + 93.75% + 94.78% + 97.25%) /5 = 95.76%
- Boyut puanları
Puan hesaplaması için yoksayılacak Tutarlılık boyutuna ilişkin tüm denetimleri ayarlayın. Tutarlılık boyutu için boyut puanı artık gösterilmiyor. Diğer tüm boyut puanları değişmeden kalır. Genel sütun ve varlık puanları yeniden hesaplanır.
Column scores
xx Column ID: (1 × 90% + 1 × 100% + 1 × 100% + 0 × 100%)/(1 + 1 + 1 + 0) = 96.67%
Column NAME: (1 × 90% + 1 × 96.03% + 1 × 100% + 0 × 96%)/(1 + 1 + 1 + 0) = 95.34%
Column EMAIL: (1 × 90% + 1 × 95% + 1 × 90% + 0 × 100%)/(1 + 1 + 1 + 0) = 91.67%
Column PHONE: (1 × 90% + 1 × 97% + 1 × 92.12% + 0 × 100%)/(1 + 1 + 1 + 0) = 94.78%
Column SALARY: (1 × 90% + 1 × 100% + 1 × 100% + 0 × 99%)/(1 + 1 + 1 + 0) = 96.67%Genel varlık puanı: (96.67 + 95.34% + 91.67% + 93.04% + 96.67)/5 = 94.68%
SALARY kolonuna ilişkin sonuçları puan hesaplamasından dışlayın. Sütun puanları değişmez. Varlığa ilişkin genel ve boyut puanları aşağıdaki gibi yeniden hesaplanır:
- Dimension scores
Varlık güveni: (1 × 90% + 1 × 90% + 1 × 90% + 1 × 90% + 0 × 90%)/(1 + 1+ 1 + 1 + 0) = 90%
Eksiksizlik: (1 × 100% + 1 × 96.03% + 1 × 95% + 1 × 97% + 0 × 100%)/(1 + 1+ 1 + 1 + 0) = 97%
Geçerlilik: (1 × 100% + 1 × 100% +1 × 90% +1 × 92.12% + 0 × 100%)/(1 + 1 + 1 + 1 + 0) = 95.53%
Tutarlılık: not shown - Genel varlık puanı = (%100 + 98.02% + 92.5% + 92.74% + 0)/(1 + 1 + 1 + 1 + 0) = 95.82
- Dimension scores
Daha fazla bilgi
- Bir varlığın profilinin oluşturulması
- Meta veri zenginleştirmesi
- Veri kalitesinin değerlendirilmesi
- Önceden tanımlanmış veri kalitesi denetimleri
Üst konu: Veri kalitesi analizi sonuçları