0 / 0
Go back to the English version of the documentation
Veri kalitesi puanları
Last updated: 17 Eki 2023
Veri kalitesi puanları

Tüm veri varlığı ve analiz edilen veri varlığının içerdiği tüm sütunlar için bir veri kalitesi puanı görüntülenir. Veri kalitesi puanları, tüm varlık ve sütunlarında çalıştırılan veri kalitesi denetimlerinin sonuçlarına göre hesaplanır.

Aşağıdaki veri kalitesi denetimi tipleri veri kalitesi puanları sağlar:

  • Önceden tanımlanmış veri kalitesi denetimleri

    Bu denetimler, meta veri zenginleştirmesinin bir parçası olarak kalite analizini çalıştırdığınızda çalıştırılır. Her denetim varlığın tamamında çalıştırılır, ancak denetimin tipine bağlı olarak tüm sütunlarına ilişkin sonuçları döndürmeyebilir.

    Önceden tanımlanmış her veri kalitesi denetimi bir veri kalitesi boyutuyla ilişkilendirilir.

  • Tanımlama tabanlı veri kalitesi kuralları (Veri kalitesi tanımlarından kurallar oluşturma)

    Veri kalitesi kuralları, veri kaynağınızdaki belirli koşulları doğrulayabilir. Bunlar el ile ya da bir zamanlamada otomatik olarak çalıştırılabilir.

    Bir veri kalitesi kuralı, kuralın yapılandırmasına bağlı olarak birden çok boyuta katkıda bulunabilir. Bir kural için boyut ayarlanmadıysa, sonuçları Yokboyut puanı olarak yakalanır.

  • IBM Match 360 eşleşme

Her bir denetim için, sonuçlarının genel veri kalitesi puanına katkıda bulunup bulunmadığını belirleyebilirsiniz. Bkz. Veri kalitesi analizi sonuçları.

Watson Veri API 'sini kullanarak tek tek varlıklar için veri kalitesi puanlarını da alabilirsiniz.

Veri kalitesi puanlarının nasıl hesaplandığı

Sütun puanı , sütun için kullanılabilir boyut puanlarının ağırlıklı ortalaması olarak hesaplanır; bu, en az bir veri kalitesi denetiminin çalıştırıldığı ve sonuç döndürüldüğü tüm boyutların puanları anlamına gelir.

Varlık güvenilirliği boyutu dışında bir boyut puanı, bir sorunun olasılık sayısının (1 sıklık) olduğu veri kalitesinin bu boyut için aradığı tüm sorunların olasılık sayıları çarpılarak hesaplanır. Örneğin, bir sütunda aynı boyut için bildirilen 2 farklı kalite sorunu olduğunu varsayın. Sorun 1,% 10 sıklığı ve% 20 sıklığı ile 2 çıkışı ile ortaya çıkar. Bu nedenle, o sütundaki bir değerin olmama olasılığının 1. sorunu %90 'dır. 2. sayı için %80 'dir. Bu nedenle, sütunun o boyutta herhangi bir kalite sorunu olma olasılığı %72 'dir ve bu şu şekilde hesaplanır:

(1.0 - 0.1) × (1.0 - 0.2) = 0.9 × 0.8 = 0.72

Varlık güvenilirliği boyutu için boyut puanı, üye olarak olası eşleşme sorunları olan kayıtları olmayan belirli varlık tipinin varlık yüzdesini temsil eder.

Varlık puanları (genel puan ya da boyut puanları), sütunlarının karşılık gelen puanlarının ağırlıklı ortalaması olarak hesaplanır.

Projelerde, Genel puana katkıda bulunan ayarını değiştirerek puanların hesaplanmasında dikkate alınanları değiştirebilirsiniz. Bu ayar varsayılan olarak açıktır. Sütun düzeyinde ya da varlık düzeyinde belirli denetimlerin sonuçlarını ve tüm sütunların sonuçlarını dışlayabilirsiniz.

Projelerde kalite puanları şu durumlarda yeniden hesaplanır:

  • Veri kalitesi analizi, meta veri zenginleştirmesi bağlamında çalıştırılır.
  • Varlıkta var olan ya da yeni veri kalitesi kuralları çalıştırılır.
  • Puanlara katkıda bulunan bir veri kalitesi kuralı silinir.
  • Genel puana katkıda bulunanlar ayarı değiştirilir.
  • Bir IBM Match 360 varlık veri varlığı güncellenir.

Kataloglarda, varlık yeniden yayınlandığında kalite puanları değişir.

Puan hesaplama örneği

Bir veri varlığının ID, NAME, EMAIL, PHONE ve SALARY kolonlarını içerdiğini varsayın. Tüm sütunlar ve tüm sorun tipleri genel puanlara (varsayılan ayar) katkıda bulunur.

Başlangıçta, varlıkta veri kalitesi denetimi çalıştırılmadığından kullanılabilir veri kalitesi puanları yok. Veri kalitesi bilgileri oluşturmak için:

  1. IBM Match 360 analizi veri varlığı üzerinde çalışır ve şu sorunları tanımlar:

    • Veri varlığı için %10 eşleşen varlıklar. Bu bilgiler, Varlık güvenilirliğiveri kalitesi boyutu için dikkate alınır.

      Varlık düzeyinde aşağıdaki puanlar hesaplanır:

      • Boyut puanı
        Varlık güvenilirliği: (1- 0.1) = %90

      • Genel Puan: %90

  2. Meta veri zenginleştirmesinin bir parçası olarak veri kalitesi analizini çalıştırın. Kalite analizi şu sorunları tanımlar:

    • Completenessveri kalitesi boyutu için dikkate alınan değerler eksik:
      • NAME kolonundaki değerlerin %3 'ü
      • EMAIL sütunundaki değerlerin %5 'i
      • PHONE sütunundaki değerlerin %3 'ü
    • Veri kalitesi boyutu Geçerlilikiçin dikkate alınan veri sınıfı ihlalleri:
      • EMAIL sütunundaki değerlerin %10 'u
      • PHONE sütunundaki değerlerin %6 'sı
    • Tutarlılıkveri kalitesi boyutu için dikkate alınan aykırı değer ya da şüpheli değerler:
      • NAME kolonundaki değerlerin %4 'ü
      • SALARY kolonundaki değerlerin %1 'i

    Bu bulgular, tek tek sütunlar için aşağıdaki puanlarla sonuçlanır:

    • Sütun Tanıtıcısı
      • Boyut puanları
        Varlık güvenilirliği: %90 (değişmedi)
        Tamlık: %100 ( Beklenmeyen eksik değerler denetimi herhangi bir sorun bulmadı.)
        Geçerlilik: %100 (Önceden tanımlanmış Geçerlilik denetimlerinden hiçbiri herhangi bir sorun bulamadı.)
        Tutarlılık: %100 (Önceden tanımlanmış Tutarlılık denetimlerinin herhangi bir sorunu buldu.)
      • Genel sütun puanı: (%90 + %100 + %100 + %100) /4 = 97.5
    • Sütun adı
      • Boyut puanları
        Varlık güveni: %90 (değişmedi)
        Tamlık: %100-%3 = 97%
        Geçerlilik: %100
        Tutarlılık: %100-%4 = %96
      • Genel sütun puanı: (%90 + 97% + %100 + %96) /4 = 95.75
    • Sütun EMAIL
      • Boyut puanları
        Varlık güveni: %90 (değişmedi)
        Tamlık: %100-%5 %95
        Geçerlilik: %100-%10 = %90
        Tutarlılık: %100
      • Genel sütun puanı: (%90 + %95 + %90 + %100) /4 = 93.75
    • Kolon PHONE
      • Boyut puanları
        Varlık güveni: %90 (değişmedi)
        Tamlık: %100-%3 = 97%
        Geçerlilik: %100-%6 = 94
        Tutarlılık: %100
      • Genel sütun puanı: (%90 + 97% + 94% + %100) /4 = 95.25
    • Kolon SALARY
      • Boyut puanları
        Varlık güveni: %90 (değişmedi)
        Tamlık: %100
        Geçerlilik: %100
        Tutarlılık: %100-%1 = %99
      • Genel sütun puanı: (%90 + %100 + %100 + %99) /4 = 97.25

    Bu puanlardan, varlık düzeyindeki puanlar hesaplanır:

    • Boyut puanları
      Varlık güveni: (90% + 90% + 90% + 90% + 90%) /5 = 90%
      Tamlık: (%100 + 97% + 95% + 100%) /5 = 97.8%
      Geçerlilik: (%100 + 100% + 90% + 94% + 100%) /5 = 96.8%
      Tutarlılık: (%100 + 96% + 100% + 100% + 99%) /5 = 99%

    • Genel Puan: (97.5% + 95.75% + 93.75% + 95.25% + 97.25%) /5 = 95.9%

  3. Verili bir ad ve soyadı içerdiğini doğrulamak için NAME kolonuna uygulanan Name_Complete veri kalitesi kuralını çalıştırın. Kural, Completenessveri kalitesi boyutuna bağlıdır. Bu kural, NAME sütununda %1 ihlal bildiriyor.

    NAME sütununun puanları aşağıdaki gibi değişir. Diğer sütunların puanları değişmeden kalır.

    • Boyut puanları
      Varlık güveni: %90 (değişmedi)
      Tamlık: (1-0.03) × (1-0.01) = 0.9603 = 96.03%
      Geçerlilik: %100 (değişmedi)
      Tutarlılık: %96 (değişmedi)
    • Genel puan: (%90 + 96.03% + %100 + %96) /4 = 95.5

    Bu değişiklikler varlık puanlarını da değiştirir.

    • Boyut puanları
      Varlık güveni: %90 (değişmedi)
      Tamlık: (%100 + 96% + 95% + 97% + %100) /5 = 97.6%
      Geçerlilik: 96.8% (değişmedi)
      Tutarlılık: %99 (değişmedi)
    • Genel puan: (97.5% + 95.5% + 93.75% + 95.25% + 97.25%) /5 = 95.85%
  4. Telefon numarasının, adrese karşılık gelen ülke koduna ve önekine sahip olduğunu doğrulamak için PHONE sütununa uygulanan ek bir veri kalitesi kuralı olan Phone_Valid komutunu çalıştırın. Kural, Geçerlilikveri kalitesi boyutuna bağlıdır. Bu kural, PHONE sütunundaki %2 ihlal bildiriyor.

    PHONE sütununun puanları aşağıdaki gibi değişir. Diğer sütunların puanları değişmeden kalır.

    • Boyut puanları
      Varlık güveni: %90 (değiştirilmedi)
      Tamlık: %97 (değiştirilmedi)
      Geçerlilik: (1.0-0.06) × (1.0-0.02) = 0.9212 = 92.12%
      Tutarlılık: %100
    • Genel puan: (%90 + 97 + 92.12% + %100) /4 = 94.78

    Bu değişiklikler, varlık puanlarının değiştirilmesiyle de sonuçlanır.

    • Boyut puanları
      Varlık güveni: %90 (değişmedi)
      Tamlık: 97.6% (değiştirilmedi)
      Geçerlilik: (%100 + %100 + %90 + 92.12% + %100) /5 = 96.42%
      Tutarlılık: %99 (değiştirilmedi)
    • Genel puan: = (97.5% + 95.5% + 93.75% + 94.78% + 97.25%) /5 = 95.76%
  5. Puan hesaplaması için yoksayılacak Tutarlılık boyutuna ilişkin tüm denetimleri ayarlayın. Tutarlılık boyutu için boyut puanı artık gösterilmiyor. Diğer tüm boyut puanları değişmeden kalır. Genel sütun ve varlık puanları yeniden hesaplanır.

    • Column scores
      xx Column ID: (1 × 90% + 1 × 100% + 1 × 100% + 0 × 100%)/(1 + 1 + 1 + 0) = 96.67%
      Column NAME: (1 × 90% + 1 × 96.03% + 1 × 100% + 0 × 96%)/(1 + 1 + 1 + 0) = 95.34%
      Column EMAIL: (1 × 90% + 1 × 95% + 1 × 90% + 0 × 100%)/(1 + 1 + 1 + 0) = 91.67%
      Column PHONE: (1 × 90% + 1 × 97% + 1 × 92.12% + 0 × 100%)/(1 + 1 + 1 + 0) = 94.78%
      Column SALARY: (1 × 90% + 1 × 100% + 1 × 100% + 0 × 99%)/(1 + 1 + 1 + 0) = 96.67%

    • Genel varlık puanı: (96.67 + 95.34% + 91.67% + 93.04% + 96.67)/5 = 94.68%

  6. SALARY kolonuna ilişkin sonuçları puan hesaplamasından dışlayın. Sütun puanları değişmez. Varlığa ilişkin genel ve boyut puanları aşağıdaki gibi yeniden hesaplanır:

    • Dimension scores
      Varlık güveni: (1 × 90% + 1 × 90% + 1 × 90% + 1 × 90% + 0 × 90%)/(1 + 1+ 1 + 1 + 0) = 90%
      Eksiksizlik: (1 × 100% + 1 × 96.03% + 1 × 95% + 1 × 97% + 0 × 100%)/(1 + 1+ 1 + 1 + 0) = 97%
      Geçerlilik: (1 × 100% + 1 × 100% +1 × 90% +1 × 92.12% + 0 × 100%)/(1 + 1 + 1 + 1 + 0) = 95.53%
      Tutarlılık: not shown
    • Genel varlık puanı = (%100 + 98.02% + 92.5% + 92.74% + 0)/(1 + 1 + 1 + 1 + 0) = 95.82

Daha fazla bilgi

Üst konu: Veri kalitesi analizi sonuçları

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more