Translation not up to date
Projenizdeki verilerin kalitesini değerlendirmek için SQL tabanlı veri kalitesi kuralları oluşturabilirsiniz. Belirli kalite kriterlerine uygunluğu değerlendirmek yerine hataları ölçmek için bu tür kuralları kullanın.
SQL tabanlı bir veri kalitesi kuralı yaratmak için:
Bir proje açın, Yeni varlık'ı tıklatın ve Veri kalitesi kuralı' nı seçin.
Ayrıntıları tanımla:
Veri kalitesi kuralı için bir ad belirtin.
İsteğe bağlı: Bir açıklama sağlayın.
İsteğe bağlı: Bu varlıktaki kural mantığına ilişkin birincil veri kalitesi metriğini tanımlamak için bir veri kalitesi boyutu seçin. Seçilen boyut, rapor kategorisi olarak, süzgeçten geçirme için ya da seçilen verileri görselleştirmek için kullanılabilir.
Kuralınızı bir veri kalitesi tanımlamasından yarattığınızda, bir veri kalitesi boyutu önceden ayarlanmış olabilir. Bunu tutabilir, boyut ayarını silebilir ya da farklı bir boyut seçebilirsiniz.
SQL deyimlerini kullan seçeneğini etkinleştirin.
Var olan bir bağlantıyı seçerek ya da yeni bir bağlantı yaratarak denetlenecek verilerin kaynağını belirtin. Desteklenen veri kaynakları için Veri kalitesi kuralları için desteklenen bağlayıcılarbaşlıklı konuya bakın.
Var olan bir bağlantıyı seçerseniz ve bu bağlantı kişisel kimlik bilgileriyle oluşturulduysa, bağlantının kilidini açmanız gerekir.
SQL deyimlerinizi girin.
Sorguyu yazarken, SELECT deyiminin aşağıdaki koşulları karşıladığından emin olun:
- Deyim yalnızca benzersiz adları olan kolonları döndürür. Adları yinelenen kolonlar geçerlilik denetimi hatalarına neden olur.
- Deyim, veri kalitesi koşulunuzu karşılamayan kayıtların sayısını döndürür. SQL tabanlı kurallar, veri kalitesi tanımlarından yaratılan kurallardan farklı bir şekilde çalışır. SELECT deyiminin döndürdüğü kayıtları
failed
ya daNot met
olarak bildirir. Ayrıca, bildirilen toplam kayıt sayısı, denetlenen kayıt sayısına değil, döndürülen kayıt sayısına eşittir.
Örneğin, 31 satır içeren bir
db2admin.credit_card
tablonuzun olduğu ve AMEX kart tipine sahip kaç kayıt olduğunu denetlemek istediğiniz varsayılırsa, fark aşağıdaki gibidir:Veri kalitesi tanımından veri kalitesi kuralı
Kart tipinin AMEX olduğu kayıtları kontrol edin.
Veri kalitesi tanımlamasındaki ifade:Col = 'AMEX'
Veri kalitesi kuralındaki Bound ifadesi:credit_card.card_type = 'AMEX'
Örnek sonuç:Total: 31 | Met: 4 (12.9%) Not met: 27 (87.1%)
SQL tabanlı veri kalitesi kuralı
Kart tipinin AMEX olmadığı kayıtları kontrol edin.
SELECT deyimi:select card_type from db2admin.credit_card where card_type <> 'AMEX'
Örnek sonuç:Total: 27 | Met: 0 (0%) Not met: 27 (100%)
Veri kalitesi kuralları için örnek SQL deyimlerikümesini de denetleyin. Bu örnekler, kalite ölçütlerinizi karşılamayan kayıtları döndürmek için SQL kurallarını nasıl yazabileceğinizi gösterir. Sağlanan deyimleri kendi veri kalitesi kurallarınıza kopyalayabilir ve gerektiği şekilde ayarlayabilirsiniz.
SELECT deyiminizde kolon, çizelge ve şema adlarını belirtmek için aşağıdaki kuralları göz önünde bulundurun:
- PostgreSQL veri kaynaklarındaki tablo ve şema adları büyük ve küçük harfe duyarlıdır. Adları şu örnekteki gibi çift tırnak içine almanız gerekebilir: "schema". "table_name"
SELECT *
sorgularından kaçınmaya çalışın. Bu tür sorgular, sütun adları değiştiğinde doğrulama hatalarına neden olabilir. Sütun seçimini daraltın.- Sütun adı alfabetik bir karakterle başlamazsa ya da alfabetik karakterler, sayısal karakterler ya da alt çizgiler dışında karakterler içeriyorsa, sütun adı için bir diğer ad kullanın.
İstediğiniz zaman SQL deyimlerini sınayabilirsiniz. Sınamanın yalnızca sorgunuz tarafından seçilen sütunların adlarını döndürdüğünü unutmayın. Gerçek işleme gerçekleştirilmez. İleridüğmesini tıklattığınızda bir geçerlilik denetimi gerçekleştirilir. Sorgunuz bu çeki geçmediği sürece devam edemezsiniz.
Çıkış ayarlarını ve içeriğini yapılandırın.
Kural çıkışının veritabanına yazılmasını isteyip istemediğinizi seçin. Değilse, kuralın çalıştırma geçmişinde yalnızca bazı istatistiksel bilgiler sağlanır.
Bir veritabanı çizelgesi oluşturmak için:
Dış çıkış seçeneğini etkinleştirin ve bölümü genişletin.
Aşağıdaki seçeneklerden birini belirleyin:
Yeni bir veritabanı çizelgesine yaz
Bir bağlantı ve şema seçin ve yaratılacak çıkış çizelgesinin adını girin.
Kuralı çalıştırdığınızda, bu yeni çıkış tablosu da projenize bir veri varlığı olarak eklenir.
Varolan bir veritabanı çizelgesine yaz
Bir bağlantı, şema ve var olan bir çizelge seçin. Çıkış içeriği bölümüne bu çizelgenin kolonları yerleştirilir ve içeriği bu kolonlarla eşleyebilirsiniz.
Projenizde karşılık gelen bir veri varlığı yoksa, kuralı çalıştırdığınızda yaratılır.
Desteklenen veritabanı tipleri için bkz. Veri kalitesi kuralları için desteklenen bağlayıcılar. Şema ve çizelge adları bu kurala uygun olmalıdır:
- Adın ilk karakteri alfabetik bir karakter olmalıdır.
- Adın geri kalanı alfabetik karakterler, sayısal karakterler ya da alt çizgilerden oluşabilir.
- Ad boşluk içermemelidir.
Projenizdeki Varlıklar sayfasından ya da kuralın çalıştırma geçmişindenkural çıkışı tablosuna karşılık gelen veri varlığına erişebilirsiniz.
Aşağıdaki ayarları yapılandırın:
Çıkış kayıtları: Çıkışınızda tüm kayıtları mı, yalnızca kural koşullarını karşılamayan kayıtları mı (varsayılan ayar), yoksa yalnızca kural koşullarını karşılayan kayıtları mı içermek istediğinizi seçin.
Kural dışı durum çıkış kaydı sayısı üst sınırı: Tüm kayıtları içerebilir ya da bir üst sınır değeri ayarlayabilirsiniz.
Güncelleme yöntemi: Yeni çıkış kayıtları, çıkış çizelgesinin var olan içeriğinin sonuna eklenebilir. Yalnızca en son çalıştırmanın sonuçlarını tutmak istiyorsanız, var olan kayıtların üzerine yazmayı seçin.
Appendgüncelleme yöntemi için çizelge şeması değiştirilemez; başka bir deyişle, kolonları yeniden adlandıramaz, ekleyemez ya da silemezsiniz. Bir veri kalitesi kuralına ilişkin çıkış içeriğini değiştirmek ve var olan bir çıkış çizelgesine yazmak istiyorsanız, çıkış çizelgesindeki kolonları yeni tanımlanan çıkış kolonlarıyla değiştirmek için Üzerine Yaz güncelleme yöntemini kullandığınızdan emin olun.
Çıktı tipini istediğiniz zaman değiştirebilirsiniz. Yeni seçiminize bağlı olarak, yapılandırılan ayarlar sıfırlanır ya da üzerine yazılır.
Çıkış çizelgesinin içeriğini yapılandırın. Varsayılan olarak, SQL sorgusu tarafından seçilen tüm kolonlar çıkış çizelgesine eklenir. Seçilen ya da bu sütunların tümünü kaldırabilir ve başka içerik ekleyebilirsiniz. Çıkış içeriği ekle ' yi tıklatın ve aşağıdaki seçeneklerden birini belirleyin:
Kolonlar: Çıkış çizelgesinde görmek istediğiniz kolonları seçin. SQL sorgusunun döndürdüğü tüm kolonlar arasından seçim yapabilirsiniz.
İstatistikler ve öznitelikler: Çıkış çizelgesine eklemek istediğiniz ek öznitelikleri ya da istatistikleri seçin:
- Kayıt Tanıtıcısı: Çıkıştaki bir kaydı tanıtan benzersiz bir anahtar içerir.
- Kural adı: Veri kalitesi kuralının adını içerir.
- Sistem tarihi: Kuralın çalıştırıldığı sistem tarihini gösterir. Sistem tarihi, sunucuda ayarlanan saat dilimindeki tarihtir.
- Sistem zaman damgası: Kuralın çalıştırıldığı sistem tarihini ve saatini gösterir. Sistem tarihi ve saati, sunucuda belirlenen saat diliminde belirlenen tarih ve saattir.
- Kuralları geçirme: Kayıtın karşıladığı kural koşullarının sayısını gösterir.
- Başarısız kurallar: Kayıtın karşılamadığı kural koşullarının sayısını gösterir.
- Geçen kural yüzdesi: Karşılanan kural koşullarının yüzdesini gösterir.
- Başarısızlıkla Sonuçlanan kurallar yüzdesi: Karşılmayan kural koşullarının yüzdesini gösterir.
Yapılandırmanızı gözden geçirin. Kuralınızın doğru yapılandırıldığından emin olmak için, gerçekten projeye kaydetmeden önce kuralınızı sınayabilirsiniz. Kural testinin çıkışı doğrudan görüntülenir ve çıkış ayarlarında yapılandırdığınız ile eşleşir.
Yapılandırmada değişiklik yapmak için döşeme üzerindeki düzenle () simgesini tıklatın ve ayarları güncelleyin. İncelemeniz tamamlandığında Oluştur' u tıklatın. Kural ve ilgili DataStage akışı projeye eklenir. DataStage akışının varsayılan adı
DataStage flow of data rule <rulename>
' dir.
Kuralınız herhangi bir bilgi eksik olmadan düzgün şekilde yapılandırıldıysa, Ready(Hazır) durumuna sahiptir. Bu durum, kuralın çalıştırılabileceği anlamına gelir. Not ready (Hazır değil) kural durumu, SQL sözdizimi hataları, değiştirilen bağımlılıklar ya da diğer kural tanımlaması sorunları nedeniyle kuralın çalıştırılamayacağını gösterir. Örneğin, veri kaynağına erişim parolası değişti. Bu durum, Watson Data API: Create data quality rulekullanılarak oluşturulan veri kalitesi kuralları için daha olası. API ' yi kullanarak veri kalitesi kuralları yaratırken, kuralın da test edildiğinden ve doğrulandığından emin olun.
Daha fazla bilgi
Sonraki adımlar
Üst konu: Veri kalitesi kurallarının yönetilmesi