0 / 0
Belgelerin İngilizce sürümüne geri dön
Veri varlıklarının profilleri

Veri varlıklarının profilleri

Bir varlık profili, varlık içeriğine ilişkin oluşturulan meta verileri ve istatistikleri içerir ve veri kalitesini artırmak için hangi işlemlerin yapılması konusunda anlamanıza yardımcı olur. Bir varlığın Profile (Profil) sayfasında profili görebilirsiniz.

İlişkisel ya da yapılandırılmış veriler içeren veri varlıkları için profiller oluşturulabilir.

Gereksinimler ve sınırlamalar

Aşağıdaki koşullar altında varlıkların profilini görüntüleyebilirsiniz.

Gerekli hizmet
Watson Knowledge Catalog hizmeti.
Gerekli izinler
Bu sayfayı görüntülemek için, bir projede ya da katalogda herhangi bir role sahip olabilirsiniz.
Bir tanıtımı yaratmak ya da güncellemek ya da meta veri zenginleştirmeyi çalıştırmak için, projede ya da katalogda Admin (Yönetici) ya da Düzenleyici rolüne sahip olmanız gerekir.
Çalışma Alanları
Bu çalışma alanlarında varlık profilini görüntüleyebilirsiniz:
  • Projeler
  • Kataloglar
Varlıklar tipleri
Bu varlıkların tipleri bir profile sahiptir:
  • İlişkisel ya da ilişkisel olmayan veritabanlarındaki veri varlıkları, Cloudantdışında, veri kaynaklarına yönelik bir bağlantıdan elde edilen veri varlıkları

  • Bölümlenmiş bir veri kümesinin birden çok dosyadan oluştuğu ve yerel dosya sisteminden karşıya yüklenen tek bir klasörle ya da dosya tabanlı bağlantılardan veri kaynaklarına yönelik olarak temsil edildiği, bölümlenmiş veri kümelerinden veri varlıkları

  • Yerel dosya sisteminden karşıya yüklenen dosyalardan ya da dosya tabanlı bağlantılardan veri kaynaklarına, bu biçimlerle veri varlıkları:

    • CSV
    • XLS, XLSM, XLSX (Bir çalışma defterinin yalnızca ilk sayfası tanıtımı oluşturulan bir dosyadır.)
    • TSV
    • Avro
    • Parke

    Ancak, veri varlıkları belirtik olarak gönderme yapmadığında, bu koşullarda yapılandırılmış veri dosyaları profilsiz olarak atanmaz:

    • Dosyalar, bağlı bir klasör varlığı içinde. Bağlı bir klasör varlığından erişilebilen dosyalar, varlık olarak işlenmez ve profilsiz olarak işlenmez.
    • Dosyalar bir arşiv dosyası içinde. Arşiv dosyasına veri varlığı ve sıkıştırılmış dosyalar tanıtımı yapılmadan gönderme yapılır.
  • Yapılandırılmamış verileri içeren belgeleri içeren veri varlıkları. Boyutu 100 MB ' ye kadar olan belgeler profille profilleyebilirsiniz. Daha büyük belgeler profilsiz olarak açılmaz. Bu belge tipleri için tanıtım tanıtımı yapabilirsiniz:

    • Bu MIME tipleriyle birlikte Microsoft Word belgeleri:
      • uygulama/mkılıç
      • application/vnd.openxmlformats-officedocument.wordprocessingml.document
    • mime type application/pdf ile PDF belgeleri
    • MIME tipi text/plain olan düz metin belgeleri
    • MIME tipi text/html içeren HTML belgeleri

Profil oluşturmanın yolları

İlişkisel ve yapısal verileri içeren veri varlıklarının profilleri ve yapısal olmayan veriler ile veri varlıklarının profilleri farklı bir şekilde oluşturulur.

İlişkisel ve yapısal veriler

Yapılandırılmış ya da ilişkisel veriler içeren veri varlıklarına ilişkin tanıtımlar farklı şekillerde yaratılabilir:

  • Yönetilen kataloglarda, veri varlıkları kataloğa eklendiğinde her bir veri varlıklarına ilişkin profiller otomatik olarak oluşturulur:

    • Katalog için otomatik profil oluşturma özelliğini devre dışı bırakıyorsunuz.
    • Varlık, kişisel kimlik bilgilerini kullanmak üzere yapılandırılan bir bağlantıdan gelir.
    • Varlık, yayınlanmadan önce meta veri zenginleştirmesi yoluyla profillendi. Bu tür varlıklarda, varlıkla birlikte kataloğa eklenen bir profil zaten var.
  • Veri koruma kural uygulaması olmadan projelerde ve kataloglarda, tek tek veri varlıkları için profilleri el ile oluşturabilirsiniz . Ayrıca, varlık önceden tanıtımı oluşturulamadıysa, yönetilen bir katalogda el ile bir profil oluşturabilirsiniz.

  • Projelerde, tek bir gider içinde büyük veri varlıkları kümelerinin tanıtılması için bir meta veri zenginleştirme varlığı yaratabilir ve çalıştırabilirsiniz. Bu varlık profilleri projede kullanılabilir. Zenginleştirilmiş varlıkları, profilleriyle herhangi bir katalog türüne göre yayınlayabilirsiniz. Bkz. Meta veri zenginleştirmeyi yönetme.

Bir hesapta, bir projeden bir kataloğa bir varlık yayınlarken ya da bir katalogdan bir projeye eklediğinizde, profil oluşturma sonuçları veri varlığıyla kopyalanır. Ancak, katalog ve proje farklı hesaplara aitse, kullanılabilir veri sınıfları kümesi farklı olabileceğinden profiller kopyalanmaz.

Bir proje ya da katalogdaki varlığın Profil sayfasından tek bir varlık profilini güncelleyebilirsiniz. Meta veri zenginleştirmesinde yer alan bir veri varlığının profilini el ile güncelseniz, profil ve çözümleme bilgileri de ilgili zenginleştirme sonuçlarına yansıtılır. Yeni zenginleştirme sonuçları yayınlandığında profiller de güncelleştirilir.

Var olan bir tanıtımı güncellediğinizde, tanıtıma dahil etmek için veri sınıflarını değiştirebilirsiniz. Daha önce bir kolona atanmış olan bir veri sınıfını dışladığınızda, güncellenen profil, farklı bir veri sınıfı atanmadıkça, ilgili kolona ilişkin Sınıf dışında bırakılan sınıf (profilden) gösterilir. Atanmış veri sınıfına erişiminiz olmayan kolonlar için Sınıf dışlanmış (tanıtımdan) öğesini de görürsünüz.

Yapısal olmayan veriler

Yapılandırılmamış veri varlıklarına ilişkin profiller her zaman otomatik olarak oluşturulur. Ancak, veri varlıklarının doğrudan projeye ya da kataloğa yüklenmeleri gerekir. Bağlı varlıklar olarak eklenen yapılandırılmamış belgeler profilsiz olarak eklenmez.

Profil oluşturma sırasında çözümlenen nedir?

Yapısal ve yapısal verileri içeren veri varlıklarının ve yapısal olmayan veri varlıklarının profilleri ile veri varlıklarının analizi farklı bir şekilde yapılır.

İlişkisel ve yapısal veriler

If you create or update a profile for a data asset with structured or relational data from the Profil page in a project or a catalog, columns and data quality are analyzed.

Bir projede ya da bir katalogda tek bir varlık tanıtımı oluşturulduğunda, profil varsayılan olarak ilk 5.000 satır veri satırına dayalı olarak oluşturulan bir profildir. Veri varlığında 250 'den fazla sütun varsa, profil, verilerin ilk 1.000 satırına dayalı olarak oluşturulur. Profil, meta veri zenginleştirme yoluyla oluşturulduysa, örnekleme meta veri zenginleştirme ayarlarıyla belirlenir.

Verilerinizin yapısını ve içeriğini tanımlamak ve bunu sınıflandırmak için çözümlemeler aşağıdaki görevleri içerir:

  • Analiz edilen her sütunun verilerine ilişkin istatistikleri hesaplar.
  • Sütunlar ve veri tipleri dağılımı için veri tiplerini hesapladır.
  • Sütunlar ve biçim dağılımı için veri biçimlerini hesaplar.
  • Verileri sınıflandırın ve veri sınıfı adaylarını sütunlara göre hesaplayın.
  • Sıklık dağılımını yakalayın.

Tutarsızlıkları ve anormallikleri bulmak ve verilerinizin genel kalitesini değerlendirmek için çözümlemeler aşağıdaki görevleri içerir:

If you run metadata enrichment on data assets, the enrichment option Profil verileri does not include data quality analysis. Meta veri zenginleştirme hedefleriile ilgili bilgilere bakın.

Yapısal olmayan veriler

Yapılandırılmamış veri varlıkları oluşturmak için, düz metin belgeden çıkarılır ve çıkarılan metnin ilk 5 MB ' si çözümlenir. Tanıtım oluşturma sırasında, belirli bilgi tiplerini tanımlamak için çıkarılan belge içeriğine birkaç örüntü uygulanır. Bu tür bilgileri saptamak için, bilgilerin yapısı, yakındaki bağlam, çıkarılan içeriğin tamamı ve belgenin yazıldığı dil dikkate alınır. Daha sonra, sonuçlar önceden tanımlı veri sınıflarıile eşlenir. Örneğin, banka hesap numaraları saptanırsa, belgeye IBAN veri sınıfı atanır. Ya da belge şehir adları içeriyorsa, veri sınıfı şehri atanır.

Ancak, yapısal olmayan verilere uygulanan herhangi bir algılama mantığının %100 doğru olması beklenemez ve bu da hatalı sınıflandırmalarla sonuçlanabilir.

Atanan veri sınıfları, ilkeleri olan yapısal olmayan veri varlıklarındaki verileri engellemek ya da verileri gizlemek için kullanılamaz.

Profil bilgileri

Profilin içeriği, veri varlığının ilişkisel veri mi, yoksa yapısal veriler mi, yoksa yapısal olmayan veriler mi içerileceğini bağlıdır.

İlişkisel ve yapısal veriler

İlişkisel ya da yapılandırılmış veriler içeren bir veri varlığının profili, veri kümesindeki her bir sütuna ilişkin bilgileri gösterir.

Profile (Profil) etiketi, bazı genel bilgileri ve çözümleme sonuçlarına ilişkin bir genel bakış sağlar:

  • Tanıtım ne zaman yaratıldı ya da son güncellendi mi?

  • Kaç sütun ve satır analiz edildi.

  • Veri varlığı için genel kalite puanı ve her bir sütun için ayrı bir kalite puanı. Veri varlığında tek tek sütunlar içinveri kalitesi puanları , kalite boyutlarıtemel alınarak hesaplanır. Tüm veri varlığı için genel kalite puanı, tüm sütunların puanlarının ortalamasıdır. Tire (-), veri kalitesi analizi olmadan meta veri zenginleştirme yoluyla oluşturulan profillerde gösterilir.

    Birden çok kalite sorunu olan kayıtların gereksiz yere veri kalitesi puanına ağırlığını koymasını önlemek için, birden fazla sorunla özdeşen değerler, kalite puanına yalnızca bir değer olarak farklı bir şekilde ağırlık vermez.

  • Her bir sütun için çıkarsanmış veri sınıfı ve o veri sınıfına duyulan güven. Veri sınıfları , sütundaki verilerin içeriğini açıklar: örneğin, şehir, hesap numarası ya da kredi kartı numarası. Veri sınıfları, veri koruma kurallarıyla verileri maskelemek ya da veri varlıklarına erişimi kısıtlamak için kullanılabilir. Veri sınıfları, varlığın Genel Bakış sayfasında ve Profil sayfasında her bir sütun için görüntülenir.

    Bir veri sınıfının güvenisi, veri sınıflarıyla eşleşen, boş olmayan değerlerin yüzdesidir.

    Birkaç veri sınıfı, bir sütun düzeyinde algılanan ve atanan daha soysal tanıtıcılardır. Bu veri sınıfları, bir değer düzeyinde daha belirli bir veri sınıfı belirlenemediğinde atanır. Soysal tanıtıcılar her zaman %100 güvene sahiptir ve şu veri sınıflarını içerir: Kod, tarih, tanıtıcı, gösterge, miktar ve metin.

  • Her bir kolona ilişkin eşleştirme, yanlış eşleştirme ya da eksik veri yüzdesi.

  • Bir sütunda tanımlanan tüm değerler için sıklık dağılımı.

  • Ayrı değerlerin sayısı, benzersiz değerlerin yüzdesi, alt sınır, üst sınır ya da ortalama gibi her bir kolona ilişkin veriler ve bazen o sütundaki standart sapma olabilir. distinct değerleri, sütuna ilişkin örnekli verilerde kaç farklı değerin var olduğunu gösterir. Benzersiz değer yüzdesi, sütunda yalnızca bir kez görüntülenen ayrı değerlerin yüzdesini gösterir.

    Bir sütunun veri biçimine bağlı olarak, istatistikler biraz değişik olabilir. Örneğin, veri tipi tamsayısının bir kolonuna ilişkin istatistiklerin sayısı alt sınırı, üst sınırı ve ortalama değerleri ve standart sapma değeri, veri tipi dizgisinin bir kolonuna ilişkin istatistiklerin uzunluk, uzunluk üst sınırı ve ortalama uzunluk değerleri anlamına gelir.

Kolon adını tıklattığınızda, kolon verileriyle ilgili daha ayrıntılı bilgi bulabilirsiniz. Bkz. Ayrıntılı profil oluşturma sonuçları.

Yapısal olmayan veriler

Yapılandırılmamış verileri içeren bir belge içeren bir veri varlığının profili, risk için belge içeriğinin bazı üst düzey değerlendirmelerine olanak veren bilgileri gösterir: atanan veri sınıfları, değer istatistikleri ve dil, dosya boyutu ya da sözcük sayısı gibi meta veriler.

Daha fazla bilgi

Üst konu: Varlık tipleri ve özellikleri