0 / 0
Belgelerin İngilizce sürümü ' ne geri dönün.
Varlıkların profilleri
Varlıkların profilleri

Varlıkların profilleri

Bir veri varlığının profili, oluşturulan meta verileri ve içeriğiyle ilgili istatistikleri içerir. Profilin, varlığın Profil sayfasındaki bir katalogdaki ya da bir projede görebilirsiniz. Tüm katalog ya da proje üyeleri veri varlığı profillerini görebilirler.

Bir veri varlığını görüntülediğinizde bir profili görmek için Watson Knowledge Catalog ' u (Knowledge Catalog) sahip olmanız gerekir.

Tanıtımın içeriği veri tipine bağlıdır:

Bir hesapta, bir projeden bir kataloğa bir varlık yayınlarken ya da bir katalogdan bir projeye eklediğinizde, profil oluşturma sonuçları veri varlığıyla birlikte kopyalanır. Ancak, katalog ve proje farklı hesaplara aitse, kullanılabilir veri sınıfları kümesi farklı olabileceğinden, yapılandırılmış veri varlıkları profilleri kopyalanmaz. Yapılandırılmış bir veri varlığını yönetilen bir katalogla yayınlayabilseniz, otomatik olarak yeni bir profil oluşturulur. Yapılandırılmış bir veri varlığını yönetilmeyen bir katalogla yayınladığınızda, el ile yeni bir profil oluşturmanız gerekir.

İlişkisel ve yapısal veriler

İlişkisel ya da yapılandırılmış veriler içeren bir veri varlığının profili, veri kümesindeki her bir sütuna ilişkin bilgileri gösterir. Bir projede ya da bir katalogda tek bir varlık tanıtımı oluşturulduğunda, profil varsayılan olarak ilk 5.000 satır veri satırına dayalı olarak oluşturulan bir profildir. Veri varlığında 250 'den fazla sütun varsa, profil, verilerin ilk 1.000 satırına dayalı olarak oluşturulur. Profil, meta veri zenginleştirme yoluyla oluşturulduysa, örnekleme meta veri zenginleştirme ayarlarıyla belirlenir. Profil oluşturma sırasında, sütunlar ve veri kalitesi çözümlenir.

Tanıtım, aşağıdaki bilgileri gösterir:

  • Veri varlığı için genel kalite puanı ve her bir sütun için ayrı bir kalite puanı. Veri varlığında tek tek sütunlar içinveri kalitesi puanları , kalite boyutlarıtemel alınarak hesaplanır. Tüm veri varlığı için genel kalite puanı, tüm sütunların puanlarının ortalamasıdır. Tire (-), veri kalitesi analizi olmadan meta veri zenginleştirme yoluyla oluşturulan profillerde gösterilir.

  • Her bir sütun için çıkarsanmış veri sınıfı ve o veri sınıfına duyulan güven. Veri sınıfları , sütundaki verilerin içeriğini açıklar: örneğin, şehir, hesap numarası ya da kredi kartı numarası. Veri sınıfları, veri koruma kurallarıyla verileri maskelemek ya da veri varlıklarına erişimi kısıtlamak için kullanılabilir. Veri sınıfları, varlığın Genel Bakış sayfasında ve Profil sayfasında her bir sütun için görüntülenir.

    Bir veri sınıfına ilişkin güven, veri sınıflarıyla eşleşen boş olmayan değerlerin yüzdesidir.

    Birkaç veri sınıfı, bir sütun düzeyinde algılanan ve atanan daha soysal tanıtıcılardır. Bu veri sınıfları, bir değer düzeyinde daha belirli bir veri sınıfı belirlenemediğinde atanır. Soysal tanıtıcılar her zaman %100 güvene sahiptir ve şu veri sınıflarını içerir: Kod, tarih, tanıtıcı, gösterge, miktar ve metin.

  • Eşleşmenin, eşleşmenin ya da eksik verilerin yüzdesi.

  • Bir sütunda tanımlanan tüm değerler için sıklık dağılımı.

  • Her bir sütunun en küçük, maksimum, ortalama değeri ve bu sütundaki benzersiz değer sayısı gibi verilerle ilgili istatistikler. Bir sütunun veri türüne bağlı olarak, her bir sütuna ilişkin istatistikler küçük farklılıklar gösterir. Örneğin, veri tipi tamsayısının bir kolonuna ilişkin istatistiklerin en az, en çok ve ortalama değerleri, veri tipi dizgisindeki bir kolona ilişkin istatistiklerin uzunluk, uzunluk üst sınırı ve ortalama uzunluk değerleri anlamına gelir. Benzersiz bir değer, sütunda yalnızca bir kez görünen bir değerdir.

Bu ilişkisel ve yapısal veri tipleri kolon temelinde tanıtımı sağlar:

  • Cloudant(Cloudant) dışında, veri kaynaklarına bir bağlantıdanilişkisel veri tabanlarından veri varlıkları .
  • Bölümlenmiş veri kümelerinden veri varlıkları, bölümlenmiş bir veri kümesinin birden çok dosyadan oluştuğunu ve yerel dosya sisteminden karşıya yüklenen tek bir klasör ya da dosya tabanlı bağlantılardan veri kaynaklarına kadar tek bir klasör tarafından gösterildiğini gösterir.
  • Yerel dosya sisteminden karşıya yüklenen dosyalardaki veri varlıkları ya da bu biçimlerle, dosya tabanlı bağlantılardan veri kaynaklarına erişim sağlar:

    • CSV
    • XLS, XLSM, XLSX (Bir çalışma defterinin yalnızca ilk sayfası tanıtımı oluşturulan bir dosyadır.)
    • TSV
    • Avro
    • Parke

    Ancak, veri varlıkları belirtik olarak gönderme yapmadığında, bu koşullarda yapılandırılmış veri dosyaları profilsiz olarak atanmaz:

    • Dosyalar bir klasör varlığı içinde. Bir klasör varlığından erişilebilen dosyalar, varlık olarak işlenmez ve profilsiz olarak işlenmez.
    • Dosyalar bir arşiv dosyası içinde. Arşiv dosyasına veri varlığı ve sıkıştırılmış dosyalar tanıtımı yapılmadan gönderme yapılır.

İlke uygulaması olan kataloglarda, veri varlıkları bir meta veri zenginleştirilmesinden yayınlanmadıkça, veri varlıkları kataloğa eklendiğinde, yapılandırılmış veri varlıkları için profiller otomatik olarak oluşturulur. Bu tür varlıklarda, varlıkla birlikte kataloğa eklenen bir profil zaten var. Ayrıca, kişisel kimlik bilgilerini kullanmak üzere yapılandırılan bir bağlantıdan gelen varlıklar otomatik olarak profillemez.

Veri koruma kuralı uygulaması olmayan projelerde ve kataloglarda, tek tek yapılandırılmış veri varlıkları için el ile profiller oluşturabilirsiniz .

Tek bir gider içinde büyük veri varlıkları kümelerinin tanıtımını oluşturmak için bir meta veri zenginleştirme varlığı yaratın ve çalıştırın. Bkz. Meta veri zenginleştirmeyi yönetme.

Yapısal olmayan veriler

Yapılandırılmamış verileri içeren bir belge içeren bir veri varlığının profili, risk için belge içeriğinin bazı üst düzey değerlendirmelerine olanak veren bilgileri gösterir: atanan veri sınıfları, değer istatistikleri ve dil, dosya boyutu ya da sözcük sayısı gibi meta veriler.

Yapılandırılmamış veri varlıkları oluşturmak için, düz metin belgeden çıkarılır ve çıkarılan metnin ilk 5 MB ' si çözümlenir. Tanıtım oluşturma sırasında, belirli bilgi tiplerini tanımlamak için çıkarılan belge içeriğine birkaç örüntü uygulanır. Bu tür bilgileri saptamak için, bilgilerin yapısı, yakındaki bağlam, çıkarılan içeriğin tamamı ve belgenin yazıldığı dil dikkate alınır. Daha sonra, sonuçlar önceden tanımlı veri sınıflarıile eşlenir. Örneğin, banka hesap numaraları saptanırsa, belgeye IBAN veri sınıfı atanır. Ya da belge şehir adları içeriyorsa, veri sınıfı şehri atanır.

Ancak, yapısal olmayan verilere uygulanan herhangi bir algılama mantığının %100 doğru olması beklenemez ve bu da hatalı sınıflandırmalarla sonuçlanabilir.

Atanan veri sınıfları, ilkeleri olan yapısal olmayan veri varlıklarındaki verileri engellemek ya da verileri gizlemek için kullanılamaz.

Boyutu 100 MB ' ye kadar olan belgeler profille profilleyebilirsiniz. Daha büyük belgeler profilsiz olarak açılmaz.

Bu belge tipleri için tanıtım tanıtımı yapabilirsiniz:

  • Bu MIME tipleriyle birlikte Microsoft Word belgeleri:
    • uygulama/mkılıç
    • application/vnd.openxmlformats-officedocument.wordprocessingml.document
  • mime type application/pdf ile PDF belgeleri
  • MIME tipi text/plain olan düz metin belgeleri
  • MIME tipi text/html içeren HTML belgeleri

Yapılandırılmamış veri varlıklarına ilişkin profiller her zaman otomatik olarak oluşturulur. Ancak, veri varlıklarının doğrudan projeye ya da kataloğa yüklenmeleri gerekir. Bağlı varlıklar olarak eklenen yapılandırılmamış belgeler profilsiz olarak eklenmez.

Ek bilgi

Üst konu: Kataloğun bir katalogdaki bulunması ve görüntülenmesi